Data Science – Liên kết ngữ nghĩa (semantic link) là gì?

Liên kết ngữ nghĩa là một tính năng cho phép bạn thiết lập kết nối giữa semantic models và Synapse Data Science trong Microsoft Fabric. Việc sử dụng liên kết ngữ nghĩa chỉ được hỗ trợ trong Microsoft Fabric.

Các mục tiêu chính của liên kết ngữ nghĩa là hỗ trợ kết nối dữ liệu, cho phép truyền thông tin ngữ nghĩa và tích hợp mượt mà với các công cụ đã được thiết lập sử dụng bởi các nhà khoa học dữ liệu, như notebooks. Liên kết ngữ nghĩa giúp bạn bảo tồn kiến thức ngành về ngữ nghĩa dữ liệu theo một cách chuẩn hóa có thể tăng tốc quá trình phân tích dữ liệu và giảm thiểu lỗi.

Quá trình dòng dữ liệu bắt đầu với các mô hình ngữ nghĩa chứa dữ liệu và thông tin ngữ nghĩa. Liên kết ngữ nghĩa nối cầu giữa Power BI và Data Science experience.

A diagram that shows data flow from Power BI to notebooks in Synapse Data Science and back to Power BI.

Với liên kết ngữ nghĩa, bạn có thể sử dụng các mô hình ngữ nghĩa từ Power BI trong trải nghiệm Khoa học dữ liệu để thực hiện các tác vụ như phân tích thống kê chuyên sâu và lập mô hình dự đoán bằng kỹ thuật học máy. Đầu ra của công việc khoa học dữ liệu của bạn có thể được lưu trữ trong OneLake bằng cách sử dụng Apache Spark và đưa vào Power BI bằng Direct Lake.

Kết nối Power BI

Các mô hình ngữ nghĩa đóng vai trò là mô hình đối tượng dạng bảng duy nhất, cung cấp nguồn tin cậy cho các định nghĩa ngữ nghĩa, như các đại lượng Power BI. Để kết nối với các mô hình ngữ nghĩa:

  • Semantic link cung cấp kết nối dữ liệu tới hệ sinh thái Python pandas thông qua thư viện SemPy Python library, giúp cho việc làm việc với dữ liệu trở nên dễ dàng đối với các nhà khoa học dữ liệu.
  • Semantic link cung cấp quyền truy cập đến các mô hình ngữ nghĩa thông qua Spark native connector cho các nhà khoa học dữ liệu quen thuộc với hệ sinh thái Apache Spark. Hiện thực này hỗ trợ nhiều ngôn ngữ bao gồm PySpark, Spark SQL, R và Scala.

Ứng dụng của thông tin ngữ nghĩa

Thông tin ngữ nghĩa trong dữ liệu, bao gồm data categories của Power BI như địa chỉ, mã bưu điện, mối quan hệ giữa các bảng và thông tin phân cấp, đóng một vai trò quan trọng trong việc tăng cường hiểu biết và sử dụng dữ liệu. Liên kết ngữ nghĩa truyền thông tin metadata này vào môi trường Khoa học Dữ liệu, tạo ra những trải nghiệm mới và duy trì dòng dữ liệu. Dưới đây là một số ứng dụng mẫu của liên kết ngữ nghĩa:

  • Gợi ý thông minh từ các semantic functions tích hợp sẵn.
  • Tích hợp đổi mới để mở rộng dữ liệu với các biện pháp Power BI thông qua việc add-measures.
  • Công cụ cho data quality validation dựa trên mối quan hệ giữa các bảng và phụ thuộc chức năng trong các bảng.

Liên kết ngữ nghĩa đóng vai trò là một công cụ mạnh mẽ cho các nhà phân tích kinh doanh để sử dụng dữ liệu một cách hiệu quả trong môi trường Khoa học Dữ liệu toàn diện. Nó thúc đẩy sự hợp tác mượt mà giữa nhà khoa học dữ liệu và nhà phân tích kinh doanh bằng cách tránh việc phải triển khai lại logic kinh doanh được nhúng trong các Power BI measures. Phương pháp hợp tác này nâng cao hiệu quả và năng suất, tối đa hóa tiềm năng của các thông tin dựa trên dữ liệu.

FabricDataFrame data structure

FabricDataFrame là cấu trúc dữ liệu cốt lõi của liên kết ngữ nghĩa. Nó là lớp con của pandas DataFrame và thêm vào đó các siêu dữ liệu, như thông tin ngữ nghĩa và dòng dữ liệu. FabricDataFrame là cấu trúc dữ liệu chính mà liên kết ngữ nghĩa sử dụng để truyền thông tin ngữ nghĩa từ các mô hình ngữ nghĩa vào môi trường Khoa học Dữ liệu.

A diagram that shows data flow from connectors to semantic models to FabricDataFrame to Semantic Functions.

Fabric DataFrame hỗ trợ tất cả các thao tác của pandas và nhiều thao tác khác nữa. Nó cung cấp các hàm ngữ nghĩa và phương thức add-measure mà cho phép bạn sử dụng các đại lượng Power BI trong công việc khoa học dữ liệu của mình.

Nguồn: https://learn.microsoft.com/en-us/fabric/data-science/semantic-link-overview

spot_img

More from this stream

Recomended

Cập Nhật Google Analytics Quý 2/2024

Bài viết này cung cấp thông tin về các bản phát hành mới nhất trong Google Analytics trong quý 2 năm 2024.

[GA4] – Hiểu rõ về nguồn dữ liệu

Một nguồn dữ liệu là một nơi chứa dữ liệu bạn tải lên Analytics, bao gồm cơ sở dữ liệu, dịch vụ, hoặc tệp CSV bạn tải lên và một ánh xạ của các trường dữ liệu Analytics với các trường trong cơ sở dữ liệu, dịch vụ hoặc CSV bên ngoài của bạn.

Segment là gì?

Segment là một traditional Customer Data Platform (CDP) chuyên về việc thu thập sự kiện và kích hoạt dữ liệu.

Composable CDP là gì?

Composable CDP là một lớp kích hoạt cho phép bạn tạo ra đối tượng khán giả, điều phối hành trình, và gửi dữ liệu hiện tại của bạn đến các công cụ tiếp thị hàng đầu của bạn.

Traditional CDP và Composable CDP

Việc áp dụng rộng rãi của hệ thống lưu trữ dữ liệu đám mây đã cách mạng hóa không gian Customer Data Platform (CDP), dẫn đến sự xuất hiện của một kiến trúc CDP mạnh mẽ hơn, nguyên gốc từ hệ thống lưu trữ dữ liệu đám mây được biết đến là Composable CDP.

Customer Data Platform (CDP) là gì?

Một Customer Data Platform, hay CDP, là một giải pháp hoặc kiến trúc cho phép bạn thu thập, lưu trữ, mô hình hóa và kích hoạt dữ liệu khách hàng của bạn.