Data warehousing trong Microsoft Fabric

Microsoft Fabric cung cấp cho khách hàng một sản phẩm thống nhất giải quyết mọi khía cạnh của hệ thống dữ liệu của họ bằng cách cung cấp một nền tảng SaaS hoàn chỉnh cho dữ liệu, phân tíchtrí tuệ nhân tạo, được tập trung vào hồ và mở rộng. Nền tảng của Microsoft Fabric cho phép người dùng từ người mới bắt đầu đến chuyên gia có kinh nghiệm tận dụng Workload Database, Analytics, Messaging, Data Integration và Business Intelligence thông qua một trải nghiệm SaaS chia sẻ, dễ sử dụng với Microsoft OneLake là trung tâm.

Kho dữ liệu thân thiện với người dùng mọi cấp độ

Microsoft Fabric giới thiệu một kho dữ liệu lấy lake làm trung tâm được xây dựng trên nền tảng xử lý phân tán cấp doanh nghiệp, mang lại hiệu suất hàng đầu trong ngành với khả năng mở rộng mà không cần cấu hình và quản lý. Thông qua trải nghiệm SaaS dễ sử dụng được tích hợp chặt chẽ với Power BI để phân tích và báo cáo dễ dàng, Warehouse trong Microsoft Fabric hội tụ thế giới của data lake và data warehouse với mục tiêu đơn giản hóa đáng kể việc đầu tư vào phân tích dữ liệu của tổ chức.

Các khối lượng công việc kho dữ liệu hưởng lợi từ các chức năng phong phú của công cụ SQL trên định dạng dữ liệu mở, cho phép khách hàng tập trung vào việc chuẩn bị dữ liệu, phân tích và báo cáo trên một bản sao duy nhất của dữ liệu được lưu trữ trong Microsoft OneLake.

Warehouse được xây dựng cho mọi trình độ kỹ năng – từ nhà phát triển nghiệp dư đến nhà phát triển chuyên nghiệp, DBA hoặc kỹ sư dữ liệu. Bộ trải nghiệm phong phú được tích hợp sẵn trong không gian làm việc Microsoft Fabric cho phép khách hàng giảm thời gian thu thập insights bằng cách có một mô hình ngữ nghĩa dễ sử dụng, luôn được kết nối và tích hợp với Power BI ở chế độ DirectLake. Điều này cho phép hiệu suất hàng đầu trong ngành, đảm bảo báo cáo của khách hàng luôn có dữ liệu mới nhất để phân tích và báo cáo. Kiến trúc này cho phép tận dụng nhanh chóng và liền mạch nhiều nguồn dữ liệu trên nhiều cơ sở dữ liệu để có insights nhanh chóng và không trùng lặp dữ liệu.

Kho dữ liệu ảo với truy vấn đa cơ sở dữ liệu trong Microsoft Fabric

Microsoft Fabric cung cấp cho khách hàng khả năng thiết lập các kho dữ liệu ảo chứa dữ liệu từ hầu như bất kỳ nguồn nào bằng cách sử dụng phím tắt. Khách hàng có thể xây dựng một kho dữ liệu ảo bằng cách tạo phím tắt đến dữ liệu của họ bất kể nơi lưu trữ. Một kho dữ liệu ảo có thể bao gồm dữ liệu từ OneLake, Azure Data Lake Storage hoặc bất kỳ bộ nhớ nào khác của nhà cung cấp đám mây nào khác trong một ranh giới duy nhất và không trùng lặp dữ liệu.

Giải phóng giá trị dữ liệu từ nhiều nguồn khác nhau một cách liền mạch thông qua tính năng truy vấn đa cơ sở dữ liệu phong phú trong Microsoft Fabric. Truy vấn đa cơ sở dữ liệu cho phép khách hàng nhanh chóng và liền mạch tận dụng nhiều nguồn dữ liệu khác nhau để có được insights nhanh chóng và không trùng lặp dữ liệu. Dữ liệu được lưu trữ ở các nguồn khác nhau có thể dễ dàng được kết hợp lại với nhau, cho phép khách hàng cung cấp những insights phong phú mà trước đây đòi hỏi nhiều nỗ lực từ các nhóm tích hợp dữ liệu và kỹ thuật.

Truy vấn đa cơ sở dữ liệu có thể được tạo thông qua trình chỉnh sửa Visual Query, cung cấp một cách tiếp cận không cần code để có insights trên nhiều bảng. Trình chỉnh sửa SQL Query hoặc các công cụ quen thuộc khác như SQL Server Management Studio (SSMS) cũng có thể được sử dụng để tạo truy vấn đa cơ sở dữ liệu.

Quản lý khối lượng công việc tự động trong Microsoft Fabric

Kho dữ liệu trong Microsoft Fabric tận dụng một công cụ xử lý truy vấn phân tán hàng đầu trong ngành, cung cấp cho khách hàng các khối lượng công việc có ranh giới phân tách tự nhiên. Không cần điều chỉnh phức tạp với việc phân bổ và giải phóng tài nguyên tự động để mang lại hiệu suất tốt nhất với khả năng tự động mở rộng và đồng thời được tích hợp sẵn. Sự cô lập thực sự đạt được bằng cách phân tách các khối lượng công việc có đặc điểm khác nhau, đảm bảo rằng các tác vụ ETL không bao giờ ảnh hưởng đến khối lượng công việc phân tích và báo cáo ad hoc của họ.

Định dạng mở cho khả năng tương tác liền mạch giữa các công cụ

Dữ liệu trong Warehouse được lưu trữ ở định dạng tệp parquet và được xuất bản dưới dạng Nhật ký Delta Lake, cho phép các giao dịch ACID và khả năng tương tác giữa các công cụ có thể được tận dụng thông qua các trải nghiệm Microsoft Fabric khác như Spark, Pipelines, Power BI và Azure Data Explorer. Khách hàng không còn cần phải tạo nhiều bản sao dữ liệu của mình để cho phép các chuyên gia dữ liệu có bộ kỹ năng khác nhau. Các kỹ sư dữ liệu quen làm việc trong Python có thể dễ dàng tận dụng cùng dữ liệu được mô hình hóa và phục vụ bởi một chuyên gia kho dữ liệu quen làm việc trong SQL. Đồng thời, các chuyên gia BI có thể nhanh chóng và dễ dàng tận dụng cùng một dữ liệu để tạo ra một bộ visualization phong phú trong Power BI với hiệu suất kỷ lục và không trùng lặp dữ liệu.

Tách biệt lưu trữ và tính toán

Tính toán và lưu trữ được tách rời trong một Warehouse, cho phép khách hàng có thể mở rộng gần như tức thời để đáp ứng nhu cầu của doanh nghiệp. Điều này cho phép nhiều công cụ tính toán đọc từ bất kỳ nguồn lưu trữ được hỗ trợ nào với bảo mật mạnh mẽ và đảm bảo giao dịch ACID đầy đủ.

Dễ dàng nhập, tải và chuyển đổi ở quy mô lớn

Dữ liệu có thể được nhập vào Warehouse thông qua Pipelines, Dataflows, truy vấn đa cơ sở dữ liệu hoặc lệnh COPY INTO. Sau khi được nhập, dữ liệu có thể được phân tích bởi nhiều nhóm kinh doanh thông qua chức năng như chia sẻ và truy vấn đa cơ sở dữ liệu. Thời gian để có insights được đẩy nhanh thông qua trải nghiệm BI hoàn toàn tích hợp thông qua mô hình hóa dữ liệu đồ họa, trải nghiệm web dễ sử dụng để truy vấn trong Trình chỉnh sửa Warehouse.

So sánh các khả năng kho dữ liệu khác nhau trong Microsoft Fabric

Để phục vụ tốt nhất các trường hợp sử dụng phân tích của bạn, Microsoft Fabric cung cấp nhiều khả năng khác nhau. Nói chung, kho dữ liệu (“Warehouse”) có thể được coi là một tập hợp con của tất cả các khả năng khác, cung cấp một mối quan hệ cộng hưởng giữa tất cả các dịch vụ phân tích khác hỗ trợ T-SQL.

Trong Fabric, có những người dùng có thể cần quyết định giữa Kho dữ liệu (“Warehouse”), Lakehouse và thậm chí cả Power BI datamart. Dưới đây là bảng so sánh các khả năng chính của từng tùy chọn:

Tính năngKho dữ liệuLakehousePower BI datamart
Kiểu lưu trữDữ liệu được lưu trữ ở định dạng tệp parquet và được xuất bản dưới dạng Nhật ký Delta LakeDung lượng lưu trữ dữ liệu lớn, có thể truy cập được.Mô hình dữ liệu nhỏ hơn được xây dựng cho phân tích BI
Truy vấnTruy vấn SQLTruy vấn SparkTruy vấn DAX
Hiệu suấtHiệu suất caoHiệu suất tốtHiệu suất tốt cho các truy vấn nhỏ, nhưng có thể chậm hơn cho các truy vấn lớn
Khả năng mở rộngKhả năng mở rộng caoKhả năng mở rộng caoKhả năng mở rộng hạn chế
Bảo mậtBảo mật caoBảo mật caoBảo mật cao
Tích hợp với các sản phẩm Microsoft khácTích hợp với Power BI, Azure Data Factory và các sản phẩm Microsoft khácTích hợp với Spark, Pipelines, Power BI và Azure Data ExplorerTích hợp chặt chẽ với Power BI
Dễ sử dụngDễ sử dụngDễ sử dụng cho các nhà phân tích dữ liệu có kinh nghiệmDễ sử dụng cho các nhà phân tích kinh doanh
Giá thànhGiá thành caoGiá thành thấpGiá thành thấp

Các trường hợp sử dụng được đề xuất cho các tính năng phân tích dữ liệu trong Microsoft Fabric:

Kho dữ liệu:

  • Phân tích dữ liệu doanh nghiệp: Khi cần hiệu suất cao nhất, khả năng mở rộng và tính bảo mật. Ví dụ: phân tích dữ liệu tài chính, dữ liệu khách hàng, dữ liệu vận hành.
  • Hỗ trợ phân tích dữ liệu cho phòng ban, đơn vị kinh doanh hoặc tự phục vụ: Khi cần một giải pháp mạnh mẽ và linh hoạt cho các nhóm khác nhau trong tổ chức. Ví dụ: phân tích dữ liệu bán hàng, dữ liệu marketing, dữ liệu nhân sự.
  • Phân tích dữ liệu có cấu trúc trong T-SQL: Khi cần sử dụng các bảng, view, thủ tục, hàm và các tính năng SQL nâng cao khác cho BI. Ví dụ: phân tích dữ liệu chi tiết, phân tích xu hướng, phân tích dự đoán.

Lakehouse – SQL Analytics Endpoint:

  • Phân tích dữ liệu SQL với hỗ trợ T-SQL hạn chế: Khi cần sự linh hoạt của Lakehouse nhưng vẫn muốn tận dụng các tính năng của SQL. Ví dụ: phân tích dữ liệu thô, khám phá dữ liệu, chuẩn bị dữ liệu.
  • Trải nghiệm UI để lập mô hình và truy vấn: Khi cần một giao diện thân thiện với người dùng để xây dựng mô hình dữ liệu và thực hiện truy vấn. Ví dụ: các nhà phân tích dữ liệu, các nhà khoa học dữ liệu.
  • Hỗ trợ T-SQL hạn chế cho các công cụ của bên thứ nhất và thứ ba: Khi cần sử dụng các công cụ bên ngoài Fabric để phân tích dữ liệu.

Power BI Datamart:

  • Phân tích dữ liệu cho phòng ban hoặc đơn vị kinh doanh nhỏ: Khi cần một giải pháp nhỏ gọn và dễ sử dụng cho các nhóm nhỏ. Ví dụ: phân tích dữ liệu bán hàng, dữ liệu marketing, dữ liệu tài chính.
  • Tự phục vụ phân tích dữ liệu: Khi cần một giải pháp cho phép người dùng kinh doanh tự phân tích dữ liệu của họ. Ví dụ: báo cáo doanh số, báo cáo marketing, báo cáo tài chính.
  • Landing zone cho Power BI Dataflows và hỗ trợ SQL đơn giản cho BI: Khi cần một nơi để lưu trữ dữ liệu và thực hiện các truy vấn SQL đơn giản. Ví dụ: kết hợp dữ liệu từ nhiều nguồn khác nhau, chuẩn bị dữ liệu cho Power BI.

Nguồn: https://learn.microsoft.com/en-us/fabric/data-warehouse/data-warehousing

spot_img

More from this stream

Recomended

Cập Nhật Google Analytics Quý 2/2024

Bài viết này cung cấp thông tin về các bản phát hành mới nhất trong Google Analytics trong quý 2 năm 2024.

[GA4] – Hiểu rõ về nguồn dữ liệu

Một nguồn dữ liệu là một nơi chứa dữ liệu bạn tải lên Analytics, bao gồm cơ sở dữ liệu, dịch vụ, hoặc tệp CSV bạn tải lên và một ánh xạ của các trường dữ liệu Analytics với các trường trong cơ sở dữ liệu, dịch vụ hoặc CSV bên ngoài của bạn.

Segment là gì?

Segment là một traditional Customer Data Platform (CDP) chuyên về việc thu thập sự kiện và kích hoạt dữ liệu.

Composable CDP là gì?

Composable CDP là một lớp kích hoạt cho phép bạn tạo ra đối tượng khán giả, điều phối hành trình, và gửi dữ liệu hiện tại của bạn đến các công cụ tiếp thị hàng đầu của bạn.

Traditional CDP và Composable CDP

Việc áp dụng rộng rãi của hệ thống lưu trữ dữ liệu đám mây đã cách mạng hóa không gian Customer Data Platform (CDP), dẫn đến sự xuất hiện của một kiến trúc CDP mạnh mẽ hơn, nguyên gốc từ hệ thống lưu trữ dữ liệu đám mây được biết đến là Composable CDP.

Customer Data Platform (CDP) là gì?

Một Customer Data Platform, hay CDP, là một giải pháp hoặc kiến trúc cho phép bạn thu thập, lưu trữ, mô hình hóa và kích hoạt dữ liệu khách hàng của bạn.