Chọn loại kho dữ liệu trong Microsoft Fabric

Sử dụng hướng dẫn tham khảo này và các kịch bản ví dụ để giúp bạn chọn một kho dữ liệu cho công việc trên Microsoft Fabric của mình.

Thuộc tính data warehouse và lakehouse

Data warehouseLakehousePower BI DatamartKQL Database
Data volumeUnlimitedUnlimitedUp to 100 GBUnlimited
Type of dataStructuredUnstructured,semi-structured, structuredStructuredUnstructured,semi-structured,structured
Primary developer personaData warehouse developer, SQL engineerUnstructured,semi-structured, structuredCitizen developerCitizen Data scientist, Data engineer, Data scientist, SQL engineer
Primary developer skill setSQLSpark(Scala, PySpark, Spark SQL, R)No code, SQLNo code, KQL, SQL
Data organized byDatabases, schemas, and tablesFolders and files, databases, and tablesDatabase, tables, queriesDatabases, schemas, and tables
Read operationsSpark, T-SQL, Power BISpark, T-SQLSpark, T-SQLSpark,T-SQL, Power BI
Write operationsT-SQLSpark(Scala, PySpark, Spark SQL, R)Dataflows, T-SQLKQL, Spark, connector ecosystem
Multi-table transactionsYesNoNoYes, for multi-table ingestion.
Primary development interfaceSQL scriptsSpark notebooks,Spark job definitionsPower BIKQL Queryset, KQL Database
SecurityObject level (table, view, function, stored procedure, etc.), column level, row level, DDL/DML, dynamic data maskingRow level, table level (when using T-SQL), none for SparkBuilt-in RLS editorRow-level Security
Access data via shortcutsYes Yes NoYes 
Can be a source for shortcutsYes (tables)Yes (files and tables)NoYes 
Query across itemsYes, query across lakehouse and warehouse tablesYes, query across lakehouse and warehouse tables;query across lakehouses (including shortcuts using Spark)NoYes, query across KQL Databases, lakehouses, and warehouses with shortcuts
Advanced analyticsTime Series native elements, Full geospatial storing and query capabilities
Advanced formatting supportFull indexing for free text and semi-structured data like JSON
Ingestion latencyQueued ingestion, Streaming ingestion has a couple of seconds latency

Các trường hợp

Xem xét những tình huống này để lựa chọn kho dữ liệu phù hợp trong Fabric.

Trường hợp 1

Susan, một nhà phát triển chuyên nghiệp, mới tham gia vào Microsoft Fabric. Họ đã sẵn sàng bắt đầu làm sạch, mô hình hóa và phân tích dữ liệu nhưng cần quyết định liệu có nên xây dựng data warehouse hay một lakehouse. Sau khi xem xét chi tiết trong bảng trước, các điểm quyết định chính là kỹ năng có sẵn và nhu cầu về giao dịch đa bảng.

Susan đã dành nhiều năm xây dựng kho dữ liệu trên các hệ động cơ cơ sở dữ liệu quan hệ, và quen thuộc với cú pháp và chức năng SQL. Nghĩ về đội ngũ của mình, những người làm việc với dữ liệu này cũng có kỹ năng với SQL và các công cụ phân tích SQL. Susan quyết định sử dụng data warehouse, cho phép đội làm việc chủ yếu với T-SQL, đồng thời cũng cho phép bất kỳ người dùng Spark nào trong tổ chức truy cập dữ liệu.

Trường hợp 2

Rob, một kỹ sư dữ liệu, cần lưu trữ và mô hình hóa một số terabyte dữ liệu trong Fabric. Đội có một sự kết hợp của kỹ năng PySpark và T-SQL. Hầu hết đội chạy các truy vấn T-SQL do đó không cần phải viết các câu lệnh INSERT, UPDATE hoặc DELETE. Các nhà phát triển còn lại thoải mái làm việc trong các notebooks, và vì dữ liệu được lưu trữ trong Delta, họ có thể tương tác với cú pháp SQL tương tự.

Rob quyết định sử dụng một lakehouse, cho phép đội kỹ thuật dữ liệu sử dụng kỹ năng đa dạng của họ với dữ liệu, trong khi cho phép các thành viên đội có kỹ năng cao với T-SQL làm việc với dữ liệu.

Trường hợp 3

Ash là một người làm việc với Power BI. Họ quen thuộc với Excel, Power BI và Office. Họ cần xây dựng một sản phẩm dữ liệu cho một đơn vị kinh doanh. Họ biết rằng họ không có đủ kỹ năng để xây dựng một data warehouse hoặc một lakehouse, và những thứ đó dường như quá nhiều cho nhu cầu và dung lượng dữ liệu của họ. Họ xem xét chi tiết trong bảng trước và thấy rằng các điểm quyết định chính là kỹ năng của họ và nhu cầu về khả năng tự phục vụ, không cần mã và dung lượng dữ liệu dưới 100 GB.

Ash làm việc với các nhà phân tích kinh doanh quen thuộc với Power BI và Microsoft Office, và biết rằng họ đã có một đăng ký Premium capacity. Khi họ nghĩ về đội ngũ, họ nhận ra rằng người làm việc chính của dữ liệu này có thể là các nhà phân tích, quen thuộc với công cụ no-code và phân tích SQL. Ash quyết định sử dụng một Power BI datamart, cho phép đội tương tác và xây dựng khả năng nhanh chóng, sử dụng trải nghiệm no-code. Các truy vấn có thể được thực hiện qua Power BI và T-SQL, đồng thời cũng cho phép bất kỳ người dùng Spark nào trong tổ chức truy cập dữ liệu.

Trường hợp 4

Daisy là một nhà phân tích kinh doanh có kinh nghiệm sử dụng Power BI để phân tích các rào cản trong chuỗi cung ứng cho một chuỗi bán lẻ toàn cầu lớn. Họ cần xây dựng một giải pháp dữ liệu có thể mở rộng được có thể xử lý hàng tỷ hàng dữ liệu và có thể được sử dụng để xây dựng bảng điều khiển và báo cáo để đưa ra quyết định kinh doanh. Dữ liệu xuất phát từ các nhà máy, nhà cung cấp, người vận chuyển và các nguồn khác trong các định dạng có cấu trúc, bán cấu trúc và không cấu trúc khác nhau.

Daisy quyết định sử dụng một KQL Database vì tính mở rộng của nó, thời gian phản hồi nhanh, khả năng phân tích tiến tiến bao gồm phân tích chuỗi thời gian, chức năng địa lý, và chế độ truy vấn trực tiếp nhanh chóng trong Power BI. Các truy vấn có thể được thực hiện bằng cách sử dụng Power BI và KQL để so sánh giữa các giai đoạn hiện tại và trước đó, nhanh chóng xác định vấn đề mới nổi, hoặc cung cấp phân tích địa lý về các tuyến đường đất và biển.

Tổng kết

Trong quá trình lựa chọn loại kho dữ liệu cho Microsoft Fabric, các tình huống và quyết định được mô tả ở trên đều làm nổi bật sự đa dạng và linh hoạt của các lựa chọn có sẵn. Tùy thuộc vào nhu cầu cụ thể và kỹ năng của đội ngũ làm việc, mỗi trường hợp đã chọn một loại kho dữ liệu phù hợp.

  • Susan, với kinh nghiệm xây dựng kho dữ liệu trên các hệ thống cơ sở dữ liệu quan hệ, quyết định sử dụng data warehouse cho phù hợp với kỹ năng của đội và nhu cầu về giao dịch đa bảng.
  • Rob, trong tình huống sử dụng PySpark và T-SQL, chọn lakehouse để tận dụng kỹ năng đa dạng và linh hoạt của đội kỹ thuật dữ liệu.
  • Ash, không có kỹ năng xây dựng kho dữ liệu phức tạp, lựa chọn Power BI datamart để tận dụng tính tự phục vụ và trải nghiệm no-code, đồng thời kết hợp các công cụ như Power BI và T-SQL.
  • Daisy, một nhà phân tích kinh doanh sử dụng Power BI, quyết định sử dụng KQL Database với tính mở rộng và khả năng phân tích tiên tiến, đáp ứng nhu cầu xử lý lượng lớn dữ liệu từ các nguồn đa dạng.

Những quyết định này thể hiện sự linh hoạt của Microsoft Fabric trong việc hỗ trợ nhiều loại kho dữ liệu phục vụ cho đội ngũ và yêu cầu công việc khác nhau, tạo ra một môi trường linh hoạt và mạnh mẽ cho việc quản lý và phân tích dữ liệu.

Nguồn: https://learn.microsoft.com/en-us/fabric/get-started/decision-guide-data-store

spot_img

More from this stream

Recomended

Cập Nhật Google Analytics Quý 2/2024

Bài viết này cung cấp thông tin về các bản phát hành mới nhất trong Google Analytics trong quý 2 năm 2024.

[GA4] – Hiểu rõ về nguồn dữ liệu

Một nguồn dữ liệu là một nơi chứa dữ liệu bạn tải lên Analytics, bao gồm cơ sở dữ liệu, dịch vụ, hoặc tệp CSV bạn tải lên và một ánh xạ của các trường dữ liệu Analytics với các trường trong cơ sở dữ liệu, dịch vụ hoặc CSV bên ngoài của bạn.

Segment là gì?

Segment là một traditional Customer Data Platform (CDP) chuyên về việc thu thập sự kiện và kích hoạt dữ liệu.

Composable CDP là gì?

Composable CDP là một lớp kích hoạt cho phép bạn tạo ra đối tượng khán giả, điều phối hành trình, và gửi dữ liệu hiện tại của bạn đến các công cụ tiếp thị hàng đầu của bạn.

Traditional CDP và Composable CDP

Việc áp dụng rộng rãi của hệ thống lưu trữ dữ liệu đám mây đã cách mạng hóa không gian Customer Data Platform (CDP), dẫn đến sự xuất hiện của một kiến trúc CDP mạnh mẽ hơn, nguyên gốc từ hệ thống lưu trữ dữ liệu đám mây được biết đến là Composable CDP.

Customer Data Platform (CDP) là gì?

Một Customer Data Platform, hay CDP, là một giải pháp hoặc kiến trúc cho phép bạn thu thập, lưu trữ, mô hình hóa và kích hoạt dữ liệu khách hàng của bạn.