Sử dụng hướng dẫn tham khảo này và các kịch bản ví dụ để giúp bạn chọn một kho dữ liệu cho công việc trên Microsoft Fabric của mình.
Thuộc tính data warehouse và lakehouse
Data warehouse | Lakehouse | Power BI Datamart | KQL Database | |
Data volume | Unlimited | Unlimited | Up to 100 GB | Unlimited |
Type of data | Structured | Unstructured,semi-structured, structured | Structured | Unstructured,semi-structured,structured |
Primary developer persona | Data warehouse developer, SQL engineer | Unstructured,semi-structured, structured | Citizen developer | Citizen Data scientist, Data engineer, Data scientist, SQL engineer |
Primary developer skill set | SQL | Spark(Scala, PySpark, Spark SQL, R) | No code, SQL | No code, KQL, SQL |
Data organized by | Databases, schemas, and tables | Folders and files, databases, and tables | Database, tables, queries | Databases, schemas, and tables |
Read operations | Spark, T-SQL, Power BI | Spark, T-SQL | Spark, T-SQL | Spark,T-SQL, Power BI |
Write operations | T-SQL | Spark(Scala, PySpark, Spark SQL, R) | Dataflows, T-SQL | KQL, Spark, connector ecosystem |
Multi-table transactions | Yes | No | No | Yes, for multi-table ingestion. |
Primary development interface | SQL scripts | Spark notebooks,Spark job definitions | Power BI | KQL Queryset, KQL Database |
Security | Object level (table, view, function, stored procedure, etc.), column level, row level, DDL/DML, dynamic data masking | Row level, table level (when using T-SQL), none for Spark | Built-in RLS editor | Row-level Security |
Access data via shortcuts | Yes | Yes | No | Yes |
Can be a source for shortcuts | Yes (tables) | Yes (files and tables) | No | Yes |
Query across items | Yes, query across lakehouse and warehouse tables | Yes, query across lakehouse and warehouse tables;query across lakehouses (including shortcuts using Spark) | No | Yes, query across KQL Databases, lakehouses, and warehouses with shortcuts |
Advanced analytics | Time Series native elements, Full geospatial storing and query capabilities | |||
Advanced formatting support | Full indexing for free text and semi-structured data like JSON | |||
Ingestion latency | Queued ingestion, Streaming ingestion has a couple of seconds latency |
Các trường hợp
Xem xét những tình huống này để lựa chọn kho dữ liệu phù hợp trong Fabric.
Trường hợp 1
Susan, một nhà phát triển chuyên nghiệp, mới tham gia vào Microsoft Fabric. Họ đã sẵn sàng bắt đầu làm sạch, mô hình hóa và phân tích dữ liệu nhưng cần quyết định liệu có nên xây dựng data warehouse hay một lakehouse. Sau khi xem xét chi tiết trong bảng trước, các điểm quyết định chính là kỹ năng có sẵn và nhu cầu về giao dịch đa bảng.
Susan đã dành nhiều năm xây dựng kho dữ liệu trên các hệ động cơ cơ sở dữ liệu quan hệ, và quen thuộc với cú pháp và chức năng SQL. Nghĩ về đội ngũ của mình, những người làm việc với dữ liệu này cũng có kỹ năng với SQL và các công cụ phân tích SQL. Susan quyết định sử dụng data warehouse, cho phép đội làm việc chủ yếu với T-SQL, đồng thời cũng cho phép bất kỳ người dùng Spark nào trong tổ chức truy cập dữ liệu.
Trường hợp 2
Rob, một kỹ sư dữ liệu, cần lưu trữ và mô hình hóa một số terabyte dữ liệu trong Fabric. Đội có một sự kết hợp của kỹ năng PySpark và T-SQL. Hầu hết đội chạy các truy vấn T-SQL do đó không cần phải viết các câu lệnh INSERT, UPDATE hoặc DELETE. Các nhà phát triển còn lại thoải mái làm việc trong các notebooks, và vì dữ liệu được lưu trữ trong Delta, họ có thể tương tác với cú pháp SQL tương tự.
Rob quyết định sử dụng một lakehouse, cho phép đội kỹ thuật dữ liệu sử dụng kỹ năng đa dạng của họ với dữ liệu, trong khi cho phép các thành viên đội có kỹ năng cao với T-SQL làm việc với dữ liệu.
Trường hợp 3
Ash là một người làm việc với Power BI. Họ quen thuộc với Excel, Power BI và Office. Họ cần xây dựng một sản phẩm dữ liệu cho một đơn vị kinh doanh. Họ biết rằng họ không có đủ kỹ năng để xây dựng một data warehouse hoặc một lakehouse, và những thứ đó dường như quá nhiều cho nhu cầu và dung lượng dữ liệu của họ. Họ xem xét chi tiết trong bảng trước và thấy rằng các điểm quyết định chính là kỹ năng của họ và nhu cầu về khả năng tự phục vụ, không cần mã và dung lượng dữ liệu dưới 100 GB.
Ash làm việc với các nhà phân tích kinh doanh quen thuộc với Power BI và Microsoft Office, và biết rằng họ đã có một đăng ký Premium capacity. Khi họ nghĩ về đội ngũ, họ nhận ra rằng người làm việc chính của dữ liệu này có thể là các nhà phân tích, quen thuộc với công cụ no-code và phân tích SQL. Ash quyết định sử dụng một Power BI datamart, cho phép đội tương tác và xây dựng khả năng nhanh chóng, sử dụng trải nghiệm no-code. Các truy vấn có thể được thực hiện qua Power BI và T-SQL, đồng thời cũng cho phép bất kỳ người dùng Spark nào trong tổ chức truy cập dữ liệu.
Trường hợp 4
Daisy là một nhà phân tích kinh doanh có kinh nghiệm sử dụng Power BI để phân tích các rào cản trong chuỗi cung ứng cho một chuỗi bán lẻ toàn cầu lớn. Họ cần xây dựng một giải pháp dữ liệu có thể mở rộng được có thể xử lý hàng tỷ hàng dữ liệu và có thể được sử dụng để xây dựng bảng điều khiển và báo cáo để đưa ra quyết định kinh doanh. Dữ liệu xuất phát từ các nhà máy, nhà cung cấp, người vận chuyển và các nguồn khác trong các định dạng có cấu trúc, bán cấu trúc và không cấu trúc khác nhau.
Daisy quyết định sử dụng một KQL Database vì tính mở rộng của nó, thời gian phản hồi nhanh, khả năng phân tích tiến tiến bao gồm phân tích chuỗi thời gian, chức năng địa lý, và chế độ truy vấn trực tiếp nhanh chóng trong Power BI. Các truy vấn có thể được thực hiện bằng cách sử dụng Power BI và KQL để so sánh giữa các giai đoạn hiện tại và trước đó, nhanh chóng xác định vấn đề mới nổi, hoặc cung cấp phân tích địa lý về các tuyến đường đất và biển.
Tổng kết
Trong quá trình lựa chọn loại kho dữ liệu cho Microsoft Fabric, các tình huống và quyết định được mô tả ở trên đều làm nổi bật sự đa dạng và linh hoạt của các lựa chọn có sẵn. Tùy thuộc vào nhu cầu cụ thể và kỹ năng của đội ngũ làm việc, mỗi trường hợp đã chọn một loại kho dữ liệu phù hợp.
- Susan, với kinh nghiệm xây dựng kho dữ liệu trên các hệ thống cơ sở dữ liệu quan hệ, quyết định sử dụng data warehouse cho phù hợp với kỹ năng của đội và nhu cầu về giao dịch đa bảng.
- Rob, trong tình huống sử dụng PySpark và T-SQL, chọn lakehouse để tận dụng kỹ năng đa dạng và linh hoạt của đội kỹ thuật dữ liệu.
- Ash, không có kỹ năng xây dựng kho dữ liệu phức tạp, lựa chọn Power BI datamart để tận dụng tính tự phục vụ và trải nghiệm no-code, đồng thời kết hợp các công cụ như Power BI và T-SQL.
- Daisy, một nhà phân tích kinh doanh sử dụng Power BI, quyết định sử dụng KQL Database với tính mở rộng và khả năng phân tích tiên tiến, đáp ứng nhu cầu xử lý lượng lớn dữ liệu từ các nguồn đa dạng.
Những quyết định này thể hiện sự linh hoạt của Microsoft Fabric trong việc hỗ trợ nhiều loại kho dữ liệu phục vụ cho đội ngũ và yêu cầu công việc khác nhau, tạo ra một môi trường linh hoạt và mạnh mẽ cho việc quản lý và phân tích dữ liệu.
Nguồn: https://learn.microsoft.com/en-us/fabric/get-started/decision-guide-data-store