Lakehouse trong Microsoft Fabric là gì?

Microsoft Fabric Lakehouse là một nền tảng kiến trúc dữ liệu để lưu trữ, quản lý và phân tích dữ liệu có cấu trúc và không có cấu trúc tại một vị trí duy nhất. Đây là một giải pháp linh hoạt và có khả năng mở rộng, cho phép tổ chức xử lý và phân tích lượng lớn dữ liệu bằng cách sử dụng nhiều công cụ và khuôn khổ khác nhau để xử lý và phân tích dữ liệu đó. Nó tích hợp với các công cụ quản lý dữ liệu và phân tích khác để cung cấp một giải pháp toàn diện cho kỹ thuật dữ liệu và phân tích.

Gif of overall lakehouse experience.

Lakehouse SQL analytics endpoint

Lakehouse tạo ra một tầng phục vụ bằng cách tự động tạo ra một điểm cuối phân tích SQL và một mô hình ngữ nghĩa mặc định trong quá trình tạo. Tính năng mới này cho phép người dùng làm việc trực tiếp trên các bảng Delta trong hồ để cung cấp trải nghiệm mượt mà và hiệu suất từ quá trình nhập dữ liệu đến báo cáo.

Quan trọng lưu ý rằng SQL analytics endpoint là một trải nghiệm chỉ đọc và không hỗ trợ toàn bộ diện tích bề mặt T-SQL của một kho dữ liệu giao dịch.

Ghi chú
Chỉ các bảng được lưu trữ dưới định dạng Delta mới có sẵn trong SQL analytics endpoint. Các định dạng khác như Parquet, CSV, và các định dạng khác không thể được truy vấn bằng SQL analytics endpoint. Nếu bạn không thấy bảng của mình, bạn sẽ cần chuyển đổi nó thành định dạng Delta.

Tự động phát hiện và đăng ký bảng

Tính năng tự động phát hiện và đăng ký bảng là một đặc điểm của Lakehouse, mang đến một trải nghiệm quản lý hoàn toàn về tệp đối với kỹ sư dữ liệu và nhà khoa học dữ liệu. Bạn có thể thả một tệp vào khu vực được quản lý của Lakehouse và hệ thống sẽ tự động xác thực nó cho các định dạng có cấu trúc được hỗ trợ, sau đó đăng ký nó vào metastore với các siêu dữ liệu cần thiết như tên cột, định dạng, nén, và nhiều hơn nữa. (Hiện tại, định dạng duy nhất được hỗ trợ là Delta table.) Sau đó, bạn có thể tham chiếu tệp như một bảng và sử dụng cú pháp SparkSQL để tương tác với dữ liệu.

Tương tác với vật phẩm Lakehouse

Kỹ sư dữ liệu có thể tương tác với Lakehouse và dữ liệu trong Lakehouse theo nhiều cách:

Đa nhiệm với Lakehouse

Trải nghiệm đa nhiệm cung cấp một thiết kế tab trình duyệt cho phép bạn mở và chuyển đổi giữa nhiều mục một cách mượt mà, giúp bạn quản lý hồ dữ liệu của mình một cách hiệu quả hơn bao giờ hết. Không còn việc chuyển đổi giữa các cửa sổ khác nhau hoặc mất theo dõi công việc của bạn. Lakehouse cung cấp một trải nghiệm đa nhiệm cải tiến để làm cho hành trình quản lý dữ liệu của bạn trở nên hiệu quả và thân thiện với người dùng nhất có thể, với những khả năng sau:

  • Preserve running operations: Bạn có thể tải lên hoặc chạy các hoạt động tải dữ liệu trong một tab và kiểm tra công việc khác trong một tab khác. Với trải nghiệm đa nhiệm cải tiến, các hoạt động đang chạy không bị hủy khi bạn chuyển đổi giữa các tab. Bạn có thể tập trung vào công việc mà không bị gián đoạn.
  • Retain your context: Các đối tượng đã chọn, bảng dữ liệu hoặc tệp tin vẫn mở và sẵn có khi bạn chuyển đổi giữa các tab. Bối cảnh của hồ dữ liệu của bạn luôn nằm trong tầm tay.
  • Non-blocking list reload: Cơ chế tải lại không chặn lại cho danh sách tệp tin và bảng dữ liệu của bạn. Bạn có thể tiếp tục làm việc trong khi danh sách được làm mới ở nền. Điều này đảm bảo bạn có dữ liệu mới nhất mà vẫn có được trải nghiệm mượt mà và không gián đoạn.
  • Clearly defined notifications: Các thông báo toast chỉ định rõ từ hồ dữ liệu nào mà chúng đến, giúp bạn dễ dàng theo dõi các thay đổi và cập nhật trong môi trường đa nhiệm của bạn.

Thiết kế lakehouse dễ tiếp cận

Khả năng tiếp cận luôn là một ưu tiên hàng đầu để đảm bảo rằng Lakehouse là một nền tảng bao gồm và thân thiện với mọi người. Dưới đây là những sáng kiến chính mà chúng tôi đã triển khai cho khả năng tiếp cận:

  •  Screen reader compatibility: Bạn có thể làm việc một cách mượt mà với các đọc màn hình phổ biến, giúp người sử dụng có vấn đề về thị giác có thể duyệt và tương tác với nền tảng của chúng tôi một cách hiệu quả.
  • Text reflow: Thiết kế đáp ứng với các kích thước màn hình và hướng khác nhau. Văn bản và nội dung tái cấu trúc động, giúp người dùng dễ dàng xem và tương tác với ứng dụng trên nhiều thiết bị khác nhau.
  •  Keyboard navigation: Cải thiện điều hướng bằng bàn phím để cho phép người dùng di chuyển qua Lakehouse mà không cần sử dụng chuột, tăng cường trải nghiệm cho những người có khuyết tật về cơ bản.
  •  Alternative text for images: Tất cả hình ảnh đều bao gồm văn bản mô tả thích hợp, giúp đọc màn hình truyền đạt thông tin có ý nghĩa.
  • Form fields and Labels: Tất cả các trường biểu mẫu đều có các nhãn liên quan, giúp đơn giản hóa việc nhập dữ liệu cho mọi người, bao gồm cả những người sử dụng đọc màn hình.

Nguồn: https://learn.microsoft.com/en-us/fabric/data-engineering/lakehouse-overview

spot_img

More from this stream

Recomended

Cập Nhật Google Analytics Quý 2/2024

Bài viết này cung cấp thông tin về các bản phát hành mới nhất trong Google Analytics trong quý 2 năm 2024.

[GA4] – Hiểu rõ về nguồn dữ liệu

Một nguồn dữ liệu là một nơi chứa dữ liệu bạn tải lên Analytics, bao gồm cơ sở dữ liệu, dịch vụ, hoặc tệp CSV bạn tải lên và một ánh xạ của các trường dữ liệu Analytics với các trường trong cơ sở dữ liệu, dịch vụ hoặc CSV bên ngoài của bạn.

Segment là gì?

Segment là một traditional Customer Data Platform (CDP) chuyên về việc thu thập sự kiện và kích hoạt dữ liệu.

Composable CDP là gì?

Composable CDP là một lớp kích hoạt cho phép bạn tạo ra đối tượng khán giả, điều phối hành trình, và gửi dữ liệu hiện tại của bạn đến các công cụ tiếp thị hàng đầu của bạn.

Traditional CDP và Composable CDP

Việc áp dụng rộng rãi của hệ thống lưu trữ dữ liệu đám mây đã cách mạng hóa không gian Customer Data Platform (CDP), dẫn đến sự xuất hiện của một kiến trúc CDP mạnh mẽ hơn, nguyên gốc từ hệ thống lưu trữ dữ liệu đám mây được biết đến là Composable CDP.

Customer Data Platform (CDP) là gì?

Một Customer Data Platform, hay CDP, là một giải pháp hoặc kiến trúc cho phép bạn thu thập, lưu trữ, mô hình hóa và kích hoạt dữ liệu khách hàng của bạn.