Microsoft Fabric Lakehouse là một nền tảng kiến trúc dữ liệu để lưu trữ, quản lý và phân tích dữ liệu có cấu trúc và không có cấu trúc tại một vị trí duy nhất. Đây là một giải pháp linh hoạt và có khả năng mở rộng, cho phép tổ chức xử lý và phân tích lượng lớn dữ liệu bằng cách sử dụng nhiều công cụ và khuôn khổ khác nhau để xử lý và phân tích dữ liệu đó. Nó tích hợp với các công cụ quản lý dữ liệu và phân tích khác để cung cấp một giải pháp toàn diện cho kỹ thuật dữ liệu và phân tích.
![Gif of overall lakehouse experience.](https://learn.microsoft.com/en-us/fabric/data-engineering/media/lakehouse-overview/lakehouse-overview.gif)
Lakehouse SQL analytics endpoint
Lakehouse tạo ra một tầng phục vụ bằng cách tự động tạo ra một điểm cuối phân tích SQL và một mô hình ngữ nghĩa mặc định trong quá trình tạo. Tính năng mới này cho phép người dùng làm việc trực tiếp trên các bảng Delta trong hồ để cung cấp trải nghiệm mượt mà và hiệu suất từ quá trình nhập dữ liệu đến báo cáo.
Quan trọng lưu ý rằng SQL analytics endpoint là một trải nghiệm chỉ đọc và không hỗ trợ toàn bộ diện tích bề mặt T-SQL của một kho dữ liệu giao dịch.
Ghi chú Chỉ các bảng được lưu trữ dưới định dạng Delta mới có sẵn trong SQL analytics endpoint. Các định dạng khác như Parquet, CSV, và các định dạng khác không thể được truy vấn bằng SQL analytics endpoint. Nếu bạn không thấy bảng của mình, bạn sẽ cần chuyển đổi nó thành định dạng Delta.
Tự động phát hiện và đăng ký bảng
Tính năng tự động phát hiện và đăng ký bảng là một đặc điểm của Lakehouse, mang đến một trải nghiệm quản lý hoàn toàn về tệp đối với kỹ sư dữ liệu và nhà khoa học dữ liệu. Bạn có thể thả một tệp vào khu vực được quản lý của Lakehouse và hệ thống sẽ tự động xác thực nó cho các định dạng có cấu trúc được hỗ trợ, sau đó đăng ký nó vào metastore với các siêu dữ liệu cần thiết như tên cột, định dạng, nén, và nhiều hơn nữa. (Hiện tại, định dạng duy nhất được hỗ trợ là Delta table.) Sau đó, bạn có thể tham chiếu tệp như một bảng và sử dụng cú pháp SparkSQL để tương tác với dữ liệu.
Tương tác với vật phẩm Lakehouse
Kỹ sư dữ liệu có thể tương tác với Lakehouse và dữ liệu trong Lakehouse theo nhiều cách:
- Lakehouse explorer: Explorer là trang tương tác chính của Lakehouse. Bạn có thể tải dữ liệu trong Lakehouse của mình, khám phá dữ liệu trong Lakehouse bằng trình khám phá đối tượng, đặt nhãn MIP và nhiều thứ khác. Tìm hiểu thêm về trải nghiệm của nhà thám hiểm: Fabric Lakehouse explorer.
- Notebooks: Kỹ sư dữ liệu có thể sử dụng sổ ghi chép để viết mã nhằm đọc, chuyển đổi và ghi trực tiếp vào Lakehouse dưới dạng bảng và/hoặc thư mục. Bạn có thể tìm hiểu thêm về cách sử dụng sổ ghi chép cho Lakehouse: Khám phá dữ liệu trong lakehouse của bạn bằng notebook và Sử dụng notebook để tải dữ liệu vào Lakehouse của bạn.
- Pipelines: Kỹ sư dữ liệu có thể sử dụng các công cụ tích hợp dữ liệu như công cụ sao chép đường ống để kéo dữ liệu từ các nguồn khác và đưa vào Lakehouse. Tìm thêm thông tin về cách sử dụng hoạt động sao chép: Cách sao chép dữ liệu bằng hoạt động sao chép .
- Apache Spark job definitions: Các kỹ sư dữ liệu có thể phát triển các ứng dụng mạnh mẽ và điều phối việc thực thi các công việc Spark đã biên dịch trong Java, Scala và Python. Tìm hiểu thêm về công việc Spark: Định nghĩa công việc Apache Spark là gì?
- Dataflows Gen 2: Kỹ sư dữ liệu có thể sử dụng Dataflows Gen 2 để nhập và chuẩn bị dữ liệu của họ. Tìm thêm thông tin về tải dữ liệu bằng cách sử dụng luồng dữ liệu: Tạo luồng dữ liệu đầu tiên của bạn để nhận và chuyển đổi dữ liệu .
Đa nhiệm với Lakehouse
Trải nghiệm đa nhiệm cung cấp một thiết kế tab trình duyệt cho phép bạn mở và chuyển đổi giữa nhiều mục một cách mượt mà, giúp bạn quản lý hồ dữ liệu của mình một cách hiệu quả hơn bao giờ hết. Không còn việc chuyển đổi giữa các cửa sổ khác nhau hoặc mất theo dõi công việc của bạn. Lakehouse cung cấp một trải nghiệm đa nhiệm cải tiến để làm cho hành trình quản lý dữ liệu của bạn trở nên hiệu quả và thân thiện với người dùng nhất có thể, với những khả năng sau:
- Preserve running operations: Bạn có thể tải lên hoặc chạy các hoạt động tải dữ liệu trong một tab và kiểm tra công việc khác trong một tab khác. Với trải nghiệm đa nhiệm cải tiến, các hoạt động đang chạy không bị hủy khi bạn chuyển đổi giữa các tab. Bạn có thể tập trung vào công việc mà không bị gián đoạn.
- Retain your context: Các đối tượng đã chọn, bảng dữ liệu hoặc tệp tin vẫn mở và sẵn có khi bạn chuyển đổi giữa các tab. Bối cảnh của hồ dữ liệu của bạn luôn nằm trong tầm tay.
- Non-blocking list reload: Cơ chế tải lại không chặn lại cho danh sách tệp tin và bảng dữ liệu của bạn. Bạn có thể tiếp tục làm việc trong khi danh sách được làm mới ở nền. Điều này đảm bảo bạn có dữ liệu mới nhất mà vẫn có được trải nghiệm mượt mà và không gián đoạn.
- Clearly defined notifications: Các thông báo toast chỉ định rõ từ hồ dữ liệu nào mà chúng đến, giúp bạn dễ dàng theo dõi các thay đổi và cập nhật trong môi trường đa nhiệm của bạn.
Thiết kế lakehouse dễ tiếp cận
Khả năng tiếp cận luôn là một ưu tiên hàng đầu để đảm bảo rằng Lakehouse là một nền tảng bao gồm và thân thiện với mọi người. Dưới đây là những sáng kiến chính mà chúng tôi đã triển khai cho khả năng tiếp cận:
- Screen reader compatibility: Bạn có thể làm việc một cách mượt mà với các đọc màn hình phổ biến, giúp người sử dụng có vấn đề về thị giác có thể duyệt và tương tác với nền tảng của chúng tôi một cách hiệu quả.
- Text reflow: Thiết kế đáp ứng với các kích thước màn hình và hướng khác nhau. Văn bản và nội dung tái cấu trúc động, giúp người dùng dễ dàng xem và tương tác với ứng dụng trên nhiều thiết bị khác nhau.
- Keyboard navigation: Cải thiện điều hướng bằng bàn phím để cho phép người dùng di chuyển qua Lakehouse mà không cần sử dụng chuột, tăng cường trải nghiệm cho những người có khuyết tật về cơ bản.
- Alternative text for images: Tất cả hình ảnh đều bao gồm văn bản mô tả thích hợp, giúp đọc màn hình truyền đạt thông tin có ý nghĩa.
- Form fields and Labels: Tất cả các trường biểu mẫu đều có các nhãn liên quan, giúp đơn giản hóa việc nhập dữ liệu cho mọi người, bao gồm cả những người sử dụng đọc màn hình.
Nguồn: https://learn.microsoft.com/en-us/fabric/data-engineering/lakehouse-overview