Data engineering trong Microsoft Fabric cho phép người dùng thiết kế, xây dựng và duy trì cơ sở hạ tầng và hệ thống giúp người dùng trong tổ chức của họ có thể thu thập, lưu trữ, xử lý và phân tích lượng lớn dữ liệu.

Microsoft Fabric cung cấp các khả năng data engineering khác nhau để đảm bảo rằng dữ liệu của bạn dễ dàng truy cập, được tổ chức cẩn thận và chất lượng cao. Từ trang chủ data engineering, bạn có thể:

Tạo và quản lý dữ liệu của bạn bằng cách sử dụng một lakehouse.
Thiết kế các đường ống (pipelines) để sao chép dữ liệu vào lakehouse của bạn.
Sử dụng định nghĩa công việc Spark để gửi công việc batch/streaming đến Spark cluster.
Sử dụng notebooks để viết mã cho việc nhập, chuẩn bị và biến đổi dữ liệu.

Screenshot showing Data Engineering objects.

Lakehouse

Lakehouses là kiến trúc dữ liệu cho phép tổ chức lưu trữ và quản lý dữ liệu có cấu trúc (structured) và không có cấu trúc (unstructured) tại một vị trí duy nhất, sử dụng các công cụ và frameworks khác nhau để xử lý và phân tích dữ liệu đó. Các công cụ và frameworks này có thể bao gồm các truy vấn và phân tích dựa trên SQL, cũng như machine learning và các kỹ thuật phân tích nâng cao khác.

Định nghĩa công việc Apache Spark

Định nghĩa công việc Spark là một tập hợp các chỉ thị xác định cách thực hiện một công việc trên một cụm Spark. Nó bao gồm thông tin như nguồn dữ liệu đầu vào và đầu ra, các biến đổi và các cài đặt cấu hình cho ứng dụng Spark. Định nghĩa công việc Spark cho phép bạn gửi công việc batch/streaming đến cụm Spark, áp dụng các logic biến đổi khác nhau cho dữ liệu lưu trữ trên lakehouse của bạn cùng với nhiều tính năng khác.

Notebook

Notebook là môi trường tính toán tương tác cho phép người dùng tạo và chia sẻ tài liệu chứa mã nguồn sống, công thức, trực quan hóa và văn bản diễn đạt. Chúng cho phép người dùng viết và thực thi mã trong nhiều ngôn ngữ lập trình khác nhau, bao gồm Python, R và Scala. Bạn có thể sử dụng notebooks cho việc nhập dữ liệu, chuẩn bị, phân tích và các nhiệm vụ liên quan đến dữ liệu khác.

Data pipeline

Data pipelines là một chuỗi các bước có thể thu thập, xử lý và biến đổi dữ liệu từ dạng thô của nó thành một định dạng bạn có thể sử dụng cho phân tích và ra quyết định. Chúng là một thành phần quan trọng của kỹ thuật data engineering, vì chúng cung cấp một cách để di chuyển dữ liệu từ nguồn đến đích của nó một cách đáng tin cậy, có thể mở rộng và hiệu quả.

Nguồn: https://learn.microsoft.com/en-us/fabric/data-engineering/data-engineering-overview

Cập Nhật Google Analytics Quý 2/2024

[GA4] – Hiểu rõ về nguồn dữ liệu

Chia sẻ an toàn và tập trung vào quyền riêng tư với data clean rooms trong BigQuery

[Google Ads] – Đơn giản hóa việc quản lý first-party data

Hướng dẫn chi tiết về Microsoft Fabric

Hướng dẫn Real-Time Analytics – Giới thiệu

Real-Time Analytics (P7) – Dọn dẹp tài nguyên

Real-Time Analytics (P6) – Xây dựng báo cáo Power BI

Adobe – 3 cách Giải pháp quản lý công việc có thể phá vỡ rào cản trong nhóm của bạn

Adobe – 3 cách các nhà quản lý tiếp thị có thể khuấy động đánh giá thường niên của họ

Adobe – 4 thách thức CX mà các nhà tiếp thị B2B phải đối mặt

Adobe – 4 điều hệ thống thông tin điều hành phải có

Data engineering trong Microsoft Fabric là gì?

Lakehouse

Định nghĩa công việc Apache Spark

Notebook

Data pipeline

Cập Nhật Google Analytics Quý 2/2024

[GA4] – Hiểu rõ về nguồn dữ liệu

Segment là gì?

Composable CDP là gì?

Recomended

Cập Nhật Google Analytics Quý 2/2024

[GA4] – Hiểu rõ về nguồn dữ liệu

Segment là gì?

Composable CDP là gì?

Traditional CDP và Composable CDP

Customer Data Platform (CDP) là gì?