Data Factory – Tổng quan về hoạt động

Bài viết này giúp bạn hiểu về các hoạt động trong Microsoft Fabric và sử dụng chúng để xây dựng các quy trình làm việc dữ liệu từ đầu đến cuối cho các kịch bản di chuyển và xử lý dữ liệu của bạn.

Tổng quan

Một không gian làm việc Microsoft Fabric có thể có một hoặc nhiều đường ống. Một đường ống là một nhóm hợp lý của các hoạt động thực hiện một nhiệm vụ cụ thể. Ví dụ, một đường ống có thể chứa một tập hợp các hoạt động nhập và làm sạch dữ liệu log, và sau đó khởi chạy một luồng dữ liệu ánh xạ để phân tích dữ liệu log. Đường ống cho phép bạn quản lý các hoạt động như một tập hợp thay vì từng cái riêng lẻ. Bạn triển khai và lên lịch đường ống thay vì từng hoạt động một cách độc lập.

Các hoạt động trong một đường ống xác định các hành động thực hiện trên dữ liệu của bạn. Ví dụ, bạn có thể sử dụng một hoạt động sao chép để sao chép dữ liệu từ SQL Server vào Azure Blob Storage. Sau đó, sử dụng một hoạt động Dataflow hoặc hoạt động Sổ tay để xử lý và biến đổi dữ liệu từ kho lưu trữ blob sang một hồ bơi Azure Synapse Analytics, trên đó xây dựng các giải pháp báo cáo thông tin kinh doanh.

Microsoft Fabric có ba loại hoạt động chính: hoạt động di chuyển dữ liệu, hoạt động biến đổi dữ liệu và hoạt động kiểm soát.

Hoạt động di chuyển dữ liệu

Sao chép hoạt động trong Microsoft Fabric sao chép dữ liệu từ kho dữ liệu nguồn sang kho dữ liệu chìm. Fabric hỗ trợ các kho dữ liệu được liệt kê trong bài viết tổng quan về Connector. Dữ liệu từ bất kỳ nguồn nào có thể được ghi vào bất kỳ bồn nào.

Để biết thêm thông tin, hãy xem bài viết này.

Hoạt động chuyển đổi dữ liệu

Microsoft Fabric hỗ trợ các hoạt động biến đổi sau đây, có thể được thêm vào độc lập hoặc được liên kết với một hoạt động khác.

Để biết thêm thông tin, hãy xem bài viết tại đây.

Data transformation activityCompute environment
Copy dataCompute manager by Microsoft Fabric
Dataflow Gen2Compute manager by Microsoft Fabric
Delete dataCompute manager by Microsoft Fabric
Fabric NotebookApache Spark clusters managed by Microsoft Fabric
Fabric Spark job definition (coming soon)Apache Spark clusters managed by Microsoft Fabric
Stored ProcedureAzure SQL, Azure Synapse Analytics, or SQL Server
SQL scriptAzure SQL, Azure Synapse Analytics, or SQL Server

Kiểm soát hoạt động dòng chảy

Các hoạt động luồng điều khiển sau đây được hỗ trợ:

Control activityDescription
Append variableAdd a value to an existing array variable.
Azure Batch activityRuns an Azure Batch script.
Azure Databricks activityRuns an Azure Databricks job (Notebook, Jar, Python).
Azure Machine Learning activityRuns an Azure Machine Learning job.
Deactivate activityDeactivates another activity.
FailCause pipeline execution to fail with a customized error message and error code.
FilterApply a filter expression to an input array.
ForEachForEach Activity defines a repeating control flow in your pipeline. This activity is used to iterate over a collection and executes specified activities in a loop. The loop implementation of this activity is similar to the Foreach looping structure in programming languages.
Functions activityExecutes an Azure Function.
Get metadataGetMetadata activity can be used to retrieve metadata of any data in a Data Factory or Synapse pipeline.
If conditionThe If Condition can be used to branch based on condition that evaluates to true or false. The If Condition activity provides the same functionality that an if statement provides in programming languages. It evaluates a set of activities when the condition evaluates to true and another set of activities when the condition evaluates to false.
Invoke pipelineExecute Pipeline activity allows a Data Factory or Synapse pipeline to invoke another pipeline.
KQL activityExecutes a KQL script against a Kusto instance.
Lookup ActivityLookup Activity can be used to read or look up a record/ table name/ value from any external source. This output can further be referenced by succeeding activities.
Set VariableSet the value of an existing variable.
Switch activityImplements a switch expression that allows multiple subsequent activities for each potential result of the expression.
Teams activityPosts a message in a Teams channel or group chat.
Until activityImplements Do-Until loop that is similar to Do-Until looping structure in programming languages. It executes a set of activities in a loop until the condition associated with the activity evaluates to true. You can specify a timeout value for the until activity.
Wait activityWhen you use a Wait activity in a pipeline, the pipeline waits for the specified time before continuing with execution of subsequent activities.
Web activityWeb Activity can be used to call a custom REST endpoint from a pipeline.
Webhook activityUsing the webhook activity, call an endpoint, and pass a callback URL. The pipeline run waits for the callback to be invoked before proceeding to the next activity.

Thêm hoạt động vào quy trình bằng Microsoft Fabric UI

Hãy sử dụng các bước sau để thêm và đặt cấu hình các hoạt động trong quy trình Microsoft Fabric:

  1. Tạo một đường dẫn mới trong không gian làm việc của bạn.
  2. Trên tab Hoạt động của quy trình, duyệt qua các hoạt động được hiển thị, cuộn sang phải nếu cần để xem tất cả các hoạt động. Chọn một hoạt động để thêm nó vào trình chỉnh sửa quy trình.
  3. Khi bạn thêm một hoạt động và chọn hoạt động đó trong khung soạn thảo quy trình, cài đặt Chung của hoạt động đó sẽ xuất hiện trong ngăn thuộc tính bên dưới khung vẽ.
  4. Mỗi hoạt động cũng chứa các thuộc tính tùy chỉnh cụ thể cho cấu hình của nó trên các tab khác trong ngăn thuộc tính.
Ảnh chụp màn hình hiển thị trình chỉnh sửa quy trình với tab Hoạt động, thanh công cụ, hoạt động sao chép và tab Chung của các thuộc tính của nó, tất cả đều được tô sáng.

Cài đặt chung

Khi bạn thêm một hoạt động mới vào đường ống và chọn nó, bạn sẽ thấy các ô thuộc tính của nó ở khu vực dưới cùng của màn hình. Các ô thuộc tính này bao gồm chung (General), Cài đặt (Settings), và đôi khi có thể bao gồm các ô khác nữa.

Ảnh chụp màn hình hiển thị tab Cài đặt chung của một hoạt động.

Cài đặt chung sẽ luôn bao gồm các trường Tên và Mô tả cho mọi hoạt động. Một số hoạt động cũng bao gồm những điều sau đây:

SettingDescription
TimeoutThe maximum amount of time an activity can run. The default is 12 hours, and the maximum amount of time allowed is seven days. The format for the timeout is in D.HH:MM:SS.
RetryMaximum number of retry attempts.
(Advanced properties) Retry interval (sec)The number of seconds between each retry attempt.
(Advanced properties) Secure outputWhen checked, output from the activity isn’t captured in logging.
(Advanced properties) Secure inputThe number of seconds between each retry attempt.
Ghi chú
Có giới hạn mặc định là tối đa 40 hoạt động trên mỗi quy trình, bao gồm các hoạt động bên trong cho vùng chứa.

Nguồn: https://learn.microsoft.com/en-us/fabric/data-factory/activity-overview

spot_img

More from this stream

Recomended

Cập Nhật Google Analytics Quý 2/2024

Bài viết này cung cấp thông tin về các bản phát hành mới nhất trong Google Analytics trong quý 2 năm 2024.

[GA4] – Hiểu rõ về nguồn dữ liệu

Một nguồn dữ liệu là một nơi chứa dữ liệu bạn tải lên Analytics, bao gồm cơ sở dữ liệu, dịch vụ, hoặc tệp CSV bạn tải lên và một ánh xạ của các trường dữ liệu Analytics với các trường trong cơ sở dữ liệu, dịch vụ hoặc CSV bên ngoài của bạn.

Segment là gì?

Segment là một traditional Customer Data Platform (CDP) chuyên về việc thu thập sự kiện và kích hoạt dữ liệu.

Composable CDP là gì?

Composable CDP là một lớp kích hoạt cho phép bạn tạo ra đối tượng khán giả, điều phối hành trình, và gửi dữ liệu hiện tại của bạn đến các công cụ tiếp thị hàng đầu của bạn.

Traditional CDP và Composable CDP

Việc áp dụng rộng rãi của hệ thống lưu trữ dữ liệu đám mây đã cách mạng hóa không gian Customer Data Platform (CDP), dẫn đến sự xuất hiện của một kiến trúc CDP mạnh mẽ hơn, nguyên gốc từ hệ thống lưu trữ dữ liệu đám mây được biết đến là Composable CDP.

Customer Data Platform (CDP) là gì?

Một Customer Data Platform, hay CDP, là một giải pháp hoặc kiến trúc cho phép bạn thu thập, lưu trữ, mô hình hóa và kích hoạt dữ liệu khách hàng của bạn.