Data Factory – Cách sao chép dữ liệu bằng hoạt động sao chép

Trong Data Pipeline, bạn có thể sử dụng hoạt động Copy để sao chép dữ liệu giữa các kho dữ liệu trên đám mây.

Sau khi sao chép dữ liệu, bạn có thể sử dụng các hoạt động khác để chuyển đổi và phân tích dữ liệu thêm. Bạn cũng có thể sử dụng hoạt động Sao chép để xuất bản kết quả chuyển đổi và phân tích cho hoạt động kinh doanh thông minh (BI) và mức tiêu thụ ứng dụng.

Để sao chép dữ liệu từ nguồn tới đích, dịch vụ chạy hoạt động Sao chép sẽ thực hiện các bước sau:

  1. Đọc dữ liệu từ kho lưu trữ dữ liệu nguồn.
  2. Thực hiện tuần tự hóa/giải tuần tự hóa, nén/giải nén, ánh xạ cột, v.v. Nó thực hiện các hoạt động này dựa trên cấu hình.
  3. Ghi dữ liệu vào kho lưu trữ dữ liệu đích.

Điều kiện tiên quyết

Để bắt đầu, bạn phải hoàn thành các điều kiện tiên quyết sau:

Thêm hoạt động sao chép bằng trợ lý sao chép

Hãy làm theo các bước sau để thiết lập hoạt động sao chép của bạn bằng trợ lý sao chép.

Bắt đầu với trợ lý sao chép

1. Mở đường dẫn dữ liệu hiện có hoặc tạo đường dẫn dữ liệu mới.

2. Chọn Copy data trên khung vẽ để mở công cụ Copy Assistant để bắt đầu. Hoặc chọn Use copy assistant từ danh sách thả xuống Copy data trong tab Activities  trên dải băng.

Screenshot showing options for opening the copy assistant.

Cấu hình nguồn của bạn

1. Chọn loại nguồn dữ liệu từ danh mục. Bạn sẽ sử dụng Azure Blob Storage làm ví dụ. Chọn Bộ lưu trữ Azure Blob rồi chọn Next.

Screenshot of Choose data source screen.
Screenshot showing where to select the correct data source.

2. Tạo kết nối với nguồn dữ liệu của bạn bằng cách chọn Create new connection.

Screenshot showing where to select New connection.

Sau khi bạn chọn Create new connection, hãy điền thông tin kết nối được yêu cầu rồi chọn Next. Để biết chi tiết về việc tạo kết nối cho từng loại nguồn dữ liệu, bạn có thể tham khảo từng bài viết về trình kết nối.
Nếu bạn có các kết nối hiện có, bạn có thể chọn Existing connection và chọn kết nối của mình từ danh sách thả xuống.

Screenshot showing the existing connection.

3. Chọn tệp hoặc thư mục sẽ được sao chép trong bước cấu hình nguồn này, sau đó chọn Next.

Screenshot showing where to select the data to be copied.

Định cấu hình điểm đến của bạn

1. Chọn loại nguồn dữ liệu từ danh mục. Bạn sẽ sử dụng Azure Blob Storage làm ví dụ. Chọn Bộ nhớ Azure Blob rồi chọn Next.

Screenshot showing how to select Azure Blob Storage.

2. Bạn có thể tạo kết nối mới liên kết với tài khoản Bộ nhớ Azure Blob mới bằng cách làm theo các bước trong phần trước hoặc sử dụng kết nối hiện có từ danh sách thả xuống kết nối. Các khả năng Kiểm tra kết nối và Chỉnh sửa có sẵn cho mỗi kết nối đã chọn.

Screenshot showing data connection options.

3. Định cấu hình và ánh xạ dữ liệu nguồn của bạn tới đích. Sau đó chọn Next để hoàn tất cấu hình đích của bạn.

Screenshot of Map to destination screen.
Screenshot of Connect to data destination.

Xem lại và tạo hoạt động sao chép của bạn

  1. Xem lại cài đặt hoạt động sao chép của bạn ở các bước trước và chọn OK để hoàn tất. Hoặc bạn có thể quay lại các bước trước đó để chỉnh sửa cài đặt của mình nếu cần trong công cụ.
Screenshot showing the Review and create screen.

Sau khi hoàn tất, hoạt động sao chép sẽ được thêm vào khung vẽ đường dẫn dữ liệu của bạn. Tất cả cài đặt, bao gồm cả cài đặt nâng cao cho hoạt động sao chép này, đều có sẵn trong các tab khi được chọn.

Ảnh chụp màn hình hiển thị hoạt động sao chép trên canvas đường dẫn dữ liệu.

Bây giờ bạn có thể lưu đường dẫn dữ liệu của mình bằng hoạt động sao chép duy nhất này hoặc tiếp tục thiết kế đường dẫn dữ liệu của mình.

Thêm hoạt động sao chép trực tiếp

Hãy làm theo các bước sau để thêm hoạt động sao chép trực tiếp.

Thêm hoạt động sao chép

1. Mở đường dẫn dữ liệu hiện có hoặc tạo đường dẫn dữ liệu mới.

2. Thêm hoạt động sao chép bằng cách chọn Add pipeline activity > Copy activity hoặc bằng cách chọn Copy data > Add to canvas trong tab Activities .

Screenshot showing two ways to add a copy activity.

Cấu hình cài đặt chung của bạn trong tab chung

Để tìm hiểu cách định cấu hình cài đặt chung của bạn, hãy xem tại đây.

Cấu hình nguồn của bạn trong tab nguồn

1. Chọn + New bên cạnh Connection để tạo kết nối với nguồn dữ liệu của bạn.

Screenshot showing where to select New.

a. Chọn loại nguồn dữ liệu từ cửa sổ bật lên. Bạn sẽ sử dụng Cơ sở dữ liệu Azure SQL làm ví dụ. Chọn Azure SQL Database rồi chọn Continue.

Screenshot showing how to select the data source.

b. Nó điều hướng đến trang tạo kết nối. Điền thông tin kết nối được yêu cầu trên bảng, sau đó chọn Create. Để biết chi tiết về việc tạo kết nối cho từng loại nguồn dữ liệu, bạn có thể tham khảo từng bài viết về trình kết nối.

Screenshot showing New connection page.

c. Khi kết nối của bạn được tạo thành công, nó sẽ đưa bạn trở lại trang đường dẫn dữ liệu. Sau đó chọn Refresh để tìm nạp kết nối bạn đã tạo từ danh sách thả xuống. Bạn cũng có thể trực tiếp chọn kết nối Cơ sở dữ liệu Azure SQL hiện có từ trình đơn thả xuống nếu bạn đã tạo kết nối đó trước đó. Các khả năng Test connectionEdit có sẵn cho mỗi kết nối đã chọn. Sau đó chọn Azure SQL Database trong Connection.

Screenshot showing where to refresh your connection.

2. Chỉ định một bảng sẽ được sao chép. Chọn Preview data để xem trước bảng nguồn của bạn. Bạn cũng có thể sử dụng quy trình QueryStored procedure để đọc dữ liệu từ nguồn của mình.

Screenshot showing source table settings options.

3. Mở rộng Advanced để có các cài đặt nâng cao hơn.

Screenshot of advanced settings.

Cấu hình điểm đến của bạn trong tab đích

1. Chọn loại điểm đến của bạn. Đó có thể là kho lưu trữ dữ liệu nội bộ hạng nhất từ ​​không gian làm việc của bạn, chẳng hạn như Lakehouse hoặc kho lưu trữ dữ liệu bên ngoài của bạn. Bạn sẽ lấy Lakehouse làm ví dụ.

Screenshot showing where to select destination type.

2. Chọn sử dụng Lakehouse trong  Workspace data store type. Chọn + New và nó sẽ điều hướng bạn đến trang tạo Lakehouse. Chỉ định tên Lakehouse của bạn và sau đó chọn Create.

Screenshot showing Lakehouse creation.

3. Khi kết nối của bạn được tạo thành công, nó sẽ đưa bạn trở lại trang đường dẫn dữ liệu. Sau đó chọn Refresh  để tìm nạp kết nối bạn đã tạo từ danh sách thả xuống. Bạn cũng có thể trực tiếp chọn kết nối Lakehouse hiện có từ trình đơn thả xuống nếu bạn đã tạo kết nối đó trước đó.

Screenshot showing selecting connection.

4. Chỉ định một bảng hoặc thiết lập đường dẫn tệp để xác định tệp hoặc thư mục làm đích. Ở đây chọn Tables và chỉ định một bảng để ghi dữ liệu.

Screenshot showing where to find Table settings.

5. Mở rộng Advanced để có các cài đặt nâng cao hơn.

Screenshot of Advanced options.

Bây giờ bạn có thể lưu đường dẫn dữ liệu của mình bằng hoạt động sao chép duy nhất này hoặc tiếp tục thiết kế đường dẫn dữ liệu của mình.

Cấu hình ánh xạ của bạn trong tab ánh xạ

Nếu trình kết nối mà bạn áp dụng hỗ trợ ánh xạ, bạn có thể chuyển đến tab Ánh xạ để định cấu hình ánh xạ của mình.

1. Chọn Import schemas để nhập lược đồ dữ liệu của bạn.

Screenshot of mapping settings 1.

2. Bạn có thể thấy bản đồ tự động được hiển thị. Chỉ định cột Source và cột Destination của bạn. Nếu bạn tạo một bảng mới ở đích, bạn có thể tùy chỉnh tên cột Destination tại đây. Nếu bạn muốn ghi dữ liệu vào bảng đích hiện có, bạn không thể sửa đổi tên cột Destination hiện có . Bạn cũng có thể xem cột loại nguồn và đích.

Screenshot of mapping settings 2.

Ngoài ra, bạn có thể chọn + New mapping mới để thêm ánh xạ mới, chọn Clear để xóa tất cả cài đặt ánh xạ và chọn Reset để đặt lại tất cả cột Source ánh xạ .

Cấu hình chuyển đổi loại của bạn

Mở rộng Cài đặt chuyển đổi loại để định cấu hình chuyển đổi loại của bạn nếu cần.

Ảnh chụp màn hình chuyển đổi loại ánh xạ.

Xem bảng sau để biết chi tiết cài đặt.

SettingDescription
Allow data truncationAllow data truncation when converting source data to destination with different type during copy. For example, from decimal to integer, from DatetimeOffset to Datetime.
Treat boolean as numberTreat boolean as number. For example, treat true as 1.
DateTime formatFormat string when converting between dates without time zone offset and strings. For example, “yyyy-MM-dd HH:mm:ss.fff”.
DateTimeOffset formatFormat string when converting between dates with time zone offset and strings. For example, “yyyy-MM-dd HH:mm:ss.fff zzz”.
TimeSpan formatFormat string when converting between time periods and strings. For example, “dd.hh:mm:ss”.
CultureCulture information to be used when convert types. For example, “en-us”, “fr-fr”.

Cấu hình các cài đặt khác của bạn trong tab cài đặt

Tab Settings chứa các cài đặt về hiệu suất, dàn dựng, v.v.

Ảnh chụp màn hình của tab Cài đặt.

Xem bảng sau để biết mô tả của từng cài đặt.

SettingDescription
Intelligent throughput optimizationSpecify to optimize the throughput. You can choose from:
• Auto
• Standard
• Balanced
• Maximum
When you choose Auto, the optimal setting is dynamically applied based on your source-destination pair and data pattern. You can also customize your throughput, and custom value can be 2-256 while higher value implies more gains.
Degree of copy parallelismSpecify the degree of parallelism that data loading would use.
Fault toleranceWhen selecting this option, you can ignore some errors occurred in the middle of copy process. For example, incompatible rows between source and destination store, file being deleted during data movement, etc.
Enable loggingWhen selecting this option, you can log copied files, skipped files and rows
Enable stagingSpecify whether to copy data via an interim staging store. Enable staging only for the beneficial scenarios.
Staging account connectionWhen selecting Enable staging, specify the connection of an Azure storage data source as an interim staging store. Select + New to create a staging connection if you don’t have it.

Cấu hình các tham số trong hoạt động sao chép

Các tham số có thể được sử dụng để kiểm soát hành vi của đường ống và các hoạt động của nó. Bạn có thể sử dụng Add dynamic content để chỉ định tham số cho thuộc tính hoạt động sao chép của mình. Hãy lấy việc chỉ định Lakehouse/Data Warehouse/KQL Database làm ví dụ để xem cách sử dụng nó.

1. Trong nguồn hoặc đích của bạn, sau khi chọn Workspace làm loại lưu trữ dữ liệu và chỉ định Lakehouse/Data Warehouse/KQL Database làm loại lưu trữ dữ liệu không gian làm việc, hãy chọn Add dynamic content trong danh sách thả xuống của Lakehouse hoặc Data Warehouse hoặc KQL Database.

2. Trong cửa sổ bật lên Add dynamic content, trong tab Parameters, hãy chọn + .

Screenshot showing the Add dynamic content page.

3. Chỉ định tên cho tham số của bạn và đặt giá trị mặc định nếu bạn muốn hoặc bạn có thể chỉ định giá trị cho tham số sau khi chọn Run trong quy trình.

Screenshot shows creating a new parameter.

Lưu ý rằng giá trị tham số phải là ID đối tượng Cơ sở dữ liệu Lakehouse/Kho dữ liệu/KQL. Để lấy ID đối tượng Cơ sở dữ liệu Lakehouse/Kho dữ liệu /Cơ sở dữ liệu KQL, hãy mở Cơ sở dữ liệu Lakehouse/Kho dữ liệu/KQL trong không gian làm việc của bạn và ID nằm sau /lakehouses/or /datawarehouses/ or /databases/ của bạn

  • Lakehouse object ID:
Screenshot showing the Lakehouse object ID.
  • Data Warehouse object ID:
Screenshot showing the Data Warehouse object ID.
  • KQL Database object ID:
Screenshot showing the KQL Database object ID.

4. Chọn Save để quay lại ngăn Add dynamic content. Sau đó chọn tham số của bạn để nó xuất hiện trong hộp biểu thức. Sau đó chọn OK . Bạn sẽ quay lại trang quy trình và có thể thấy biểu thức tham số được chỉ định sau ID đối tượng Lakehouse object ID/Data Warehouse object ID/KQL Database object ID.

Screenshot showing selecting parameter.

Nguồn: https://learn.microsoft.com/en-us/fabric/data-factory/copy-data-activity

spot_img

More from this stream

Recomended

Cập Nhật Google Analytics Quý 2/2024

Bài viết này cung cấp thông tin về các bản phát hành mới nhất trong Google Analytics trong quý 2 năm 2024.

[GA4] – Hiểu rõ về nguồn dữ liệu

Một nguồn dữ liệu là một nơi chứa dữ liệu bạn tải lên Analytics, bao gồm cơ sở dữ liệu, dịch vụ, hoặc tệp CSV bạn tải lên và một ánh xạ của các trường dữ liệu Analytics với các trường trong cơ sở dữ liệu, dịch vụ hoặc CSV bên ngoài của bạn.

Segment là gì?

Segment là một traditional Customer Data Platform (CDP) chuyên về việc thu thập sự kiện và kích hoạt dữ liệu.

Composable CDP là gì?

Composable CDP là một lớp kích hoạt cho phép bạn tạo ra đối tượng khán giả, điều phối hành trình, và gửi dữ liệu hiện tại của bạn đến các công cụ tiếp thị hàng đầu của bạn.

Traditional CDP và Composable CDP

Việc áp dụng rộng rãi của hệ thống lưu trữ dữ liệu đám mây đã cách mạng hóa không gian Customer Data Platform (CDP), dẫn đến sự xuất hiện của một kiến trúc CDP mạnh mẽ hơn, nguyên gốc từ hệ thống lưu trữ dữ liệu đám mây được biết đến là Composable CDP.

Customer Data Platform (CDP) là gì?

Một Customer Data Platform, hay CDP, là một giải pháp hoặc kiến trúc cho phép bạn thu thập, lưu trữ, mô hình hóa và kích hoạt dữ liệu khách hàng của bạn.