Nhập dữ liệu vào Warehouse của bạn bằng cách sử dụng data pipelines

Data pipelines cung cấp một phương thức thay thế cho việc sử dụng lệnh COPY thông qua giao diện người dùng đồ họa. Một Data pipelines là một nhóm logic của các hoạt động kết hợp để thực hiện một nhiệm vụ nhập dữ liệu. Các pipelines cho phép bạn quản lý các hoạt động trích xuất, biến đổi và tải (ETL) thay vì quản lý từng hoạt động cá nhân.

Trong hướng dẫn này, bạn sẽ tạo một pipelines mới để tải dữ liệu mẫu vào một warehouse trong Microsoft Fabric.

Tạo một đường dẫn dữ liệu

  1. Để tạo một pipelines mới, điều hướng đến không gian làm việc của bạn, chọn nút +New, và sau đó chọn Data pipeline. Ảnh chụp màn hình phần trên cùng của không gian làm việc của người dùng hiển thị nút Mới và các tùy chọn Kho, Đường dẫn dữ liệu và Hiển thị tất cả.
  2. Trong hộp thoại New pipeline, cung cấp tên cho pipelines mới của bạn và chọn Create.
  3. Bạn sẽ đến khu vực bảng vẽ pipelines, nơi bạn sẽ thấy ba tùy chọn để bắt đầu: Thêm một hoạt động pipelines, Sao chép dữ liệu và Chọn một nhiệm vụ để bắt đầu.
    Ảnh chụp màn hình hiển thị ba tùy chọn để bắt đầu nhập.
    Mỗi tùy chọn này cung cấp các lựa chọn khác nhau để tạo một pipelines:
    • Add pipeline activity:Tùy chọn này mở trình soạn thảo pipelines, nơi bạn có thể tạo các pipelines mới từ đầu bằng cách sử dụng các hoạt động pipelines. Copy data: Tùy chọn này mở một trợ lý từng bước giúp bạn chọn nguồn dữ liệu, đích và cấu hình các tùy chọn tải dữ liệu như ánh xạ cột. Khi hoàn thành, nó tạo một hoạt động pipelines mới với một nhiệm vụ Sao chép Dữ liệu đã được cấu hình sẵn cho bạn. Choose a task to start: Tùy chọn này mở một bộ mẫu được xác định trước để giúp bạn bắt đầu với các pipelines dựa trên các tình huống khác nhau.
    Chọn tùy chọn Copy data để khởi chạy Trợ lý Sao chép dữ liệu.
  4. Trang đầu tiên của Trợ lý Sao chép dữ liệu giúp bạn chọn dữ liệu của mình từ nhiều nguồn dữ liệu khác nhau hoặc chọn từ một trong các mẫu đã được cung cấp để bắt đầu. Đối với hướng dẫn này, chúng ta sẽ sử dụng Mẫu Dữ liệu Lake COVID-19. Chọn tùy chọn này và chọn Tiếp theo.
    Ảnh chụp màn hình hiển thị các lựa chọn sử dụng dữ liệu mẫu hoặc các nguồn dữ liệu khác.
  5. Trong trang tiếp theo, bạn có thể chọn một bộ dữ liệu, định dạng tệp nguồn và xem trước bộ dữ liệu đã chọn. Chọn Bing COVID-19, định dạng CSV và chọn Tiếp theo.Ảnh chụp màn hình hiển thị các tùy chọn tập dữ liệu khác nhau cho mẫu COVID-19, định dạng tệp và lưới hiển thị bản xem trước của dữ liệu.
  6. Trang tiếp theo,Data destinations, cho phép bạn cấu hình loại không gian làm việc đích. Chúng ta sẽ tải dữ liệu vào một warehouse lưu trữ trong không gian làm việc của chúng ta, vì vậy chọn tab Warehouse và tùy chọn Data Warehouse. Chọn Next.Ảnh chụp màn hình hiển thị các tùy chọn đích khác nhau.
    Bây giờ là lúc chọn warehouse để tải dữ liệu vào. Chọn warehouse mong muốn của bạn trong hộp thoại thả xuống và chọn Next.Ảnh chụp màn hình hiển thị danh sách thả xuống với kho được chọn.
  7. Bước cuối cùng để cấu hình đích là cung cấp tên cho bảng đích và cấu hình ánh xạ cột. Ở đây, bạn có thể chọn tải dữ liệu vào một bảng mới hoặc một bảng đã tồn tại, cung cấp tên schema và tên bảng, thay đổi tên cột, loại bỏ cột hoặc thay đổi ánh xạ của chúng. Bạn có thể chấp nhận giá trị mặc định hoặc điều chỉnh các thiết lập theo sở thích của bạn.Ảnh chụp màn hình hiển thị các tùy chọn tải dữ liệu vào bảng hiện có hoặc tạo bảng mới.
  8. Khi bạn đã xem xét xong các tùy chọn, chọn Next.
    Trang tiếp theo cho bạn lựa chọn sử dụng khu vực tạm, hoặc cung cấp các tùy chọn nâng cao cho hoạt động sao chép dữ liệu (sử dụng lệnh T-SQL COPY). Xem xét các tùy chọn mà không thay đổi chúng và chọn Next.
  9. Trang cuối cùng trong trợ lý cung cấp một tóm tắt về hoạt động sao chép. Chọn lựa chọn Start data transfer immediately và chọn Save + Run.

    Ảnh chụp màn hình hiển thị tùy chọn bắt đầu thao tác truyền dữ liệu ngay lập tức và các nút Quay lại và Lưu + Chạy.
  10. Bạn sẽ được chuyển đến khu vực bảng vẽ pipelines, nơi đã có một hoạt động Sao chép Dữ liệu mới được cấu hình sẵn cho bạn. pipelines sẽ bắt đầu chạy tự động. Bạn có thể theo dõi trạng thái của pipelines của mình trong cửa sổ Output:Ảnh chụp màn hình hiển thị canvas quy trình với hoạt động Sao chép ở giữa và trạng thái thực thi quy trình hiển thị trạng thái hiện tại Đang tiến hành.
  11. Sau vài giây, pipelines của bạn sẽ hoàn thành mà không gặp sự cố. Để xem dữ liệu và xác nhận rằng hoạt động sao chép đã kết thúc, hãy quay lại warehouse của bạn và chọn bảng của bạn để xem trước dữ liệu.Ảnh chụp màn hình hiển thị một kho có bảng bing_covid_19 được chọn và một lưới hiển thị bản xem trước dữ liệu trong bảng.

Để biết thêm về việc nhập dữ liệu vào Warehouse của bạn trong Microsoft Fabric, hãy truy cập:

Nguồn: https://learn.microsoft.com/en-us/fabric/data-warehouse/ingest-data-pipeline

spot_img

More from this stream

Recomended

Cập Nhật Google Analytics Quý 2/2024

Bài viết này cung cấp thông tin về các bản phát hành mới nhất trong Google Analytics trong quý 2 năm 2024.

[GA4] – Hiểu rõ về nguồn dữ liệu

Một nguồn dữ liệu là một nơi chứa dữ liệu bạn tải lên Analytics, bao gồm cơ sở dữ liệu, dịch vụ, hoặc tệp CSV bạn tải lên và một ánh xạ của các trường dữ liệu Analytics với các trường trong cơ sở dữ liệu, dịch vụ hoặc CSV bên ngoài của bạn.

Segment là gì?

Segment là một traditional Customer Data Platform (CDP) chuyên về việc thu thập sự kiện và kích hoạt dữ liệu.

Composable CDP là gì?

Composable CDP là một lớp kích hoạt cho phép bạn tạo ra đối tượng khán giả, điều phối hành trình, và gửi dữ liệu hiện tại của bạn đến các công cụ tiếp thị hàng đầu của bạn.

Traditional CDP và Composable CDP

Việc áp dụng rộng rãi của hệ thống lưu trữ dữ liệu đám mây đã cách mạng hóa không gian Customer Data Platform (CDP), dẫn đến sự xuất hiện của một kiến trúc CDP mạnh mẽ hơn, nguyên gốc từ hệ thống lưu trữ dữ liệu đám mây được biết đến là Composable CDP.

Customer Data Platform (CDP) là gì?

Một Customer Data Platform, hay CDP, là một giải pháp hoặc kiến trúc cho phép bạn thu thập, lưu trữ, mô hình hóa và kích hoạt dữ liệu khách hàng của bạn.