Nhập dữ liệu vào Warehouse

Warehouse lưu trữ trong Microsoft Fabric cung cấp các công cụ tiếp nhận dữ liệu tích hợp sẵn cho phép người dùng nhập dữ liệu vào Warehouse với quy mô lớn sử dụng trải nghiệm không cần mã hoặc trải nghiệm phong phú mã.

Tùy chọn nhập dữ liệu

Bạn có thể nhập dữ liệu vào một Warehouse bằng cách sử dụng một trong các tùy chọn sau đây:

  • COPY (Transact-SQL): Lệnh COPY cung cấp tính linh hoạt, nhập dữ liệu với năng suất cao từ một tài khoản lưu trữ Azure ngoài. Bạn có thể sử dụng lệnh COPY như một phần của logic ETL/ELT hiện tại của bạn trong mã Transact-SQL.
  • Data pipelines: đường ống dữ liệu cung cấp trải nghiệm không cần mã hoặc mã thấp cho việc nhập dữ liệu. Sử dụng đường ống dữ liệu, bạn có thể điều phối các quy trình làm việc mạnh mẽ cho trải nghiệm Extract, Transform, Load (ETL) đầy đủ bao gồm các hoạt động để giúp chuẩn bị môi trường đích, chạy các lệnh Transact-SQL tùy chỉnh, thực hiện tìm kiếm, hoặc sao chép dữ liệu từ nguồn đến đích.
  • Dataflows: một lựa chọn thay thế cho đường ống dữ liệu, luồng dữ liệu cho phép dễ dàng chuẩn bị dữ liệu, làm sạch và biến đổi sử dụng trải nghiệm không cần mã.
  • Cross-warehouse ingestion: việc nhập dữ liệu từ nguồn không gian cũng là khả năng. Tình huống này có thể cần thiết khi cần tạo một bảng mới với một phần của một bảng khác, hoặc như một kết quả của việc kết hợp các bảng khác nhau trong Warehouse và trong lakehouse. Đối với việc nhập dữ liệu giữa các Warehouse, ngoài các tùy chọn được đề cập, các tính năng Transact-SQL như INSERT…SELECTSELECT INTO, hoặc CREATE TABLE AS SELECT (CTAS) hoạt động giữa các Warehouse trong cùng một không gian làm việc.

Quyết định sử dụng công cụ nhập dữ liệu nào

Để quyết định tùy chọn nhập dữ liệu nào để sử dụng, bạn có thể sử dụng các tiêu chí sau đây:

  • Sử dụng lệnh COPY (Transact-SQL) cho các hoạt động nhập dữ liệu với mã phong phú, để có được tốc độ nhập dữ liệu cao nhất có thể, hoặc khi bạn cần thêm việc nhập dữ liệu như một phần của logic Transact-SQL.
  • Sử dụng đường ống dữ liệu cho trải nghiệm không cần mã hoặc mã thấp, quy trình nhập dữ liệu mạnh mẽ, được lặp lại, theo lịch trình, hoặc liên quan đến lượng dữ liệu lớn. Để biết thêm thông tin, xem bài viết này.
  • Sử dụng luồng dữ liệu cho trải nghiệm không cần mã, cho phép các biến đổi tùy chỉnh đối với dữ liệu nguồn trước khi nó được nhập. Những biến đổi này bao gồm (nhưng không giới hạn) việc thay đổi loại dữ liệu, thêm hoặc loại bỏ các cột, hoặc sử dụng các hàm để tạo các cột được tính toán.
  • Sử dụng việc nhập dữ liệu giữa các Warehouse cho trải nghiệm mã phong phú để tạo bảng mới với dữ liệu nguồn trong cùng một không gian làm việc. Để biết thêm thông tin, xem Nhập dữ liệu bằng Transact-SQLViết truy vấn cơ sở dữ liệu chéo.
  •  Ghi chú
  • Câu lệnh COPY trong Warehouse chỉ hỗ trợ các nguồn dữ liệu trên tài khoản lưu trữ Azure, với xác thực bằng Chữ ký truy cập chung (SAS), Khóa tài khoản lưu trữ (SAK) hoặc các tài khoản có quyền truy cập công khai.

Các định dạng và nguồn dữ liệu được hỗ trợ

Việc nhập dữ liệu cho Warehouse trong Microsoft Fabric cung cấp một số lượng lớn định dạng và nguồn dữ liệu bạn có thể sử dụng. Mỗi tùy chọn được đề cập đều bao gồm danh sách riêng của các loại kết nối dữ liệu được hỗ trợ và định dạng dữ liệu.

Việc nhập dữ liệu cho Warehouse trong Microsoft Fabric cung cấp một số lượng lớn định dạng và nguồn dữ liệu bạn có thể sử dụng. Mỗi tùy chọn được đề cập đều bao gồm danh sách riêng của các loại kết nối dữ liệu được hỗ trợ và định dạng dữ liệu.

Ví dụ, giả sử có hai Warehouse có tên là Inventory và Sales trong một không gian làm việc. Một truy vấn như truy vấn sau đây sẽ tạo một bảng mới trongWarehouse Inventory với nội dung của một bảng trong Warehouse Inventory, được kết hợp với một bảng trong Warehouse Sales:

SQL

CREATE TABLE Inventory.dbo.RegionalSalesOrders
AS
SELECT s.SalesOrders, i.ProductName
FROM Sales.dbo.SalesOrders s
JOIN Inventory.dbo.Products i
WHERE s.ProductID = i.ProductID
    AND s.Region = 'West region'

The COPY (Transact-SQL) statement currently supports the PARQUET and CSV file formats. For data sources, currently Azure Data Lake Storage (ADLS) Gen2 and Azure Blob Storage are supported.

Data pipelinesdataflows hỗ trợ nhiều nguồn dữ liệu và định dạng dữ liệu.

Thực hành

Tính năng lệnh COPY trong Warehouse Microsoft Fabric sử dụng giao diện đơn giản, linh hoạt và nhanh chóng cho việc nhập dữ liệu với năng suất cao cho các tải SQL. Trong phiên bản hiện tại, chúng tôi chỉ hỗ trợ việc tải dữ liệu từ các tài khoản lưu trữ bên ngoài.

Bạn cũng có thể sử dụng TSQL để tạo một bảng mới và sau đó chèn dữ liệu vào nó, và sau đó cập nhật và xóa các hàng dữ liệu. Dữ liệu có thể được chèn từ bất kỳ cơ sở dữ liệu nào trong không gian làm việc Microsoft Fabric sử dụng các truy vấn giữa các cơ sở dữ liệu. Nếu bạn muốn nhập dữ liệu từ một Lakehouse vào một Warehouse, bạn có thể làm điều này với một truy vấn giữa các cơ sở dữ liệu. Ví dụ:

SQL

INSERT INTO MyWarehouseTable
SELECT * FROM MyLakehouse.dbo.MyLakehouseTable;
  • Tránh việc nhập dữ liệu sử dụng các lệnh INSERT đơn lẻ, vì điều này gây ra hiệu suất kém cho các truy vấn và cập nhật. Nếu các lệnh INSERT đơn lẻ đã được sử dụng cho việc nhập dữ liệu liên tiếp, chúng tôi khuyến nghị tạo một bảng mới bằng cách sử dụng mô hình CREATE TABLE AS SELECT (CTAS) hoặc INSERT…SELECT, loại bỏ bảng gốc, và sau đó tạo lại bảng của bạn từ bảng bạn đã tạo sử dụng CREATE TABLE AS SELECT (CTAS) hoặc INSERT…SELECT.
  • Khi làm việc với dữ liệu ngoại vi trên các tệp, chúng tôi khuyến nghị rằng các tệp ít nhất phải có kích thước 4 MB.
  • Đối với các tệp CSV nén lớn, xem xét chia tách tệp của bạn thành nhiều tệp.
  • Azure Data Lake Storage (ADLS) Gen2 cung cấp hiệu suất tốt hơn so với Azure Blob Storage (phiên bản cũ). Xem xét sử dụng một tài khoản ADLS Gen2 khi có thể.
  • Đối với các đường ống dữ liệu chạy thường xuyên, xem xét cách ly tài khoản lưu trữ Azure của bạn khỏi các dịch vụ khác có thể truy cập vào cùng các tệp tại cùng một thời điểm.
  • Azure Data Lake Storage (ADLS) Gen2 cung cấp hiệu suất tốt hơn Azure Blob Storage (cũ). Hãy cân nhắc sử dụng tài khoản ADLS Gen2 bất cứ khi nào có thể.
  • Đối với các quy trình chạy thường xuyên, hãy xem xét cách ly tài khoản lưu trữ Azure của bạn khỏi các dịch vụ khác có thể truy cập cùng một tệp cùng lúc.
  • Giao dịch rõ ràng cho phép bạn nhóm nhiều thay đổi dữ liệu lại với nhau để chúng chỉ hiển thị khi đọc một hoặc nhiều bảng khi giao dịch được cam kết đầy đủ. Bạn cũng có khả năng khôi phục giao dịch nếu bất kỳ thay đổi nào không thành công.
  • Nếu CHỌN nằm trong một giao dịch và được chèn trước bằng cách chèn dữ liệu thì số liệu thống kê được tạo tự động có thể không chính xác sau khi khôi phục. Số liệu thống kê không chính xác có thể dẫn đến kế hoạch truy vấn và thời gian thực hiện không được tối ưu hóa. Nếu bạn khôi phục một giao dịch có CHỌN sau một CHÈN lớn, hãy cập nhật số liệu thống kê cho các cột được đề cập trong CHỌN của bạn.

Nguồn: https://learn.microsoft.com/en-us/fabric/data-warehouse/ingest-data

spot_img

More from this stream

Recomended

Cập Nhật Google Analytics Quý 2/2024

Bài viết này cung cấp thông tin về các bản phát hành mới nhất trong Google Analytics trong quý 2 năm 2024.

[GA4] – Hiểu rõ về nguồn dữ liệu

Một nguồn dữ liệu là một nơi chứa dữ liệu bạn tải lên Analytics, bao gồm cơ sở dữ liệu, dịch vụ, hoặc tệp CSV bạn tải lên và một ánh xạ của các trường dữ liệu Analytics với các trường trong cơ sở dữ liệu, dịch vụ hoặc CSV bên ngoài của bạn.

Segment là gì?

Segment là một traditional Customer Data Platform (CDP) chuyên về việc thu thập sự kiện và kích hoạt dữ liệu.

Composable CDP là gì?

Composable CDP là một lớp kích hoạt cho phép bạn tạo ra đối tượng khán giả, điều phối hành trình, và gửi dữ liệu hiện tại của bạn đến các công cụ tiếp thị hàng đầu của bạn.

Traditional CDP và Composable CDP

Việc áp dụng rộng rãi của hệ thống lưu trữ dữ liệu đám mây đã cách mạng hóa không gian Customer Data Platform (CDP), dẫn đến sự xuất hiện của một kiến trúc CDP mạnh mẽ hơn, nguyên gốc từ hệ thống lưu trữ dữ liệu đám mây được biết đến là Composable CDP.

Customer Data Platform (CDP) là gì?

Một Customer Data Platform, hay CDP, là một giải pháp hoặc kiến trúc cho phép bạn thu thập, lưu trữ, mô hình hóa và kích hoạt dữ liệu khách hàng của bạn.