Sử dụng notebook để tải dữ liệu vào Lakehouse của bạn

Trong bài hướng dẫn này, học cách đọc/giữ liệu vào lakehouse của bạn bằng một notebook. Cả hai API Spark và API Pandas được hỗ trợ để đạt được mục tiêu này.

Tải dữ liệu bằng một API Apache Spark

Trong ô mã nguồn của notebook, sử dụng đoạn mã ví dụ sau để đọc dữ liệu từ nguồn và tải vào các phần Files, Tables hoặc cả hai trong lakehouse của bạn.

Để chỉ định vị trí để đọc từ, bạn có thể sử dụng đường dẫn tương đối nếu dữ liệu đến từ lakehouse mặc định của notebook hiện tại, hoặc bạn có thể sử dụng đường dẫn tuyệt đối ABFS nếu dữ liệu đến từ lakehouse khác. Bạn có thể sao chép đường dẫn này từ menu ngữ cảnh của dữ liệu.

Screenshot showing menu option of copy action.

Sao chép đường dẫn ABFS: Điều này trả về đường dẫn tuyệt đối của tệp tin.

Sao chép đường dẫn tương đối cho Spark: Điều này trả về đường dẫn tương đối của tệp tin trong lakehouse mặc định.

Python

df = spark.read.parquet("location to read from") 

# Keep it if you want to save dataframe as CSV files to Files section of the default Lakehouse

df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)

# Keep it if you want to save dataframe as Parquet files to Files section of the default Lakehouse

df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)

# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default Lakehouse

df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)

# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table

df.write.mode("append").format("delta").saveAsTable(delta_table_name)

Tải dữ liệu bằng một API Pandas

Để hỗ trợ API Pandas, lakehouse mặc định sẽ tự động được gắn kết vào sổ tay. Điểm gắn kết là ‘/lakehouse/default/’. Bạn có thể sử dụng điểm gắn kết này để đọc/giữ liệu từ/đến lakehouse mặc định. Tùy chọn “Sao chép đường dẫn API Tệp tin” từ menu ngữ cảnh sẽ trả về đường dẫn API Tệp từ điểm gắn kết đó. Đường dẫn trả về từ tùy chọn Copy ABFS path cũng hoạt động cho API Pandas.

Screenshot showing menu option of copy File API path.

Copy File API Path: Điều này trả về đường dẫn dưới điểm gắn kết của lakehouse mặc định.

Python

# Keep it if you want to read parquet file with Pandas from the default lakehouse mount point 

import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")

# Keep it if you want to read parquet file with Pandas from the absolute abfss path 

import pandas as pd
df = pd.read_parquet("abfss://[email protected]/Marketing_LH.Lakehouse/Files/sample.parquet")
Mẹo
Đối với API Spark, vui lòng sử dụng tùy chọn Copy ABFS path hoặc Copy relative path for Spark để lấy đường dẫn của tệp tin. Đối với API Pandas, vui lòng sử dụng tùy chọn Copy ABFS path hoặc Copy File API path để lấy đường dẫn của tệp tin.

Cách nhanh nhất để có mã nguồn hoạt động với API Spark hoặc API Pandas là sử dụng tùy chọn Load data và chọn API bạn muốn sử dụng. Mã nguồn sẽ tự động được tạo trong ô mã nguồn mới của sổ tay.

Screenshot showing where to select load data option.

Nguồn : https://learn.microsoft.com/en-us/fabric/data-engineering/lakehouse-notebook-load-data

spot_img

More from this stream

Recomended

Cập Nhật Google Analytics Quý 2/2024

Bài viết này cung cấp thông tin về các bản phát hành mới nhất trong Google Analytics trong quý 2 năm 2024.

[GA4] – Hiểu rõ về nguồn dữ liệu

Một nguồn dữ liệu là một nơi chứa dữ liệu bạn tải lên Analytics, bao gồm cơ sở dữ liệu, dịch vụ, hoặc tệp CSV bạn tải lên và một ánh xạ của các trường dữ liệu Analytics với các trường trong cơ sở dữ liệu, dịch vụ hoặc CSV bên ngoài của bạn.

Segment là gì?

Segment là một traditional Customer Data Platform (CDP) chuyên về việc thu thập sự kiện và kích hoạt dữ liệu.

Composable CDP là gì?

Composable CDP là một lớp kích hoạt cho phép bạn tạo ra đối tượng khán giả, điều phối hành trình, và gửi dữ liệu hiện tại của bạn đến các công cụ tiếp thị hàng đầu của bạn.

Traditional CDP và Composable CDP

Việc áp dụng rộng rãi của hệ thống lưu trữ dữ liệu đám mây đã cách mạng hóa không gian Customer Data Platform (CDP), dẫn đến sự xuất hiện của một kiến trúc CDP mạnh mẽ hơn, nguyên gốc từ hệ thống lưu trữ dữ liệu đám mây được biết đến là Composable CDP.

Customer Data Platform (CDP) là gì?

Một Customer Data Platform, hay CDP, là một giải pháp hoặc kiến trúc cho phép bạn thu thập, lưu trữ, mô hình hóa và kích hoạt dữ liệu khách hàng của bạn.