Cách sử dụng Microsoft Fabric notebook

The Microsoft Fabric notebook là một phần mã nguồn chính để phát triển các công việc Apache Spark và thực nghiệm máy học. Đây là một giao diện tương tác trực tuyến dựa trên web được sử dụng bởi các nhà khoa học dữ liệu và kỹ sư dữ liệu để viết mã, tirch hưởng từ các hiển thị trực quan phong phú và văn bản Markdown. Các kỹ sư dữ liệu viết mã cho quá trình nhập dữ liệu, chuẩn bị dữ liệu và biến đổi dữ liệu. Các nhà khoa học dữ liệu cũng sử dụng sổ tay để xây dựng các giải pháp máy học, bao gồm việc tạo thực nghiệm và mô hình, theo dõi mô hình và triển khai.

Với một Fabric notebook, bạn có thể :

  • Bắt đầu mà không cần bất kỳ nỗ lực cài đặt nào.
  • Khám phá và xử lý dữ liệu một cách dễ dàng với trải nghiệm low-code trực quan.
  • Bảo vệ dữ liệu với các tính năng bảo mật doanh nghiệp tích hợp sẵn.
  • Phân tích dữ liệu trên các định dạng nguyên bản (CSV, txt, JSON, vv.), định dạng tệp đã xử lý (parquet, Delta Lake, vv.), sử dụng các khả năng mạnh mẽ của Spark.
  • Tăng cường hiệu suất với khả năng soạn thảo nâng cao và tích hợp tính năng trực quan hóa dữ liệu.

Bài viết này mô tả cách sử dụng notebooks về khoa học dữ liệu và kinh nghiệm kỹ thuật dữ liệu.

Tạo notebooks

Bạn có thể tạo một notebook mớihoặc nhập một notebook hiện có.

Tạo một notebook mới

Như các quy trình tạo mục Fabric tiêu chuẩn khác, bạn có thể dễ dàng tạo một notebook mới từ Data Engineering, tùy chọn New trong không gian làm việc, hoặc từ Create Hub.

Nhập notebook hiện có

Bạn có thể nhập khẩu một hoặc nhiều notebook hiện có từ máy tính cục bộ của bạn vào một không gian làm việc Fabric từ Data Engineering hoặc the Data Science. Sổ tay Fabric nhận diện các tệp chuẩn Jupyter Notebook .ipynb và các tệp nguồn như .py, .scala, và .sql, và tạo các mục sổ tay mới tương ứng.

Screenshot showing where to find notebook options on the New menu.

Xuất một notebook

Bạn có thể xuất notebook của mình sang các định dạng tiêu chuẩn khác. Notebook Synapse có thể được xuất sang:

  • Tệp notebook tiêu chuẩn (.ipynb) được sử dụng cho notebook Jupyter.
  • Một tệp HTML (.html) có thể mở trực tiếp từ trình duyệt.
  • Một tệp Python (.py).
  • Một tệp Latex (.tex).
Screenshot showing where to export notebook.

Lưu một notebook

Trong Fabric, một notebook sẽ tự động lưu mặc định sau khi bạn mở và chỉnh sửa nó; bạn không cần phải lo lắng về việc mất các thay đổi mã. Bạn cũng có thể sử dụng Save a copy để sao chép một bản sao khác trong không gian làm việc hiện tại hoặc sang một không gian làm việc khác.

Screenshot showing where to save a copy.

Nếu bạn muốn lưu một notebook bằng cách thủ công, bạn có thể chuyển sang tùy chọn Manual save để có một nhánh cục bộ của mục notebook của bạn, sau đó sử dụng Save hoặc CTRL+s để lưu các thay đổi của bạn.

Screenshot showing where to switch manual save.

Bạn cũng có thể chuyển sang chế độ lưu thủ công bằng cách chọn Edit -> Save options -> Manual. Để bật một nhánh cục bộ của notebook sau đó lưu nó theo cách thủ công, hãy chọn Save hoặc sử dụng phím tắt bàn phím Ctrl+s.

Kết nối lakehouses và notebooks

Fabric notebook hiện đang hỗ trợ tương tác chặt chẽ với lakehouses; bạn có thể dễ dàng thêm một lakehouse mới hoặc hiện tại từ Lakehouse explorer.

Bạn có thể điều hướng đến các lakehouse khác nhau trong Lakehouse explorer và đặt một lakehouse làm mặc định bằng cách ghim nó. Lakehouse mặc định của bạn sau đó được gắn kết vào thư mục làm việc thời gian chạy, và bạn có thể đọc hoặc ghi vào lakehouse mặc định bằng cách sử dụng đường dẫn cục bộ.

Screenshot showing where to pin a default lakehouse.

Thêm hoặc xóa một lakehouse

Chọn biểu tượng X bên cạnh tên lakehouse sẽ loại bỏ nó khỏi tab notebooks, nhưng mục lakehouse vẫn tồn tại trong không gian làm việc.

Chọn Add lakehouse để thêm nhiều lakehouse vào notebook, cả bằng cách thêm một lakehouse hiện tại hoặc tạo một lakehouse mới.

Khám phá một tập tin lakehouse

Các thư mục con và tệp tin trong phần Tables and Files của Lake view xuất hiện trong một khu vực nội dung giữa danh sách lakehouse và nội dung notebook. Chọn các thư mục khác nhau trong phần Tables and Files để làm mới khu vực nội dung.

Thao tác với thư mục và tập tin

Nếu bạn chọn một tệp (.csv, .parquet, .txt, .jpg, .png, vv.) bằng cách nhấp chuột phải, bạn có thể sử dụng API của Spark hoặc Pandas để tải dữ liệu. Một ô mã mới sẽ được tạo và chèn bên dưới ô được chú trọng.

Bạn có thể dễ dàng sao chép đường dẫn với định dạng khác nhau từ tệp hoặc thư mục đã chọn và sử dụng đường dẫn tương ứng trong mã của bạn.

Screenshot showing context menu of files in lakehouse.

Tài nguyên của notebook

Trình duyệt tài nguyên notebook cung cấp một hệ thống tệp giống như Unix để giúp bạn quản lý thư mục và tệp của mình. Nó cung cấp một không gian hệ thống tệp có thể ghi được, nơi bạn có thể lưu trữ các tệp có kích thước nhỏ, chẳng hạn như các mô-đun mã, mô hình ngữ nghĩa và hình ảnh. Bạn có thể dễ dàng truy cập chúng với mã trong notebook như là bạn đang làm việc với hệ thống tệp cục bộ của mình.

Animated GIF of notebook resources.

Thư mục tích hợp này là một thư mục được xác định trước bởi hệ thống cho mỗi phiên sổ tay. Nó giữ lại đến 500MB lưu trữ để lưu trữ các phụ thuộc của notebook hiện tại. Đây là những khả năng chính của tài nguyên sổ tay:

  • Bạn có thể sử dụng các thao tác phổ biến như tạo/xóa, tải lên/tải xuống, kéo/thả, đổi tên, sao chép và tìm kiếm thông qua giao diện người dùng.
  • Bạn có thể sử dụng các đường dẫn tương đối như builtin/YourData.txt để khám phá nhanh. Phương thức mssparkutils.nbResPath giúp bạn soạn đường dẫn đầy đủ.
  • Bạn có thể dễ dàng chuyển dữ liệu đã được xác thực của mình vào một lakehouse thông qua tùy chọn Write to lakehouse. Fabric có các đoạn mã nhanh cho các loại tệp thông thường giúp bạn bắt đầu nhanh chóng.
  • Những tài nguyên này cũng có sẵn để sử dụng trong Reference notebook run case via mssparkutils.notebook.run().
Ghi chú
Hiện tại, Fabric hỗ trợ tải lên một số loại tệp nhất định thông qua giao diện người dùng, bao gồm, .py, .whl, .jar, .txt, .json, .yml, .xml, .csv, .html, .png, .jpg, and .xlsx files.Bạn có thể ghi vào thư mục tích hợp với các loại tệp không có trong danh sách thông qua mã, tuy nhiên, Fabric notebook không hỗ trợ tạo đoạn mã trên các loại tệp không được hỗ trợ.
Mỗi kích thước tệp cần phải nhỏ hơn 50 MB và thư mục tích hợp cho phép tổng cộng tối đa 100 phiên bản tệp/thư mục.
Khi sử dụng  mssparkutils.notebook.run(), dùng mssparkutils.nbResPath lệnh để truy cập vào tài nguyên notebook mục tiêu. Đường dẫn tương đối "builtin/" luôn trỏ đến thư mục tích hợp của notebook gốc.

Hợp tác trong một notebook

Fabric notebook là một mục hợp tác hỗ trợ nhiều người dùng chỉnh sửa cùng một sổ tay.

Khi bạn mở một ntoebook, bạn mặc định vào chế độ chỉnh sửa cộng tác, và mọi chỉnh sửa notebook đều được tự động lưu. Nếu đồng nghiệp của bạn mở cùng một notebook vào cùng một thời điểm, bạn sẽ thấy hồ sơ của họ, đầu ra chạy, chỉ số con trỏ, chỉ số lựa chọn và dấu vết chỉnh sửa. Bằng cách sử dụng các tính năng hợp tác, bạn có thể dễ dàng thực hiện lập trình theo cặp, gỡ lỗi từ xa và các tình huống giảng dạy.

Screenshot showing a code cell with another user editing.

Chia sẻ một notebook

Chia sẻ notebook là một cách thuận tiện để bạn cộng tác với các thành viên trong nhóm. Theo mặc định, các vai trò không gian làm việc được ủy quyền có thể xem hoặc chỉnh sửa/chạy notebook. Bạn có thể chia sẻ notebook với các quyền được chỉ định.

  1. Chọn Share trên thanh công cụ của notebook.
    Screenshot showing where to select Share.
  2. Chọn loại người tương ứng có thể xem notebook này. Bạn có thể chọn quyền ShareEdit hoặc Run cho notebook người nhận.
    Screenshot showing where to select permissions.
  3. Sau khi bạn chọn Apply, bạn có thể gửi trực tiếp notebook hoặc sao chép liên kết để chia sẻ với người khác. Người nhận sau đó có thể mở notebook với quyền xem tương ứng được cấp phép cho mức độ quyền hạn của họ.Screenshot showing where to create and send link.
  4. Để quản lý thêm các quyền trong notebook của bạn, hãy chọn Workspace item list > More options, rồi chọn Manage permissions. Từ màn hình đó, bạn có thể cập nhật quyền truy cập và quyền của notebook hiện có.Screenshot showing where to manage permissions in workspace.

Comment một ô mã

Bình luận là một tính năng hữu ích khác trong các tình huống hợp tác. Hiện tại, Fabric hỗ trợ thêm bình luận ở cấp độ ô.

  1. Chọn nút Comments trên thanh công cụ của notebook hoặc chỉ số bình luận ô để mở bảng điều khiển Comments.Screenshot showing where to select Comment.
  2. Chọn mã trong ô mã, chọn New trong bảng điều khiển Comments, thêm bình luận, sau đó chọn Post comment để lưu.
    Screenshot showing where to select New.
  3. Nếu bạn cần, hãy tìm các tùy chọn Edit commentResolve threadDelete thread bằng cách chọn tùy chọn More bên cạnh bình luận của bạn.

Chuyển đổi chế độ notebook

Fabric notebooks hỗ trợ hai chế độ mà bạn có thể dễ dàng chuyển đổi giữa: EditingViewing.

Screenshot showing where switch modes.
  • Editing : Bạn có thể chỉnh sửa và chạy các ô và cộng tác với người khác trong notebook.
  • Viewing: Bạn chỉ có thể xem nội dung ô, đầu ra và bình luận của notebook. Tất cả các thao tác tạo thay đổi cho notebook đều bị vô hiệu hóa.

Nguồn : https://learn.microsoft.com/en-us/fabric/data-engineering/how-to-use-noteboo

spot_img

More from this stream

Recomended

Cập Nhật Google Analytics Quý 2/2024

Bài viết này cung cấp thông tin về các bản phát hành mới nhất trong Google Analytics trong quý 2 năm 2024.

[GA4] – Hiểu rõ về nguồn dữ liệu

Một nguồn dữ liệu là một nơi chứa dữ liệu bạn tải lên Analytics, bao gồm cơ sở dữ liệu, dịch vụ, hoặc tệp CSV bạn tải lên và một ánh xạ của các trường dữ liệu Analytics với các trường trong cơ sở dữ liệu, dịch vụ hoặc CSV bên ngoài của bạn.

Segment là gì?

Segment là một traditional Customer Data Platform (CDP) chuyên về việc thu thập sự kiện và kích hoạt dữ liệu.

Composable CDP là gì?

Composable CDP là một lớp kích hoạt cho phép bạn tạo ra đối tượng khán giả, điều phối hành trình, và gửi dữ liệu hiện tại của bạn đến các công cụ tiếp thị hàng đầu của bạn.

Traditional CDP và Composable CDP

Việc áp dụng rộng rãi của hệ thống lưu trữ dữ liệu đám mây đã cách mạng hóa không gian Customer Data Platform (CDP), dẫn đến sự xuất hiện của một kiến trúc CDP mạnh mẽ hơn, nguyên gốc từ hệ thống lưu trữ dữ liệu đám mây được biết đến là Composable CDP.

Customer Data Platform (CDP) là gì?

Một Customer Data Platform, hay CDP, là một giải pháp hoặc kiến trúc cho phép bạn thu thập, lưu trữ, mô hình hóa và kích hoạt dữ liệu khách hàng của bạn.