Adobe – Hồ dữ liệu

Định nghĩa nhanh: Hồ dữ liệu là kho lưu trữ trung tâm cho tất cả dữ liệu khách hàng thô mà công ty thu thập cũng như mọi dữ liệu có liên quan của bên thứ ba.

Những điểm chính:

  • Hồ dữ liệu là một vị trí duy nhất nơi tất cả dữ liệu thô do khách hàng của công ty tạo ra có thể được lưu trữ để dễ dàng khám phá, truy cập và phân tích.
  • Các thành phần chính của hồ dữ liệu là giải pháp lưu trữ, danh mục để phân loại và xác định thông tin, khung quản trị và hệ thống truy cập dữ liệu.
  • Hồ dữ liệu cung cấp nhiều không gian lưu trữ hơn và khả năng làm việc với dữ liệu tốt hơn so với cơ sở dữ liệu hoặc kho dữ liệu truyền thống.
  • Để tận dụng tốt nhất hồ dữ liệu, bạn cần có khả năng quản trị mạnh mẽ để đảm bảo mọi người trong công ty hiểu ai có thể sử dụng dữ liệu và cách sử dụng dữ liệu đó.

Thông tin sau được cung cấp trong cuộc phỏng vấn với Anurag Dodeja, giám đốc sản phẩm nhóm Adobe Experience Platform.

Hồ dữ liệu là gì?

Hồ dữ liệu là một kho lưu trữ tập trung nơi bạn có thể lưu trữ tất cả các loại dữ liệu, cả có cấu trúc và không cấu trúc. Bạn có thể sử dụng hồ dữ liệu để lưu trữ dữ liệu nguyên trạng nhằm bắt đầu xử lý phân tích, trực quan hóa các mẫu và trình tự, đồng thời sử dụng công nghệ học máy để đưa ra quyết định tốt hơn.

Mục đích của hồ dữ liệu là gì?

Hồ dữ liệu giống như một kho lưu trữ, nơi bạn có tất cả dữ liệu có cấu trúc, bán cấu trúc và không cấu trúc trên toàn doanh nghiệp ở một nơi duy nhất.

Khi dữ liệu đã có trong hồ, một công ty có thể thực hiện nhiều chức năng khác nhau, bao gồm học máy,  phân tích và kích hoạt. Và do sự gia tăng của dữ liệu lớn, hồ dữ liệu cung cấp giải pháp lưu trữ và quản lý lượng dữ liệu khổng lồ.

Tại sao hồ dữ liệu lại quan trọng?

Dữ liệu là loại dầu mới. Đó là một nguồn tài nguyên thiết yếu và có giá trị. Hầu hết các tổ chức đang ngày càng đưa ra nhiều quyết định kinh doanh hơn và họ sử dụng những hiểu biết sâu sắc được lấy từ dữ liệu để đưa ra những quyết định đó.

Các công ty kỳ vọng rằng nếu họ đưa ra  quyết định dựa trên dữ liệu, họ sẽ hoạt động tốt hơn các công ty cùng ngành. Phong trào đưa ra lựa chọn dựa trên dữ liệu đã thúc đẩy nhu cầu không chỉ có nhiều dữ liệu hơn mà còn phải tập hợp dữ liệu từ các bộ phận khác nhau vào một vị trí trung tâm.

Với dữ liệu ở một vị trí duy nhất mà mọi người trong tổ chức đều có thể truy cập, tất cả những người ra quyết định đều có thông tin họ cần để tiến về phía trước và không có sai sót trong giao tiếp.

Hồ dữ liệu bắt nguồn như thế nào?

Theo truyền thống, dữ liệu được lưu trữ trong cơ sở dữ liệu và kho dữ liệu, nhưng qua nhiều năm, số lượng dữ liệu mà các công ty làm việc đã tăng lên.

Dữ liệu mà các công ty thu thập và làm việc tăng lên mỗi năm và nhiều bộ phận CNTT cũng như người thực hành cần một nơi mà họ có thể lưu trữ tất cả dữ liệu đó và sử dụng nó để có được kiến ​​thức và hiểu biết sâu sắc hơn.

Đó là nơi chúng tôi đã đi – từ cơ sở dữ liệu và kho dữ liệu – được tối ưu hóa để phân tích, đến hồ dữ liệu, nơi cung cấp nhiều dung lượng lưu trữ chung hơn cho tất cả dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc của bạn.

Kiến trúc hồ dữ liệu là gì?

Kiến trúc hồ dữ liệu là hệ thống áp đặt trên hồ dữ liệu để tổ chức và cấu trúc dữ liệu.

Thành phần đầu tiên bạn cần cho hồ dữ liệu là nơi lưu trữ tất cả dữ liệu của bạn, cho dù dữ liệu quan hệ đến từ một ngành kinh doanh hay dữ liệu phi quan hệ đến từ ứng dụng di động, thiết bị IOT (Internet of Things) hoặc phương tiện truyền thông xã hội.

Tuy nhiên, không phải tất cả các kho dữ liệu đều được xây dựng giống nhau. Một cách tốt nhất là không sử dụng tùy chọn lưu trữ dữ liệu rẻ nhất hiện có. Một tùy chọn mạnh sẽ có độ bền cao, có khả năng mở rộng lên đến petabyte, bảo mật từ góc độ lưu trữ mã hóa, có khả năng chịu lỗi và có tính năng dự phòng để bảo vệ dữ liệu khỏi bị mất.

Ví dụ: khi khách hàng sử dụng kho lưu trữ dữ liệu như Dropbox hoặc iCloud, họ sẽ có cảm giác tin tưởng rằng dịch vụ đó sẽ không làm mất dữ liệu hoặc cho phép dữ liệu bị xâm phạm. Bất kỳ hồ dữ liệu tốt nào cũng phải cung cấp mức độ tin cậy như nhau.

Danh mục hoặc cách tổ chức và tìm kiếm dữ liệu là một tính năng quan trọng khác. Nếu bạn tiếp tục thêm dữ liệu vào kho lưu trữ thiếu kiến ​​trúc có thể sử dụng được, hồ dữ liệu của bạn sẽ biến thành một đầm lầy dữ liệu. Danh mục có thể ngăn hồ dữ liệu trở thành một tập hợp thông tin vô tổ chức.

Nó cho phép bạn nhanh chóng khám phá nội dung của hồ dữ liệu và tìm hiểu xem dữ liệu cung cấp thông tin gì, dữ liệu đến từ đâu khi được làm mới lần cuối và bất kỳ số liệu cần thiết nào khác. Nó cũng tạo ra một hệ thống kiểm soát quản trị, chỉ định ai có thể sử dụng dữ liệu và cho mục đích gì.

Việc lập danh mục có thể được thực hiện bằng tay hoặc bằng máy học. Một số công ty viết chương trình hoặc dịch vụ riêng của họ để lập danh mục dữ liệu. Các giải pháp khác liên tục tìm hiểu về dữ liệu để lập danh mục và cung cấp thông tin chi tiết tốt hơn.

Có một khuôn khổ quản trị là rất quan trọng. Ví dụ: nhiều lần, một nhà tiếp thị sẽ thu thập dữ liệu từ bên thứ ba cho một mục đích cụ thể. Sau đó, nhà khoa học dữ liệu có thể cố gắng sử dụng dữ liệu đó cho mục đích khác.

Nếu họ chỉ nhìn vào dữ liệu, họ không biết liệu họ có thể sử dụng nó hay không. Nhưng nếu bạn có khung quản trị, bạn có thể nhanh chóng tìm ra cách dữ liệu có thể được sử dụng hoặc không.

Ví dụ: Adobe sử dụng khung Thực thi và Ghi nhãn Sử dụng Dữ liệu (DULE) để quản trị dữ liệu trong Nền tảng Trải nghiệm Adobe.

Khung DULE đơn giản hóa quá trình tổ chức và phân loại dữ liệu, đồng thời cung cấp thông tin về cách sử dụng dữ liệu và những hạn chế có thể tồn tại.

Điều quan trọng nữa là phải có lớp truy cập dữ liệu trên đỉnh hồ để đảm bảo người dùng có thể dễ dàng sử dụng dữ liệu.

Một giải pháp là có một giao diện lập trình ứng dụng (API) hoặc bộ công cụ phát triển phần mềm (SDK) duy nhất mà mọi người có thể sử dụng, giúp mọi người có thể truy cập dữ liệu bất kỳ lúc nào một cách đơn giản. Việc có liên kết SQL phía trên API hoặc SDK cũng cho phép người dùng truy vấn và phân tích dữ liệu.

Các công ty xây dựng kiến ​​trúc hồ dữ liệu như thế nào?

Một số giải pháp, như Adobe Experience Platform, cung cấp kho lưu trữ với kiến ​​trúc đã được tích hợp sẵn. Những khách hàng khác có thể thích các giải pháp điểm do họ tự tập hợp lại.

Ví dụ: Apache cung cấp các giải pháp nguồn mở cho việc lập danh mục và các sản phẩm thương mại khác cung cấp giải pháp quản trị.

Nhiều công ty lấy hồ dữ liệu từ một nguồn như Amazon, Google Cloud hoặc Azure Storage, sau đó đưa vào các giải pháp riêng biệt cho các thành phần lập danh mục, quản trị và truy cập dữ liệu theo cách thủ công.

Mặc dù đây là một lựa chọn khả thi nhưng nó thường đòi hỏi rất nhiều khoản đầu tư vào CNTT để làm cho tất cả những phần đó khớp với nhau và hoạt động.

Những phương pháp hay nhất nào có thể giúp các công ty sử dụng hồ dữ liệu thành công hơn?

Trước tiên, hãy đảm bảo rằng công ty của bạn phù hợp với ý nghĩa của dữ liệu và cách nó sẽ được sử dụng. Mục đích của hồ dữ liệu là đưa dữ liệu từ các nguồn khác nhau vào và giúp các bộ phận khác nhau trong tổ chức có thể dễ dàng sử dụng dữ liệu đó.

Nếu không có một triết lý duy nhất hoặc nếu các nhóm khác nhau trong công ty không nói cùng một ngôn ngữ thì những người khác nhau sẽ khó truy cập dữ liệu để liên lạc với nhau. Việc truy cập vào cùng một hồ dữ liệu không tự động đảm bảo tất cả thành viên của công ty đều nói cùng một ngôn ngữ.

Lập mô hình ngôn ngữ và tạo ra một định nghĩa duy nhất là một phần quan trọng trong việc quản lý hồ dữ liệu mà công ty cần dành thời gian. Họ cần hỏi: “Làm cách nào để chúng ta cấu trúc nó theo cách mà bất kỳ ai cũng có thể hiểu được?”

Các công ty cũng nên chú ý đến các biện pháp kiểm soát cần áp dụng với dữ liệu. Cần có sự đồng thuận trong công ty về việc ai có thể sử dụng dữ liệu trong hồ và cho mục đích gì, bên cạnh các hạn chế hợp đồng tích hợp đi kèm với dữ liệu.

Hầu hết dữ liệu đều có giới hạn về thời gian bạn có thể lưu giữ trước khi phải xóa. Hồ dữ liệu phải tính đến điều đó và khi một công ty thêm dữ liệu vào hồ, họ cần đảm bảo tất cả thông tin hợp đồng cũng được chuyển đến.

Và thay vì nhập thông tin đó theo cách thủ công, các hồ dữ liệu tốt nhất sẽ có lớp phần mềm tự động quản lý hợp đồng.

Cuối cùng, các công ty cần chủ động đảm bảo hồ dữ liệu không trở thành đầm lầy.

Khi bạn không có kiến ​​thức tốt để hiểu dữ liệu đến từ đâu, ai đã cắm nó vào hoặc nó đến khi nào và mọi người tạo bản sao của dữ liệu và thao tác với dữ liệu đó, thì dữ liệu có thể dễ dàng bị mất và không thể sử dụng được.

Bạn cần đảm bảo có đủ siêu dữ liệu và thiết lập các biện pháp kiểm soát phù hợp để dữ liệu có thể tiếp tục được phát hiện và sử dụng khi cần thiết.

Có phải mọi công ty đều cần sử dụng hồ dữ liệu?

Khi quyết định xem có cần đầu tư vào hồ dữ liệu hay không, tổ chức cần xem xét các mục tiêu và mục tiêu kinh doanh của mình. Một chủ doanh nghiệp rất nhỏ có thể sẽ không cần hồ dữ liệu để quản lý hàng tồn kho.

Tuy nhiên, nếu doanh nghiệp nhỏ đó hiện bị ảnh hưởng bởi COVID-19 và đột nhiên cần quản lý việc bán hàng qua nhiều nền tảng như Etsy và Facebook, đồng thời họ chạy các chiến dịch tiếp thị trên Facebook, Twitter và Google, họ sẽ cần một nơi để mang tất cả các dữ liệu cần thiết lại với nhau.

Bằng cách sử dụng hồ dữ liệu, chủ doanh nghiệp có thể tìm ra cách thức và nơi đầu tư tiền của họ cũng như khách hàng của họ là ai. Cách duy nhất để thực hiện bất kỳ phân tích nâng cao nào về tất cả dữ liệu đó đến từ những nơi khác nhau ở các định dạng khác nhau là thu thập tất cả dữ liệu đó ở một nơi duy nhất.

Nói chung, nếu một công ty không cần sử dụng hồ dữ liệu thì việc đầu tư vào một hồ dữ liệu sẽ không có ý nghĩa gì. Tuy nhiên, hồ dữ liệu thường không có chi phí quá cao, đặc biệt nếu bạn làm việc với nhà cung cấp cung cấp hồ dữ liệu dưới dạng gói hoàn chỉnh.

Nếu bạn chọn xây dựng kiến ​​trúc hồ dữ liệu của riêng mình từ nhiều giải pháp khác nhau, chi phí có thể bắt đầu tăng lên, đặc biệt nếu bạn cần đầu tư thêm vào nhân tài CNTT để kết hợp mọi thứ lại với nhau.

Những hạn chế của hồ dữ liệu là gì?

Hồ dữ liệu được xây dựng có mục đích cho khối lượng công việc phân tích. Nó phải có khả năng chạy máy học trên dữ liệu, học từ dữ liệu và rút ra những hiểu biết sâu sắc từ dữ liệu.

Tuy nhiên, hồ dữ liệu không phải là hệ thống giao dịch của bạn. Nó không phải là hệ thống của bạn nơi bạn lưu trữ các giao dịch ngân hàng. Nó cũng không phải là nơi lưu trữ đa năng cho bất kỳ loại dữ liệu nào, đặc biệt là hệ điều hành quan trọng.

Các hồ dữ liệu sẽ tiếp tục phát triển như thế nào theo thời gian?

Trong tương lai, nhiều nhà cung cấp sẽ cung cấp giải pháp hồ dữ liệu hoàn chỉnh, bao gồm hệ thống lưu trữ, lập danh mục, quản trị và truy cập dữ liệu, thay vì bán từng phần riêng lẻ.

Hồ dữ liệu cũng có thể thay đổi để cho phép tùy chọn trở thành hệ thống giao dịch.

Số lượng giao dịch kỹ thuật số ngày càng tăng cùng với lượng dữ liệu, do đó, các hồ dữ liệu có thể phát triển để hoạt động hiệu quả hơn theo thời gian.

Nguồn: https://business.adobe.com/blog/basics/data-lake

spot_img

More from this stream

Recomended

Cập Nhật Google Analytics Quý 2/2024

Bài viết này cung cấp thông tin về các bản phát hành mới nhất trong Google Analytics trong quý 2 năm 2024.

[GA4] – Hiểu rõ về nguồn dữ liệu

Một nguồn dữ liệu là một nơi chứa dữ liệu bạn tải lên Analytics, bao gồm cơ sở dữ liệu, dịch vụ, hoặc tệp CSV bạn tải lên và một ánh xạ của các trường dữ liệu Analytics với các trường trong cơ sở dữ liệu, dịch vụ hoặc CSV bên ngoài của bạn.

Segment là gì?

Segment là một traditional Customer Data Platform (CDP) chuyên về việc thu thập sự kiện và kích hoạt dữ liệu.

Composable CDP là gì?

Composable CDP là một lớp kích hoạt cho phép bạn tạo ra đối tượng khán giả, điều phối hành trình, và gửi dữ liệu hiện tại của bạn đến các công cụ tiếp thị hàng đầu của bạn.

Traditional CDP và Composable CDP

Việc áp dụng rộng rãi của hệ thống lưu trữ dữ liệu đám mây đã cách mạng hóa không gian Customer Data Platform (CDP), dẫn đến sự xuất hiện của một kiến trúc CDP mạnh mẽ hơn, nguyên gốc từ hệ thống lưu trữ dữ liệu đám mây được biết đến là Composable CDP.

Customer Data Platform (CDP) là gì?

Một Customer Data Platform, hay CDP, là một giải pháp hoặc kiến trúc cho phép bạn thu thập, lưu trữ, mô hình hóa và kích hoạt dữ liệu khách hàng của bạn.