Adobe – Cluster Analysis

Định nghĩa nhanh: Phân tích cụm là một hình thức phân tích dữ liệu thăm dò trong đó các quan sát được chia thành các nhóm có chung đặc điểm. Những nhóm này được so sánh và đối chiếu với các nhóm khác để rút ra thông tin về các quan sát.

Những điểm chính:

  • Phân tích cụm cho phép các tổ chức hiểu rõ hơn về khách hàng của mình bằng cách xác định các cá nhân có đặc điểm tương tự, điều này có thể cho biết cách tổ chức giao tiếp với những khách hàng đó.
  • Có năm cách tiếp cận phân cụm chính. Phổ biến nhất là phân cụm K-means và phân cụm theo cấp bậc hoặc phân cấp. Cách tiếp cận phân cụm mà một tổ chức thực hiện phụ thuộc vào những gì đang được phân tích và tại sao.
  • Để đảm bảo phân tích cụm chính xác, hãy chọn các biến hữu ích (hành vi, địa lý, nhân khẩu học, v.v.) để đánh giá các quan sát, phân cụm các quan sát vào đúng số nhóm và tạo các cụm có độ tương tự trong cụm cao và độ tương tự giữa các cụm thấp.

Các câu hỏi sau đã được trả lời trong cuộc phỏng vấn với John Bates, giám đốc quản lý sản phẩm của Giải pháp tiếp thị dự đoán và Analytics Premium cho Adobe Marketing Cloud.

Phân tích cụm là gì?

Phân tích cụm là một loại phân loại không được giám sát, nghĩa là nó không có bất kỳ lớp, định nghĩa hoặc kỳ vọng nào được xác định trước. Đó là một kỹ thuật khai thác dữ liệu thống kê được sử dụng để phân cụm các quan sát tương tự nhau nhưng không giống các nhóm quan sát khác.

Một cá nhân phân loại sôcôla từ hộp lấy mẫu là một phép ẩn dụ hay để hiểu về phân cụm. Người đó có thể có sở thích về một số loại sôcôla nhất định.

Khi họ sàng lọc hộp của mình, có rất nhiều cách để họ có thể nhóm sô cô la đó. Họ có thể nhóm nó theo sô cô la sữa và sô cô la đen, các loại hạt và không có hạt, trái cây

làm đầy, kẹo dẻo, v.v.

Quá trình tách các miếng kẹo thành từng đống kẹo giống nhau dựa trên những đặc điểm đó là phân cụm. Chúng tôi làm cả ngày.

Mục đích của việc phân cụm là gì?

Mục đích chung của phân tích cụm trong tiếp thị là xây dựng các nhóm hoặc cụm đồng thời đảm bảo rằng các quan sát giống nhau nhất có thể trong một nhóm.

Cuối cùng, mục đích phụ thuộc vào ứng dụng. Trong tiếp thị, việc phân nhóm giúp các nhà tiếp thị khám phá các nhóm khách hàng khác nhau trong cơ sở khách hàng của họ. Sau đó, họ sử dụng kiến ​​thức này để phát triển các chiến dịch tiếp thị có mục tiêu.

Ví dụ, việc phân nhóm có thể giúp một công ty bảo hiểm xác định các nhóm người mua bảo hiểm xe cơ giới có chi phí bồi thường trung bình cao.

Mục đích đằng sau việc phân cụm phụ thuộc vào cách một công ty dự định sử dụng nó, điều này phần lớn được thông báo bởi ngành, đơn vị kinh doanh và những gì công ty đang cố gắng đạt được.

Các loại phân cụm khác nhau là gì?

Có năm cách tiếp cận phân cụm chính khác nhau:

  • Thuật toán phân vùng
  • Thuật toán phân cấp
  • Thuật toán dựa trên mật độ
  • Thuật toán dựa trên lưới
  • Thuật toán dựa trên mô hình

Các phương pháp phân cụm phổ biến nhất là các thuật toán phân vùng và phân cấp.

Sự khác biệt chính giữa hai thuật toán này là các thuật toán phân vùng tìm cách tạo các phân vùng khác nhau và sau đó đánh giá chúng theo một số tiêu chí, trong khi các thuật toán dựa trên phân cấp phân tách hoặc phân chia thông tin dựa trên một tiêu chí.

Phân cụm K-mean có lẽ là thuật toán phân vùng phổ biến nhất. Nó thường được sử dụng khi số lượng lớp được ấn định trước. Một nhà phân tích cho thuật toán biết họ muốn chia các quan sát thành bao nhiêu cụm.

Sau đó, mỗi cụm được biểu thị bằng tâm của cụm hoặc giá trị trung bình. Đó là một lựa chọn hiệu quả, nhưng nó có một số điểm yếu. Nó chỉ áp dụng được khi giá trị trung bình được xác định và số lượng cụm được xác định trước.

Nó cũng không giải quyết tốt các trường hợp ngoại lệ, vì vậy nếu có những quan sát rất khác so với những quan sát còn lại thì K-mean không phải là lựa chọn tốt nhất.

Một loại thuật toán khác được gọi là tối đa hóa kỳ vọng (EM). EM là một loại thuật toán phân vùng nhưng dựa trên mô hình. Nó hoạt động tương tự như K-mean.

Tuy nhiên, thay vì gán các ví dụ cho các cụm để tối đa hóa sự khác biệt đó về phương tiện hoặc các biến, việc phân cụm EM theo các biến sẽ tính toán xác suất thành viên của cụm hoặc khả năng một quan sát đơn lẻ rơi vào một cụm cụ thể.

Nó sử dụng phân phối xác suất để tính toán con số đó.

Điều tuyệt vời về EM là nó không loại trừ lẫn nhau. Một khách hàng có thể có khả năng được liên kết với nhiều cụm.

Thông thường, chúng sẽ được xếp vào nhóm có xác suất cao nhất, nhưng chúng cũng có thể có nhiều đặc điểm hoặc đặc điểm với một cụm khác.

Mục đích của phân cụm theo cấp bậc là tạo ra một hệ thống phân cấp của các nhóm. Điều này có thể được thực hiện bằng một quy trình kết tụ, bắt đầu bằng mỗi quan sát trong cụm riêng của nó và sau đó ghép các quan sát tương tự ở nhiều cấp độ hoặc một quy trình phân chia.

Điều này bắt đầu với tất cả các quan sát trong một cụm duy nhất và sau đó chia chúng thành các nhóm khác nhau.

Cụm phân cấp giống như một cây trực quan hóa dữ liệu. Bạn có thể thấy cách mọi người bắt đầu cùng nhau và sau đó phân chia dựa trên các tiêu chí khác nhau. Phân cụm theo cấp bậc rất tốt để người dùng cuối có thể nhìn thấy các mối quan hệ đó.

Các đặc điểm của một phân tích cụm tốt là gì?

Một phương pháp phân cụm tốt sẽ tạo ra các cụm có chất lượng cao, nghĩa là có độ tương tự cao giữa các quan sát trong một cụm và độ tương tự thấp giữa các quan sát trong các cụm khác nhau.

Chất lượng của kết quả phân cụm phụ thuộc vào cả độ đo tương tự được sử dụng bởi phương pháp và việc thực hiện nó. Chất lượng cũng được đo bằng khả năng của phương pháp này trong việc khám phá một số hoặc tất cả các mẫu ẩn có thể tồn tại trong dữ liệu.

Phần lớn điều này được đánh giá bằng cách sử dụng cái gọi là “khoảng cách”. Các thuật toán phân cụm sử dụng thước đo khoảng cách hoặc số liệu để xác định cách phân tách các quan sát trong các nhóm khác nhau.

Khoảng cách phổ biến nhất được gọi là khoảng cách Euclide, cho biết khoảng cách từ tâm này đến tâm khác của cụm, nhưng có nhiều lựa chọn.

Thước đo khoảng cách thường cho thấy mức độ quan sát gần với giá trị trung bình hoặc giá trị trung bình của cụm và xác định hình dạng của cụm.

Những nhược điểm của phân tích cụm là gì và làm thế nào các công ty có thể tránh được vấn đề?

Phân tích cụm trong tiếp thị là một kỹ thuật thăm dò. Đó không phải là việc đưa ra dự đoán.

Trong trường hợp tối đa hóa kỳ vọng, thuật toán đã cho, nó có thể xem xét phân bố xác suất của dữ liệu và xác suất gán cho một cụm. Điều đó có nghĩa là nó không đưa ra bất kỳ dự đoán nào về những gì những người đó có thể làm tiếp theo.

Tất cả những gì EM thực sự đang làm là giúp hiểu dữ liệu qua nhiều biến số khác nhau cho một quan sát nhất định. Các công ty chỉ có thể xem xét đồng thời một vài bộ dữ liệu và xem các mẫu.

Những mô hình này rất hữu ích trong việc đánh giá nhiều dữ liệu nhằm xác định các mẫu đó và sau đó nhóm những người giống nhau dựa trên các đặc điểm đó.

Ưu điểm là nó giúp ích trong việc khám phá. Nó giúp cung cấp thông tin về chiến lược—cách một công ty có thể suy nghĩ về các chiến dịch tiếp thị của họ hoặc đưa ra các quyết định kinh doanh—nhưng đó không phải là mục đích cuối cùng.

Phân tích cụm cũng chỉ xem xét những khách hàng đã biết. Khi một khách hàng mới bắt đầu tương tác với doanh nghiệp và doanh nghiệp chưa có đủ dữ liệu cần thiết thì khách hàng đó là một ẩn số.

Chúng chưa được xác thực nên công ty có rất ít thông tin về chúng (ví dụ: nơi khách hàng sống). Phân tích cụm là tĩnh đối với nhiệm vụ tại thời điểm đó và chỉ liên quan đến dữ liệu được đưa vào đó.

Điều quan trọng là phải thường xuyên đánh giá lại việc phân cụm và áp dụng lại phân tích. Nếu dữ liệu mới xuất hiện, nó sẽ được đưa vào phân tích. Điều quan trọng là không bao giờ quá tập trung vào các nhiệm vụ của từng cụm riêng lẻ.

Cho phép các cụm được linh hoạt. Và hãy nhớ đánh giá cách khách hàng có thể di chuyển giữa các cụm dựa trên những tương tác nhất định mà họ có với doanh nghiệp.

Bạn thực hiện phân tích cụm như thế nào?

Bước đầu tiên của phân tích cụm thường là chọn phương pháp phân tích, phương pháp này sẽ phụ thuộc vào kích thước của dữ liệu và loại biến.

Ví dụ: phân cụm theo cấp bậc phù hợp với các tập dữ liệu nhỏ, trong khi phân cụm K-means phù hợp hơn với các tập dữ liệu lớn vừa phải và khi số lượng cụm được biết trước.

Các tập dữ liệu lớn thường yêu cầu kết hợp nhiều loại biến khác nhau và chúng thường yêu cầu quy trình gồm hai bước.

Sau khi bạn quyết định sử dụng phương pháp phân tích nào, hãy bắt đầu quá trình bằng cách chọn số lượng trường hợp để chia thành các nhóm hoặc cụm đồng nhất. Những trường hợp hoặc quan sát đó có thể là bất kỳ chủ đề, con người hoặc sự vật nào bạn muốn phân tích.

Tiếp theo, chọn các biến để đưa vào. Có thể có 1.000 biến số, thậm chí 10.000 hoặc 25.000. Số lượng và loại biến được chọn sẽ xác định loại thuật toán nào sẽ được sử dụng.

Sau đó, quyết định xem có nên chuẩn hóa các biến đó theo cách nào đó để mỗi biến đều đóng góp như nhau vào khoảng cách hoặc độ tương đồng giữa các trường hợp hay không. Tuy nhiên,

phân tích có thể được chạy với cả các biến được chuẩn hóa và không được chuẩn hóa.

Mỗi phương pháp phân tích có một cách tiếp cận khác nhau. Đối với phân cụm K-means, hãy chọn số lượng cụm, sau đó thuật toán sẽ ước tính lặp lại trung bình cụm và gán từng trường hợp cho cụm sao cho khoảng cách của nó với trung bình cụm là nhỏ nhất.

Đối với phân cụm theo cấp bậc, hãy chọn một thống kê định lượng khoảng cách giữa hai trường hợp hoặc hai trường hợp tương tự nhau.

Tiếp theo, thuật toán chọn phương pháp hình thành nhóm. Cuối cùng, thuật toán xác định cần bao nhiêu cụm để biểu diễn dữ liệu. Nó xem xét các cụm tương tự nhau và phân chia như thế nào.

Bạn làm gì với kết quả phân tích cụm?

Tùy thuộc vào phương pháp phân cụm, thường có một hình ảnh trực quan liên quan. Điều đó rất phổ biến để điều tra kết quả. Trong trường hợp K-mean, người ta thường sử dụng trục X, Y để hiển thị khoảng cách của các nhóm quan sát.

Bằng cách sử dụng kiểu quán tưởng đó, những nhóm đó trở nên rất rõ ràng. Trong trường hợp phân cụm theo cấp bậc, trực quan hóa được gọi là dendrogram được sử dụng, hiển thị các phần tách trong cây bị cắt.

Tại sao phân tích cụm lại quan trọng đối với chiến lược kinh doanh?

Phân tích cụm có thể mang lại lợi ích cho công ty theo nhiều cách, bao gồm cả cách họ tiếp thị sản phẩm của mình.

Nó có thể ảnh hưởng đến việc họ tiếp thị những sản phẩm đó cho ai, chiến lược giữ chân và bán hàng nào có thể được sử dụng cũng như cách họ có thể đánh giá khách hàng tiềm năng.

Họ có thể phân nhóm các khách hàng hiện tại và xác định giá trị lâu dài của họ so với xu hướng tiêu hao của họ, đồng thời điều đó có thể cho biết cách họ giao tiếp với các khách hàng khác nhau cũng như cách xác định những khách hàng mới có giá trị cao.

Làm thế nào để bạn đảm bảo phân tích cụm của bạn là chính xác?

Khi xem xét độ chính xác của một cụm, có ba yếu tố quan trọng: xu hướng cụm, số lượng cụm và chất lượng phân cụm.

Trước khi đánh giá hiệu suất của cụm, hãy đảm bảo tập dữ liệu bạn đang làm việc có xu hướng phân cụm, nghĩa là tập dữ liệu đó không chứa các điểm phân bố đồng đều.

Ví dụ: việc chọn một biến như “loài” sẽ không có lợi cho việc phân tích vì mọi quan sát đều giống nhau. Có các phương pháp thống kê để đánh giá xu hướng phân cụm.

Số lượng cụm là tham số bắt buộc đối với phân cụm K-mean, nhưng nó cũng hữu ích để đánh giá độ chính xác trong các phương pháp khác. Bằng cách xác định số lượng cụm mà một nhóm dự định làm việc cùng, họ có thể nhóm các quan sát theo cách tốt nhất để rút ra những hiểu biết hữu ích.

Quá ít cụm có nghĩa là tập hợp các quan sát không đủ giống nhau để thực hiện hành động, trong khi quá nhiều cụm sẽ phân chia các quan sát của bạn quá nhiều để không còn hữu ích.

Chất lượng phân cụm xem xét mức độ tương tự trong một cụm và giữa các cụm riêng biệt.

Có nhiều phương pháp để đảm bảo chất lượng phân cụm cao, bao gồm chỉ số rand được điều chỉnh, điểm Fowlkes-Mallows, điểm dựa trên thông tin lẫn nhau và tính hoàn chỉnh đồng nhất.

Tần suất các tổ chức cập nhật cụm?

Nó thường phụ thuộc vào trường hợp sử dụng. Một nhà bán lẻ công nghệ cao như Best Buy có thể sử dụng các cụm ở cấp cao nhất để sắp xếp toàn bộ doanh nghiệp theo từng cá nhân.

Mọi nhân viên, từ những người trong trung tâm cuộc gọi đến các cá nhân trong cửa hàng, đều có thể xem xét từng khách hàng và phân loại họ thành nhóm hoặc cá nhân mà họ phù hợp nhất.

Công ty sẽ không thay đổi các cụm đó thường xuyên vì chúng đưa ra chiến lược cấp cao hơn cho toàn bộ doanh nghiệp.

Nhưng sau đó, trong một số phòng ban nhất định, bạn có thể có các cụm vi mô. Với một trong những cụm cấp cao hơn, các công ty có thể muốn phân cụm các cá nhân thường xuyên hơn vì họ đang trải qua các giai đoạn vòng đời khác nhau của quy trình bán hàng.

Sau khi họ đã phân cụm khách hàng của mình, cụm đó sẽ trở nên cũ kỹ, vì vậy các công ty có thể phân cụm lại những cá nhân đó tùy thuộc vào thời gian của chu kỳ bán hàng.

Nguồn: https://business.adobe.com/blog/basics/cluster-analysis

spot_img

More from this stream

Recomended

Cập Nhật Google Analytics Quý 2/2024

Bài viết này cung cấp thông tin về các bản phát hành mới nhất trong Google Analytics trong quý 2 năm 2024.

[GA4] – Hiểu rõ về nguồn dữ liệu

Một nguồn dữ liệu là một nơi chứa dữ liệu bạn tải lên Analytics, bao gồm cơ sở dữ liệu, dịch vụ, hoặc tệp CSV bạn tải lên và một ánh xạ của các trường dữ liệu Analytics với các trường trong cơ sở dữ liệu, dịch vụ hoặc CSV bên ngoài của bạn.

Segment là gì?

Segment là một traditional Customer Data Platform (CDP) chuyên về việc thu thập sự kiện và kích hoạt dữ liệu.

Composable CDP là gì?

Composable CDP là một lớp kích hoạt cho phép bạn tạo ra đối tượng khán giả, điều phối hành trình, và gửi dữ liệu hiện tại của bạn đến các công cụ tiếp thị hàng đầu của bạn.

Traditional CDP và Composable CDP

Việc áp dụng rộng rãi của hệ thống lưu trữ dữ liệu đám mây đã cách mạng hóa không gian Customer Data Platform (CDP), dẫn đến sự xuất hiện của một kiến trúc CDP mạnh mẽ hơn, nguyên gốc từ hệ thống lưu trữ dữ liệu đám mây được biết đến là Composable CDP.

Customer Data Platform (CDP) là gì?

Một Customer Data Platform, hay CDP, là một giải pháp hoặc kiến trúc cho phép bạn thu thập, lưu trữ, mô hình hóa và kích hoạt dữ liệu khách hàng của bạn.