Adobe – Phân tích tương quan

Định nghĩa nhanh: Phân tích tương quan, còn được gọi là bivariate, chủ yếu liên quan đến việc tìm hiểu xem liệu mối quan hệ có tồn tại giữa các biến hay không và sau đó xác định mức độ cũng như hành động của mối quan hệ đó.

Những điểm chính:

  • Mối tương quan không có quan hệ nhân quả bằng nhau. Phân tích tương quan nhận dạng và đánh giá mối quan hệ giữa hai biến, nhưng mối tương quan dương không tự động có nghĩa là biến này ảnh hưởng đến biến kia.
  • Lợi ích chính của phân tích tương quan là nó giúp các công ty xác định những biến số nào họ muốn điều tra thêm và cho phép kiểm tra giả thuyết nhanh chóng.
  • Loại phân tích tương quan chính sử dụng công thức r của Pearson để xác định mức độ của mối quan hệ tuyến tính giữa hai biến.
  • Do lượng dữ liệu có sẵn, các công ty phải cân nhắc kỹ lưỡng khi quyết định nên phân tích biến nào.

Thông tin sau được cung cấp trong cuộc phỏng vấn với John Bates, giám đốc quản lý sản phẩm về các giải pháp tiếp thị dự đoán và Adobe Analytics Premium trong Adobe Experience Cloud.

Phân tích tương quan là gì?

Nghiên cứu tương quan là nỗ lực của chúng tôi nhằm tìm ra mức độ liên quan giữa hai biến số. Không có biến số nào được thao túng như một phần của thử nghiệm – nhà phân tích đang đo lường các sự kiện, hành vi hoặc đặc điểm xảy ra tự nhiên.

Điều quan trọng cần nhớ là mối tương quan không bằng quan hệ nhân quả. Bạn không thể đưa ra bất kỳ kết luận nào về tác động nhân quả của loại dữ liệu này lên loại dữ liệu kia, nhưng bạn có thể xác định quy mô, mức độ và hướng của mối quan hệ.

Các loại phân tích tương quan chính là gì?

Các loại phân tích tương quan phổ biến nhất thuộc ba nhóm chính. Hệ số tương quan Pearson được sử dụng cho các biến liên quan tuyến tính, như tuổi tác và chiều cao hoặc nhiệt độ và doanh số bán kem.

Nó đòi hỏi những giả định nhất định về các biến: ví dụ, nó giả định các biến được kết nối tuyến tính và có phân phối chuẩn.

Mặt khác, mối tương quan thứ tự xếp hạng của Spearman không mang bất kỳ giả định nào về việc phân phối dữ liệu.

Nó thích hợp nhất khi phân tích tương quan được áp dụng cho các biến có chứa một số loại trật tự tự nhiên, như mối quan hệ giữa mức lương khởi điểm và các bằng cấp khác nhau (trung học, cử nhân, thạc sĩ, v.v.) hoặc tuổi tác và thu nhập.

Loại phân tích tương quan chính thứ ba là tương quan tau của Kendall và nó được sử dụng trong các cặp xếp hạng.

Mục đích của mối tương quan tau của Kendall là xác định mức độ phụ thuộc giữa hai biến. Nếu giá trị hệ số bằng 0 thì hai biến X và Y có thể được coi là độc lập với nhau.

Giá trị kinh doanh của phân tích tương quan là gì?

Phân tích tương quan rất hữu ích để xác định các đầu vào có thể có cho phân tích phức tạp hơn hoặc để kiểm tra các thay đổi trong tương lai trong khi giữ nguyên các yếu tố khác. Bạn cũng có thể muốn hiểu mối quan hệ giữa hai biến.

Điều tuyệt vời về phân tích tương quan là nó khá dễ diễn giải và dễ hiểu vì bạn chỉ tập trung vào phương sai của một hàng dữ liệu so với phương sai của tập dữ liệu khác.

Yếu tố chính thúc đẩy giá trị doanh nghiệp là nó có thể được sử dụng để phát hiện các vấn đề tiềm ẩn trong công ty.

Phân tích tương quan giúp phát hiện các vấn đề của công ty như thế nào?

Phân tích tương quan cũng có thể được sử dụng để chẩn đoán các vấn đề với nhiều mô hình hồi quy. Bạn có thể gặp một số vấn đề với mô hình hồi quy đa biến hoặc đa biến, trong đó nó không hoạt động hoặc bạn có các biến độc lập khác nhau không thực sự độc lập.

Những vấn đề đó có thể được phát hiện bằng cách thực hiện phân tích tương quan giữa các biến độc lập khác nhau.

Phân tích tương quan cũng là một cách nhanh chóng để xác định các vấn đề tiềm ẩn của công ty. Nếu có mối tương quan giữa hai biến số, phân tích tương quan sẽ tạo cơ hội cho việc kiểm tra giả thuyết nhanh chóng, đặc biệt nếu việc kiểm tra có rủi ro thấp và không yêu cầu đầu tư đáng kể về thời gian và tiền bạc.

Ví dụ: bạn có thể thấy rằng có mối tương quan tích cực giữa việc khách hàng xem đánh giá về một sản phẩm cụ thể và việc họ có mua sản phẩm đó hay không.

Bạn không thể nói chắc chắn rằng các đánh giá về sản phẩm đã thúc đẩy việc mua hàng, nhưng nó chỉ ra nơi mà việc thử nghiệm có thể cung cấp thêm thông tin.

Nếu bạn có thể thu hút thêm 10% người xem đánh giá sản phẩm, đặc biệt là những đánh giá tích cực, bạn có thể tăng số lượng mua hàng không? Các mối tương quan có thể giúp thúc đẩy các giả thuyết khác nhau mà sau đó có thể được kiểm tra nhanh chóng, đặc biệt là trong môi trường kỹ thuật số.

Các công ty gặp phải vấn đề gì khi tiến hành phân tích tương quan?

Vấn đề chính mà các công ty gặp phải khi phân tích tương quan là nhiều người thường nhanh chóng cho rằng phân tích chỉ ra quan hệ nhân quả. Chỉ có thử nghiệm thích hợp mới có thể xác định liệu bạn có đang xem xét các biến độc lập và phụ thuộc hay không.

Một trong những thách thức hiện đại của phân tích tương quan là, với rất nhiều dữ liệu tồn tại, có thể có những mối tương quan tương tự và mối quan hệ được củng cố giữa nhiều biến số hoặc bộ dữ liệu khác nhau với một bộ dữ liệu khác.

Có thể bạn sẽ bị tê liệt khi quyết định biến nào sẽ được đánh giá chặt chẽ hơn sau này bằng cách sử dụng phân tích đa biến. Không phải lúc nào cũng rõ ràng mối quan hệ tương quan nào sẽ có lợi nhất để theo đuổi.

Điều quan trọng là chọn một người có thể đại diện cho những người khác không thực sự độc lập.

Ví dụ: khi xem xét đơn đặt hàng hoặc giao dịch mua hàng, có thể có mối tương quan tương tự giữa biến đó với số lượt truy cập vào trang web hoặc cửa hàng, số lượt xem trang và số lượng khách truy cập.

Về cơ bản, có ba thách thức chính mà nhiều công ty gặp phải khi tiến hành phân tích tương quan.

Thách thức khi làm việc với các tập dữ liệu tương tự là gì?

Một trong những thách thức là đảm bảo rằng nhóm của bạn hiểu rằng bạn có thể có nhiều bộ dữ liệu tương quan theo cách tương tự vì chúng có bản chất giống nhau.

Các bộ dữ liệu này có thể được thu thập cùng lúc hoặc với cùng tần suất hoặc chúng có thể có một số mối quan hệ vốn có. Điều quan trọng là phải ghi nhớ mối quan hệ đó khi xem xét các biến khác nhau có kết quả tương quan tương tự.

Tại sao thiếu dữ liệu là một vấn đề?

Các công ty cũng có thể gặp vấn đề với việc thiếu dữ liệu. Giả sử bạn đang xem xét mối tương quan giữa giá cổ phiếu và doanh số bán hàng trong một khoảng thời gian cụ thể.

Nếu bạn đột nhiên bị thiếu dữ liệu trong một khoảng thời gian hoặc nếu các biến không thẳng hàng, nó thực sự có thể làm hỏng bản phân tích tương quan vì nó sẽ coi dữ liệu bị thiếu là số 0, mặc dù có sự khác biệt giữa hai.

Để giảm thiểu các vấn đề tiềm ẩn, hãy đảm bảo bạn chọn khoảng thời gian cho dữ liệu bạn đang thu thập hoặc các quan sát có sự phân bổ phù hợp, các giả định phù hợp với dữ liệu cơ bản và bạn áp dụng kỹ thuật phù hợp.

Và khi thiếu dữ liệu, hãy loại trừ nó. Nếu bạn đang xem dữ liệu dựa trên thời gian, hãy cố gắng tìm khoảng thời gian quan sát có dữ liệu được thu thập nhất quán.

Thách thức của sự liên kết yếu là gì?

Một vấn đề lớn khác có thể xảy ra là khi một công ty cho rằng vì mối tương quan có ý nghĩa thống kê nên điều đó có nghĩa là phải có mối liên hệ chặt chẽ. Nhưng đây không phải là luôn luôn như vậy. Mối quan hệ có thể có ý nghĩa thống kê nhưng vẫn có mối liên hệ yếu.

Phân tích tương quan chỉ đơn giản là kiểm tra giả thuyết không có mối quan hệ nào. Bằng cách bác bỏ giả thuyết không, bạn chấp nhận giả thuyết thay thế tuyên bố rằng có mối quan hệ nhưng không có thông tin về độ mạnh của mối quan hệ hoặc tầm quan trọng của nó.

Hãy cẩn thận về cách bạn giải thích sự liên kết hoặc tương quan, vì hệ số tương quan và ý nghĩa thống kê là hai khái niệm riêng biệt.

Công thức r của Pearson là gì?

Công thức r của Pearson là thống kê được sử dụng nhiều nhất để đo lường mức độ của mối quan hệ giữa các biến liên quan tuyến tính. Khi chạy công thức, bạn sẽ nhận được báo cáo tương quan về hai biến được kiểm tra.

Đầu ra thường được biểu thị dưới dạng hệ số tương quan thời điểm sản phẩm Pearson, còn được gọi là r . Giá trị r dương (+1) biểu thị mối tương quan dương mạnh mẽ, trong khi giá trị r âm (-1) biểu thị mối tương quan âm mạnh mẽ . Giá trị r bằng 0 cho thấy không có mối tương quan.

Có một số phần khác của công thức r Pearson và báo cáo tương quan. Như đã giải thích trước đó, r là một thuật ngữ khác cho hệ số xuất hiện trong báo cáo của bạn. Hệ số này thường xuất hiện cùng với bậc tự do (df).

Mức độ tự do là số điểm dữ liệu bạn có, trừ đi hai. Vì vậy, đầu ra sẽ báo cáo rằng r , trong bối cảnh bậc tự do, bằng một hệ số tương quan nào đó.

Một điều khác thường được báo cáo cùng với hệ số là giá trị p , cho biết ý nghĩa thống kê của mối tương quan. Một phần khác của báo cáo tương quan là r bình phương, được gọi là hệ số xác định.

Hệ số xác định, xét về mối tương quan, là tỷ lệ phương sai được chia sẻ bởi cả hai biến. Nó đưa ra thước đo về mức độ biến thiên có thể được giải thích bằng mô hình hoặc mối tương quan.

Giá trị này thường được viết dưới dạng biến hoặc phần trăm, như r bình phương bằng 0,36.

Vì mục đích của ví dụ sau, chúng tôi sẽ chỉ tập trung vào r và các biến X và Y. Nếu bạn muốn xác định mối tương quan giữa số lượt xem trang (X) và doanh thu (Y), bạn liệt kê tất cả các giá trị X và Y cho một khung thời gian cụ thể, sau đó cắm những con số đó vào công thức vào đúng vị trí.

Nếu giá trị của r nằm trong khoảng từ 0 đến 1, điều đó cho thấy rằng khi lượt xem trang tăng lên, doanh thu cũng sẽ tăng lên. Tương tự, giá trị từ 0 đến âm sẽ cho biết rằng khi số lượt xem trang tăng lên thì doanh thu sẽ giảm xuống.

Tuy nhiên, công thức r của Pearson chỉ có thể cho bạn biết liệu có mối tương quan giữa hai biến hay không, chứ không phải liệu một trong các biến có ảnh hưởng trực tiếp đến biến kia hay không.

Nguồn: https://business.adobe.com/blog/basics/correlation-analysis

spot_img

More from this stream

Recomended

Cập Nhật Google Analytics Quý 2/2024

Bài viết này cung cấp thông tin về các bản phát hành mới nhất trong Google Analytics trong quý 2 năm 2024.

[GA4] – Hiểu rõ về nguồn dữ liệu

Một nguồn dữ liệu là một nơi chứa dữ liệu bạn tải lên Analytics, bao gồm cơ sở dữ liệu, dịch vụ, hoặc tệp CSV bạn tải lên và một ánh xạ của các trường dữ liệu Analytics với các trường trong cơ sở dữ liệu, dịch vụ hoặc CSV bên ngoài của bạn.

Segment là gì?

Segment là một traditional Customer Data Platform (CDP) chuyên về việc thu thập sự kiện và kích hoạt dữ liệu.

Composable CDP là gì?

Composable CDP là một lớp kích hoạt cho phép bạn tạo ra đối tượng khán giả, điều phối hành trình, và gửi dữ liệu hiện tại của bạn đến các công cụ tiếp thị hàng đầu của bạn.

Traditional CDP và Composable CDP

Việc áp dụng rộng rãi của hệ thống lưu trữ dữ liệu đám mây đã cách mạng hóa không gian Customer Data Platform (CDP), dẫn đến sự xuất hiện của một kiến trúc CDP mạnh mẽ hơn, nguyên gốc từ hệ thống lưu trữ dữ liệu đám mây được biết đến là Composable CDP.

Customer Data Platform (CDP) là gì?

Một Customer Data Platform, hay CDP, là một giải pháp hoặc kiến trúc cho phép bạn thu thập, lưu trữ, mô hình hóa và kích hoạt dữ liệu khách hàng của bạn.