Phân tích đa tương ứng (MCA) PDF
Document Details
Uploaded by StaunchConnemara2004
Northeastern University
TS. Phạm Thị Mai Anh
Tags
Summary
Đây là bài giảng về phương pháp phân tích đa tương ứng (MCA). Bài giảng miêu tả khái niệm, nguyên lý và ứng dụng của MCA. Bài giảng sử dụng ví dụ minh họa để giúp người học hiểu rõ hơn về phương pháp này.
Full Transcript
11/8/2021 CHƯƠNG III PHÂN TÍCH ĐA TƯƠNG ỨNG (MCA) TS.Phạm Thị Mai Anh Khoa Thống kê, NEU Email: [email protected] Phân tích đa tương ứng - MCA Nội dung:Là mở rộng của CA. Mục đích: phân tích một bảng dữ liệu n x J có n qu...
11/8/2021 CHƯƠNG III PHÂN TÍCH ĐA TƯƠNG ỨNG (MCA) TS.Phạm Thị Mai Anh Khoa Thống kê, NEU Email: [email protected] Phân tích đa tương ứng - MCA Nội dung:Là mở rộng của CA. Mục đích: phân tích một bảng dữ liệu n x J có n quan sát và J biến định tính Lưu ý: có thể mã hoá dữ liệu định lượng thành định tính để áp dụng MCA 1 11/8/2021 Phân tích đa tương ứng - MCA Tác dụng: – Tính các chỉ số giúp lượng hoá các khái niệm trừu tượng được đo lường bằng nhiều chỉ báo (indicators) – Tạo ra các biến mới được tổng hợp từ nhiều biến ban đầu phục vụ cho các phân tích dữ liệu khác. – Trực quan kết quả phân tích bằng hình ảnh (đồ thị) – Có thể đưa thêm các phần tử bổ sung (đặc điểm của các quan sát) lên đồ thị. Dữ liệu trong MCA Giả sử có dữ liệu của n quan sát trên J biến định tính, mỗi biến j thuộc J có thể có kj PATL (thuộc tính). Ta có ma trận dữ liệu nxJ Mục tiêu: có thể vẽ được tập dữ liệu này trong không gian ít chiều hơn (Ví dụ không gian p Euclidean với p chiều, R ) trong khi muốn duy trì tối đa các thông tin từ tập dữ liệu ban đầu. 2 11/8/2021 Ví dụ về dữ liệu Tham khảo một câu hỏi từ Bộ phiếu hỏi Quản lý hành chính và dịch vụ công cấp tỉnh (PAPI) D604: Ông/bà thấy những ý kiến dưới đây về trạm xá xã/phường là đúng hay không đúng: Hoàn Đúng Không HT toàn đúng không đúng đúng a. Cơ sở hạ tầng chất lượng tốt 3 2 1 0 b. Thời gian chờ để được khám chữa bệnh hợp lý c. Đội ngũ chuyên môn có trình độ tốt d. Chi phí cho khám, chữa bệnh hợp lý e. Không phải trả thêm tiền ngoài quy định Bảng dữ liệu gốc ID D604a D604b D604c D604d D604e 1 3 2 1 2 0 2 2 1 1 0 2 3 3 2 0 1 1 Dữ liệu thường được xử lý dưới dạng ma trận thông số (Indicator Matrix/Complete Disjunctive Table) hoặc ma trận Burt 3 11/8/2021 Ví dụ về Indicator Matrix ID D604a_1 D604a_2 D604a_3 D604a_4 D604b_1 1 1 0 0 0 0 2 0 1 0 0 0 3 1 0 0 0 0 Các cột là các biến Dummy (0-1) Lưu ý về dữ liệu Đối với mỗi biến (câu hỏi), mỗi cá thể (quan sát) chỉ được chọn duy nhất một PATL. Tức là KHÔNG ĐƯỢC THIẾT KẾ CÂU HỎI NHIỀU LỰA CHỌN khi áp dụng MCA 8 4 11/8/2021 Burt matrix Một phần của ma trận Burt ID D604a_1 D604a_2 D604a_3 D604a_4 D604b_1 0 0 0 0 D604b_2 2 0 0 0 D604b_3 0 1 0 0 D604b_4 0 0 0 0 MCA: kỹ thuật Áp dụng CA trên ma trận thông số (Indicator matrix) Hoặc áp dụng CA trên ma trận Burt (Burt matrix) 5 11/8/2021 Ví dụ 1 Quan sát: n=4 Biến: J=3 – X1: xe máy (có =1; Không =2). Có 2 thuộc tính K1=2 – X2: cơ giới hóa (xe con=1; xe tải =2; máy nông nghiệp=3). Có 3 thuộc tính K2=3 – X3: trâu/bò(có=1, không =0). Có 2 thuộc tính K3=2 Tổng số thuộc tính: K=K1+K2+K3=2+3+2=7 Bảng dữ liệu gốc n X1 X2 X3 1 2 1 1 2 2 1 2 3 1 3 2 4 2 2 1 6 11/8/2021 Indicator matrix ID X1 X2 X3 Tổng X11 X12 X21 X22 X23 X31 X32 1 0 1 1 0 0 1 0 3 2 0 1 1 0 0 0 1 3 3 1 0 0 0 1 0 1 3 4 0 1 0 1 0 1 0 3 Tổng 1 3 2 1 1 2 2 12 Các kí hiệu xijk J ID X1 X2 X3 Tổng X11 X12 X21 X22 X23 X31 X32 1 0 1 1 0 0 1 0 3 2 0 1 1 0 0 0 1 3 3 1 0 0 0 1 0 1 3 4 0 1 0 1 0 1 0 3 Tổng 1 3 2 1 1 2 2 12 njk nJ 7 11/8/2021 Áp dụng MCA cho VD1 MCA trên các biến X1, X2, X3 = CA trên ma trận thông số Bảng % theo dòng (row profiles) xijk/J ID X1 X2 X3 Tổng X11 X12 X21 X22 X23 X31 X32 1 0 1/3 1/3 0 0 1/3 0 1 2 0 1/3 1/3 0 0 0 1/3 1 3 1/3 0 0 0 1/3 0 1/3 1 4 0 1/3 0 1/3 0 1/3 0 1 Tổng 1/12 3/12 2/12 1/12 1/12 2/12 2/12 1 njk/nJ 8 11/8/2021 Bảng % theo cột (column profiles) Xijk/nij ID X1 X2 X3 Tổng X11 X12 X21 X22 X23 X31 X32 1 0 1/3 1/2 0 0 1/2 0 1/4 2 0 1/3 1/2 0 0 0 1/2 1/4 3 1 0 0 0 1 0 1/2 1/4 4 0 1/3 0 1 0 1/2 0 1/4 Tổng 1 1 1 1 1 1 1 1 J/nJ Total Inertia Trong MCA, Total Inertia được tính theo công thức: Lưu ý: 1. Total Inertia chỉ phụ thuộc vào số lượng thuộc tính và số lượng biến mà KHÔNG PHỤ THUỘC VÀO MỐI LIÊN HỆ GIỮA CÁC BIẾN Thận trọng khi giải thích TI trong MCA 9 11/8/2021 Đóng góp vào Total Inertia 1. Đóng góp của thuộc tính k của biến j vào TI là: Tính cho VD1 Đóng góp của 1 thuộc tính vào TI càng cao nếu njk càng nhỏ Một thuộc tính có tần số thấp có ảnh hưởng lớn hơn rất nhiều so với thuộc tính nhận được nhiều trả lời => Lưu ý khi phân tích dữ liệu Đóng góp vào Total Inertia 2. Đóng góp của 1 biến vào TI là: Tính cho ví dụ 1 Biến có nhiều PATL thì đóng góp vào TI càng lớn Khi thiết kế bảng hỏi, nên thiết kế số thuộc tính (PATL) của mỗi câu hỏi là như nhau 10 11/8/2021 Xác định số lượng trục được giữ lại MCA tạo ra số lượng TPC (số chiều) là : K-J. MCA sử dụng quy tắc: GIỮ LẠI CÁC TPC CÓ EIGENVALUES LỚN HƠN 1/J (1/J là giá trị trung bình của các eigenvalues) Biểu diễn kết quả trên đồ thị Khi biểu diễn kết quả của MCA áp dụng cho ma trận thông số (indicator matrix) trên không gian 2 chiều (Biplot), việc diễn đạt đồ thị sẽ theo hướng mô tả mối liên hệ giữa quan sát và các thuộc tính. 11 11/8/2021 MCA với ma trận Burt Khi nào thì áp dụng CA với ma trận Burt? – Khi cỡ mẫu n lớn: việc đọc kết quả theo hướng liên hệ giữa quan sát với các thuộc tính là không thể – Khi chúng ta không quan tâm đến các quan sát mà chỉ quan tâm đến các thuộc tính Khi áp dụng CA với ma trận Burt, row profiles và colummn profiles là giống hệt nhau Ma trận Burt cho VD1 ID X1 X2 X3 Tổng X11 X12 X21 X22 X23 X31 X32 X11 X12 X21 X22 X23 X31 X32 Tổng Quy trình áp dụng CA cho ma trận Burt tương tự như quy trình CA 12 11/8/2021 Lưu ý khác biệt giữa PCA và MCA Cả PCA và MCA có thể sử dụng với dữ liệu có thang đo thứ bậc nhưng có khác biệt sau: – PCA giả định dữ liệu bắt buộc phải là thứ bậc và khoảng cách giữa các thứ bậc là như nhau trong khi MCA không sử dụng các giả định này. – PCA là phương pháp tuyến tính trong khi MCA là phương pháp phi tuyến tính. Có một phương pháp trung gian giữa PCA và MCA được biết đến với tên gọi CatPCA hoặc NLPCA (tự tìm hiểu). 13