Câu hỏi ôn tập môn Kho dữ liệu và Khai phá dữ liệu PDF
Document Details
Uploaded by Deleted User
Tags
Summary
Đây là một tài liệu ôn tập cho môn Kho dữ liệu và Khai phá dữ liệu. Tài liệu bao gồm các câu hỏi và kiến thức về kho dữ liệu, các mô hình dữ liệu như Star Schema và Snowflake Schema.
Full Transcript
**CÂU HỎI ÔN TẬP CHO THI VẤN ĐÁP** **MÔN KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU** Câu 1: Nêu khái niệm kho dữ liệu: Kho dữ liệu data warehouse là một hệ thống lưu trữ dữ liệu từ nhiều nguồn khác nhau Mục đích chính là hỗ trợ việc phân tích và báo cáo dữ liệu - Giúp doanh nghiệp: Đưa ra các quyết địn...
**CÂU HỎI ÔN TẬP CHO THI VẤN ĐÁP** **MÔN KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU** Câu 1: Nêu khái niệm kho dữ liệu: Kho dữ liệu data warehouse là một hệ thống lưu trữ dữ liệu từ nhiều nguồn khác nhau Mục đích chính là hỗ trợ việc phân tích và báo cáo dữ liệu - Giúp doanh nghiệp: Đưa ra các quyết định sáng suốt hơn, tiết kiệm thời gian, nâng cao hiệu quả phân tích dữ liệu, hỗ trợ ra quyết định nhanh chóng, chính xác hơn. - "Kho dữ liệu là một tập hợp dữ liệu hướng chủ đề, tích hợp, có tính thời gian, không thay đổi để hỗ trợ quá trình tạo quyết định quản lý." Câu 2: Kho dữ liệu có một số đặc điểm chính như: - Hướng chủ đề object oriented: Dữ liệu được tổ chức theo các chủ đề - Giúp dễ dàng phân tích, truy xuất các thông tin liên quan - Tích hợp integrated: Dữ liệu từ nhiều nguồn khác nhau được tích hợp lại - Cung cấp cái nhìn tổng thể và nhất quán - Có gán nhãn thời gian time variant: Dữ liệu được gán nhãn thời gian - Theo dõi các thay đổi theo thời gian - Bất biến non-volatile: Dữ liệu không thay đổi sau khi lưu trữ - Đảm bảo tính nhất quán và chính xác Câu 3: Các thức hoạt động của kho dữ liệu: Hoạt động như một kho lưu trữ trung tâm: Dữ liệu từ nhiều nguồn khác nhau - Thu thập - Xử lý - Lưu trữ - Phục vụ phân tích, báo cáo Các bước chính của kho dữ liệu: 1. Tích xuất extract: Dữ liệu được lấy từ nhiều nguồn khác nhau 2. Chuyển đổi transform: Dữ liệu được làm sạch, chuẩn hóa, chuyển đổi thành định dạng phù hợp với kho dữ liệu (Loại bỏ dữ liệu trùng lặp, sửa lỗi, định dạng lại dữ liệu) 3. Tải load: Dữ liệu đã chuyển đổi được tải vào kho dữ liệu. Tùy thuộc vào yêu cầu doanh nghiệp: a. Diễn ra theo lô batch b. Diễn ra theo thời gian thực realtime Câu 4: Các công cụ phổ biến cho kho dữ liệu: 6 công cụ tất cả: 1. Amazon redshift 2. Google bigquery 3. Microsoft azure synapse analytics 4. Snowflake 5. Oracle autônmous data warehouse 6. IBM db2 warehouse Câu 5: Mô hình dữ liệu đa chiều là gì, các thành phần chính của mô hình này: Mô hình dữ liệu đa chiều multidimensional data model - Một cách tổ chức dữ liệu trong kho dữ liệu - Dữ liệu được mô hình hóa - Dữ liệu được xem xét theo nhiều chiều - Phân tích dữ liệu trực quan và hiệu quả hơn - Người dùng dễ dàng truy xuất, tổng hợp thông tin từ nhiều góc độ khác nhau Các thành phần chính của mô hình: 1. Khối dữ liệu data cube 2. Chiều dimensional 3. Độ đo mesure 4. Cây phân cấp hierachy 5. **Lược đồ hình sao star schema** 6. **Lược đồ bông tuyết snowflake schema** Câu 6: So sánh lược đồ hình sao và lược đồ hình bông tuyết +-----------------------+-----------------------+-----------------------+ | | Lược đồ hình sao | Lược đồ hình bông | | | | tuyết | +=======================+=======================+=======================+ | Cấu trúc | - Một bảng sự kiện | - Biến thể của lược | | | fact table ở | đồ hình sao | | | trung tâm | | | | | - Các bảng chiều | | | - Các bảng chiều | dimmensional | | | dimmensional | table chuẩn hóa | | | table ở xung | thành nhiều bảng | | | quanh | nhỏ hơn | +-----------------------+-----------------------+-----------------------+ | Đặc điểm | - Không chuẩn hóa | - Chuẩn hóa: Giảm | | | | thiểu sự dư thừa | | | - Hiệu suất truy | dữ liệu | | | vấn nhanh hơn: Số | | | | lượng phép nối | - Hiệu suất truy | | | joins ít hơn | vấn chậm hơn: Số | | | | lượng phép nối | | | - Dễ hiểu và sử | joins nhiều hơn | | | dụng | và phức tạp hơn | | | | | | | - Dữ thừa dữ liệu | - Bảo trì và thay | | | cao hơn: Do không | đổi: Dễ hơn do | | | chuẩn hóa | cấu trúc chuẩn | | | | hóa | | | | | | | | - Phức tạp hơn | +-----------------------+-----------------------+-----------------------+ | **Hiệu suất truy | Nhanh hơn: Ít phép | Chậm hơn: Nhiều phép | | vấn** | nối hơn | nối phức tạp hơn | +-----------------------+-----------------------+-----------------------+ | **Dễ bảo trì** | Khó hơn: Dữ liệu | Dễ hơn: Dữ liệu được | | | không được chuẩn hóa | chuẩn hóa | +-----------------------+-----------------------+-----------------------+ | **Dư thừa dữ liệu** | Cao hơn | Giảm thiểu sự dư thừa | | | | này | +-----------------------+-----------------------+-----------------------+ Câu 7: Kiến trúc kho dữ liệu phổ biến: 3 loại phổ biến trong doanh nghiệp: +-----------------+-----------------+-----------------+-----------------+ | | Một tầng | Hai tầng | Ba tầng | | | | | | | | Single-tier | Two-tier arch | Three-tier arch | | | arch | | | +=================+=================+=================+=================+ | Đặc điểm | - Đơn giản: | - Phân tách | - Phổ biến | | | Tất cả dữ | rõ ràng: QT | nhất | | | liệu được | phân tích | | | | lưu trong 1 | tách biệt | - 3 lớp: Lớp | | | lớp duy | với QT kinh | nguồn, lớp | | | nhất | doanh | đối chiếu, | | | | | lớp kho dữ | | | - Không phổ | - 4 giai | liệu | | | biến: Do | đoạn: Lớp | | | | không tách | nguồn, giai | | | | biệt được | đoạn dữ | | | | giữa xử lý | liệu, lớp | | | | phân tích | kho dữ | | | | và giao | liệu, lớp | | | | dịch | phân tích | | +-----------------+-----------------+-----------------+-----------------+ | Ưu điểm | - Giảm thiểu | - Kiểm soát | - Tính toán | | | dư thừa dữ | tốt hơn | vẹn cao: | | | liệu: Do | | Đảm bảo | | | lưu trữ tất | - Dễ hiểu | tính chính | | | cả trong | | xác, nhất | | | cùng một | | quan của dữ | | | lớp | | liệu | | | | | | | | | | - Linh hoạt: | | | | | Phù hợp với | | | | | hệ thống | | | | | mở, toàn | | | | | doanh | | | | | nghiệp | +-----------------+-----------------+-----------------+-----------------+ | Nhược điểm | - Hiệu suất | - Phức tạp | - Tốn kém | | | thấp: Không | hơn: Cấu | không gian | | | phù hợp với | trúc phức | lưu trữ: | | | hệ thống | tạp hơn | Thêm không | | | yêu cầu xử | | gian cho | | | lý phân | | lớp đối | | | tích và | | chiếu | | | giao dịch | | | | | đồng thời | | - Phức tạp | | | | | hơn: Cấu | | | | | trúc phức | | | | | tạp hơn, | | | | | đòi hởi | | | | | quản lý, | | | | | bảo trì kỹ | | | | | lưỡng | +-----------------+-----------------+-----------------+-----------------+ Câu 8: Các bước và các nguyên tắc để dây dựng một kho dữ liệu hiệu quả: Các bước: 1. Phân tích nhu cầu 2. Lập kế hoạch 3. Thiết kế kiến trúc data warehouse 4. Thu thập và chuẩn hóa dữ liệu 5. Xây dựng quy trình etl trích xuất, chuyển đổi, tải 6. Phát triển các ứng dụng phân tích dữ liệu 7. Triển khai và bảo trì Một số nguyên tắc quan trọng: - Chất lượng dữ liệu: Đảm bảo dữ liệu được làm sạch, chuẩn hóa, duy trì tính chính xác, nhất quán - Bảo mật dữ liệu: Thiết lập các biện pháp bảo mật, bảo vệ dữ liệu khỏi truy cập trái phép - Hiệu suất: Tối ưu hóa hiệu suất truy vấn và xử lý dữ liệu, đáp ứng nhu cầu phân tích nhanh chóng - Tính linh hoạt: Thiết kế hệ thống có khả năng mở rộng, thích ứng với các thay đổi trong tương lai **KHAI PHÁ DỮ LIỆU** Câu 9: Khái niệm, các bước chính, ứng dụng trong khai phá dữ liệu: Khái niệm: Khai phá dữ liệu data mining là quá trình: - Tìm kiếm - Khám phá các mẫu - Quy luật - Thông tin hữu ích Từ các tập dữ liệu lớn Quá trình này sử dụng các kỹ thuật, thuật toán trong lĩnh vực khoa học dữ liệu, máy học, thống kê - Phân tích dữ liệu, trích xuất thông tin có giá trị chưa được biết đến Các bước chính trong khai phá dữ liệu: 1. Xác định vấn đề, không gian dữ liệu: - Hiểu rõ vấn đề cần giải quyết - Xác định các nguồn dữ liệu liên quan 2. Chuẩn bị dữ liệu: - Làm sạch dữ liệu data cleaning - Tích hợp dữ liệu data integration - Chọn dữ liệu data selection - Biến đổi dữ liệu data transformation 3. Khai thác dữ liệu: - Sử dụng các kỹ thuật, thuật toán - Tìm ra các mẫu, quy luật trong dữ liệu 4. Đánh giá, diễn giải: - Kiểm tra, đánh giá các mẫu, quy luật đã phát hiện - Diễn giải kết quả đưa ra các quyết định kinh doanh, nghiên cứu 5. Triển khai: - Áp dụng các kết quả khai phá dữ liệu vào thực tế - Cải thiện quy trình kinh doanh, dự báo xu hướng, giải quyết các vấn đề cụ thể Ứng dụng của khai phá dữ liệu: 1. Dự báo xu hướng thị trường: Giúp doanh nghiệp dự đoán xu hướng và hành vi của khách hàng 2. Phát hiện gian lận: Phát hiện các hoạt động gian lận trong các lĩnh vực như tài chính, bảo hiểm 3. Quản lý quan hệ khách hàng crm: Giúp doanh nghiệp hiểu rõ về nhu cầu và hành vi của khách hàng - Cải thiện dịch vụ và sản phẩm 4. Y tế: - Hỗ trợ trong việc phát hiện các mối quan hệ giữa các loại bệnh - Hiệu quả của các phương pháp điều trị Câu 10: Nêu, mô tả ngắn gọn các kỹ thuật khai phá dữ liệu phổ biến: 1. Phân tích phân loại classification analysis: Phân loại các đối tượng vào các nhóm hoặc lớp cụ thể dựa trên thuộc tính của chúng **phân loại email thư rác hay thư hợp pháp** 2. Học luật kết hợp assiciation rule learning: Tìm ra các mối quan hệ giữa các biến trong csdl. **Phân tích giỏ hàng khách hàng và xác định các mẫu mua sắm** 3. Phát hiện bất thường anomaly detection: Phát hiện các điểm dữ liệu không khớp với mẫu dự kiến. **phát hiện gian lân tài chính, theo dõi sức khỏe** 4. Phân tích theo cụm clustering analysis: Nhóm các đối tượng dữ liệu tương tự nhau vào cùng một cụm. **Tạo hồ sơ khách hàng, phân chia thị trường** 5. Dự bào prediction: Dự đoán các giá trị hoặc xu hướng trong tương lai dựa trên dữ liệu hiện tại, quá khứ. **Dự báo doanh số, lợi nhuận bán hàng** **\ ** Câu 11: Nêu kỹ thuật phân tích phân loại classification analysis, các bước chính trong phân tích phân loại Khái niệm: - Một kỹ thuật quan trọng trong khai phá dữ liệu - Phân loại các đối tượng vào các nhóm hoặc lớp cụ thể dựa trên thuộc tính của chúng - Dự đoán hoặc xác định lớp của các đối tượng mới dựa trên dữ liệu huấn luyện đã có Ứng dụng: - Phân loại email - Phân loại khách hàng - Chuẩn đoán y tế Các bước chính: 6 bước chính 1. Thu thập dữ liệu huấn luyện: Bao gồm các đối tượng đã biết lớp hoặc nhãn. Sử dụng để xây dựng mô hình phân loại 2. Tiền xử lý dữ liệu: Làm sạch, chuẩn hóa dữ liệu, đảm bảo tính nhất quán, chất lượng của dữ liệu huấn luyện 3. Chọn thuật toán phân loại: a. Cây quyết định decision tree b. Máy vector hỗ trợ support vector machine c. Mạng nơ-ron neural networks d. K-nearest neighbors 4. Huấn luyện mô hình phân loại: Điều chỉnh các tham số của mô hình để tối ưu hóa hiệu suất 5. Đánh giá mô hình: Kiểm tra, đánh giá mô hình phân loại, đảm bảo hoạt động tốt trên dữ liệu mới 6. Triển khai mô hình: Sau khi mô hình được đánh giá, tối ưu hóa, triển khai để phân loại các đối tượng mới trong thực tế. **KHAI PHÁ LUẬT KẾT HỢP** Câu 12: Nêu, mô tả, các bước, ứng dụng khai phá luật kết hợp Khái niệm: Assosiation rule: - Phát hiện các mối quan hệ giữa các mục dữ liệu trong cơ sở dữ liệu - Mục tiêu tìm ra các mẫu, quy luật mà các mục dữ liệu thường xuất hiện cùng nhau trong các giao dịch 1. Tập mục itemset: Là một tập hợp các mục dữ liệu. Trong phân tích giỏ hàng, một tập mục có thể là các sản phẩm mà khách hàng mua cùng nhau. 2. Độ hỗ trợ support: Là tỷ lệ phần trăm của các giao dịch trong cơ sở dữ liệu chứa một tập mục cụ thể. Độ hỗ trợ đo lường mức độ phổ biến của tập mục trong toàn bộ cơ sở dữ liệu. 3. Độ tin cậy confidence: Là tỷ lệ phần trăm của các giao dịch chứa một tập mục cụ thể cũng chưuá một tập mục khác. Độ tin cậy đo lường mức độ chắc chắn của luật kết hợp. - Các bước khai phá luật kết hợp: 4. Tìm tập mục thường xuyên frequent itemsets: Xác định các tập mục có độ hỗ trợ lớn hơn ngưỡng hỗ trợ tối thiểu minsup 5. Sinh luật kết hợp generate association rule: Từn các tập mục thường xuyên, sinh ra luật kết hợp thỏa mãn ngưỡng độ tin cậy tối thiểu minconf - Ứng dụng của luật kết hợp: 6. Phân tích giỏ hàng: Xác định các sp thường được mua cùng nhau, tối ưu hóa bố trí cửa hàng, chiến lược bán hàng. 7. Tiếp thị chéo: Đề xuất các sp bổ sung cho khách hàng dựa trên các sản phẩm họ đã mua 8. Phát hiện gian lận: Xác định các mẫu giao dịch bất thường, chỉ ra hành vi gian lận. Câu 13: Giải thích về hai khái niệm quan trọng trong việc khai phá luật kết hợp: Độ hỗ trợ support và độ tin cậy confidence: **Độ hỗ trợ:** - Định nghĩa: Độ hỗ trợ của một tập mục itemsets à tỷ lệ phần trăm của các giao dịch trong csdl chứa tập mục đó. Nó đo lường độ phổ biến của tập mục trong toàn bộ cơ sở dữ liệu. - Công thức: support A = Số lượng giao dịch chứa tập mục X / tổng số giao dịch - Ví dụ: Giả sử có 1000 giao dịch trong một siêu thị và 200 trong số đó chứa cả bánh mì và bơ. Độ hỗ trợ của tập mục bánh mì, bơ là: support(bánh mì, bơ) = 200/1000 = 0.2 **Độ tin cậy:** - Định nghĩa: Là một thước đo quan trọng để đánh giá mức độ chắc chắn của luật kết hợp. Nó cho biết tỷ lệ phần trăm của các giao dịch chứa tập mục bên trái của luật antecedent cũng chức tập mục bên phải của luật consequent. - Độ tin cậy được tính bằng tỷ lệ giữa số lượng giao dịch chứa cả A và B trên số lượng giao dịch chỉ chứa A - Công thức: confidient A -\> B = Số lượng giao dịch chức cả A và B / Số lượng giao dịch chứa A - Ví dụ: Giả sử số lượng trong một siêu thị, có 1000 giao dịch, trong đó: - 200 giao dịch chứa cả bánh mì và bơ - 250 giao dịch chứa bánh mì - Độ tin cậy của luật bánh mì -\> bơ là: confidence (bánh mì -\> bơ) = 200/250 = 0.8 Câu 14: Các bước tìm tập mục thường xuyên như thế nào? 1. Xác định ngưỡng hỗ trợ tối thiểu 2. Tạo tập mục đơn 3. Sinh tập mục kết hợp 4. Tính toán độ hỗ tựo cho các tập mục kết hợp 5. Lặp lại quá trình 6. Kết quả Ví dụ minh họa: 1. Tính độ hỗ trự cho các mục đơn 2. Giữ lại các mục đơn có độ hỗ trợ (theo đề bài) 3. Sinh các tập mục kết hợp 4. Tính độ hỗ trự cho các tập mục kết hợp 5. Lặp lại **11 CÂU VỀ KỸ THUẬT, PHẦN MỀM, THUẬT TOÁN:** **THUẬT TOÁN APRIORI : 15 16** **KỸ THUẬT CÂY QUYẾT ĐỊNH : 17** **KỸ THUẬT PHÂN CỤM: 19** **KỸ THUẬT PHÂN LỚP: 20** **KỸ THUẬT HỒI QUY: 21** **PHẦN MỀM WEKA (WAIKATO ENV FOR KNOWLEDGE ANALYSIS): 22** **THUẬT TOÁN ID3: 23** **THUẬT TOÁN C4.5: 23.2** **PHẦN MỀM ORANGE: 24** **PHẦN MỀM TERADATA: 25** Câu 17.2: Nêu, vẽ sơ đồ quá trình khai phá tri thức Quá trình khai phá tri thức knowledge discovery trong csdl bao gồm nhiều bước liên quan đến thu thập, xử lý và phân tích dữ liệu để trích xuất thông tin hữu ích Các bước chính: 1. Thu thập dữ liệu data collection: từ nhiều nguồn khác nhau, csdl, kho dữ liệu, các nguồn dữ liệu bên ngoài 2. Tiền xử lý dữ liệu data preprocessing: làm sạch, chuẩn hóa dữ liệu, loại bỏ các giá trị thiếu, dữ liệu lỗi - Tiền xử lý dữ liệu (c18) là quá trình chuyển đổi dữ liệu thô thành đinh dạng dễ hiểu, sẵn sàng sử dụng cho các mô hình phân tích và học máy. Loại bỏ các vấn đề nhưu dữ liệu thiếu,, nhiễu, không nhất quán đảm bảo dữ liệu chất lượng cao để huấn luyện mô hình. - Các bước thực hiện tiền xử lý dữ liệu: - Thu thập dữ liệu data colllection - Làm sạch dữ liệu data cleaning: xử lý giá trị thiếu, loại bỏ dữ liệu thiếu, loại bỏ dữ liệu trùng lặp - Chuyển đổi dữ liệu: chuẩn hóa dữ liệu, mã hóa dữ liệu danh mục - Giảm chiều dữ liệu: pca pricipal component analysis (giảm số lượng biến bằng cách giữ lại yếu tố quan trọng nhất), t-sne (giúp trực quan hóa dữ liêuj bằng cách giảm 2 hoặc 3 chiều) - Tách tập dữ liệu data splitting: tập huấn luyện trainning set, tập kiểm tra test set - Tính năng mở rộng quy mô feature scaling: standardization (biến đổi dữ liệu sao cho giá trị trung bình là 0 và độ lệch chuẩn là 1, normalization (đưa dữ liệu về khoảng từ 0 và 1). 3. Chuyển đổi dữ liệu data transformation: chuyển đổi dl thành định dạng phù hợp cho khai phá (rút gọn dữ liệu, tạo ra các thuộc tính mới) 4. Khai phá dữ liệu data mining: áp dụng các thuật toán, kỹ thuật, tìm ra các mẫu, quy luật, thông tin hữu ích từ dữ liệu 5. Đánh giá và diễn giải evaluationi , interpretation: như tên để đưa ra quyết định kinh doanh hoặc nghiên cứu 6. Triển khai deployment: áp dụng kết quả vào thực tế để cải thiện quy trình kinh doanh, dự báo xu hướng, giải quyết một vấn đề cụ thể Câu 18: Tiền xử lý dữ liệu, các bước thực hiện: