Kho dữ liệu và khai phá dữ liệu

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson
Download our mobile app to listen on the go
Get App

Questions and Answers

Nêu khái niệm kho dữ liệu?

Kho dữ liệu data warehouse là một hệ thống lưu trữ dữ liệu từ nhiều nguồn khác nhau. Mục đích chính là hỗ trợ việc phân tích và báo cáo dữ liệu.

Liệt kê một số đặc điểm chính của kho dữ liệu?

Hướng chủ đề object oriented: Dữ liệu được tổ chức theo các chủ đề. • Tích hợp integrated: Dữ liệu từ nhiều nguồn khác nhau được tích hợp lại. • Có gán nhãn thời gian time variant: Dữ liệu được gán nhãn thời gian. • Bất biến non-volatile: Dữ liệu không thay đổi sau khi lưu trữ.

Mô tả hoạt động chính của kho dữ liệu?

Hoạt động như một kho lưu trữ trung tâm: Dữ liệu từ nhiều nguồn khác nhau được thu thập, xử lý, lưu trữ, phân tích, báo cáo.

Liệt kê các bước chính của kho dữ liệu?

<ol> <li><strong>Tích xuất extract</strong>: Dữ liệu được lấy từ nhiều nguồn khác nhau.</li> <li><strong>Chuyển đổi transform</strong>: Dữ liệu được làm sạch, chuẩn hóa, chuyển đổi thành định dạng phù hợp với kho dữ liệu.</li> <li><strong>Tải load</strong>: Dữ liệu đã chuyển đổi được tải vào kho dữ liệu.</li> </ol> Signup and view all the answers

Liệt kê các công cụ phổ biến cho kho dữ liệu?

<p>Amazon redshift (A), Oracle autônmous data warehouse (B), Microsoft azure synapse analytics (C), IBM db2 warehouse (D), Google bigquery (E), Snowflake (F)</p> Signup and view all the answers

Mô hình dữ liệu đa chiều là gì?

<p>Mô hình dữ liệu đa chiều multidimensional data model là một cách tổ chức dữ liệu trong kho dữ liệu giúp dữ liệu được xem xét theo nhiều chiều, phân tích dữ liệu trực quan và hiệu quả hơn.</p> Signup and view all the answers

Các thành phần chính của mô hình dữ liệu đa chiều là?

<p>Khối dữ liệu data cube (A), Cây phân cấp hierachy (B), Lược đồ bông tuyết snowflake schema (C), Độ đo mesure (D), Lược đồ hình sao star schema (E), Chiều dimensional (F)</p> Signup and view all the answers

So sánh lược đồ hình sao và lược đồ hình bông tuyết theo cấu trúc, đặc điểm, hiệu suất truy vấn, dễ bảo trì, dư thừa dữ liệu?

<p><strong>Cấu trúc</strong> • <strong>Lược đồ hình sao</strong>: Một bảng sự kiện fact table ở trung tâm và các bảng chiều dimmensional table ở xung quanh. • <strong>Lược đồ hình bông tuyết</strong>: Biến thể của lược đồ hình sao với các bảng chiều chuẩn hóa thành nhiều bảng nhỏ hơn. <strong>Đặc điểm</strong> • <strong>Lược đồ hình sao</strong>: Không chuẩn hóa, hiệu suất truy vấn nhanh hơn, số lượng phép nối joins ít hơn, dễ hiểu và sử dụng, dữ thừa dữ liệu cao hơn. • <strong>Lược đồ hình bông tuyết</strong>: Chuẩn hóa, hiệu suất truy vấn chậm hơn, số lượng phép nối joins nhiều hơn và phức tạp hơn, bảo trì dễ hơn, dư thừa dữ liệu thấp hơn. <strong>Hiệu suất truy vấn</strong> • <strong>Lược đồ hình sao</strong>: Nhanh hơn, ít phép nối hơn. • <strong>Lược đồ hình bông tuyết</strong>: Chậm hơn, nhiều phép nối phức tạp hơn. <strong>Dễ bảo trì</strong> • <strong>Lược đồ hình sao</strong>: Khó hơn. • <strong>Lược đồ hình bông tuyết</strong>: Dễ hơn. <strong>Dư thừa dữ liệu</strong> • <strong>Lược đồ hình sao</strong>: Cao hơn. • <strong>Lược đồ hình bông tuyết</strong>: Giảm thiểu sự dư thừa này</p> Signup and view all the answers

Liệt kê các kiến trúc kho dữ liệu phổ biến?

<p>Một tầng (Single-tier arch) (A), Ba tầng (Three-tier arch) (B), Hai tầng (Two-tier arch) (C)</p> Signup and view all the answers

Mô tả ưu điểm và nhược điểm của từng kiến trúc kho dữ liệu?

<p><strong>Kiến trúc một tầng (Single-tier arch):</strong> • <strong>Ưu điểm</strong>: Đơn giản, không phổ biến, giảm thiểu dư thừa dữ liệu. • <strong>Nhược điểm</strong>: Hiệu suất thấp, không phù hợp với hệ thống yêu cầu xử lý phân tích và giao dịch đồng thời, phức tạp hơn. <strong>Kiến trúc hai tầng (Two-tier arch):</strong> • <strong>Ưu điểm</strong>: Phân tách rõ ràng, kiểm soát tốt hơn, dễ hiểu. • <strong>Nhược điểm</strong>: Tốn kém không gian lưu trữ, phức tạp hơn. <strong>Kiến trúc ba tầng (Three-tier arch):</strong> • <strong>Ưu điểm</strong>: Phổ biến nhất, tính toán vẹn cao, linh hoạt. • <strong>Nhược điểm</strong>: Không có nhược điểm cụ thể được nêu trong tài liệu.</p> Signup and view all the answers

Liệt kê các bước để xây dựng một kho dữ liệu hiệu quả?

<ol> <li>Phân tích nhu cầu</li> <li>Lập kế hoạch</li> <li>Thiết kế kiến trúc data warehouse</li> <li>Thu thập và chuẩn hóa dữ liệu</li> <li>Xây dựng quy trình ETL (trích xuất, chuyển đổi, tải)</li> <li>Phát triển các ứng dụng phân tích dữ liệu</li> <li>Triển khai và bảo trì</li> </ol> Signup and view all the answers

Nêu các nguyên tắc quan trọng khi xây dựng kho dữ liệu?

<p>• <strong>Chất lượng dữ liệu</strong>: Đảm bảo dữ liệu được làm sạch, chuẩn hóa, duy trì tính chính xác, nhất quán. • <strong>Bảo mật dữ liệu</strong>: Thiết lập các biện pháp bảo mật, bảo vệ dữ liệu khỏi truy cập trái phép. • <strong>Hiệu suất</strong>: Tối ưu hóa hiệu suất truy vấn và xử lý dữ liệu, đáp ứng nhu cầu phân tích nhanh chóng. • <strong>Tính linh hoạt</strong>: Thiết kế hệ thống có khả năng mở rộng, thích ứng với các thay đổi trong tương lai.</p> Signup and view all the answers

Khái niệm khai phá dữ liệu là gì?

<p>Khai phá dữ liệu data mining là quá trình tìm kiếm, khám phá các mẫu, quy luật, thông tin hữu ích từ các tập dữ liệu lớn.</p> Signup and view all the answers

Liệt kê các bước chính trong khai phá dữ liệu?

<ol> <li><strong>Xác định vấn đề, không gian dữ liệu</strong>: Hiểu rõ vấn đề cần giải quyết, xác định các nguồn dữ liệu liên quan.</li> <li><strong>Chuẩn bị dữ liệu</strong>: Làm sạch dữ liệu, tích hợp dữ liệu, chọn dữ liệu.</li> <li><strong>Khai thác dữ liệu</strong>: Sử dụng các kỹ thuật, thuật toán, tìm ra các mẫu, quy luật trong dữ liệu.</li> <li><strong>Đánh giá, diễn giải</strong>: Kiểm tra, đánh giá các mẫu, quy luật đã phát hiện, diễn giải kết quả đưa ra các quyết định kinh doanh, nghiên cứu.</li> <li><strong>Triển khai</strong>: Áp dụng các kết quả khai phá dữ liệu vào thực tế.</li> </ol> Signup and view all the answers

Nêu các kỹ thuật khai phá dữ liệu phổ biến?

<p>Phát hiện bất thường anomaly detection (A), Phân tích phân loại classification analysis (B), Học luật kết hợp association rule learning (C), Dự báo prediction (D), Phân tích theo cụm clustering analysis (E)</p> Signup and view all the answers

Mô tả ngắn gọn các kỹ thuật khai phá dữ liệu phổ biến?

<ol> <li><strong>Phân tích phân loại classification analysis</strong>: Phân loại các đối tượng vào các nhóm hoặc lớp cụ thể dựa trên thuộc tính của chúng.</li> <li><strong>Học luật kết hợp association rule learning</strong>: Tìm ra các mối quan hệ giữa các biến trong csdl.</li> <li><strong>Phát hiện bất thường anomaly detection</strong>: Phát hiện các điểm dữ liệu không khớp với mẫu dự kiến.</li> <li><strong>Phân tích theo cụm clustering analysis</strong>: Nhóm các đối tượng dữ liệu tương tự nhau vào cùng một cụm.</li> <li><strong>Dự báo prediction</strong>: Dự đoán các giá trị hoặc xu hướng trong tương lai dựa trên dữ liệu hiện tại, quá khứ.</li> </ol> Signup and view all the answers

Nêu các bước chính trong phân tích phân loại?

<ol> <li><strong>Thu thập dữ liệu huấn luyện</strong>: Bao gồm các đối tượng đã biết lớp hoặc nhãn.</li> <li><strong>Tiền xử lý dữ liệu</strong>: Làm sạch, chuẩn hóa dữ liệu, đảm bảo tính nhất quán, chất lượng của dữ liệu huấn luyện.</li> <li><strong>Chọn thuật toán phân loại</strong>: Cây quyết định, Máy vector hỗ trợ, Mạng nơ-ron, K-nearest neighbors.</li> <li><strong>Huấn luyện mô hình phân loại</strong>: Điều chỉnh các tham số của mô hình để tối ưu hóa hiệu suất.</li> <li><strong>Đánh giá mô hình</strong>: Kiểm tra, đánh giá mô hình phân loại, đảm bảo hoạt động tốt trên dữ liệu mới.</li> <li><strong>Triển khai mô hình</strong>: Sau khi mô hình được đánh giá, tối ưu hóa, triển khai để phân loại các đối tượng mới trong thực tế.</li> </ol> Signup and view all the answers

Khái niệm luật kết hợp là gì?

<p>Luật kết hợp Association rule là một kỹ thuật trong khai phá dữ liệu, tìm ra các mẫu, quy luật mà các mục dữ liệu thường xuất hiện cùng nhau trong các giao dịch của cơ sở dữ liệu.</p> Signup and view all the answers

Nêu các khái niệm liên quan đến luật kết hợp?

<p>• <strong>Tập mục itemset</strong>: Là một tập hợp các mục dữ liệu. Trong phân tích giỏ hàng, một tập mục có thể là các sản phẩm mà khách hàng mua cùng nhau. • <strong>Độ hỗ trợ support</strong>: Là tỷ lệ phần trăm của các giao dịch trong cơ sở dữ liệu chứa một tập mục cụ thể. • <strong>Độ tin cậy confidence</strong>: Là tỷ lệ phần trăm của các giao dịch chứa một tập mục cụ thể cũng chứa một tập mục khác.</p> Signup and view all the answers

Liệt kê các bước khai phá luật kết hợp?

<ol> <li><strong>Tìm tập mục thường xuyên frequent itemsets</strong>: Xác định các tập mục có độ hỗ trợ lớn hơn ngưỡng hỗ trợ tối thiểu.</li> <li><strong>Sinh luật kết hợp generate association rule</strong>: Từ các tập mục thường xuyên, sinh ra luật kết hợp thỏa mãn ngưỡng độ tin cậy tối thiểu.</li> </ol> Signup and view all the answers

Nêu ứng dụng của luật kết hợp?

<p>• <strong>Phân tích giỏ hàng</strong>: Xác định các sản phẩm thường được mua cùng nhau, tối ưu hóa bố trí cửa hàng, chiến lược bán hàng. • <strong>Tiếp thị chéo</strong>: Đề xuất các sản phẩm bổ sung cho khách hàng dựa trên các sản phẩm họ đã mua. • <strong>Phát hiện gian lận</strong>: Xác định các mẫu giao dịch bất thường, chỉ ra hành vi gian lận.</p> Signup and view all the answers

Giải thích về độ hỗ trợ và độ tin cậy trong khai phá luật kết hợp?

<p>• <strong>Độ hỗ trợ support</strong>: Độ hỗ trợ của một tập mục itemsets là tỷ lệ phần trăm của các giao dịch trong csdl chứa tập mục đó. Nó đo lường độ phổ biến của tập mục trong toàn bộ cơ sở dữ liệu. • <strong>Độ tin cậy confidence</strong>: Là một thước đo quan trọng để đánh giá mức độ chắc chắn của luật kết hợp. Nó cho biết tỷ lệ phần trăm của các giao dịch chứa tập mục bên trái của luật antecedent cũng chức tập mục bên phải của luật consequent.</p> Signup and view all the answers

Nêu các bước tìm tập mục thường xuyên?

<ol> <li><strong>Xác định ngưỡng hỗ trợ tối thiểu</strong>.</li> <li><strong>Tạo tập mục đơn</strong>.</li> <li><strong>Sinh tập mục kết hợp</strong>.</li> <li><strong>Tính toán độ hỗ tựo cho các tập mục kết hợp</strong>.</li> <li><strong>Lặp lại quá trình</strong>.</li> </ol> Signup and view all the answers

Mô tả quá trình khai phá tri thức trong CSDL?

<p>Quá trình khai phá tri thức knowledge discovery trong CSDL bao gồm nhiều bước liên quan đến thu thập, xử lý và phân tích dữ liệu để trích xuất thông tin hữu ích. Các bước chính:</p> <ol> <li><strong>Thu thập dữ liệu data collection</strong>: Từ nhiều nguồn khác nhau, csdl, kho dữ liệu, các nguồn dữ liệu bên ngoài.</li> <li><strong>Tiền xử lý dữ liệu data preprocessing</strong>: Làm sạch, chuẩn hóa dữ liệu, loại bỏ các giá trị thiếu, dữ liệu lỗi.</li> <li><strong>Khai phá dữ liệu data mining</strong>: Áp dụng các thuật toán, kỹ thuật, tìm ra các mẫu, quy luật, thông tin hữu ích từ dữ liệu.</li> <li><strong>Đánh giá và diễn giải evaluationi, interpretation</strong>: Như tên để đưa ra quyết định kinh doanh hoặc nghiên cứu.</li> <li><strong>Triển khai deployment</strong>: Áp dụng kết quả vào thực tế để cải thiện quy trình kinh doanh, dự báo xu hướng, giải quyết một vấn đề cụ thể.</li> </ol> Signup and view all the answers

Nêu các bước thực hiện tiền xử lý dữ liệu?

<ol> <li><strong>Thu thập dữ liệu data colllection</strong>.</li> <li><strong>Làm sạch dữ liệu data cleaning</strong>: Xử lý giá trị thiếu, loại bỏ dữ liệu thiếu, loại bỏ dữ liệu trùng lặp.</li> <li><strong>Chuyển đổi dữ liệu</strong>: Chuẩn hóa dữ liệu, mã hóa dữ liệu danh mục.</li> <li><strong>Giảm chiều dữ liệu</strong>: pca pricipal component analysis (giảm số lượng biến bằng cách giữ lại yếu tố quan trọng nhất), t-sne (giúp trực quan hóa dữ liêuj bằng cách giảm 2 hoặc 3 chiều).</li> <li><strong>Tách tập dữ liệu data splitting</strong>: Tập huấn luyện trainning set, tập kiểm tra test set.</li> <li><strong>Tính năng mở rộng quy mô feature scaling</strong>: standardization (biến đổi dữ liệu sao cho giá trị trung bình là 0 và độ lệch chuẩn là 1), normalization (đưa dữ liệu về khoảng từ 0 và 1).</li> </ol> Signup and view all the answers

Flashcards

Kho dữ liệu (Data Warehouse) là gì?

Là một hệ thống tích lũy dữ liệu từ các nguồn khác nhau, với mục đích hỗ trợ phân tích và báo cáo, giúp doanh nghiệp đưa ra quyết định sáng suốt, tiết kiệm thời gian và nâng cao hiệu quả phân tích dữ liệu.

Kho dữ liệu có đặc điểm gì? (Hướng chủ đề - object oriented)

Dữ liệu được tổ chức theo các chủ đề (ví dụ: khách hàng, sản phẩm, đơn hàng) để dễ dàng phân tích và truy xuất các thông tin liên quan.

Kho dữ liệu có đặc điểm gì? (Tích hợp - integrated)

Dữ liệu từ nhiều nguồn khác nhau được tích hợp lại, cung cấp cái nhìn tổng thể và nhất quán về dữ liệu.

Kho dữ liệu có đặc điểm gì? (Có gán nhãn thời gian - time variant)

Dữ liệu được gán nhãn thời gian, giúp theo dõi các thay đổi theo thời gian.

Signup and view all the flashcards

Kho dữ liệu có đặc điểm gì? (Bất biến - non-volatile)

Dữ liệu không thay đổi sau khi lưu trữ, đảm bảo tính nhất quán và chính xác.

Signup and view all the flashcards

Kho dữ liệu hoạt động như thế nào?

Kho dữ liệu hoạt động như một kho lưu trữ trung tâm, kết nối nhiều nguồn dữ liệu khác nhau. Dữ liệu được thu thập, xử lý, lưu trữ và phục vụ cho phân tích, báo cáo.

Signup and view all the flashcards

Bước 1 trong quy trình ETL: Extract (Trích xuất)

là quá trình lấy dữ liệu từ các nguồn khác nhau.

Signup and view all the flashcards

Bước 2 trong quy trình ETL: Transform (Chuyển đổi)

là quá trình làm sạch, chuẩn hóa, chuyển đổi dữ liệu thành định dạng phù hợp với kho dữ liệu.

Signup and view all the flashcards

Bước 3 trong quy trình ETL: Load (Tải)

là quá trình tải dữ liệu đã chuyển đổi vào kho dữ liệu, có thể diễn ra theo lô (batch) hoặc theo thời gian thực (realtime).

Signup and view all the flashcards

Mô hình dữ liệu đa chiều (multidimensional data model) là gì?

Là một cách tổ chức dữ liệu trong kho dữ liệu, mô hình hóa dữ liệu theo nhiều chiều (ví dụ: thời gian, địa điểm, sản phẩm).

Signup and view all the flashcards

Khối dữ liệu data cube trong mô hình dữ liệu đa chiều là gì?

Là một tập hợp dữ liệu có cấu trúc đa chiều, bao gồm các chiều (dimensions) và độ đo (measures).

Signup and view all the flashcards

Chiều dimensional trong mô hình dữ liệu đa chiều là gì?

Là các thuộc tính phân loại dữ liệu theo các khía cạnh khác nhau (ví dụ: thời gian, địa điểm, sản phẩm).

Signup and view all the flashcards

Độ đo measure trong mô hình dữ liệu đa chiều là gì?

Là các giá trị đo lường được gán cho mỗi điểm dữ liệu (ví dụ: doanh thu, số lượng bán, lợi nhuận).

Signup and view all the flashcards

Cây phân cấp hierarchy trong mô hình dữ liệu đa chiều là gì?

Là một cấu trúc phân cấp giúp tổ chức dữ liệu theo các cấp bậc khác nhau (ví dụ: khu vực, tỉnh, thành phố).

Signup and view all the flashcards

Lược đồ hình sao (star schema) là gì?

Là một kiểu lược đồ dữ liệu trong kho dữ liệu, có một bảng sự kiện (fact table) ở trung tâm chứa dữ liệu chi tiết, và các bảng chiều (dimensional table) xung quanh chứa các thông tin bổ sung.

Signup and view all the flashcards

Lược đồ hình bông tuyết (snowflake schema) là gì?

Là một kiểu lược đồ dữ liệu trong kho dữ liệu, là biến thể của lược đồ hình sao. Các bảng chiều được chuẩn hóa thành nhiều bảng nhỏ hơn, giúp giảm sự dư thừa dữ liệu nhưng làm cho truy vấn phức tạp hơn.

Signup and view all the flashcards

Kiến trúc kho dữ liệu một tầng (Single-tier architecture) là gì?

Kiến trúc đơn tầng đơn giản, tất cả dữ liệu được lưu trữ trong một lớp duy nhất, không phân tách rõ ràng giữa xử lý phân tích và giao dịch.

Signup and view all the flashcards

Kiến trúc kho dữ liệu hai tầng (Two-tier architecture) là gì?

Kiến trúc hai tầng phân tách rõ ràng giữa xử lý phân tích và giao dịch, gồm 4 giai đoạn: lớp nguồn, giai đoạn dữ liệu, lớp kho dữ liệu và lớp phân tích.

Signup and view all the flashcards

Kiến trúc kho dữ liệu ba tầng (Three-tier architecture) là gì?

Kiến trúc ba tầng phổ biến nhất, gồm 3 lớp: lớp nguồn, lớp đối chiếu và lớp kho dữ liệu. Cung cấp tính toán vẹn cao, linh hoạt và phù hợp với hệ thống mở.

Signup and view all the flashcards

Khai phá dữ liệu (Data Mining) là gì?

Là quá trình tìm kiếm, khám phá các mẫu, quy luật, thông tin hữu ích từ các tập dữ liệu lớn, sử dụng các kỹ thuật, thuật toán trong lĩnh vực khoa học dữ liệu, máy học, thống kê.

Signup and view all the flashcards

Các bước chính trong khai phá dữ liệu là gì?

Bước 1: Xác định vấn đề, không gian dữ liệu. Bước 2: Chuẩn bị dữ liệu. Bước 3: Khai thác dữ liệu. Bước 4: Đánh giá, diễn giải. Bước 5: Triển khai.

Signup and view all the flashcards

Kỹ thuật phân tích phân loại (classification analysis) là gì?

Là kỹ thuật phân loại các đối tượng vào các nhóm hoặc lớp cụ thể dựa trên thuộc tính của chúng, dự đoán hoặc xác định lớp của các đối tượng mới dựa trên dữ liệu huấn luyện đã có.

Signup and view all the flashcards

Các bước chính trong phân tích phân loại là gì?

Thu thập dữ liệu huấn luyện, tiền xử lý dữ liệu, chọn thuật toán phân loại, huấn luyện mô hình phân loại, đánh giá mô hình, triển khai mô hình.

Signup and view all the flashcards

Khai phá luật kết hợp (Association rule learning) là gì?

Là kỹ thuật tìm ra các mối quan hệ giữa các biến trong cơ sở dữ liệu, mục tiêu tìm ra các mẫu, quy luật mà các mục dữ liệu thường xuất hiện cùng nhau trong các giao dịch.

Signup and view all the flashcards

Tập mục (itemset) trong khai phá luật kết hợp là gì?

Là một tập hợp các mục dữ liệu, ví dụ: trong phân tích giỏ hàng, một tập mục có thể là các sản phẩm mà khách hàng mua cùng nhau.

Signup and view all the flashcards

Độ hỗ trợ (support) trong khai phá luật kết hợp là gì?

Là tỷ lệ phần trăm của các giao dịch trong cơ sở dữ liệu chứa một tập mục cụ thể, đo lường mức độ phổ biến của tập mục trong toàn bộ cơ sở dữ liệu.

Signup and view all the flashcards

Độ tin cậy (confidence) trong khai phá luật kết hợp là gì?

Là tỷ lệ phần trăm của các giao dịch chứa một tập mục cụ thể cũng chứa một tập mục khác, đo lường mức độ chắc chắn của luật kết hợp.

Signup and view all the flashcards

Các bước tìm tập mục thường xuyên (frequent itemsets) là gì?

Xác định ngưỡng hỗ trợ tối thiểu, tạo tập mục đơn, sinh tập mục kết hợp, tính toán độ hỗ trợ cho các tập mục kết hợp, lặp lại quá trình, kết quả.

Signup and view all the flashcards

Các bước chính trong quá trình khai phá tri thức (knowledge discovery) là gì?

Thu thập dữ liệu, tiền xử lý dữ liệu, chuyển đổi dữ liệu, khai phá dữ liệu, đánh giá và diễn giải, triển khai.

Signup and view all the flashcards

Tiền xử lý dữ liệu (data preprocessing) là gì?

Là quá trình chuyển đổi dữ liệu thô thành định dạng dễ hiểu, sẵn sàng sử dụng cho các mô hình phân tích và học máy, loại bỏ các vấn đề như dữ liệu thiếu, nhiễu, không nhất quán, đảm bảo dữ liệu chất lượng cao để huấn luyện mô hình.

Signup and view all the flashcards

Các bước thực hiện tiền xử lý dữ liệu là gì?

Thu thập dữ liệu, làm sạch dữ liệu, chuyển đổi dữ liệu, giảm chiều dữ liệu, tách tập dữ liệu, tính năng mở rộng quy mô.

Signup and view all the flashcards

Thuật toán Apriori là gì?

Là một thuật toán khai phá luật kết hợp, được sử dụng để tìm các tập mục thường xuyên (frequent itemsets) và tạo luật kết hợp (association rules) dựa trên dữ liệu giao dịch.

Signup and view all the flashcards

Kỹ thuật cây quyết định (decision tree) là gì?

Là một kỹ thuật khai phá dữ liệu sử dụng cấu trúc cây để biểu diễn các quy tắc quyết định, giúp phân loại dữ liệu.

Signup and view all the flashcards

Kỹ thuật phân cụm (clustering analysis) là gì?

Là kỹ thuật nhóm các đối tượng dữ liệu tương tự nhau vào cùng một cụm, dựa trên các thuộc tính của chúng.

Signup and view all the flashcards

Kỹ thuật phân lớp (classification) là gì?

Là kỹ thuật phân loại các đối tượng vào các nhóm hoặc lớp cụ thể dựa trên thuộc tính của chúng, dự đoán hoặc xác định lớp của các đối tượng mới dựa trên dữ liệu huấn luyện đã có.

Signup and view all the flashcards

Kỹ thuật hồi quy (regression) là gì?

Là kỹ thuật sử dụng các hàm toán học để mô hình hóa mối quan hệ giữa các biến trong cơ sở dữ liệu, dự đoán giá trị của biến phụ thuộc dựa trên giá trị của các biến độc lập.

Signup and view all the flashcards

Phần mềm WEKA (Waikato Environment for Knowledge Analysis) là gì?

Là một phần mềm mã nguồn mở được sử dụng cho khai phá dữ liệu, cung cấp một bộ công cụ phong phú để xử lý dữ liệu, xây dựng và đánh giá các mô hình khai phá dữ liệu.

Signup and view all the flashcards

Thuật toán ID3 là gì?

Là một thuật toán xây dựng cây quyết định được sử dụng trong khai phá dữ liệu, thuật toán này dựa trên entropy và information gain để chọn thuộc tính tốt nhất để phân chia tập dữ liệu.

Signup and view all the flashcards

Thuật toán C4.5 là gì?

Là một thuật toán xây dựng cây quyết định, dựa trên entropy và information gain, thuật toán này cải tiến từ ID3 bằng cách xử lý các thuộc tính có giá trị liên tục và các tập dữ liệu lớn.

Signup and view all the flashcards

Phần mềm Orange là gì?

Là một phần mềm mã nguồn mở được sử dụng cho khai phá dữ liệu, cung cấp một giao diện đồ họa thân thiện và một bộ công cụ đa dạng để xây dựng và đánh giá các mô hình khai phá dữ liệu.

Signup and view all the flashcards

Phần mềm Teradata là gì?

Là một hệ quản trị cơ sở dữ liệu (DBMS) được thiết kế cho việc phân tích dữ liệu quy mô lớn, cung cấp hiệu suất cao và khả năng mở rộng.

Signup and view all the flashcards

Study Notes

Kho dữ liệu và khai phá dữ liệu

  • Kho dữ liệu (data warehouse) là hệ thống lưu trữ dữ liệu từ nhiều nguồn khác nhau, mục đích chính là hỗ trợ phân tích và báo cáo dữ liệu.
  • Giúp doanh nghiệp đưa ra quyết định sáng suốt, tiết kiệm thời gian, nâng cao hiệu quả phân tích dữ liệu và hỗ trợ ra quyết định nhanh chóng, chính xác.
  • Kho dữ liệu có các đặc điểm: hướng chủ đề, tích hợp, có tính thời gian, không thay đổi.

Đặc điểm của kho dữ liệu

  • Hướng chủ đề: Dữ liệu được tổ chức theo chủ đề giúp dễ dàng phân tích và truy xuất thông tin liên quan.
  • Tích hợp: Dữ liệu từ nhiều nguồn khác nhau được tích hợp lại, cung cấp cái nhìn tổng thể và nhất quán.
  • Có tính thời gian: Dữ liệu được gắn nhãn thời gian để theo dõi các thay đổi theo thời gian.
  • Bất biến: Dữ liệu không thay đổi sau khi lưu trữ để đảm bảo tính nhất quán và chính xác.

Hoạt động của kho dữ liệu

  • Hoạt động như kho lưu trữ trung tâm dữ liệu từ nhiều nguồn khác nhau.
  • Bao gồm các bước: thu thập, xử lý, lưu trữ, phục vụ phân tích, báo cáo.

Công cụ phổ biến cho kho dữ liệu

  • Amazon Redshift
  • Google BigQuery
  • Microsoft Azure Synapse Analytics
  • Snowflake
  • Oracle Autonomous Data Warehouse
  • IBM Db2 Warehouse

Mô hình dữ liệu đa chiều

  • Mô hình dữ liệu đa chiều (multidimensional data model): Mô hình dữ liệu đa chiều cho phép xem xét dữ liệu theo nhiều chiều khác nhau, giúp phân tích và trực quan hóa dữ liệu hiệu quả.

Lược đồ hình sao và bông tuyết

  • Lược đồ hình sao (star schema): Có một bảng sự kiện trung tâm và nhiều bảng chiều xung quanh, không chuẩn hóa, hiệu suất truy vấn nhanh hơn.
  • Lược đồ hình bông tuyết (snowflake schema): Chuẩn hóa các bảng chiều, hiệu suất truy vấn chậm hơn nhưng giảm dư thừa dữ liệu, dễ bảo trì và thay đổi.

Kiến trúc kho dữ liệu

  • Có 3 loại: một tầng, hai tầng, ba tầng.
  • Một tầng (single-tier): Tất cả dữ liệu được lưu trong một lớp duy nhất.
  • Hai tầng (two-tier): Phân tách rõ ràng giữa phân tích và kinh doanh.
  • Ba tầng (three-tier): Phổ biến nhất, ba lớp: nguồn, đối chiếu, kho dữ liệu.

Khai phá dữ liệu

  • Là quá trình tìm kiếm, khám phá các mẫu và quy luật trong tập dữ liệu lớn.
  • Sử dụng các kỹ thuật và thuật toán trong lĩnh vực khoa học dữ liệu, máy học và thống kê.
  • Các bước chính: xác định vấn đề, chuẩn bị dữ liệu, khai thác dữ liệu, đánh giá và diễn giải, triển khai.

Khai phá luật kết hợp

  • Tìm các mối quan hệ giữa các mục dữ liệu trong cơ sở dữ liệu, mục tiêu tìm ra các mẫu, các mục dữ liệu thường xuất hiện cùng nhau trong các giao dịch.
  • Độ hỗ trợ (support): Tỷ lệ phần trăm của các giao dịch chứa một tập mục cụ thể trong toàn bộ cơ sở dữ liệu.
  • Độ tin cậy (confidence): Tỷ lệ phần trăm của các giao dịch chứa một tập mục cụ thể cũng chứa một tập mục khác.

Kỹ thuật phân tích phân loại

  • Một kỹ thuật quan trọng trong khai phá dữ liệu, phân loại các đối tượng vào các nhóm hoặc lớp cụ thể dựa trên các thuộc tính của chúng.
  • Các bước chính: thu thập dữ liệu huấn luyện, tiền xử lý dữ liệu, chọn thuật toán phân loại, huấn luyện mô hình, đánh giá mô hình, triển khai.

Tiền xử lý dữ liệu

  • Làm sạch dữ liệu, loại bỏ dữ liệu thiếu, trùng lặp.
  • Chuyển đổi dữ liệu, chuẩn hóa dữ liệu, mã hóa dữ liệu danh mục.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

More Like This

Use Quizgecko on...
Browser
Browser