Tại Sao Khai Thác Dữ Liệu, Nguồn Gốc

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson
Download our mobile app to listen on the go
Get App

Questions and Answers

Nguồn dữ liệu phong phú chủ yếu đến từ các lĩnh vực nào sau đây?

  • Kinh doanh, khoa học và xã hội. (correct)
  • Chỉ từ camera kỹ thuật số và YouTube.
  • Chỉ từ các dữ liệu khoa học.
  • Chỉ từ các giao dịch thương mại điện tử.

Tại sao các kỹ thuật truyền thống trở nên không khả thi khi xử lý dữ liệu thô?

  • Vì chúng không tương thích với các hệ thống cơ sở dữ liệu hiện đại.
  • Vì chúng không đủ mạnh để xử lý khối lượng và độ phức tạp của dữ liệu. (correct)
  • Vì chi phí máy tính đã tăng lên đáng kể.
  • Vì chúng quá tốn kém để triển khai.

Khái niệm nào sau đây thể hiện đúng nhất về lý do ra đời của Data Mining?

  • Sự phát triển của các công cụ thu thập dữ liệu tự động.
  • Chúng ta chết đuối trong dữ liệu nhưng lại đói khát tri thức. (correct)
  • Sự gia tăng số lượng các nhà khoa học dữ liệu.
  • Sự sụt giảm chi phí của máy tính.

Data Mining (Khai thác dữ liệu) không trực tiếp kế thừa từ lĩnh vực nào sau đây?

<p>Kinh tế học lượng tử. (E)</p> Signup and view all the answers

Điều nào sau đây mô tả đúng nhất tầm quan trọng của khai thác dữ liệu trong bối cảnh hiện tại?

<p>Là chìa khóa để cải thiện năng suất và tạo ra các cơ hội mới. (B)</p> Signup and view all the answers

Giá trị tiềm năng hằng năm của việc sử dụng dữ liệu vị trí cá nhân trên toàn cầu ước tính khoảng bao nhiêu?

<p>$600 tỷ đô la. (B)</p> Signup and view all the answers

Mục tiêu chính của khai thác dữ liệu là gì?

<p>Trích xuất các mẫu tri thức tiềm ẩn và hữu ích từ lượng lớn dữ liệu. (B)</p> Signup and view all the answers

Trong quá trình khai phá tri thức (KDD), giai đoạn nào liên quan đến việc loại bỏ dữ liệu nhiễu và không nhất quán?

<p>Data Cleaning (Làm sạch dữ liệu). (E)</p> Signup and view all the answers

Điều gì KHÔNG phải là một ứng dụng tiềm năng của khai thác dữ liệu?

<p>Tạo ra phần cứng máy tính mới. (E)</p> Signup and view all the answers

Giai đoạn nào trong quy trình KDD liên quan đến việc chọn dữ liệu phù hợp từ cơ sở dữ liệu cho nhiệm vụ phân tích?

<p>Data Selection. (D)</p> Signup and view all the answers

Trong kiến trúc hệ thống khai thác dữ liệu điển hình, thành phần nào chịu trách nhiệm tương tác với người dùng?

<p>User Interface. (C)</p> Signup and view all the answers

Trong mô hình kim tự tháp về ứng dụng khai thác dữ liệu trong kinh doanh, công đoạn nào sau đây cần đến các kỹ thuật Visualization?

<p>Data Presentation. (E)</p> Signup and view all the answers

Trong quá trình KDD, giai đoạn nào tập trung vào việc xác định các mẫu thực sự thú vị và hữu ích?

<p>Pattern Evaluation. (B)</p> Signup and view all the answers

Phân tích độ lệch (Deviation detection) là gì?

<p>Là việc xác định những điểm khác biệt đáng kể so với hành vi bình thường. (B)</p> Signup and view all the answers

Trong các tác vụ khai thác dữ liệu sau, tác vụ nào thuộc loại 'dự đoán'?

<p>Phân loại (Classification). (D)</p> Signup and view all the answers

Tác vụ khai thác dữ liệu nào sau đây được sử dụng để tìm các quy luật mô tả mối quan hệ giữa các biến trong dữ liệu?

<p>Khai phá luật kết hợp. (D)</p> Signup and view all the answers

Loại tác vụ khai thác dữ liệu nào phù hợp nhất để xác định xem một giao dịch thẻ tín dụng có gian lận hay không?

<p>Phân loại. (D)</p> Signup and view all the answers

Trong khai thác dữ liệu, kỹ thuật nào thường được sử dụng để chia một thị trường thành các nhóm khách hàng riêng biệt?

<p>Phân cụm. (D)</p> Signup and view all the answers

Cho một tập dữ liệu về thông tin khách hàng, đâu là một ví dụ về thuộc tính 'class' trong bài toán phân loại?

<p>Khách hàng có khả năng mua sản phẩm mới hay không. (B)</p> Signup and view all the answers

Trong một mô hình phân loại, tập dữ liệu 'test' được sử dụng để làm gì?

<p>Để đánh giá độ chính xác của mô hình. (A)</p> Signup and view all the answers

Ứng dụng nào sau đây KHÔNG phải là một ví dụ của tác vụ phân loại?

<p>Dự đoán giá nhà dựa trên diện tích. (D)</p> Signup and view all the answers

Trong ứng dụng direct marketing, mục tiêu chính của phân loại là gì?

<p>Giảm chi phí gửi thư bằng cách nhắm mục tiêu đến những khách hàng có khả năng mua sản phẩm mới. (A)</p> Signup and view all the answers

Một chương trình email cố gắng phân loại email là 'hợp lệ' hoặc 'spam'. Đây là một ví dụ về tác vụ khai thác dữ liệu nào?

<p>Phân loại. (D)</p> Signup and view all the answers

Thuật toán nào sau đây KHÔNG thuộc loại thuật toán phân loại tuyến tính?

<p>Decision Trees. (D)</p> Signup and view all the answers

Tác vụ nào sau đây liên quan đến việc phát hiện những thay đổi đáng kể so với hành vi bình thường?

<p>Phát hiện độ lệch. (B)</p> Signup and view all the answers

Ứng dụng nào sau đây là một ví dụ của phát hiện độ lệch?

<p>Phát hiện các giao dịch gian lận. (C)</p> Signup and view all the answers

Trong khai thác dữ liệu, 'support' và 'confidence' được sử dụng để làm gì?

<p>Đánh giá mức độ quan trọng của các luật kết hợp. (D)</p> Signup and view all the answers

Luật kết hợp có thể được sử dụng trong siêu thị để:

<p>Sắp xếp các sản phẩm trên kệ để tăng doanh số. (A)</p> Signup and view all the answers

Thuật toán khai phá luật kết hợp nào được sử dụng rộng rãi?

<p>Apriori. (B)</p> Signup and view all the answers

Kỹ thuật nào sau đây giúp tìm ra các nhóm đối tượng tương tự nhau?

<p>Phân cụm. (D)</p> Signup and view all the answers

Trong phân tích cụm, điều gì là quan trọng nhất?

<p>Các đối tượng trong cùng một cụm phải tương tự nhau. (B)</p> Signup and view all the answers

Phương pháp nào thường được sử dụng khi các thuộc tính là liên tục?

<p>Khoảng cách Euclidean (B)</p> Signup and view all the answers

Đâu KHÔNG phải là một loại thuật toán phân cụm?

<p>Thuật toán phân cụm dựa trên phân loại. (D)</p> Signup and view all the answers

Phân tích hồi quy được sử dụng để làm gì?

<p>Dự đoán giá trị của một biến liên tục dựa trên các biến khác. (D)</p> Signup and view all the answers

Ví dụ nào sau đây KHÔNG phải là một ứng dụng của phân tích Cluster?

<p>Đưa ra dự đoán xếp hạng cổ phiếu (D)</p> Signup and view all the answers

Trong phân tích phân cụm, mục tiêu của phân khúc thị trường là gì?

<p>Chia thị trường thành các nhóm khách hàng khác biệt. (A)</p> Signup and view all the answers

Trong khai thác dữ liệu, vấn đề nào sau đây liên quan đến việc xử lý dữ liệu bị thiếu hoặc không chính xác?

<p>Xử lý dữ liệu nhiễu hoặc không đầy đủ. (B)</p> Signup and view all the answers

Một trong những thách thức lớn của data mining là đảm bảo dữ liệu có thể được sử dụng và tuân thủ các quy định về ____?

<p>Quyền riêng tư. (B)</p> Signup and view all the answers

Một vấn đề quan trọng trong data mining là đảm bảo kết quả được trình bày theo cách nào?

<p>Dễ hiểu và trực quan. (C)</p> Signup and view all the answers

Vấn đề nào sau đây KHÔNG liên quan đến hiệu suất trong khai thác dữ liệu?

<p>Sự đa dạng của các loại cơ sở dữ liệu. (C)</p> Signup and view all the answers

Flashcards

Khai thác dữ liệu là gì?

Trích xuất các mẫu hoặc kiến thức thú vị, không tầm thường, tiềm ẩn, chưa từng biết trước đây và có khả năng hữu ích từ lượng lớn dữ liệu.

Quy trình KDD là gì?

Một quy trình bao gồm các bước làm sạch dữ liệu, tích hợp dữ liệu, chọn dữ liệu, chuyển đổi, khai thác dữ liệu, đánh giá mẫu và trình bày kiến thức.

Nhiệm vụ dự đoán là gì?

Một nhiệm vụ khai thác dữ liệu sử dụng một số biến để dự đoán các giá trị chưa biết hoặc tương lai của các biến khác.

Nhiệm vụ mô tả là gì?

Một nhiệm vụ khai thác dữ liệu tìm các mẫu có thể hiểu được để mô tả dữ liệu.

Signup and view all the flashcards

Phân loại là gì?

Phân loại là nhiệm vụ tổng quát hóa cấu trúc đã biết để áp dụng cho dữ liệu mới.

Signup and view all the flashcards

Các thuật toán phân loại?

Một thuật toán phân loại bao gồm các bộ phân loại tuyến tính, máy vector hỗ trợ, bộ phân loại bậc hai, ước tính hạt nhân, cây quyết định, mạng nơ-ron và lượng tử hóa vector học tập.

Signup and view all the flashcards

Học luật kết hợp là gì?

Tìm kiếm các mối quan hệ giữa các biến.

Signup and view all the flashcards

Ứng dụng của luật kết hợp?

Cho phép siêu thị xác định sản phẩm thường được mua cùng nhau.

Signup and view all the flashcards

Phân cụm?

Một nhiệm vụ khám phá các nhóm và cấu trúc trong dữ liệu có một cách nào đó 'tương tự' mà không sử dụng các cấu trúc đã biết trong dữ liệu.

Signup and view all the flashcards

Phân khúc thị trường?

Phân chia một thị trường thành các nhóm khách hàng riêng biệt.

Signup and view all the flashcards

Phân cụm tài liệu?

Tìm các nhóm tài liệu tương tự nhau.

Signup and view all the flashcards

Hồi quy?

Dự đoán giá trị của một biến có giá trị liên tục dựa trên các giá trị của các biến khác, giả sử một mô hình tuyến tính hoặc phi tuyến tính của sự phụ thuộc.

Signup and view all the flashcards

Phát hiện sai lệch?

Phát hiện các sai lệch đáng kể so với hành vi bình thường.

Signup and view all the flashcards

Trình bày và trực quan hóa kết quả

Phải dễ hiểu và có thể sử dụng trực tiếp.

Signup and view all the flashcards

Đánh giá mẫu - bài toán thú vị

Các kỹ thuật phát triển để truy cập mức độ thú vị của các mẫu được khám phá.

Signup and view all the flashcards

Study Notes

Tại Sao Khai Thác Dữ Liệu?

  • Sự tăng trưởng bùng nổ của dữ liệu, từ terabyte lên petabyte, thúc đẩy nhu cầu khai thác dữ liệu.
  • Các công cụ thu thập dữ liệu tự động, hệ thống cơ sở dữ liệu, Web và xã hội số hóa giúp thu thập và lưu trữ dữ liệu dễ dàng hơn.
  • Dữ liệu có giá trị tiềm ẩn cho cả mục đích thu thập ban đầu và các ứng dụng chưa được hình dung trước.
  • Nhiều nguồn dữ liệu lớn, bao gồm:
    • Kinh doanh: Web, thương mại điện tử, giao dịch, chứng khoán,...
    • Khoa học: Viễn thám, tin sinh học, mô phỏng khoa học,...
    • Xã hội: Tin tức, máy ảnh kỹ thuật số, YouTube,...
  • Máy tính ngày càng rẻ hơn và mạnh mẽ hơn, cho phép xử lý dữ liệu lớn.
  • Khai thác dữ liệu là cần thiết vì kỹ thuật truyền thống không phù hợp cho dữ liệu thô.
  • Mục đích của khai thác dữ liệu là giải quyết tình trạng "giàu dữ liệu nhưng nghèo thông tin".
  • Cần các phương pháp phân tích dữ liệu để hiểu ý nghĩa của dữ liệu thu thập được.

Nguồn Gốc của Khai Thác Dữ Liệu

  • Khai thác dữ liệu kết hợp các khái niệm từ học máy/AI, nhận dạng mẫu, thống kê và hệ thống cơ sở dữ liệu.
  • Các kỹ thuật truyền thống có thể không phù hợp với dữ liệu quy mô lớn, chiều cao, không đồng nhất, phức tạp và phân tán.
  • Khai thác dữ liệu là một thành phần quan trọng của lĩnh vực khoa học dữ liệu và khám phá dựa trên dữ liệu đang nổi lên.

Khai Thác Dữ Liệu và Các Lĩnh Vực Liên Quan

  • Các lĩnh vực liên quan đến khai thác dữ liệu:
    • Học máy
    • Nhận dạng mẫu
    • Thống kê
    • Ứng dụng
    • Thuật toán
    • Công nghệ cơ sở dữ liệu
    • Tính toán hiệu năng cao
    • Trực quan hóa

Các Cơ Hội Lớn từ Khai Thác Dữ Liệu

  • Cải thiện năng suất trong mọi lĩnh vực.
  • Giải quyết hiệu quả hơn các vấn đề lớn của xã hội:
    • Chăm sóc sức khỏe
    • Biến đổi khí hậu
    • Năng lượng
    • Nạn đói

Khai Thác Dữ Liệu Là Gì?

  • Khai thác dữ liệu là quá trình khám phá tri thức (Knowledge Discovery from Data - KDD) từ dữ liệu.
  • Trích xuất các mẫu hoặc tri thức tiềm ẩn, không tầm thường, rõ ràng chưa biết và hữu ích từ lượng lớn dữ liệu.
  • Các tên gọi khác:
    • Khám phá tri thức trong cơ sở dữ liệu (KDD)
    • Trích xuất tri thức
    • Phân tích dữ liệu/mẫu
    • Khảo cổ dữ liệu
    • Khai thác dữ liệu
    • Thu thập thông tin
    • Trí tuệ kinh doanh,...
  • Không phải mọi thứ đều là khai thác dữ liệu:
    • Tìm kiếm và truy vấn đơn giản
    • Hệ chuyên gia suy diễn

Ứng Dụng Tiềm Năng của Khai Thác Dữ Liệu

  • Phân tích dữ liệu và hỗ trợ quyết định.
  • Phân tích và quản lý thị trường:
    • Tiếp thị mục tiêu
    • Quản lý quan hệ khách hàng (CRM)
    • Phân tích giỏ thị trường
    • Bán chéo, phân khúc thị trường.
  • Phân tích và quản lý rủi ro:
    • Dự báo
    • Duy trì khách hàng
    • Cải thiện bảo lãnh phát hành
    • Kiểm soát chất lượng
    • Phân tích cạnh tranh.
  • Phát hiện gian lận
  • Phát hiện các mẫu bất thường (ngoại lệ).
  • Các ứng dụng khác:
    • Khai thác văn bản (nhóm tin, email, tài liệu) và khai thác Web.
    • Khai thác dữ liệu dòng (Stream data mining)
    • Tin sinh học và phân tích dữ liệu sinh học.

Quy Trình Khám Phá Tri Thức (KDD)

  • Quy trình KDD bao gồm các bước sau:
    • Hiểu lĩnh vực ứng dụng (Learning the application domain).
    • Xác định tập dữ liệu mục tiêu (Identifying a target data set).
    • Xử lý dữ liệu (Data processing):
      • Làm sạch dữ liệu (Data cleaning): loại bỏ nhiễu và dữ liệu không nhất quán.
      • Tích hợp dữ liệu (Data integration): kết hợp nhiều nguồn dữ liệu.
      • Lựa chọn dữ liệu (Data selection): truy xuất dữ liệu liên quan từ cơ sở dữ liệu.
      • Biến đổi dữ liệu (Data transformation): chuyển đổi dữ liệu thành dạng phù hợp cho khai thác.
    • Khai thác dữ liệu (Data mining): áp dụng các phương pháp thông minh để trích xuất các mẫu dữ liệu.
    • Đánh giá mẫu (Pattern evaluation): xác định các mẫu thực sự thú vị.
    • Trình bày tri thức (Knowledge presentation): trình bày tri thức đã khai thác cho người dùng.
    • Sử dụng tri thức đã khám phá (Use of discovered knowledge).

Kiến Trúc Hệ Thống Khai Thác Dữ Liệu Điển Hình

  • Giao diện người dùng (User Interface).
  • Đánh giá mẫu (Pattern Evaluation).
  • Công cụ khai thác dữ liệu (Data Mining Engine).
  • Cơ sở tri thức (Knowledge Base).
  • Cơ sở dữ liệu hoặc máy chủ kho dữ liệu (Database or Data Warehouse Server).
  • Làm sạch dữ liệu, tích hợp và lựa chọn dữ liệu.
  • Cơ sở dữ liệu (Database)
  • Kho dữ liệu (Data Warehouse).
  • Web
  • Các kho thông tin khác (Other Info Repositories).

Khai Thác Dữ Liệu trong Trí Tuệ Kinh Doanh (Business Intelligence)

  • Tiềm năng ngày càng tăng của việc hỗ trợ các quyết định kinh doanh (Increasing potential to support business decisions).
  • Các bước từ dưới lên trên gồm (Bottom-up steps include): - Nguồn dữ liệu (Data Sources): Giấy, tệp, tài liệu Web, thí nghiệm khoa học, hệ thống cơ sở dữ liệu. - Tiền xử lý/Tích hợp dữ liệu, Kho dữ liệu (Data Preprocessing/Integration, Data Warehouses) - Khai thác Dữ liệu (Data Mining): Khám phá Thông tin - Thăm dò dữ liệu (Data Exploration): Tóm tắt thống kê, Truy vấn và Báo cáo - Trình bày dữ liệu (Data Presentation): kỹ thuật trực quan hóa. - Ra Quyết Định (Decision Making)
  • Các nhà chuyên môn: - DBA - Chuyên viên phân tích dữ liệu (Data Analyst) - Chuyên viên phân tích nghiệp vụ (Business Analyst) - Người dùng cuối (End User)

Các Tác Vụ Khai Thác Dữ Liệu

  • Các tác vụ khai thác dữ liệu được chia thành hai loại chính:
    • Tác vụ dự đoán (Prediction Tasks): Sử dụng các biến để dự đoán các giá trị chưa biết trong tương lai.
    • Tác vụ mô tả (Description Tasks): Tìm các mẫu có thể diễn giải được để mô tả dữ liệu.
  • Các tác vụ khai thác dữ liệu phổ biến:
    • Phân loại (Classification): Phân loại mục vào nhóm tương ứng (Predictive, phân tích dự đoán)
    • Phân cụm (Clustering): Nhóm các mục tương tự nhau (Descriptive, mô tả)
    • Khám phá luật kết hợp (Association Rule Discovery): Tìm mối quan hệ giữa các mục (Descriptive, mô tả)
    • Khám phá mẫu tuần tự (Sequential Pattern Discovery): Tìm các mẫu theo thời gian (Descriptive, mô tả)
    • Hồi quy (Regression): Dự đoán giá trị số (Predictive, phân tích dự đoán)
    • Phát hiện độ lệch (Deviation Detection): Xác định sự khác biệt so với kỳ vọng (Predictive, phân tích dự đoán)

Phân Loại

  • Phân loại = khái quát hóa cấu trúc đã biết để áp dụng cho: - Dữ liệu mới. - Ví dụ: chương trình email muốn phân loại một email là "hợp pháp" hay là "spam".
  • Học máy và thống kê: - Phân loại là: xác định đối tượng với một danh mục từ một tập hợp các danh mục đã biết. - Dựa trên cơ sở một tập huấn luyện.
  • Trong học máy: - Được xem là một ví dụ học có giám sát: tập huấn luyện phải xác định đúng các quan sát. - Khai thác dữ liệu không giám sát: phân cụm.

Ví Dụ Bài Toán Phân Loại

  • Cho một tập hợp các bản ghi (tập huấn luyện):
    • Mỗi bản ghi chứa một tập các attribute (thuộc tính), thuộc tính quan trọng nhất ở đây là class (lớp).
  • Tìm kiếm một model (mô hình) của một thuộc tính class, có chức năng phụ thuộc vào giá trị của các thuộc tính còn lại.
  • Mục tiêu:
    • Các bản ghi chưa từng thấy sẽ được gán class một cách chính xác nhất có thể.
    • Một test set được sử dụng để xác định chính xác các mô hình.
    • Dữ liệu được chia thành training/test sets , training để xây dựng model và test để xác thực.

Ví Dụ về Phân Loại

  • Dự đoán độ tin cậy tín dụng.
  • Các attribute bao gồm:
    • Level of education (Trình độ học vấn)
    • years at present address

  • Kết hợp thành mô hình để dự đoán khả năng chi trả.

Các Ví Dụ về Nhiệm Vụ Phân Loại

  • Phân loại giao dịch thẻ tín dụng là hợp pháp hay gian lận.
  • Phân loại độ che phủ đất (khối nước, khu đô thị, rừng, v.v.) bằng dữ liệu vệ tinh.
  • Phân loại tin tức theo tài chính, thời tiết, giải trí, thể thao, v.v.
  • Xác định những kẻ xâm nhập trong không gian mạng.
  • Dự đoán các tế bào khối u là lành tính hay ác tính.
  • Phân loại cấu trúc thứ cấp của protein là alpha-helix, beta-sheet hoặc random coil.

Ứng Dụng Của Phân Loại

  • Tiếp thị trực tiếp (Direct Marketing):
    • Mục Tiêu: Giảm chi phí gửi thư bằng cách nhắm mục tiêu đến một tập hợp những khách hàng có khả năng mua một sản phẩm điện thoại di động mới.
    • Cách Tiếp Cận:
      • Sử dụng dữ liệu cho một sản phẩm tương tự được giới thiệu trước đó.
      • Chúng ta biết những khách hàng nào quyết định mua và những khách hàng nào quyết định không mua. Quyết định {mua, không mua} này tạo thành thuộc tính lớp.
      • Thu thập nhiều thông tin khác nhau liên quan đến nhân khẩu học, lối sống và tương tác của công ty về tất cả những khách hàng đó.
  • Phát hiện gian lận (Fraud Detection):
    • Mục Tiêu: Dự đoán các trường hợp gian lận trong các giao dịch thẻ tín dụng.
    • Cách Tiếp Cận:
      • Sử dụng các giao dịch thẻ tín dụng và thông tin về chủ tài khoản làm thuộc tính.
      • Gán nhãn các giao dịch trước đó là giao dịch gian lận hoặc giao dịch hợp lệ. Điều này tạo thành thuộc tính lớp.
      • Tìm hiểu một mô hình cho lớp giao dịch.
  • Đánh giá mức độ hài lòng của khách hàng (Customer Attrition/Churn):
    • Mục Tiêu: Dự đoán liệu một khách hàng có khả năng bị mất vào tay đối thủ cạnh tranh hay không.
    • Cách Tiếp Cận:
      • Sử dụng bản ghi chi tiết về các giao dịch với mỗi khách hàng trong quá khứ và hiện tại để tìm thuộc tính.
      • Gán nhãn khách hàng là trung thành hoặc không trung thành.
      • Tìm một mô hình cho lòng trung thành.

Thuật Toán Phân Loại

  • Các thuật toán phân loại đa dạng:
    • Phân loại tuyến tính: Phân biệt tuyến tính Fisher, Hồi quy logistic, Phân loại Bayes ngây thơ (Naive Bayes classifier), Perceptron
    • Máy vectơ hỗ trợ: Máy vectơ hỗ trợ bình phương tối thiểu
    • Bộ phân loại bậc hai
    • Ước tính kernel: k-nearest neighbor
    • Tăng cường (meta-thuật toán)
    • Cây quyết định: Rừng ngẫu nhiên
    • Mạng nơ-ron
    • Học lượng tử hóa vectơ

Phát hiện Sai Lệch

  • Xác định sai lệch đáng kể so với hành vi bình thường.
  • Ứng dụng:
    • Phát hiện gian lận thẻ tín dụng
    • Phát hiện xâm nhập mạng
    • Xác định hành vi bất thường từ các mạng cảm biến để theo dõi và giám sát.
    • Phát hiện thay đổi trong độ che phủ rừng toàn cầu.

Luật Kết Hợp

  • Học luật kết hợp: Nghiên cứu các mối quan hệ giữa các biến.
    • Mục tiêu: Tìm các chuỗi có xác suất cao cho tất cả cơ sở dữ liệu.
  • Các luật kết hợp được sử dụng để xác định các quy tắc có thể được xác định trong cơ sở dữ liệu bằng cách sử dụng các thước đo như độ tin cậy (confidence).
  • Ví dụ: siêu thị có thể thu thập dữ liệu về thói quen của khách hàng. Việc tạo luật kết hợp giúp việc xác định sản phẩm nào được mua nhiều thường xuyên hơn để phân bổ cho mục đích:
    • Tiếp thị
    • Phân tích
  • Đôi khi được xem xét là "Phân tích giỏ hàng".

Các Bước Luật Kết Hợp

  • Hạn chế các tham số đo lường khác nhau làm căn cứ để chỉ ra các quy tắc thú vị từ một tập các quy tắc khả thi, bao gồm:

    • Độ tin cậy (confidence)
    • Mức độ hỗ trợ (support) (dữ liệu được sử dụng để đáp ứng mức thông tin từ người dùng)
  • Chèn tiêu chí hỗ trợ tối thiểu đồng thời

  • Tạo và hình thành các quy tắc trong số các tập tiêu chí.

Định Nghĩa Khám Phá Luật Kết Hợp

  • Cho một tập các ghi chú, mỗi tập chứa số mục từ một tập hợp đã cho:
    • Tạo ra các quy tắc bằng cách dự đoán sự xuất hiện của một mặt hàng để phản ánh sự xuất hiện của các quy tắc khác.
    • Milk -> Coke
    • Diaper, Milk -> Beer

Thuật Toán Luật Kết Hợp

  • Theo dòng lịch sử nhiều thuật toán khác nhau đã được giới thiệu, bao gồm:

    • Thuật toán Apriori
    • Thuật toán Eclat (Chuyển đổi lớp tương đương)
    • Thuật toán tăng trưởng FP (FP: Mẫu thường xuyên), AprioriDP
  • Các loại khai thác kết hợp khác:

    • Quy tắc kết hợp đa mối quan hệ
    • Quy tắc kết hợp dựa trên bối cảnh

Ứng Dụng Phân Tích Kết Hợp

  • Phân tích giỏ thị trường
    • Các quy tắc được sử dụng cho các mục tiêu: - Khuyến mãi - Quản lý vị trí sản phẩm.
  • Chẩn đoán báo động viễn thông.
    • Dùng để tìm tổ hợp chuỗi báo động kích hoạt trong cùng thời gian.
  • Tin học y tế:
    • Tìm sự tương thích tổ hợp triệu chứng và biểu hiện bệnh.

Ứng Dụng Khám Phá Luật Kết Hợp

  • Quản lý kệ siêu thị:
    • Mục tiêu: Xác định vật phẩm thường xuyên được khách hàng gom mua.
    • Phương pháp: Sử dụng các thông tin thu được qua máy quét mã vạch tại điểm thu ngân.
    • Qui tắc cổ điển: Nếu khách hàng mua tã và sữa, người đó rất có thể sẽ mua bia: Tã → Bia, support = 20%, confidence = 85%.

Phân cụm

  • Phân cụm là hoạt động khám phá các cấu trúc và nhóm trong cơ sở dữ liệu được xây dựng dựa trên sự tương đồng và khác biệt không dựa vào kinh nghiệm chủ quan bên ngoài.
  • Phân tích cụm giúp tạo một tập hợp các đối tượng có cách thức tương đồng.
  • Phân cụm thường được sử dụng để phân tích dữ liệu thống kê liên quan đến: - Học máy - Nhận dạng mẫu - Phân tích ảnh - Thu hồi thông tin và tin sinh học.

Kỹ Thuật Phân Cụm

  • Mục tiêu:
    • Gộp từng nhóm đối tượng theo liên kết hoặc mối liên quan.
  • Dựa theo khoảng cách Euclid để phân loại trong không gian 3-D.
    • Khoảng cách nội cụm được thu nhỏ
    • Khoảng cách giữa các cụm được tối đa hóa

Phân cụm (Tiếp)

  • Algorithmic Categories liên quan đến khả năng liên kết giữa:
    • Phân cụm kết nối (phân cụm theo thứ bậc)
    • Phân cụm Centroid
  • Dựa trên phân bổ
  • Dựa trên mật độ
  • Năng suất thuật toán đang được cải thiện.
  • Các thuật toán phân cụm (Clustering algorithms).

Phương Pháp Phân Cụm

  • Mục tiêu: - Tập hợp dữ liệu. - Xác định phạm trù.
  • Phương pháp:
    • Dữ liệu trong một cụm có nhiều điểm tương đồng hơn.
    • Các thuộc tính khác biệt ít tương đồng hơn.
  • Khoảng cách Euclid nếu thuộc tính là liên tục.
  • Các phép đo khác theo từng trường hợp.

Ứng Dụng Phân Tích Cụm

  • Khách hàng quen mặt:
    • Xây dựng hồ sơ mục tiêu.
  • Nhóm các tài liệu liên quan để duyệt:
    • Gen nhóm có tính năng quen thuộc
    • Nhóm các cổ phiếu có biến động tương tự
  • Tóm tắt:
    • Giảm kích thước cơ sở dữ liệu.

Ứng Dụng Phân Loại 1

  • Phân đoạn thị trường:
    • Mục tiêu: Phân chia một thị trường thành các nhóm khách hàng riêng biệt, nơi bất kỳ nhóm con nào cũng có thể được chọn làm mục tiêu thị trường.
    • Phương pháp:
      • Thu thập nhiều thông tin khác nhau dựa trên yếu tố địa lý, lối sống và quan hệ giữa khách hàng.
      • Tìm kiếm cụm khách hàng tương đồng.
      • Đo lường chất lượng gom cụm bằng cách quan sát mô hình của khách hàng.

Ứng Dụng Phân Loại 2

  • Đối chiếu các văn bản:
    • Mục tiêu: gom các văn bản có nhiều nét tương đồng
    • Phương pháp: lập danh sách các keyword diễn ra thường xuyên
    • Lợi ích: để tham khảo và truyền đạt thông tin.

Hồi Quy

  • Hồi quy được sử dụng để cho ra các giá trị thay vì gom nhóm.
  • Nghiên cứu mở rộng trong thống kê và mạng thần kinh.
  • Các ví dụ:
    • Ước tính doanh số cho sản phẩm mởi.
    • Hồi đáp các điều kiện như nhiệt độ, khoảng cách....
    • Các chỉ số Stock trong chuỗi thời gian.

Các Vấn Đề Chính trong Khai Thác Dữ Liệu

  • Phương pháp và tương tác người dùng để khai thác:
    • Các loại kiến thức cần cho và từ khai thác.
    • Sử dụng và kích hoạt liên kết cơ sở dữ liệu.
    • Khai thác dữ liệu đa nhiệm.
  • Tương tác đa nền tảng:
    • Hỗ trợ và cho phép thay đổi truy vấn một cách có kiểm soát
  • Chú trọng đến kiến thức chuyên môn
    • Các qui trình phát hiện
    • Các mẫu trong kết quả
  • Ngôn ngữ truy vấn dữ liệu và khai thác dữ liệu riêng.
    • Tạo ngôn ngữ truy vấn nâng cao tích hợp các ngôn ngữ DB/DW.
  • Trình bày và trực quan
    • Sử dụng ngôn ngữ dễ hiểu, các biểu diễn.
  • Quản lý độ nhiễu thông tin:
    • Dữ liệu có thể chưa đầy đủ.
  • Dánh giá khuôn mẫu.
    • Kĩ thuật tiếp cận các khuôn mẫu đang được khám phá, bao gồm: - Xác nhận/phác thảo niềm tin - Đo các yếu tố chủ quan

Các Thách Thức về Hiệu Suất và Quy Mô

  • Hiệu quả và khả năng mở rộng cần được bảo đảm
  • Cần đáp ứng với:
    • khối lượng data lớn
    • thời gian chạy cần dự đoán trước và chấp nhận được
  • Triển khai thuật toán từng phần song song.
    • Phân vùng data
    • Khối lượng data vừa đủ để sử dụng.
  • Các loại hình cơ sở dữ liệu (CSDL):
    • CSDL phức tạp chứa nhiều vật phẩm, dữ liệu đa phương tiện, dữ liệu không gian.
  • Khai thác web trở nên khó khăn hơn:
    • Các CSDL phức tạp là lĩnh vực phát triển nhanh.

Lịch Sử Tóm Tắt của Cộng Đồng Khai Thác Dữ Liệu

  • Hội thảo IJCAI năm 1989 về Khám phá Tri thức trong Cơ sở Dữ liệu
    • Khám phá kiến thức trong CSDL
  • 1991-1994 hội thảo khám phá kiến thước và dữ liệu trong cơ sở dữ liệu

  • 1995-1998 các hội nghị quốc tế về khai thác dữ liệu
    • Journal of Data Mining and Knowledge Discovery
  • Các tổ chức thảo luận:
    • ACM SIGKDD -PAKDD -PKDD -SIAM-Data Mining -IEEE ICDM -WSDM
  • ACM Transactions on KDD

Các Hội Nghị và Tạp Chí về Khai Thác Dữ Liệu

  • Các tạp chí tham khảo:
    • ACM SigKDD
    • ACM SIGMOD
    • IEEE ICDE
    • Các tạp chí liên quan khác
    • Các công trình hội nghị thường niên thường có.
  • Tạp chí
    • Data Mining and Knowledge Discovery -IEEE Trans. Đang được sử dụng
    • KDD Explorations -ACM Trans.

Tóm lược

  • Khai thác dữ liệu là khám phá các nhóm và kiến thức từ các dữ liệu.
  • Quy trình KDD
    • Vệ sinh dữ liệu thích hợp
    • Xác định dữ liệu tương thích(dung lượng)
    • Quá trình gom data (khai thác thích hợp)
    • Đánh giá hiệu suất
    • Thể hiện và chuyển đạt
  • Khai thác có thể chạy giữa các tập dữ liệu khác nhau.
  • Các chức năng có thể kể đến là: mô tả ký tự, so sánh kết hợp....
  • Vấn đề chính của công nghệ và ứng dụng Khai thác (data) (DM).

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

More Like This

Use Quizgecko on...
Browser
Browser