Kỹ thuật Feature Engineering
8 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Kỹ thuật nào sau đây không thuộc về Data imputation?

  • Log transform (correct)
  • Next or Previous Value
  • K Nearest Neighbors
  • Fixed Value

Phép biến đổi nào dưới đây thường được sử dụng trong chuẩn hóa dữ liệu?

  • One-hot encoding (correct)
  • Bag of words
  • LDA
  • Maximum Value

Kỹ thuật nào được sử dụng để phát hiện và loại bỏ các điểm ngoại lệ?

  • Transform outliers: log transform (correct)
  • Data normalization
  • Word2vec
  • Feature selection

PCA thuộc về loại kỹ thuật nào trong Feature Engineering?

<p>Data dimensionality reduction (C)</p> Signup and view all the answers

Bag of words được sử dụng trong lĩnh vực nào trong Feature Engineering?

<p>Xử lý ngôn ngữ tự nhiên (NLP) (D)</p> Signup and view all the answers

Kỹ thuật nào sau đây không phải là phương pháp ước lượng giá trị để bù đắp giá trị bị thiếu?

<p>Data normalization (C)</p> Signup and view all the answers

Kỹ thuật nào được sử dụng để phân tích xu hướng và mùa vụ trong chuỗi thời gian?

<p>STL decomposition (A)</p> Signup and view all the answers

Kỹ thuật nào không được sử dụng trong việc giảm chiều dữ liệu?

<p>K Nearest Neighbors (D)</p> Signup and view all the answers

Flashcards

Điền dữ liệu (Data Imputation)

Kỹ thuật xử lý các giá trị bị thiếu trong tập dữ liệu bằng các phương pháp như thay thế bằng giá trị tiếp theo, láng giềng gần nhất, giá trị cực đại/cực tiểu, dự đoán giá trị thiếu, giá trị phổ biến nhất, trung bình/ngoại suy tuyến tính, trung bình/trung vị/trung bình di chuyển (làm tròn), hoặc giá trị cố định.

Chuẩn hóa dữ liệu

Phương pháp chuyển đổi dữ liệu về cùng một thang đo, giúp cải thiện hiệu suất của mô hình học máy bằng cách loại bỏ tác động của sự khác biệt trong đơn vị đo.

Mã hóa một-nóng (One-hot encoding)

Phương pháp biến đổi biến phân loại thành nhiều biến nhị phân, mỗi biến đại diện cho một giá trị duy nhất.

Xử lý giá trị ngoại lệ (Handling Outliers)

Xử lý các giá trị ngoại lệ trong tập dữ liệu bằng cách phát hiện, loại bỏ, chuyển đổi hoặc điền các giá trị ngoại lệ.

Signup and view all the flashcards

Phân tích chuỗi thời gian (Seasonal-Trend decomposition using LOESS)

Phân tích dữ liệu chuỗi thời gian bằng cách tách riêng phần chu kỳ, xu hướng và phần còn lại của dữ liệu.

Signup and view all the flashcards

Túi từ (Bag of words)

Phương pháp chuyển đổi dữ liệu văn bản thành dạng số bằng cách tạo ra một bộ từ vựng và tính tần suất xuất hiện của các từ trong tài liệu.

Signup and view all the flashcards

Phân tích thành phần chính (PCA)

Phương pháp giảm chiều dữ liệu bằng cách tìm các thành phần chính (principal components) là các tổ hợp tuyến tính của các biến gốc.

Signup and view all the flashcards

Phân tích tuyến tính rời rạc (LDA)

Phương pháp giảm chiều dữ liệu bằng cách tìm các thành phần tuyến tính tối ưu để phân biệt các lớp dữ liệu.

Signup and view all the flashcards

Study Notes

Kỹ thuật Feature Engineering

  • Bao gồm các kỹ thuật để chuẩn bị dữ liệu cho mô hình học máy
  • Bao gồm các kỹ thuật sau:
    • Phân bổ dữ liệu thiếu (Data imputation):

      • Sử dụng giá trị trước hoặc sau
      • K láng giềng gần nhất (K Nearest Neighbors)
      • Giá trị lớn nhất hoặc nhỏ nhất
      • Dự đoán giá trị thiếu
      • Giá trị xuất hiện nhiều nhất (Most Frequent Value)
      • Trung bình hoặc nội suy tuyến tính (Average or Linear Interpolation)
      • Trung bình hoặc trung bình động (Rounded) hoặc trung vị (Median Value)
      • Giá trị cố định (Fixed Value)
    • Chuẩn hóa dữ liệu (Data normalization):

      • Chuẩn hóa min-max:
        • Công thức: y = (x - xmin) / (xmax - xmin)
        • Biến đổi dữ liệu vào khoảng [0, 1]
      • Chuẩn hóa z-score:
        • Công thức: y = (x - mean(x)) / stddev(x)
        • Biến đổi dữ liệu sao cho có giá trị trung bình bằng 0 và độ lệch chuẩn bằng 1
      • Chuẩn hóa theo tỉ lệ thập phân (normalization by decimal scaling):
        • Công thức: y = x / 10^j, trong đó j là số nguyên nhỏ nhất để max(y) < 1
        • Điều chỉnh dữ liệu để có giá trị lớn nhất nhỏ hơn 1.
    • Mã hóa một nóng (One-hot encoding):

      • Biến đổi các biến phân loại thành các biến số nhị phân (0 hoặc 1).
      • Ví dụ: Biến "màu sắc" (đỏ, xanh lá, xanh dương) được mã hóa thành ba cột riêng biệt.
    • Chuyển đổi logarit (Log transform):

      • Sử dụng hàm logarit để biến đổi dữ liệu.
      • Cải thiện phân phối lệch của dữ liệu.
      • Thích hợp cho dữ liệu dãy thời gian và dữ liệu NLP.
    • Kỹ thuật feature engineering trong dãy thời gian (time-series), NLP

Xử lý ngoại lai (Outliers)

  • Phát hiện ngoại lai (Outlier detection):
  • Loại bỏ ngoại lai (Remove outliers):
  • Biến đổi ngoại lai (Transform outliers):
    • Sử dụng hàm logarit (log transform)
  • Phân bổ lại ngoại lai (Impute outliers):
    • Sử dụng giá trị trung bình (mean), trung vị (median), giá trị xuất hiện nhiều nhất (mode), láng giềng gần nhất (nearest neighbor)

Kỹ thuật Feature Engineering trong dãy thời gian (Time Series)

  • Hiệu số bậc hai: y = x(t) – x(t − 1)y'(t) = y(t) - y(t − 1)
  • Hàm logarit: log(y'(t))
  • Phân tích xu hướng và mùa vụ: Sử dụng kỹ thuật LOESS (STL) để tách các thành phần mùa vụ và xu hướng trong dữ liệu.

Kỹ thuật Feature Engineering trong NLP (Natural Language Processing)

  • Túi từ (Bag of words):
    • Biến đổi văn bản thành tập hợp các từ
    • Cần xử lý tần suất xuất hiện của từ (TF-IDF)
  • Tần suất từ - nghịch đảo tần suất tài liệu (Term Frequency-Inverse Document Frequency - TF-IDF):
    • Biểu thị tầm quan trọng của từ trong tài liệu dựa trên tần suất xuất hiện của từ trong toàn bộ tập dữ liệu.
  • Word2vec: Biểu diễn từ như các vectơ trong không gian vector.

Lựa chọn Feature

  • Phương pháp không giám sát
    • Loại bỏ features không đầy đủ
    • Loại bỏ features có độ tương quan cao
  • Phương pháp có giám sát
    • Forward selection
    • Backward selection
    • Recursive feature elimination
  • Phương pháp nhúng (Embedded)
    • LASSO (Least Absolute Shrinkage and Selection Operator)
    • Autoencoder

Giảm chiều dữ liệu (Data dimensionality reduction)

  • PCA (Principal Component Analysis): Giảm số lượng biến bằng cách tìm các thành phần chính.
  • LDA (Linear Discriminant Analysis): Giảm số lượng biến bằng cách tìm các thành phần phân biệt các lớp.
  • Autoencoder: Tạo ra mô hình mạng nơ-ron đối xứng để giảm chiều dữ liệu.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Description

Khám phá các kỹ thuật Feature Engineering để chuẩn bị dữ liệu cho mô hình học máy. Quiz này bao gồm phân bổ dữ liệu thiếu và chuẩn hóa dữ liệu, cung cấp các phương pháp cụ thể như K láng giềng gần nhất và chuẩn hóa min-max. Hãy cùng kiểm tra hiểu biết của bạn về những kỹ thuật quan trọng này.

More Like This

Introduction to Machine Learning Pipelines
16 questions
Feature Engineering Techniques
8 questions
Use Quizgecko on...
Browser
Browser