Kỹ thuật Feature Engineering
8 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Kỹ thuật nào sau đây không thuộc về Data imputation?

  • Log transform (correct)
  • Next or Previous Value
  • K Nearest Neighbors
  • Fixed Value
  • Phép biến đổi nào dưới đây thường được sử dụng trong chuẩn hóa dữ liệu?

  • One-hot encoding (correct)
  • Bag of words
  • LDA
  • Maximum Value
  • Kỹ thuật nào được sử dụng để phát hiện và loại bỏ các điểm ngoại lệ?

  • Transform outliers: log transform (correct)
  • Data normalization
  • Word2vec
  • Feature selection
  • PCA thuộc về loại kỹ thuật nào trong Feature Engineering?

    <p>Data dimensionality reduction</p> Signup and view all the answers

    Bag of words được sử dụng trong lĩnh vực nào trong Feature Engineering?

    <p>Xử lý ngôn ngữ tự nhiên (NLP)</p> Signup and view all the answers

    Kỹ thuật nào sau đây không phải là phương pháp ước lượng giá trị để bù đắp giá trị bị thiếu?

    <p>Data normalization</p> Signup and view all the answers

    Kỹ thuật nào được sử dụng để phân tích xu hướng và mùa vụ trong chuỗi thời gian?

    <p>STL decomposition</p> Signup and view all the answers

    Kỹ thuật nào không được sử dụng trong việc giảm chiều dữ liệu?

    <p>K Nearest Neighbors</p> Signup and view all the answers

    Study Notes

    Kỹ thuật Feature Engineering

    • Bao gồm các kỹ thuật để chuẩn bị dữ liệu cho mô hình học máy
    • Bao gồm các kỹ thuật sau:
      • Phân bổ dữ liệu thiếu (Data imputation):

        • Sử dụng giá trị trước hoặc sau
        • K láng giềng gần nhất (K Nearest Neighbors)
        • Giá trị lớn nhất hoặc nhỏ nhất
        • Dự đoán giá trị thiếu
        • Giá trị xuất hiện nhiều nhất (Most Frequent Value)
        • Trung bình hoặc nội suy tuyến tính (Average or Linear Interpolation)
        • Trung bình hoặc trung bình động (Rounded) hoặc trung vị (Median Value)
        • Giá trị cố định (Fixed Value)
      • Chuẩn hóa dữ liệu (Data normalization):

        • Chuẩn hóa min-max:
          • Công thức: y = (x - xmin) / (xmax - xmin)
          • Biến đổi dữ liệu vào khoảng [0, 1]
        • Chuẩn hóa z-score:
          • Công thức: y = (x - mean(x)) / stddev(x)
          • Biến đổi dữ liệu sao cho có giá trị trung bình bằng 0 và độ lệch chuẩn bằng 1
        • Chuẩn hóa theo tỉ lệ thập phân (normalization by decimal scaling):
          • Công thức: y = x / 10^j, trong đó j là số nguyên nhỏ nhất để max(y) < 1
          • Điều chỉnh dữ liệu để có giá trị lớn nhất nhỏ hơn 1.
      • Mã hóa một nóng (One-hot encoding):

        • Biến đổi các biến phân loại thành các biến số nhị phân (0 hoặc 1).
        • Ví dụ: Biến "màu sắc" (đỏ, xanh lá, xanh dương) được mã hóa thành ba cột riêng biệt.
      • Chuyển đổi logarit (Log transform):

        • Sử dụng hàm logarit để biến đổi dữ liệu.
        • Cải thiện phân phối lệch của dữ liệu.
        • Thích hợp cho dữ liệu dãy thời gian và dữ liệu NLP.
      • Kỹ thuật feature engineering trong dãy thời gian (time-series), NLP

    Xử lý ngoại lai (Outliers)

    • Phát hiện ngoại lai (Outlier detection):
    • Loại bỏ ngoại lai (Remove outliers):
    • Biến đổi ngoại lai (Transform outliers):
      • Sử dụng hàm logarit (log transform)
    • Phân bổ lại ngoại lai (Impute outliers):
      • Sử dụng giá trị trung bình (mean), trung vị (median), giá trị xuất hiện nhiều nhất (mode), láng giềng gần nhất (nearest neighbor)

    Kỹ thuật Feature Engineering trong dãy thời gian (Time Series)

    • Hiệu số bậc hai: y = x(t) – x(t − 1)y'(t) = y(t) - y(t − 1)
    • Hàm logarit: log(y'(t))
    • Phân tích xu hướng và mùa vụ: Sử dụng kỹ thuật LOESS (STL) để tách các thành phần mùa vụ và xu hướng trong dữ liệu.

    Kỹ thuật Feature Engineering trong NLP (Natural Language Processing)

    • Túi từ (Bag of words):
      • Biến đổi văn bản thành tập hợp các từ
      • Cần xử lý tần suất xuất hiện của từ (TF-IDF)
    • Tần suất từ - nghịch đảo tần suất tài liệu (Term Frequency-Inverse Document Frequency - TF-IDF):
      • Biểu thị tầm quan trọng của từ trong tài liệu dựa trên tần suất xuất hiện của từ trong toàn bộ tập dữ liệu.
    • Word2vec: Biểu diễn từ như các vectơ trong không gian vector.

    Lựa chọn Feature

    • Phương pháp không giám sát
      • Loại bỏ features không đầy đủ
      • Loại bỏ features có độ tương quan cao
    • Phương pháp có giám sát
      • Forward selection
      • Backward selection
      • Recursive feature elimination
    • Phương pháp nhúng (Embedded)
      • LASSO (Least Absolute Shrinkage and Selection Operator)
      • Autoencoder

    Giảm chiều dữ liệu (Data dimensionality reduction)

    • PCA (Principal Component Analysis): Giảm số lượng biến bằng cách tìm các thành phần chính.
    • LDA (Linear Discriminant Analysis): Giảm số lượng biến bằng cách tìm các thành phần phân biệt các lớp.
    • Autoencoder: Tạo ra mô hình mạng nơ-ron đối xứng để giảm chiều dữ liệu.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Related Documents

    Description

    Khám phá các kỹ thuật Feature Engineering để chuẩn bị dữ liệu cho mô hình học máy. Quiz này bao gồm phân bổ dữ liệu thiếu và chuẩn hóa dữ liệu, cung cấp các phương pháp cụ thể như K láng giềng gần nhất và chuẩn hóa min-max. Hãy cùng kiểm tra hiểu biết của bạn về những kỹ thuật quan trọng này.

    More Like This

    Introduction to Machine Learning Pipelines
    16 questions
    Feature Engineering Techniques
    8 questions
    Use Quizgecko on...
    Browser
    Browser