Podcast
Questions and Answers
Kỹ thuật nào sau đây không thuộc về Data imputation?
Kỹ thuật nào sau đây không thuộc về Data imputation?
- Log transform (correct)
- Next or Previous Value
- K Nearest Neighbors
- Fixed Value
Phép biến đổi nào dưới đây thường được sử dụng trong chuẩn hóa dữ liệu?
Phép biến đổi nào dưới đây thường được sử dụng trong chuẩn hóa dữ liệu?
- One-hot encoding (correct)
- Bag of words
- LDA
- Maximum Value
Kỹ thuật nào được sử dụng để phát hiện và loại bỏ các điểm ngoại lệ?
Kỹ thuật nào được sử dụng để phát hiện và loại bỏ các điểm ngoại lệ?
- Transform outliers: log transform (correct)
- Data normalization
- Word2vec
- Feature selection
PCA thuộc về loại kỹ thuật nào trong Feature Engineering?
PCA thuộc về loại kỹ thuật nào trong Feature Engineering?
Bag of words được sử dụng trong lĩnh vực nào trong Feature Engineering?
Bag of words được sử dụng trong lĩnh vực nào trong Feature Engineering?
Kỹ thuật nào sau đây không phải là phương pháp ước lượng giá trị để bù đắp giá trị bị thiếu?
Kỹ thuật nào sau đây không phải là phương pháp ước lượng giá trị để bù đắp giá trị bị thiếu?
Kỹ thuật nào được sử dụng để phân tích xu hướng và mùa vụ trong chuỗi thời gian?
Kỹ thuật nào được sử dụng để phân tích xu hướng và mùa vụ trong chuỗi thời gian?
Kỹ thuật nào không được sử dụng trong việc giảm chiều dữ liệu?
Kỹ thuật nào không được sử dụng trong việc giảm chiều dữ liệu?
Flashcards
Điền dữ liệu (Data Imputation)
Điền dữ liệu (Data Imputation)
Kỹ thuật xử lý các giá trị bị thiếu trong tập dữ liệu bằng các phương pháp như thay thế bằng giá trị tiếp theo, láng giềng gần nhất, giá trị cực đại/cực tiểu, dự đoán giá trị thiếu, giá trị phổ biến nhất, trung bình/ngoại suy tuyến tính, trung bình/trung vị/trung bình di chuyển (làm tròn), hoặc giá trị cố định.
Chuẩn hóa dữ liệu
Chuẩn hóa dữ liệu
Phương pháp chuyển đổi dữ liệu về cùng một thang đo, giúp cải thiện hiệu suất của mô hình học máy bằng cách loại bỏ tác động của sự khác biệt trong đơn vị đo.
Mã hóa một-nóng (One-hot encoding)
Mã hóa một-nóng (One-hot encoding)
Phương pháp biến đổi biến phân loại thành nhiều biến nhị phân, mỗi biến đại diện cho một giá trị duy nhất.
Xử lý giá trị ngoại lệ (Handling Outliers)
Xử lý giá trị ngoại lệ (Handling Outliers)
Signup and view all the flashcards
Phân tích chuỗi thời gian (Seasonal-Trend decomposition using LOESS)
Phân tích chuỗi thời gian (Seasonal-Trend decomposition using LOESS)
Signup and view all the flashcards
Túi từ (Bag of words)
Túi từ (Bag of words)
Signup and view all the flashcards
Phân tích thành phần chính (PCA)
Phân tích thành phần chính (PCA)
Signup and view all the flashcards
Phân tích tuyến tính rời rạc (LDA)
Phân tích tuyến tính rời rạc (LDA)
Signup and view all the flashcards
Study Notes
Kỹ thuật Feature Engineering
- Bao gồm các kỹ thuật để chuẩn bị dữ liệu cho mô hình học máy
- Bao gồm các kỹ thuật sau:
-
Phân bổ dữ liệu thiếu (Data imputation):
- Sử dụng giá trị trước hoặc sau
- K láng giềng gần nhất (K Nearest Neighbors)
- Giá trị lớn nhất hoặc nhỏ nhất
- Dự đoán giá trị thiếu
- Giá trị xuất hiện nhiều nhất (Most Frequent Value)
- Trung bình hoặc nội suy tuyến tính (Average or Linear Interpolation)
- Trung bình hoặc trung bình động (Rounded) hoặc trung vị (Median Value)
- Giá trị cố định (Fixed Value)
-
Chuẩn hóa dữ liệu (Data normalization):
- Chuẩn hóa min-max:
- Công thức:
y = (x - xmin) / (xmax - xmin)
- Biến đổi dữ liệu vào khoảng [0, 1]
- Công thức:
- Chuẩn hóa z-score:
- Công thức:
y = (x - mean(x)) / stddev(x)
- Biến đổi dữ liệu sao cho có giá trị trung bình bằng 0 và độ lệch chuẩn bằng 1
- Công thức:
- Chuẩn hóa theo tỉ lệ thập phân (normalization by decimal scaling):
- Công thức:
y = x / 10^j
, trong đój
là số nguyên nhỏ nhất đểmax(y) < 1
- Điều chỉnh dữ liệu để có giá trị lớn nhất nhỏ hơn 1.
- Công thức:
- Chuẩn hóa min-max:
-
Mã hóa một nóng (One-hot encoding):
- Biến đổi các biến phân loại thành các biến số nhị phân (0 hoặc 1).
- Ví dụ: Biến "màu sắc" (đỏ, xanh lá, xanh dương) được mã hóa thành ba cột riêng biệt.
-
Chuyển đổi logarit (Log transform):
- Sử dụng hàm logarit để biến đổi dữ liệu.
- Cải thiện phân phối lệch của dữ liệu.
- Thích hợp cho dữ liệu dãy thời gian và dữ liệu NLP.
-
Kỹ thuật feature engineering trong dãy thời gian (time-series), NLP
-
Xử lý ngoại lai (Outliers)
- Phát hiện ngoại lai (Outlier detection):
- Loại bỏ ngoại lai (Remove outliers):
- Biến đổi ngoại lai (Transform outliers):
- Sử dụng hàm logarit (log transform)
- Phân bổ lại ngoại lai (Impute outliers):
- Sử dụng giá trị trung bình (mean), trung vị (median), giá trị xuất hiện nhiều nhất (mode), láng giềng gần nhất (nearest neighbor)
Kỹ thuật Feature Engineering trong dãy thời gian (Time Series)
- Hiệu số bậc hai:
y = x(t) – x(t − 1)
vày'(t) = y(t) - y(t − 1)
- Hàm logarit:
log(y'(t))
- Phân tích xu hướng và mùa vụ: Sử dụng kỹ thuật LOESS (STL) để tách các thành phần mùa vụ và xu hướng trong dữ liệu.
Kỹ thuật Feature Engineering trong NLP (Natural Language Processing)
- Túi từ (Bag of words):
- Biến đổi văn bản thành tập hợp các từ
- Cần xử lý tần suất xuất hiện của từ (TF-IDF)
- Tần suất từ - nghịch đảo tần suất tài liệu (Term Frequency-Inverse Document Frequency - TF-IDF):
- Biểu thị tầm quan trọng của từ trong tài liệu dựa trên tần suất xuất hiện của từ trong toàn bộ tập dữ liệu.
- Word2vec: Biểu diễn từ như các vectơ trong không gian vector.
Lựa chọn Feature
- Phương pháp không giám sát
- Loại bỏ features không đầy đủ
- Loại bỏ features có độ tương quan cao
- Phương pháp có giám sát
- Forward selection
- Backward selection
- Recursive feature elimination
- Phương pháp nhúng (Embedded)
- LASSO (Least Absolute Shrinkage and Selection Operator)
- Autoencoder
Giảm chiều dữ liệu (Data dimensionality reduction)
- PCA (Principal Component Analysis): Giảm số lượng biến bằng cách tìm các thành phần chính.
- LDA (Linear Discriminant Analysis): Giảm số lượng biến bằng cách tìm các thành phần phân biệt các lớp.
- Autoencoder: Tạo ra mô hình mạng nơ-ron đối xứng để giảm chiều dữ liệu.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Khám phá các kỹ thuật Feature Engineering để chuẩn bị dữ liệu cho mô hình học máy. Quiz này bao gồm phân bổ dữ liệu thiếu và chuẩn hóa dữ liệu, cung cấp các phương pháp cụ thể như K láng giềng gần nhất và chuẩn hóa min-max. Hãy cùng kiểm tra hiểu biết của bạn về những kỹ thuật quan trọng này.