Podcast
Questions and Answers
Istilah lain untuk data mining, yang menekankan pada penemuan pengetahuan dari data, adalah...
Istilah lain untuk data mining, yang menekankan pada penemuan pengetahuan dari data, adalah...
- Rekayasa fitur data
- Validasi data eksternal
- Penemuan pengetahuan dari data (correct)
- Pemodelan data terstruktur
Manakah dari disiplin ilmu berikut yang BUKAN termasuk dalam ruang lingkup data mining?
Manakah dari disiplin ilmu berikut yang BUKAN termasuk dalam ruang lingkup data mining?
- Fisika kuantum (correct)
- Kecerdasan buatan (AI)
- Machine learning
- Teknologi basis data
Jenis data yang berbentuk kategori tanpa urutan disebut...
Jenis data yang berbentuk kategori tanpa urutan disebut...
- Data ordinal
- Data rasio
- Data interval
- Data nominal (correct)
Manakah dari teknik sampling berikut di mana setiap anggota populasi memiliki peluang yang sama untuk dipilih?
Manakah dari teknik sampling berikut di mana setiap anggota populasi memiliki peluang yang sama untuk dipilih?
Ukuran pemusatan data yang paling tepat digunakan ketika data memiliki distribusi miring dan mengandung pencilan adalah...
Ukuran pemusatan data yang paling tepat digunakan ketika data memiliki distribusi miring dan mengandung pencilan adalah...
Diagram yang paling cocok untuk memvisualisasikan perubahan data dari waktu ke waktu dan mengidentifikasi tren adalah...
Diagram yang paling cocok untuk memvisualisasikan perubahan data dari waktu ke waktu dan mengidentifikasi tren adalah...
Dalam metodologi data mining, tahapan yang berfokus pada pemahaman tujuan bisnis dan kebutuhan organisasi secara mendalam adalah...
Dalam metodologi data mining, tahapan yang berfokus pada pemahaman tujuan bisnis dan kebutuhan organisasi secara mendalam adalah...
Teknik untuk mengatasi data yang tidak seimbang dengan mengurangi sampel kelas mayoritas disebut...
Teknik untuk mengatasi data yang tidak seimbang dengan mengurangi sampel kelas mayoritas disebut...
Metode evaluasi model yang digunakan untuk klasifikasi, yang menghasilkan matriks untuk menunjukkan prediksi benar dan salah untuk setiap kategori adalah...
Metode evaluasi model yang digunakan untuk klasifikasi, yang menghasilkan matriks untuk menunjukkan prediksi benar dan salah untuk setiap kategori adalah...
Teknik statistik yang digunakan untuk memodelkan hubungan antara variabel independen dan dependen yang bersifat numerik disebut...
Teknik statistik yang digunakan untuk memodelkan hubungan antara variabel independen dan dependen yang bersifat numerik disebut...
Dalam konteks regresi linier, apa yang ditunjukkan oleh koefisien variabel independen?
Dalam konteks regresi linier, apa yang ditunjukkan oleh koefisien variabel independen?
Dalam logistic regression, fungsi yang mengonversi hasil prediksi menjadi nilai antara 0 dan 1 adalah...
Dalam logistic regression, fungsi yang mengonversi hasil prediksi menjadi nilai antara 0 dan 1 adalah...
Jenis Logistic Regression yang digunakan ketika variabel dependen memiliki lebih dari dua kategori yang tidak berurutan adalah...
Jenis Logistic Regression yang digunakan ketika variabel dependen memiliki lebih dari dua kategori yang tidak berurutan adalah...
Apa karakteristik utama dari metode K-means clustering?
Apa karakteristik utama dari metode K-means clustering?
Algoritma clustering yang lebih tahan terhadap outlier dibandingkan K-means karena menggunakan titik data aktual sebagai pusat klaster adalah...
Algoritma clustering yang lebih tahan terhadap outlier dibandingkan K-means karena menggunakan titik data aktual sebagai pusat klaster adalah...
Dalam konteks evaluasi model klasifikasi, metrik yang memberikan ukuran harmonis dari presisi dan recall adalah...
Dalam konteks evaluasi model klasifikasi, metrik yang memberikan ukuran harmonis dari presisi dan recall adalah...
Jika Anda ingin mengelompokkan pelanggan berdasarkan pola pembelian mereka di toko online, algoritma data mining mana yang paling sesuai?
Jika Anda ingin mengelompokkan pelanggan berdasarkan pola pembelian mereka di toko online, algoritma data mining mana yang paling sesuai?
Suatu metode penambangan data yang digunakan untuk menemukan kombinasi objek/item yang muncul bersamaan disebut...
Suatu metode penambangan data yang digunakan untuk menemukan kombinasi objek/item yang muncul bersamaan disebut...
Algoritma apa yang digunakan untuk menemukan asosiasi antar item dalam data transaksi?
Algoritma apa yang digunakan untuk menemukan asosiasi antar item dalam data transaksi?
Disiplin ilmu yang berperan dalam proses optimasi model dalam penambangan data adalah...
Disiplin ilmu yang berperan dalam proses optimasi model dalam penambangan data adalah...
Dalam sebuah perusahaan e-niaga, Anda ingin mengklasifikasikan ulasan produk sebagai 'positif', 'negatif', atau 'netral' berdasarkan teks ulasan. Metode mana yang cocok untuk hal ini?
Dalam sebuah perusahaan e-niaga, Anda ingin mengklasifikasikan ulasan produk sebagai 'positif', 'negatif', atau 'netral' berdasarkan teks ulasan. Metode mana yang cocok untuk hal ini?
Tapapan dalam metodologi CRISP-DM terdiri dari...
Tapapan dalam metodologi CRISP-DM terdiri dari...
Fitur seleksi adalah salah satu metode yang digunakan pada tahapan ... dalam persiapan data.
Fitur seleksi adalah salah satu metode yang digunakan pada tahapan ... dalam persiapan data.
Apakah metode yang tepat untuk mengetahui keterkaitan antar item yang muncul bersamaan dalam dataset yang besar?
Apakah metode yang tepat untuk mengetahui keterkaitan antar item yang muncul bersamaan dalam dataset yang besar?
Apabila ingin mengetahui trend penjualan tiap bulan pada 5 tahun terakhir, maka akan lebih mudah menggunakan...
Apabila ingin mengetahui trend penjualan tiap bulan pada 5 tahun terakhir, maka akan lebih mudah menggunakan...
Berikut ini manakah syntax yang tepat untuk membaca data dari file CSV dengan pandas?
Berikut ini manakah syntax yang tepat untuk membaca data dari file CSV dengan pandas?
Berikut ini manakah syntax yang tepat untuk mengidentifikasi baris duplikat pada pandas?
Berikut ini manakah syntax yang tepat untuk mengidentifikasi baris duplikat pada pandas?
Apabila ingin menskalakan data berdasarkan rata-rata dan standar deviasi menggunakan python, manakah kode yang tepat?
Apabila ingin menskalakan data berdasarkan rata-rata dan standar deviasi menggunakan python, manakah kode yang tepat?
Dalam reduksi dimensi menggunakan PCA pada python scikit-learn, manakah syntax yang tepat?
Dalam reduksi dimensi menggunakan PCA pada python scikit-learn, manakah syntax yang tepat?
Berikut ini merupakan library yang sering digunakan untuk tahapan preprocessing kecuali...?
Berikut ini merupakan library yang sering digunakan untuk tahapan preprocessing kecuali...?
Flashcards
Apa itu Data Mining?
Apa itu Data Mining?
Proses menemukan pola, model, atau pengetahuan yang berguna dari kumpulan data yang sangat besar.
Teknologi Basis Data dalam Data Mining
Teknologi Basis Data dalam Data Mining
Mengelola data dalam jumlah besar secara efisien dan memastikan skalabilitas dalam analisis data.
Statistika dalam Data Mining
Statistika dalam Data Mining
Membantu dalam memodelkan dan memverifikasi hasil analisis data mining dengan metode statistika.
Machine Learning dalam Data Mining
Machine Learning dalam Data Mining
Signup and view all the flashcards
NLP dalam Data Mining
NLP dalam Data Mining
Signup and view all the flashcards
AI dalam Data Mining
AI dalam Data Mining
Signup and view all the flashcards
Apa itu Data Kualitatif?
Apa itu Data Kualitatif?
Signup and view all the flashcards
Apa itu Data Nominal?
Apa itu Data Nominal?
Signup and view all the flashcards
Apa itu Data Ordinal?
Apa itu Data Ordinal?
Signup and view all the flashcards
Apa itu Data Kuantitatif?
Apa itu Data Kuantitatif?
Signup and view all the flashcards
Apa itu Data Diskrit?
Apa itu Data Diskrit?
Signup and view all the flashcards
Apa itu Data Kontinu?
Apa itu Data Kontinu?
Signup and view all the flashcards
Skala Nominal?
Skala Nominal?
Signup and view all the flashcards
Skala Ordinal?
Skala Ordinal?
Signup and view all the flashcards
Skala Interval?
Skala Interval?
Signup and view all the flashcards
Skala Rasio?
Skala Rasio?
Signup and view all the flashcards
Apa itu Random Sampling?
Apa itu Random Sampling?
Signup and view all the flashcards
Apa itu Stratified Sampling?
Apa itu Stratified Sampling?
Signup and view all the flashcards
Apa itu Cluster Sampling?
Apa itu Cluster Sampling?
Signup and view all the flashcards
Apa itu Systematic Sampling?
Apa itu Systematic Sampling?
Signup and view all the flashcards
Kapan menggunakan Mean (Rata-rata)
Kapan menggunakan Mean (Rata-rata)
Signup and view all the flashcards
Kapan menggunakan Median?
Kapan menggunakan Median?
Signup and view all the flashcards
Kapan menggunakan Mode?
Kapan menggunakan Mode?
Signup and view all the flashcards
Fungsi Line Chart (Diagram Garis)?
Fungsi Line Chart (Diagram Garis)?
Signup and view all the flashcards
Fungsi Pie Chart (Diagram Lingkaran)?
Fungsi Pie Chart (Diagram Lingkaran)?
Signup and view all the flashcards
Apa itu KDD?
Apa itu KDD?
Signup and view all the flashcards
Apa itu CRISP-DM?
Apa itu CRISP-DM?
Signup and view all the flashcards
Pengertian Linear Regression
Pengertian Linear Regression
Signup and view all the flashcards
Pengertian Logistic Regression
Pengertian Logistic Regression
Signup and view all the flashcards
Pengertian K-means Clustering
Pengertian K-means Clustering
Signup and view all the flashcards
Study Notes
Pengantar Data Mining
- Data mining adalah proses untuk mengidentifikasi pola, model, atau pengetahuan yang berguna dari kumpulan data yang besar.
- Tujuan utama dari data mining adalah mengubah data mentah menjadi informasi yang berguna untuk pengambilan keputusan.
- Istilah lain untuk data mining adalah knowledge discovery from data, pattern discovery, knowledge extraction, dan data analytics.
- Data mining diperlukan untuk mengelola data yang tumbuh secara eksponensial dan sulit dikelola secara manual.
- Data mining didorong oleh kemajuan teknologi komputasi, kebutuhan informasi yang cepat dan akurat, serta inovasi teknologi untuk pengambilan keputusan bisnis.
Ruang Lingkup Data Mining
- Data mining mencakup berbagai disiplin ilmu: teknologi basis data, statistika, machine learning, pemrosesan bahasa alami (NLP), dan kecerdasan buatan (AI).
- Teknologi Basis Data: Mengelola data besar secara efisien dan memastikan skalabilitas analisis data.
- Statistika: Membantu memodelkan dan memverifikasi hasil data mining dengan metode statistika.
- Machine Learning: Menemukan model optimal untuk penggalian informasi.
- Natural Language Processing (NLP): Menganalisis data teks untuk menemukan pola atau tren.
- Artificial Intelligence (AI): Mendukung sistem cerdas dalam pengambilan keputusan yang lebih baik, cepat, dan efisien.
- Data mining diterapkan di berbagai bidang seperti bisnis, media sosial, kesehatan, pendidikan, perbankan, e-commerce, dan manufaktur.
- Penerapannya mencakup segmentasi pelanggan hingga deteksi kecurangan dan pemeliharaan prediktif.
Jenis Data pada Eksplorasi Data
- Data Kualitatif: Data kategori atau deskripsi tanpa nilai numerik; contohnya adalah warna, jenis kelamin.
- Data Nominal: Kategori tanpa urutan, misalnya jenis kelamin atau warna.
- Data Ordinal: Kategori dengan urutan, contohnya tingkat pendidikan.
- Data Kuantitatif: Data berupa angka dan dapat diukur.
- Data Diskrit: Nilai terbatas; contohnya adalah jumlah anak.
- Data Kontinu: Nilai dalam rentang tertentu; contohnya adalah tinggi badan atau berat badan.
Skala Pengukuran Data
- Nominal: Kategori tanpa urutan atau tingkatan (misalnya, jenis kelamin atau agama).
- Ordinal: Kategori dengan urutan yang tidak jelas (misalnya, tingkat pendidikan).
- Interval: Data numerik dengan urutan dan jarak yang sama, tanpa titik nol mutlak (misalnya, suhu dalam Celcius).
- Rasio: Data numerik dengan jarak yang sama dan titik nol mutlak (misalnya, berat atau panjang).
Teknik Sampling
- Sampling digunakan untuk memilih sampel dari populasi untuk analisis data yang efisien.
- Random Sampling: Setiap anggota populasi memiliki peluang yang sama untuk dipilih.
- Stratified Sampling: Populasi dibagi menjadi subgrup, sampel acak diambil dari setiap subgrup.
- Cluster Sampling: Populasi dibagi menjadi kelompok, lalu kelompok dipilih secara acak untuk analisis.
- Systematic Sampling: Sampel dipilih berdasarkan interval tertentu.
- Undersampling dan Oversampling: Digunakan pada data yang tidak seimbang; undersampling mengurangi sampel kelas mayoritas, oversampling menambah sampel kelas minoritas.
Ukuran Statistik: Ukuran Pemusatan
- Mean (Rata-rata): Cocok untuk data simetris tanpa pencilan ekstrem.
- Median: Lebih sesuai untuk data miring atau dengan pencilan.
- Mode: Digunakan untuk data kategori atau nilai yang paling sering muncul.
Ukuran Statistik: Ukuran Penyebaran
- Range (Jangkauan): Selisih antara nilai maksimum dan minimum, sensitif terhadap pencilan.
- Interquartile Range (IQR): Mengukur penyebaran di tengah data, mengabaikan pencilan.
- Variance (Varians) dan Standard Deviation (Simpangan Baku): Mengukur penyebaran data terhadap rata-rata. Simpangan baku memiliki satuan yang sama dengan data asli.
- Coefficient of Variation (Koefisien Variasi): Persentase simpangan baku terhadap mean, berguna untuk membandingkan variabilitas dari dua kumpulan data yang berbeda.
Deteksi Outlier
- Deteksi outlier menggunakan Interquartile Range (IQR) untuk menentukan batas bawah dan atas. Jika data berada di luar batas, maka data tersebut dianggap sebagai outlier.
Penggunaan Grafik
- Bar Chart (Diagram Batang): Menampilkan data kategori dengan batang yang mewakili frekuensi atau jumlah.
- Line Chart (Diagram Garis): Memvisualisasikan perubahan data dari waktu ke waktu untuk mendeteksi tren.
- Pie Chart (Diagram Lingkaran): Menunjukkan proporsi data sebagai bagian dari keseluruhan dalam bentuk sektoral.
- Box Plot (Diagram Kotak-Garis): Visualisasi distribusi data yang menunjukkan nilai tengah, penyebaran, dan pencilan.
- Histogram: Menampilkan frekuensi data dalam rentang tertentu, berguna untuk melihat distribusi data.
Perbedaan KDD dan CRISP-DM
- KDD (Knowledge Discovery in Databases):
- Berfokus kepada penemuan pengetahuan dalam basis data.
- Melibatkan serangkaian langkah untuk menemukan informasi yang dapat digunakan dari data yang besar.
- Tahapan utama meliputi pemilihan data, prapemrosesan, transformasi, data mining (analisis), dan interpretasi/evaluasi hasil.
- Lebih berfokus pada aspek pengetahuan dengan pendekatan yang linier.
- CRISP-DM (Cross-Industry Standard Process for Data Mining):
- Metodologi yang lebih terstruktur dan banyak digunakan dalam industri untuk proyek data mining.
- Tahapan meliputi Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, dan Deployment.
- Memiliki pendekatan siklus, dengan setiap tahap dapat kembali ke tahap sebelumnya jika diperlukan, untuk memastikan keselarasan dengan tujuan bisnis.
- CRISP-DM memulai dengan pemahaman yang mendalam terhadap tujuan bisnis dan kebutuhan organisasi, KDD lebih berfokus langsung pada data.
Pemahaman tentang Data Understanding
- Pengumpulan Data: Mengumpulkan data yang sesuai dengan masalah yang akan diselesaikan.
- Deskripsi Data: Mendeskripsikan struktur dan konten dari dataset.
- Meliputi identifikasi jenis data, jumlah variabel, dan tipe variabel (numerik atau kategorik).
- Eksplorasi Data (EDA): Menggali pola dan hubungan dalam data.
- Melibatkan pemeriksaan distribusi variabel, analisis korelasi, dan visualisasi data.
- Tujuannya adalah untuk menemukan pola awal yang mungkin berguna dalam model analitik.
- Penilaian Kualitas Data: Memeriksa kualitas data untuk mengidentifikasi masalah yang mungkin memengaruhi hasil analisis:
- Redundansi: Mengidentifikasi data yang berulang atau duplikat.
- Kekurangan Data: Mengidentifikasi data yang hilang dalam variabel penting.
- Ketidakkonsistenan: Memastikan data konsisten.
- Outliers: Memeriksa nilai yang jauh dari distribusi yang diharapkan.
- Data Bising: Mengatasi data yang tidak relevan atau mengandung noise.
Pemahaman tentang Modelling & Evaluation
- Modelling: Penerapan teknik statistik atau machine learning pada data untuk menemukan pola atau wawasan prediktif yang relevan. Tahapan pentingnya adalah:
- Data readiness: Mempersiapkan data, termasuk menangani nilai yang hilang, outlier, normalisasi, dan pengkodean.
- Data splitting: Membagi data menjadi set pelatihan dan pengujian atau validasi dengan teknik seperti cross-validation.
- Algoritma yang sesuai: Memilih algoritma berdasarkan masalah bisnis dan tipe data. - Contoh algoritma klasifikasi: Decision Tree, Naïve Bayes, SVM, Random Forest, K-Nearest Neighbors, Neural Network - Contoh algoritma regresi: Linear Regression, Logistic Regression - Contoh algoritma clustering: K-means, K-Medoid - Contoh algoritma asosiasi: Apriori, Frequent Pattern Growth.
- Evaluation: Menilai performa model untuk memastikan model memenuhi tujuan bisnis. Metode evaluasi berbeda berdasarkan jenis model: - Klasifikasi: Confusion matrix (akurasi, presisi, recall, f1-score), AUC, dan kurva ROC - Regresi: RMSE (Root Mean Square Error), MAE (Mean Absolute Error), dan R-square - Clustering: Silhouette Score dan Elbow Score
Pemahaman tentang Linear Regression
- Linear Regression adalah teknik statistik untuk memodelkan hubungan antara satu atau lebih variabel independen (predictors) dan variabel dependen (response) yang bersifat numerik, dengan asumsi hubungan linier di antara variabel. Persamaan garis linier direpresentasikan sebagai: (Y = bo+b1X1+b2X2+ + bnXn + €)
- Keterangan
- Y adalah variabel dependen (nilai yang ingin diprediksi).
- X1,X2,…,Xn adalah variabel independen.
- bo adalah intercept (konstanta).
- b1,b2,…,bn adalah koefisien atau parameter untuk variabel independen, yang menunjukkan seberapa besar pengaruh setiap variabel independen terhadap variabel dependen.
- Ñ” adalah error term yang menunjukkan deviasi hasil aktual dari model.
- Keterangan
- Secara umum, Linear Regression bertujuan untuk menemukan garis terbaik yang meminimalkan selisih antara nilai aktual dan nilai prediksi, yang disebut dengan least squares method.
- Terdapat 2 jenis regresi linier : - Simple Linear Regression: Regresi yang hanya menggunakan 1 variabel independen saja. - Multiple Linear Regression: Regresi yang menggunakan lebih dari 1 variabel independen.
- Asumsi Regresi Linier: - Hubungan variabel dependen dan independen diasumsikan linier. - Residu atau error diasumsikan saling independen dan terdistribusi normal. - Tidak ada multikolinearitas di antara variabel independen.
- Contoh Penggunaan: - Memprediksi harga rumah berdasarkan ukuran dan lokasi. - Estimasi penjualan produk berdasarkan faktor seperti iklan dan promosi. - Analisis tren penjualan berdasarkan data waktu.
Pemahaman tentang Logistic Regression
- Logistic Regression adalah metode statistik yang digunakan untuk memodelkan hubungan antara variabel independen dan variabel dependen yang bersifat biner (dua kategori), seperti "ya/tidak", "sukses/gagal", atau "lulus/tidak lulus".
- Persamaan yang dipakai:
-keterangan
- p adalah probabilitas kejadian (antara 0 dan 1).
- X1,X2,…, adalah variabel independen.
- b0,b1,b2,…,bn adalah koefisien dari model yang menunjukkan pengaruh dari setiap variabel independen.
- Persamaan yang dipakai:
-keterangan
- Logistic Regression memiliki beberapa jenis: - Binary Logistic Regression: Memiliki dua kategori pada variabel dependen, seperti "lulus/gagal". - Multinomial Logistic Regression: Variabel dependen memiliki lebih dari dua kategori yang tidak berurutan (misalnya, memilih jenis transportasi). - Ordinal Logistic Regression: Variabel dependen memiliki lebih dari dua kategori yang berurutan (misalnya, skala kepuasan).
- Asumsi yang terdapat pada logitic regression adalah : - Tidak ada hubungan linier antara variabel independen dan dependen. - Logistic Regression berfungsi dengan baik pada data kategori. - Variabel independen sebaiknya tidak memiliki multikolinearitas. - Ukuran sampel harus cukup besar.
- Pada umumnya, Logistic Regression dievaluasi menggunakan metrik berikut: - Confusion Matrix: Menunjukkan prediksi benar dan salah untuk setiap kategori. - Accuracy: Persentase prediksi benar dari seluruh data. - Precision, Recall, dan F1-Score: Mengukur kinerja pada kategori tertentu, khususnya dalam data yang tidak seimbang. - ROC Curve dan AUC: Memvisualisasikan kemampuan model dalam memisahkan kelas positif dan negatif.
Pengertian K-means Clustering
- K-means adalah metode clustering berbasis centroid yang digunakan dalam unsupervised learning untuk mengelompokkan data ke dalam beberapa klaster berdasarkan kesamaan antar data.
- Keberadaan titik pusat (centroid) yang merupakan rata-rata dari semua titik data dalam klaster tersebut.
Karakteristik K-means:
- Sensitivity to Initialization: Hasil klastering bisa berbeda tergantung dari penempatan awal centroid, dan inisialisasi yang buruk dapat menghasilkan klaster yang suboptimal.
- Sensitivity to Outliers: K-means sensitif terhadap outliers, karena mereka dapat menggeser posisi centroid dan memengaruhi kualitas klaster.
- Iterative Process: Proses K-means bersifat iteratif yang memiliki 2 langkah utama:
- Assignment: Setiap data ditetapkan ke centroid terdekat.
- Update: Posisi centroid diperbarui berdasarkan rata-rata titik dalam klaster baru.
Keunggulan K-means
- Efisiensi dan Kecepatan: Kompleksitas waktu linear, sehingga cocok untuk dataset besar.
- Simplicity: Algoritma ini mudah diimplementasikan dan dipahami.
- Scalability: Penerapan pada data berdimensi tinggi dan mampu menangani dataset besar.
Keterbatasan K-means
- Sensitif terhadap Inisialisasi yang mengakibatkan centroid yang tidak tepat, sehingga dapat menghasilkan klaster yang kurang optimal.
- Sensitif terhadap Outliers, yang dimana kehdiran outliers dan noise dapat merusak posisi centroid.
- Lebih cocok untuk data numerik dan memerlukan adaptasi untuk data kategorikal.
Aplikasi K-means Clustering
- Digunakan dalam berbagai bidang seperti:Â segmentasi pasar, pengenalan pola dalam citra, deteksi anomali, analisis jejaring sosial, dan analisis pola penggunaan dalam telekomunikasi.
Definisi K-medoids Clustering
- K-medoids adalah algoritma clustering yang membagi data menjadi beberapa cluster dengan memilih titik data aktual sebagai pusat cluster (medoid), berbeda dengan K-means yang menggunakan rata-rata.
- K-medoids dikenal lebih tahan terhadap noise dan outlier dibandingkan K-means, karena menggunakan medoid yang merupakan data asli.
Karakteristik K-medoids
- Penggunaan Medoid: Algoritma memilih medoid dari data aktual sebagai pusat cluster, bukan rata-rata, sehingga mengurangi sensitivitas terhadap outlier.
- Fleksibilitas Metrik Jarak: K-medoids dapat menggunakan berbagai metrik jarak, adaptif terhadap berbagai jenis data.
- Proses Iteratif: Data diatribusikan ke medoid terdekat, lalu pemilihan ulang medoid untuk meminimalkan jarak intra-cluster.
Keunggulan K-medoids
- Ketahanan terhadap Outlier: Dengan memilih medoid dari data aktual, algoritma ini lebih tahan terhadap outlier dan noise.
- Interpretabilitas: Cluster yang dibentuk mudah dipahami karena medoid mewakili titik data asli.
Kekurangan K-medoids
- Sensitivitas terhadap Inisialisasi: Pemilihan awal medoid mempengaruhi hasil clustering akhir, sehingga Inisialisasi yang buruk dapat menghasilkan cluster yang tidak optimal.
- Kurang Efisien untuk Data Besar: Memerlukan biaya komputasi tinggi karena evaluasi seluruh titik data, menyebabkan algoritma ini tidak cocok untuk dataset besar.
- Kurang Efektif pada Dimensi Tinggi: Perhitungan jarak di ruang berdimensi tinggi kurang bermakna dan mempengaruhi kualitas clustering.
Penentuan algoritma yang sesuai
- algoritma disesuaikan dengan: Tujuan bisnis yang spesifik Karakteristik Dataset (berlabel atau tidak, jenis variabel, ukuran dataset)
Untuk Prediksi (Prediction)
- Algoritma yang cocok Regresi Decisiontree
Untuk Segmentasi (Segmentation)
Algoritma yang cocok K-Means Clustering Hierarchical Clustering
Pemahaman tentang syntax dalam data exploration
- Analisis Data Numerik: Ukuran Statistik: mean(), median(), dan mode() digunakan untuk menghitung rata-rata, median, dan modus kolom. Korelasi: corr() digunakan untuk menghitung korelasi antara variabel numerik, membantu dalam identifikasi hubungan antar-variabel. Visualisasi Data:
- Matplotlib: Histogram (plt.hist()), Boxplot (plt.boxplot()), dan Scatter plot (plt.scatter()) untuk visualisasi distribusi data numerik dan identifikasi outlier.
- Seaborn: Histogram (sns.histplot()), Scatter plot (sns.scatterplot()), dan Bar plot (sns.barplot()) digunakan untuk visualisasi variabel kategori maupun numerik.
Visualisasi Data:
- Data Kategori: Frekuensi Nilai Unik: value_counts() digunakan untuk menghitung frekuensi setiap nilai unik dalam suatu kolom. Visualisasi Kategori: plt.bar() dan plt.pie() digunakan untuk menampilkan distribusi dan kontribusi relatif dari tiap kategori dalam dataset.
Syntax dalam proses data cleaning
Identifikasi dan Penanganan Data Duplikat:
duplicated() dan drop_duplicates()-> Fungsi yang berperan disini untuk mendeteksi sekaligus menghapus duplikasi data
Penanganan Data Inkonsisten:
str.lower(), str.upper(), dan str.title()-> Fungsinya sebagai penyeragam format data teks. replace()-> Mengganti nilai tertentu pada data apply()-> Menerapkan fungsi yang ditentukan ke seluruh elemen pada kolom data
Mengoreksi Nilai Tidak Valid
isna() atau isnull()-> Untuk mengindentifikasi isian data kosong
Menangani Outlier:
Library yang umum digunakan untuk proses ini adalah Pandas dan Numpy, dengan beberapa fungsi khusus untuk menangani kasus tertentu seperti duplikasi, inkonsistensi, nilai kosong, dan outliers
Teknik umum dalam dimensionality reduction
Principal Component Analysis (PCA): Mengubah data ke dalam komponen utama untuk mempertahankan variasi maksimum. Syntax: PCA(n_components=) (menggunakan Scikit-learn). Independent Component Analysis (ICA): Memisahkan komponen independen dalam data. Multidimensional Scaling (MDS): Menggambarkan struktur hubungan data dalam bidang multidimensi.
Teknik Umum dalam Numerosity Reduction
Clustering: Mengelompokkan data berdasarkan kesamaan. Sampling: Mengambil sebagian data sebagai representasi dari keseluruhan. Contoh syntax pada Pandas: df.sample(frac=, random_state=) untuk mengambil sampel data secara acak.
Syntax Transformasi
- Mengubah data kategorikal menjadi numerik dan dapat machine learning pakai
- Data Encoding OHE (OneHotEncoder) LE (LabelEncoder)
Agregasi
Menggabungkan nilai data untuk menyederhanakan analisis; groupby().sum(), groupby().mean() Normalisasi (Min-Max Scaling): Mengubah skala data dalam rentang tertentu, 0-1; MinMaxScaler()
Discretization
Mengubah data kontinu menjadi kategori; pd.cut()
Quiz dan Jawabannya
- Suatu metodologi yang terstruktur dan sistematis untuk menjalankan proyek data mining disebut Cross-Industry Standard Process for Data Mining (A).
- Salah satu cara mereduksi data dalam data mining adalah menggunakan PCA (A).
- Feature selection merupakan metode dalam data preparation pada tahapan data reduction (A).
- Discretization bertujuan mengubah variabel kontinu menjadi kategori diskrit (A).
- Tahapan dalam metodologi CRISP-DM adalah Business understanding - data understanding - data preparation - modelling - evaluation - deployment (A).
- Missing value handling dalam KDD berada pada tahapan data preprocessing (B).
- Metode untuk keterkaitan antar item dalam dataset besar adalah Asosiasi (A).
- Metode untuk memprediksi LULUS dan TIDAK LULUS mahasiswa adalah Klasifikasi (C).
- Evaluasi model klasifikasi yang cocok adalah Akurasi (A).
- Evaluasi model regresi yang cocok adalah R-square score (C).
- Evaluasi model clustering yang cocok adalah WCSS score (D).
- Evaluasi model k-means yang cocok adalah WCSS score (D).
- Untuk mengetahui trend penjualan bulanan selama 5 tahun, gunakan line chart (A).
- Untuk mengetahui data pencilan, gunakan box plot (D).
- Ukuran statistik yang cocok untuk mengganti nilai null pada data kategori adalah mode (D).
- Metode data mining untuk menemukan kombinasi objek yang muncul bersama adalah Association Rule Mining (D).
- Data mining didefinisikan sebagai knowledge discovery in databases (C).
- Algoritma untuk menemukan asosiasi antar item dalam data transaksi adalah Apriori (C).
- Disiplin ilmu yang berperan dalam optimasi model pada data mining adalah Machine Learning (A).
- Metode untuk mengelompokkan data berdasarkan karakteristik yang mirip adalah Clustering (A).
- Untuk mengklasifikasikan ulasan produk sebagai "positif," "negatif," atau "netral," metode yang cocok adalah Sentiment Analysis (C).
- Metode untuk mengelompokkan data berdasarkan karakteristik yang mirip adalah Clustering (D).
- Algoritma yang tepat untuk mengelompokkan pelanggan berdasarkan usia, jenis kelamin, jenis produk yang dibeli, dan jumlah produk adalah K-means Clustering (A).
- Disiplin ilmu yang mencakup pengenalan ucapan, terjemahan bahasa, analisis sentimen, dan peringkasan teks adalah Natural Language Processing (C).
- Dalam klasifikasi, kita ingin memprediksi kategori atau label objek berdasarkan fitur-fiturnya (True).
- Dalam studi kasus data mining, untuk mengidentifikasi perilaku pengguna yang serupa guna memberikan rekomendasi konten yang sesuai, metode yang tepat adalah Association Rule Mining (B).
- Algoritma yang digunakan untuk menemukan asosiasi antar item dalam data transaksi adalah Apriori (A).
- Data mining adalah proses menemukan pola, tren, dan wawasan dari dataset besar melalui berbagai teknik dan algoritma (C).
- Yang dimaksud dengan data mining adalah proses mengungkap informasi tersembunyi dalam data yang besar dan kompleks
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.