Pengantar Data Mining

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson
Download our mobile app to listen on the go
Get App

Questions and Answers

Dalam konteks data mining, istilah manakah yang secara luas mencakup proses penemuan pengetahuan dari data, penemuan pola, ekstraksi pengetahuan, dan analisis data?

  • Data warehousing
  • Business intelligence
  • Manajemen basis data
  • Knowledge discovery from data (correct)

Mengapa data mining dianggap penting dalam era informasi saat ini?

  • Karena membatasi ketersediaan informasi yang akurat.
  • Karena mengurangi kebutuhan akan teknologi komputasi.
  • Karena mampu mengelola data yang tumbuh secara eksponensial. (correct)
  • Karena menghilangkan kebutuhan akan inovasi teknologi.

Disiplin ilmu manakah yang berfokus pada pengelolaan data dalam jumlah besar untuk memastikan skalabilitas dalam analisis data dalam konteks data mining?

  • Machine learning
  • Teknologi basis data (correct)
  • Statistika
  • Natural language processing

Bagaimana peran statistika dalam ruang lingkup data mining?

<p>Membantu memodelkan dan memverifikasi hasil analisis data mining. (C)</p> Signup and view all the answers

Dalam konteks data mining, apa peran machine learning?

<p>Digunakan untuk menemukan model optimal dalam penggalian informasi dari data. (C)</p> Signup and view all the answers

Bagaimana Natural Language Processing (NLP) berkontribusi dalam data mining?

<p>Dengan menganalisis data teks untuk menemukan pola atau tren. (D)</p> Signup and view all the answers

Dalam konteks kecerdasan buatan (AI), apa peran data mining?

<p>Mendukung sistem cerdas dalam pengambilan keputusan yang lebih baik dan lebih efisien (D)</p> Signup and view all the answers

Apa perbedaan mendasar antara data kualitatif dan data kuantitatif?

<p>Data kualitatif berbentuk kategori atau deskripsi, sedangkan data kuantitatif berbentuk angka. (D)</p> Signup and view all the answers

Apa karakteristik utama dari data nominal?

<p>Tidak memiliki nilai numerik dan tidak memiliki urutan. (B)</p> Signup and view all the answers

Data ordinal berbeda dari data nominal dalam hal?

<p>Data ordinal memiliki kategori dengan urutan. (B)</p> Signup and view all the answers

Apa yang membedakan data diskrit dari data kontinu?

<p>Data diskrit memiliki nilai terbatas, sedangkan data kontinu memiliki nilai dalam rentang tertentu. (C)</p> Signup and view all the answers

Bagaimana data interval berbeda dari data rasio?

<p>Data interval tidak memiliki titik nol mutlak, sedangkan data rasio memilikinya. (C)</p> Signup and view all the answers

Mengapa teknik sampling digunakan dalam analisis data?

<p>Untuk memilih sampel dari populasi agar analisis data lebih efisien. (D)</p> Signup and view all the answers

Apa karakteristik utama dari random sampling?

<p>Setiap anggota populasi memiliki peluang yang sama untuk dipilih. (A)</p> Signup and view all the answers

Bagaimana stratified sampling berbeda dari cluster sampling?

<p><em>Stratified sampling</em> memastikan setiap subgrup terwakili, sementara <em>cluster sampling</em> memilih kelompok secara acak. (B)</p> Signup and view all the answers

Dalam kondisi apa teknik undersampling dan oversampling digunakan?

<p>Ketika data tidak seimbang dan membutuhkan penyesuaian proporsi kelas. (C)</p> Signup and view all the answers

Kapan mean (rata-rata) menjadi ukuran pemusatan yang paling tepat?

<p>Ketika data simetris dan tidak memiliki pencilan ekstrem. (D)</p> Signup and view all the answers

Mengapa median lebih disukai daripada mean dalam beberapa analisis?

<p><em>Median</em> tidak dipengaruhi oleh pencilan ekstrem atau distribusi miring. (B)</p> Signup and view all the answers

Dalam situasi apa mode menjadi ukuran yang paling berguna?

<p>Ketika ingin mengidentifikasi nilai yang paling sering muncul dalam dataset kategori. (B)</p> Signup and view all the answers

Mengapa range sensitif terhadap pencilan?

<p>Karena <em>range</em> hanya mempertimbangkan nilai maksimum dan minimum. (A)</p> Signup and view all the answers

Apa keuntungan menggunakan interquartile range (IQR) dibandingkan dengan range?

<p>IQR tidak dipengaruhi oleh pencilan. (D)</p> Signup and view all the answers

Bagaimana variance dan standard deviation mengukur penyebaran data?

<p>Mengukur penyebaran data terhadap rata-rata. (A)</p> Signup and view all the answers

Mengapa coefficient of variation berguna dalam analisis komparatif?

<p>Karena memberikan ukuran penyebaran relatif yang memungkinkan perbandingan antara dataset dengan skala yang berbeda. (D)</p> Signup and view all the answers

Bagaimana teknik deteksi outlier menggunakan IQR?

<p>Dengan menentukan batas bawah dan atas menggunakan IQR, di mana data di luar batas ini dianggap sebagai pencilan. (C)</p> Signup and view all the answers

Dalam konteks penggunaan grafik, kapan bar chart paling tepat digunakan?

<p>Menampilkan data kategori dengan batang yang mewakili frekuensi atau jumlah dalam setiap kategori. (B)</p> Signup and view all the answers

Apa tujuan utama dari line chart?

<p>Memvisualisasikan perubahan data dari waktu ke waktu untuk mendeteksi tren. (D)</p> Signup and view all the answers

Dalam situasi apa pie chart paling efektif digunakan?

<p>Menunjukkan proporsi data sebagai bagian dari keseluruhan. (C)</p> Signup and view all the answers

Informasi apa yang dapat diperoleh dari box plot?

<p>Visualisasi distribusi data yang menunjukkan nilai tengah, penyebaran, dan pencilan. (A)</p> Signup and view all the answers

Apa fungsi utama dari histogram?

<p>Menampilkan frekuensi data dalam rentang tertentu. (A)</p> Signup and view all the answers

Apa fokus utama dari KDD (Knowledge Discovery in Databases)?

<p>Pada penemuan pengetahuan dalam basis data. (B)</p> Signup and view all the answers

Tahapan utama dalam KDD meliputi?

<p>Pemilihan data, praproses data, transformasi, mining (analisis), dan interpretasi/evaluasi hasil. (B)</p> Signup and view all the answers

Bagaimana pendekatan KDD terhadap proses penemuan pengetahuan?

<p>Linier dan berfokus pada aspek pengetahuan. (C)</p> Signup and view all the answers

Apa yang menjadi fokus utama dari metodologi CRISP-DM dalam data mining?

<p>Tujuan bisnis dan kebutuhan organisasi. (C)</p> Signup and view all the answers

Tahapan apa saja yang termasuk dalam metodologi CRISP-DM?

<p>Pemahaman bisnis, pemahaman data, persiapan data, pemodelan, evaluasi, dan penyebaran. (B)</p> Signup and view all the answers

Bagaimana CRISP-DM menangani penyesuaian dalam proses analisis data?

<p>Dengan kembali ke tahap sebelumnya jika diperlukan untuk keselarasan dengan tujuan bisnis. (D)</p> Signup and view all the answers

Apa langkah pertama dalam memahami data menurut CRISP-DM?

<p>Mengumpulkan data yang sesuai dengan masalah yang hendak diselesaikan. (D)</p> Signup and view all the answers

Mengapa deskripsi data penting setelah pengumpulan data?

<p>Untuk memahami struktur dan konten dari dataset. (D)</p> Signup and view all the answers

Apa tujuan utama dari Analisis Eksplorasi Data (EDA)?

<p>Untuk menggali pola dan hubungan dalam data. (D)</p> Signup and view all the answers

Apa saja faktor-faktor kualitas data yang dievaluasi dalam tahap penilaian kualitas data?

<p>Redundansi, kekurangan data, ketidakkonsistenan, <em>outlier</em>, dan data bising. (C)</p> Signup and view all the answers

Dalam proses modelling, apa yang menjadi fokus utama?

<p>Menerapkan teknik statistik atau <em>machine learning</em> untuk menemukan pola atau wawasan prediktif. (C)</p> Signup and view all the answers

Apa yang dimaksud dengan data readiness dalam konteks modelling?

<p>Data yang sudah diproses dan disiapkan untuk pemodelan. (D)</p> Signup and view all the answers

Mengapa data dibagi menjadi set pelatihan dan set pengujian dalam modelling?

<p>Untuk membangun model dan mengevaluasi performanya secara independen. (D)</p> Signup and view all the answers

Bagaimana pemilihan algoritma yang sesuai dalam modelling dilakukan?

<p>Tergantung pada masalah bisnis dan tipe data. (C)</p> Signup and view all the answers

Apa tujuan utama dari evaluasi model dalam data mining?

<p>Untuk memastikan model memenuhi tujuan bisnis dan siap untuk diimplementasikan. (B)</p> Signup and view all the answers

Metode evaluasi mana yang sesuai untuk model klasifikasi?

<p>Confusion matrix (akurasi, presisi, <em>recall</em>, f1-score), AUC, dan kurva ROC. (D)</p> Signup and view all the answers

Flashcards

Apa itu Data Mining?

Proses menemukan pola, model, atau pengetahuan berguna dari kumpulan data besar.

Tujuan Utama Data Mining

Mengubah data mentah menjadi informasi yang berguna untuk pengambilan keputusan.

Disiplin Ilmu dalam Data Mining

Teknologi basis data, statistika, machine learning, NLP, dan kecerdasan buatan.

Teknologi Basis Data dalam Data Mining

Mengelola data besar secara efisien dan memastikan skalabilitas analisis data.

Signup and view all the flashcards

Statistika dalam Data Mining

Membantu dalam memodelkan dan memverifikasi hasil analisis data mining.

Signup and view all the flashcards

Machine Learning dalam Data Mining

Menemukan model optimal untuk menggali informasi dari data.

Signup and view all the flashcards

NLP dalam Data Mining

Menganalisis data teks untuk menemukan pola atau tren dalam sentimen publik.

Signup and view all the flashcards

AI dalam Data Mining

Mendukung sistem cerdas dalam pengambilan keputusan yang lebih baik, cepat, dan efisien.

Signup and view all the flashcards

Apa itu Data Kualitatif?

Data kategori atau deskripsi tanpa nilai numerik.

Signup and view all the flashcards

Contoh Data Nominal

Data kategori tanpa urutan.

Signup and view all the flashcards

Contoh Data Ordinal

Data kategori dengan urutan.

Signup and view all the flashcards

Apa itu Data Kuantitatif?

Data berbentuk angka dan dapat diukur.

Signup and view all the flashcards

Contoh Data Diskrit

Data dengan nilai terbatas.

Signup and view all the flashcards

Contoh Data Kontinu

Data dengan nilai dalam rentang tertentu.

Signup and view all the flashcards

Skala Nominal

Kategori tanpa urutan atau tingkatan.

Signup and view all the flashcards

Skala Ordinal

Kategori dengan urutan, tetapi perbedaan antar kategori tidak jelas.

Signup and view all the flashcards

Skala Interval

Data numerik dengan urutan dan jarak yang sama, tanpa titik nol mutlak.

Signup and view all the flashcards

Skala Rasio

Data numerik dengan jarak sama antara nilai dan memiliki titik nol mutlak.

Signup and view all the flashcards

Tujuan Teknik Sampling

Memilih sampel dari populasi agar analisis data lebih efisien.

Signup and view all the flashcards

Random Sampling

Setiap anggota populasi memiliki peluang yang sama untuk dipilih.

Signup and view all the flashcards

Stratified Sampling

Populasi dibagi ke dalam subgrup, lalu sampel diambil secara acak dari setiap subgrup.

Signup and view all the flashcards

Cluster Sampling

Populasi dibagi menjadi kelompok, lalu kelompok tertentu dipilih secara acak.

Signup and view all the flashcards

Systematic Sampling

Sampel dipilih berdasarkan interval tertentu.

Signup and view all the flashcards

Tujuan Undersampling/Oversampling

Mengurangi sampel kelas mayoritas atau menambah sampel kelas minoritas.

Signup and view all the flashcards

Ukuran Pemusatan

Menunjukkan pusat data.

Signup and view all the flashcards

Penggunaan Mean

Cocok untuk data simetris tanpa pencilan.

Signup and view all the flashcards

Penggunaan Median

Lebih sesuai untuk data miring atau mengandung pencilan.

Signup and view all the flashcards

Penggunaan Mode

Untuk data kategori atau nilai paling sering muncul.

Signup and view all the flashcards

Ukuran Penyebaran

Menunjukkan sebaran data.

Signup and view all the flashcards

Range (Jangkauan)

Selisih antara nilai maksimum dan minimum, sensitif terhadap pencilan.

Signup and view all the flashcards

Interquartile Range (IQR)

Mengukur penyebaran di tengah data, mengabaikan pencilan.

Signup and view all the flashcards

Variance dan Standard Deviation

Mengukur penyebaran data terhadap rata-rata; simpangan baku memiliki satuan yang sama dengan data asli.

Signup and view all the flashcards

Coefficient of Variation

Persentase simpangan baku terhadap mean, berguna membandingkan variabilitas antar kumpulan data.

Signup and view all the flashcards

Deteksi Outlier

Menggunakan IQR untuk menentukan batas outlier.

Signup and view all the flashcards

Bar Chart

Menampilkan data kategori dengan batang mewakili frekuensi.

Signup and view all the flashcards

Line Chart

Memvisualisasikan perubahan data dari waktu ke waktu, berguna deteksi tren.

Signup and view all the flashcards

Pie Chart

Menunjukkan proporsi data sebagai bagian dari keseluruhan.

Signup and view all the flashcards

Box Plot

Visualisasi yang menunjukkan nilai tengah, penyebaran, dan pencilan.

Signup and view all the flashcards

Histogram

Menampilkan frekuensi data dalam rentang tertentu, melihat distribusi data.

Signup and view all the flashcards

Fokus KDD

Penemuan pengetahuan dalam basis data, serangkaian langkah menemukan informasi yang dapat digunakan dari data besar.

Signup and view all the flashcards

Study Notes

Pengantar Data Mining

  • Data mining adalah proses untuk menemukan pola, model, atau pengetahuan yang bermanfaat dari kumpulan data yang besar.
  • Tujuan utama data mining adalah mengubah data mentah menjadi informasi untuk pengambilan keputusan.
  • Data mining disebut juga sebagai knowledge discovery from data, pattern discovery, knowledge extraction, dan data analytics.
  • Data mining diperlukan karena pertumbuhan data yang eksponensial sulit dikelola secara manual.
  • Data mining didorong oleh teknologi komputasi, kebutuhan informasi cepat dan akurat, serta inovasi teknologi untuk mendukung keputusan bisnis.

Ruang Lingkup Data Mining

  • Data mining mencakup teknologi basis data, statistika, machine learning, pemrosesan bahasa alami (NLP), dan kecerdasan buatan (AI).
  • Teknologi Basis Data: Mengelola data besar secara efisien dan memastikan skalabilitas dalam analisis.
  • Statistika: Membantu memodelkan dan memverifikasi hasil data mining.
  • Machine Learning: Menemukan model optimal untuk penggalian informasi.
  • Natural Language Processing (NLP): Analisis data teks untuk menemukan pola atau tren opini publik.
  • Artificial Intelligence (AI): Mendukung sistem cerdas dalam pengambilan keputusan yang lebih baik dan efisien.
  • Data mining diterapkan di berbagai bidang seperti bisnis, media sosial, kesehatan, keuangan, e-commerce, dan manufaktur, untuk segmentasi pelanggan, deteksi kecurangan, dan pemeliharaan prediktif.

Jenis Data

  • Data Kualitatif: Data kategori atau deskripsi tanpa nilai numerik, contohnya warna atau jenis kelamin.
    • Nominal: Data kategori tanpa urutan, contohnya jenis kelamin atau warna.
    • Ordinal: Data kategori dengan urutan, contohnya tingkat pendidikan.
  • Data Kuantitatif: Data berupa angka dan dapat diukur.
    • Diskrit: Data dengan nilai terbatas, contohnya jumlah anak.
    • Kontinu: Data dengan nilai dalam rentang tertentu, contohnya tinggi badan.

Skala Pengukuran Data

  • Nominal: Kategori tanpa urutan, contohnya jenis kelamin atau agama.
  • Ordinal: Kategori dengan urutan yang tidak memiliki jarak yang jelas antar kategori, contohnya tingkat pendidikan.
  • Interval: Numerik dengan urutan dan jarak sama antar nilai, tetapi tanpa titik nol mutlak, contohnya suhu Celsius.
  • Rasio: Numerik dengan jarak sama antar nilai dan memiliki titik nol mutlak, contohnya berat atau panjang.

Teknik Sampling

  • Sampling digunakan untuk memilih sampel dari populasi untuk analisis data yang efisien.
  • Random Sampling: Setiap anggota populasi memiliki peluang yang sama untuk dipilih.
  • Stratified Sampling: Populasi dibagi menjadi subgrup, lalu sampel diambil acak dari tiap subgrup.
  • Cluster Sampling: Populasi dibagi menjadi kelompok, lalu kelompok tertentu dipilih acak untuk dianalisis.
  • Systematic Sampling: Sampel dipilih dengan interval tertentu, contohnya setiap anggota ke-n dari populasi.
  • Undersampling dan Oversampling: Mengatasi data tidak seimbang; undersampling mengurangi sampel kelas mayoritas, oversampling menambah sampel kelas minoritas.

Ukuran Statistik

  • Ukuran Pemusatan (Measures of Central Tendency)
    • Mean (Rata-rata): Cocok untuk data simetris tanpa nilai ekstrem.
    • Median: Lebih baik untuk data dengan distribusi miring atau outlier.
    • Mode: Digunakan untuk data kategori atau menentukan nilai yang paling sering muncul.
  • Ukuran Penyebaran (Measures of Dispersion)
    • Range (Jangkauan): Selisih maksimum dan minimum, sensitif terhadap outlier.
    • Interquartile Range (IQR): Ukuran penyebaran di tengah data, mengabaikan outlier.
    • Variance (Varians) dan Standard Deviation (Simpangan Baku): Mengukur penyebaran data terhadap rata-rata; simpangan baku dalam satuan data asli.
    • Coefficient of Variation (Koefisien Variasi): Persentase simpangan baku terhadap mean, membandingkan variabilitas antar kumpulan data.
  • Deteksi Outlier: Interquartile Range (IQR) digunakan untuk menentukan batas bawah dan atas, dan nilai di luar batas dianggap outlier.

Penggunaan Grafik

  • Bar Chart (Diagram Batang): Menampilkan data kategori dengan frekuensi atau jumlah dalam tiap kategori.
  • Line Chart (Diagram Garis): Memvisualisasikan tren data dari waktu ke waktu.
  • Pie Chart (Diagram Lingkaran): Menunjukkan proporsi data sebagai bagian dari keseluruhan.
  • Box Plot (Diagram Kotak-Garis): Visualisasi distribusi data termasuk nilai tengah, penyebaran, dan outlier.
  • Histogram: Menampilkan frekuensi data dalam rentang, berguna melihat distribusi data.

Perbedaan KDD dan CRISP-DM

  • KDD: Fokus pada penemuan pengetahuan dalam basis data, meliputi serangkaian langkah menemukan informasi yang dapat digunakan dari data besar, dengan tahapan meliputi pemilihan data, praproses, transformasi, data mining (analisis) dan interpretasi.
  • CRISP-DM: Metodologi terstruktur yang lebih banyak digunakan dalam industri untuk proyek data mining, dengan tahapan dimulai dari Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, Deployment, setiap tahapan dapat kembali ke sebelumnya jika diperlukan.
  • CRISP-DM menekankan pemahaman mendalam tujuan bisnis dan kebutuhan organisasi sejak awal, sedangkan KDD berfokus langsung pada data.

Pemahaman tentang Data (Data Understanding)

  • Pengumpulan Data: Mengumpulkan data yang relevan dengan masalah yang ingin dipecahkan.
  • Deskripsi Data: Menggambarkan struktur dan isi dataset, termasuk jenis data, jumlah variabel, dan tipe variabel (numerik atau kategorik).
  • Eksplorasi Data: Analisis untuk menemukan pola dan hubungan dalam data, menggunakan visualisasi seperti histogram dan scatter plot.
  • Penilaian Kualitas Data: Memeriksa masalah kualitas data seperti redundansi, data yang hilang, inkonsistensi, outlier, dan data bising.

Pemahaman tentang Modelling dan Evaluation

  • Modelling: Proses menerapkan teknik statistik atau machine learning untuk menemukan pola atau wawasan prediktif yang relevan dengan masalah bisnis.
    • Data readiness: Memastikan data bersih (cleansing), bebas pencilan (outlier), dan ternomalisasi.
    • Data splitting: Membagi data menjadi set pelatihan dan pengujian untuk cross-validation.
    • Algoritma yang sesuai: Memilih algoritma yang tepat sesuai dengan masalah dan tipe data. Evaluation: Menilai kinerja model, memastikan memenuhi tujuan bisnis, dengan metode yang berbeda untuk tiap jenis model:
    • Klasifikasi: Confusion matrix (akurasi, presisi, recall, f1-score), AUC, dan kurva ROC.
    • Regresi: RMSE (Root Mean Square Error), MAE (Mean Absolute Error), dan R-square.
    • Clustering: Silhouette Score dan Elbow Score.

Linear Regression

  • Linear Regression adalah teknik statistik untuk memodelkan hubungan linier antara satu atau lebih variabel independen (prediktor) dan variabel dependen (respons) yang bersifat numerik.
  • Persamaan garis linear: Y = b0 + b1X1 + b2X2 + ... + bnXn + ϵ
    • Y adalah variabel dependen (nilai yang diprediksi).
    • X1,X2,...,Xn adalah variabel independen.
    • b0 adalah intercept (konstanta).
    • b1,b2,...,bn adalah koefisien untuk variabel independen.
    • ϵ adalah error term.
  • Tujuan Linear Regression adalah menemukan garis terbaik yang meminimalkan selisih antara nilai aktual dan prediksi, yang disebut dengan least squares method.
  • Jenis-jenis Linear Regression:
    • Simple Linear Regression: Satu variabel independen.
    • Multiple Linear Regression: Lebih dari satu variabel independen.
  • Asumsi Linear Regression:
    • Hubungan antara variabel dependen dan independen adalah linier.
    • Residual atau error dari model bersifat independen dan terdistribusi normal.
    • Tidak ada multikolinearitas di antara variabel independen.
  • Linear Regression digunakan untuk memprediksi harga, estimasi penjualan produk, atau analisis tren penjualan.

Logistic Regression

  • Logistic Regression adalah metode statistik untuk memodelkan hubungan antara variabel independen dan variabel dependen biner (dua kategori).
  • Tidak seperti Linear Regression yang memprediksi nilai numerik, Logistic Regression memprediksi probabilitas suatu kejadian.
  • Persamaan Logistic Regression menggunakan fungsi logit (sigmoid) untuk mengonversi hasil prediksi menjadi nilai antara 0 dan 1.
  • In (p/(1-p)) = -3 + 0.05 * Waktu
    • Intercept (-3): Log odds ketika waktu = 0 (probabilitas sangat rendah).
    • Koefisien Waktu (0.05): Kenaikan log odds dengan bertambahnya waktu.
  • Binary Logistic Regression: Variabel dependen memiliki dua kategori.
  • Multinomial Logistic Regression: Variabel dependen memiliki lebih dari dua kategori yang tidak berurutan.
  • Ordinal Logistic Regression: Variabel dependen memiliki lebih dari dua kategori yang berurutan.
  • Asumsi Logistic Regression:
    • Tidak ada hubungan linier antara variabel independen dan dependen.
    • Variabel independen sebaiknya tidak memiliki multikolinearitas.
    • Ukuran sampel harus cukup besar.
  • Logistic Regression dievaluasi dengan Confusion Matrix, Accuracy, Precision, Recall, F1-Score, ROC Curve, dan AUC.
  • Logistic Regression berguna untuk memprediksi pelanggan membeli produk, risiko penyakit, atau klasifikasi email (spam/tidak spam).

K-Means Clustering

  • K-means adalah metode clustering berbasis centroid dalam unsupervised learning untuk mengelompokkan data berdasarkan kesamaan.
  • Setiap cluster diwakili oleh centroid yang merupakan rata-rata dari semua titik data dalam cluster.
  • Hasil klastering sensitif terhadap penempatan awal centroid saat inisialisasi, dapat menghasilkan klaster suboptimal.
  • K-means juga sensitif terhadap outlier karena mempengaruhi posisi centroid.
  • Proses iteratif K-means meliputi assignment (menetapkan data ke centroid terdekat) dan update (memperbarui posisi centroid berdasarkan rata-rata titik dalam klaster).
  • K-means memiliki kompleksitas waktu linear, cocok untuk dataset besar.
  • Meskipun sederhana dan mudah diimplementasikan, K-Means memiliki keterbatasan yaitu sentitif terhadap inisialisasi dan outlier.
  • K-means dapat diterapkan untuk segmentasi pasar, pengenalan pola dalam citra, deteksi anomali, dan analisis jejaring sosial.

K-Medoids Clustering

  • Algoritma clustering ini membagi data menjadi beberapa cluster dengan memilih pusat cluster medoid yang merupakan salah satu data aktual dan bukan rata-rata seperti K-Means.
  • K-medoids lebih tahan terhadap noise dan outlier. Menggunakan medoid.
  • Algoritma ini menggunakan berbagai metrik jarak, membuatnya lebih fleksibel.
  • K-medoids cenderung lebih tahan terhadap outlier atau noise.
  • Pemahaman cluster lebih mudah karena medoid mewakili titik data asli.
  • Inisialisasi awal medoid dapat mempengaruhi hasil clustering, inisialisasi yang buruk menghasilkan cluster yang tidak optimal.
  • K-medoids memerlukan biaya komputasi yang tinggi dan tidak cocok untuk dataset yang sangat besar.
  • K-medoids cocok untuk dataset dengan banyak noise dan atau bentuk cluster yang tidak teratur.

Menentukan Algoritma yang Sesuai

  • Prediksi (Prediction)
    • Regresi - Prediksi nilai kontinu
    • Decision Tree - Prediksi kategori (klasifikasi) yang dapat juga mengandung atribut kategoris
    • K-Means Clustering - mengelompokkan data berdasarkan perilaku/preferensi tanpa label
  • Segmentasi (Segmentation) Clustering (Hierarchical) - Membangun Hierarki antar kelompok yang butuh banyak sumber daya komputasi tetapi berguna untuk dataset yang lebih kecil
  • Clustering* adalah mengelompokkan data berdasarkan kedekatan karakteristik antar data dalam cluster yang populer, karena dapat mengidentifikasi kelompok-kelompok yang memiliki karakteristik mirip Algoritrma disesuaikan dengan :
    • Tujuan bisnis yang spesifik = Prediksi atau segmentasi.
    • Karakteristik Dataset = Dilabel atau tidak, jenis variable (ada atau tidak), ukuran dataset

Sintaks di dalam Python

  • Sintaks di dalam Python dibagi menjadi
    • Memuat dan Membaca Data -> pd(excel,csv)/read
    • melihat Strutur Data -. head(), tail(), dan info()
    • Satiistik Deskriptif - describe()
  • Analisis Data Numerik
    • Ukuran Statistik : mean(), median(), mode()
    • korelasi : corr()
  • Visualisasi Data
    • Matplotlib - Histrogram(plt.hist()) dan lain lain
    • Seaborn - histrogram (sns.histplot() dan lain lain Data terbagi menjadi dua, data Numerik an Data Kategori

Sintaks

  • Sintaks
    • duplicated untuk mengindetifikasi baris terduplikat dan drop.deruplicates() untuk manghapusnya
    • str.lower str.upper dan str.titlle() digunakan untuk menyamakan format tex.
    • isna() atau isnull() mengindentifikasi nilai Nan dropna() menghapus barisyang mengandung nilai kosong.
  • Outlier
    • menggunakan np.standart(), deviari untuk menghitung data data serta np.percentile()

Lain-Lain

  • Mengurangi jumlah fitur dalam dataset mengurangi kompleksitas data mengurangi dataset yang kompleks
  • Data encoding mengubah data kategorikal menjadi numeric agar machine learning lebih optimal dan mengguanakn oneHodencoder

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

More Like This

Data Mining Overview
37 questions

Data Mining Overview

IrresistibleGorgon avatar
IrresistibleGorgon
Data Mining and Knowledge Discovery Concepts
21 questions
Use Quizgecko on...
Browser
Browser