Podcast
Questions and Answers
Algoritma manakah di bawah ini yang termasuk dalam kategori clustering?
Algoritma manakah di bawah ini yang termasuk dalam kategori clustering?
- Decision Tree
- K-Means (correct)
- Logistic Regression
- Naive Bayes
Algoritma manakah yang digunakan untuk mengidentifikasi hubungan antar item dalam dataset, sering digunakan dalam analisis keranjang pasar?
Algoritma manakah yang digunakan untuk mengidentifikasi hubungan antar item dalam dataset, sering digunakan dalam analisis keranjang pasar?
- Linear Discriminant Analysis (LDA)
- K-Nearest Neighbor (kNN)
- FP-Growth (correct)
- K-Medoids
Metode klasifikasi apa yang menggunakan probabilitas bersyarat untuk memprediksi kelas suatu data?
Metode klasifikasi apa yang menggunakan probabilitas bersyarat untuk memprediksi kelas suatu data?
- Linear Discriminant Analysis (LDA)
- Naive Bayes (NB) (correct)
- K-Nearest Neighbor (kNN)
- Decision Tree (CART)
Algoritma manakah di bawah ini yang paling cocok untuk memprediksi kategori berdasarkan variabel input dengan membangun serangkaian aturan keputusan?
Algoritma manakah di bawah ini yang paling cocok untuk memprediksi kategori berdasarkan variabel input dengan membangun serangkaian aturan keputusan?
Teknik clustering manakah yang menggunakan representasi visual untuk mengurangi dimensi data dan mengelompokkan data berdasarkan kesamaan karakteristik?
Teknik clustering manakah yang menggunakan representasi visual untuk mengurangi dimensi data dan mengelompokkan data berdasarkan kesamaan karakteristik?
Algoritma manakah yang mengklasifikasikan data berdasarkan jarak terdekat ke tetangga di ruang fitur?
Algoritma manakah yang mengklasifikasikan data berdasarkan jarak terdekat ke tetangga di ruang fitur?
Manakah dari berikut ini yang digunakan untuk mengukur kekuatan hubungan antara dua variabel kategorikal?
Manakah dari berikut ini yang digunakan untuk mengukur kekuatan hubungan antara dua variabel kategorikal?
Algoritma klasifikasi manakah yang bertujuan untuk menemukan hyperplane yang memaksimalkan margin antara kelas-kelas?
Algoritma klasifikasi manakah yang bertujuan untuk menemukan hyperplane yang memaksimalkan margin antara kelas-kelas?
Dalam clustering, metode manakah yang memungkinkan suatu titik data menjadi anggota lebih dari satu klaster dengan derajat keanggotaan yang berbeda?
Dalam clustering, metode manakah yang memungkinkan suatu titik data menjadi anggota lebih dari satu klaster dengan derajat keanggotaan yang berbeda?
Algoritma manakah yang memperluas algoritma C4.5 dengan menangani ketidakpastian menggunakan interval probabilitas?
Algoritma manakah yang memperluas algoritma C4.5 dengan menangani ketidakpastian menggunakan interval probabilitas?
Mengapa metodologi data science diperlukan dalam pengembangan aplikasi berbasis AI?
Mengapa metodologi data science diperlukan dalam pengembangan aplikasi berbasis AI?
Apa yang menjadi fokus utama dalam metodologi data science?
Apa yang menjadi fokus utama dalam metodologi data science?
Bagaimana metodologi data science membantu dalam menyelesaikan masalah organisasi atau bisnis?
Bagaimana metodologi data science membantu dalam menyelesaikan masalah organisasi atau bisnis?
Apa tujuan utama dari pembahasan metodologi data science?
Apa tujuan utama dari pembahasan metodologi data science?
Dalam konteks metodologi data science, mengapa penting untuk memahami langkah-langkah utama yang diperlukan?
Dalam konteks metodologi data science, mengapa penting untuk memahami langkah-langkah utama yang diperlukan?
Apa peran utama metodologi data science dalam pengembangan aplikasi berbasis AI?
Apa peran utama metodologi data science dalam pengembangan aplikasi berbasis AI?
Bagaimana Linear Regression (LR), Neural Network (NN), dan Support Vector Machine (SVM) saling berhubungan dalam konteks data mining?
Bagaimana Linear Regression (LR), Neural Network (NN), dan Support Vector Machine (SVM) saling berhubungan dalam konteks data mining?
Dalam konteks data mining, bagaimana pemilihan antara Linear Regression (LR), Neural Network (NN), dan Deep Learning (DL) untuk tugas estimasi atau forecasting sebaiknya dilakukan?
Dalam konteks data mining, bagaimana pemilihan antara Linear Regression (LR), Neural Network (NN), dan Deep Learning (DL) untuk tugas estimasi atau forecasting sebaiknya dilakukan?
Flashcards
Apa itu Data Mining?
Apa itu Data Mining?
Studi tentang metode untuk menemukan pola tersembunyi dalam data.
Apa itu Metodologi Data Science?
Apa itu Metodologi Data Science?
Pendekatan langkah demi langkah untuk memecahkan masalah data science.
Tujuan Metodologi Data Science?
Tujuan Metodologi Data Science?
Mengembangkan aplikasi data science atau data mining berbasis AI.
Fokus Utama Metodologi?
Fokus Utama Metodologi?
Signup and view all the flashcards
Apa itu Estimasi?
Apa itu Estimasi?
Signup and view all the flashcards
Apa itu Forecasting?
Apa itu Forecasting?
Signup and view all the flashcards
Apa itu Linear Regression?
Apa itu Linear Regression?
Signup and view all the flashcards
Apa itu Neural Network?
Apa itu Neural Network?
Signup and view all the flashcards
Decision Tree
Decision Tree
Signup and view all the flashcards
Naive Bayes (NB)
Naive Bayes (NB)
Signup and view all the flashcards
K-Nearest Neighbor (kNN)
K-Nearest Neighbor (kNN)
Signup and view all the flashcards
Linear Discriminant Analysis (LDA)
Linear Discriminant Analysis (LDA)
Signup and view all the flashcards
Logistic Regression (LogR)
Logistic Regression (LogR)
Signup and view all the flashcards
K-Means
K-Means
Signup and view all the flashcards
K-Medoids
K-Medoids
Signup and view all the flashcards
Self-Organizing Map (SOM)
Self-Organizing Map (SOM)
Signup and view all the flashcards
Fuzzy C-Means (FCM)
Fuzzy C-Means (FCM)
Signup and view all the flashcards
FP-Growth & A Priori
FP-Growth & A Priori
Signup and view all the flashcards
Study Notes
Gambaran Umum
- Tujuan utama materi ini adalah membahas metodologi data science secara umum.
- Materi bertujuan untuk mengembangkan aplikasi data science atau data mining berbasis AI.
- Langkah-langkah utama yang diperlukan untuk menyelesaikan masalah organisasi/bisnis dijelaskan.
- Tugas-tugas yang terkait dengan data science juga dibahas.
Capaian Pembelajaran
- Metodologi Data Science akan dipelajari.
- Langkah-langkah utama dalam metodologi data science juga akan dipelajari.
Agenda
- Alasan mengapa metodologi diperlukan
- Mengapa Mayoritas Projek AI Gagal
- Berbagai Metodologi Data Science
- Tidak semua metodologi sama lengkapnya.
- Langkah Pengembangan
- Dari Masalah Bisnis menjadi Aplikasi AI
Sistem AI Berbasis (Big) Data
- Data diproses menjadi informasi, informasi menjadi pengetahuan, dan pengetahuan menjadi kebijaksanaan (wisdom).
- Sistem AI (Big) Data dikembangkan melalui 2 tahap, pengembangan (pelatihan) dan penggunaan.
Tujuan Tugas/Task yang Biasa Dikembangkan
- Deskriptif: Menjelaskan keadaan bisnis melalui data historis.
- Diagnostik: Menjelaskan mengapa suatu masalah terjadi dengan data historis.
- Prediktif: Memproyeksikan atau memprediksi hasil masa depan berdasarkan data historis.
- Preskriptif: Menggunakan hasil analitik prediktif dan pengetahuan lain untuk menyarankan upaya terbaik di masa depan.
Jenis Task yang Dikembangkan
- Regresi / Estimasi
- Klasifikasi
- Clustering
- Association
- Anomaly Detection
- Sequence Mining
- Recommendation Systems
Mayoritas Proyek Pengembangan AI/DS Gagal
- PROBLEM: Tidak Jelas; Problem salah; atau Over promising.
- DATA: Tidak cukup (jumlah) atau tidak tepat (variabel), kualitas tidak mencukupi, tidak mengerti arti (semantic) data, berbagai bias, hubungan antar variabel tidak dipikirkan (sampling, Fairness).
- MODEL: Terlalu kompleks, Metriks pengukuran tidak tepat, ALGORITHMS: Terlalu sophisticated; Tidak dimengerti secara teknis atau tidak tepat.
- SUMBER DAYA MANUSIA: One man show atau dukungan pemangku kepentingan kunci kurang.
Pentingnya Metodologi Pengembangan
- Pengembangan Sistem AI berdasarkan data tidak sama dengan Data + Machine Learning (ML) Algorithms.
- Metodologi pengembangan adalah metoda iterative yang menyelesaikan masalah dengan data dan data science melalui urutan langkah tertentu.
Jenis Metodologi
- Metodologi kegiatan Teknis
- Metodologi kegiatan bisnis (dan teknis)
Metodologi Teknis
- Kegiatan DS/AI dianggap Kegiatan Teknikal, terdapat proses Knowledge Discovery in Databases (KDD).
- SEMMA: Sebuah metodologi dari SAS Institute.
Metodologi Lengkap
- Kegiatan DS/AI dianggap Kegiatan Bisnis: Masalah Bisnis menjadi Masalah DS/AI.
- CRISP-DM: Metode standar industri.
- 6 phases of CRISP-DM*:
- Business understanding
- Data understanding
- Data preparation
- Modeling
- Evaluation
- Deployment
- IBM Data Science Methodology
- Microsoft's Team Data Science Process
- Domino DataLab Methodology
Standard Kompetensi Kerja Nasional Indonesia
- KepMen Ketenagakerjaan No 299 tahun 2020, tujuan utama untuk menemukan pengetahuan, insight atau pola yang bermanfaat dari data untuk berbagai keperluan..
- Fungsi Utama: Business Understanding, Data Understanding, Data Preparation, Modeling, Model Evaluation, Deployment, Evaluation
- Fungsi Dasar: Menentukan objektif bisnis, tujuan teknis, rencana proyek, mengumpulkan data, menelaah & memvalidasi data; memilah, membersihkan, mengkonstruksi & menentukan label data; mengintegrasikan data, membangun skenario pengujian & model; mengevaluasi hasil pemodelan & proses pemodelan; membuat rencana deployment model, melakukan deployment model & rencana pemeliharaan & pemeliharaan; melakukan review proyek & membuat laporan akhir proyek.
Tim Pengembang: Kegiatan Bersama
- Data Scientist: Mengembangkan model terbaik dari data untuk menjawab permasalahan bisnis
- Data Engineer: Menyiapkan (big) data untuk diolah/dimodelkan
- Data Analyst: Menganalisis atau mencari insight dari data dan menampilkannya dalam dashboard.
- Project/Product Manager: Mengelola projek/ produk berbasis data.
- Domain Expert: Memberi arahan tentang domain permasalahan
- IT People: Menyiapkan infrastruktur IT (terutama deployment).
Komposisi Data Science
- Data Analytics + Data Engineering sama dengan menghasilkan Data Science
- Keterampilan yang dibutuhkan untuk menjadi data analyst: Pengetahuan bisnis, Analytical skills, and Communication skills.
- Keterampilan yang dibutuhkan untuk menjadi data engineer: Database technology(Hadoop) & Database processing dan koloborasi
Langkah Pengembangan
- Tahapan Business Understanding: Menentukan Masalah Bisnis.
- Kasus: Kegagalan Kredit.
- Problem: Bagaimana menurunkan NPL (Non-Performing Loan) suatu bank.
- Pertanyaan: Bagaimana memperbaiki perhitungan Credit score.
- Measurable outcomes: Persentase Penurunan kredit gagal bayar.
Tahapan Business Understanding: Menentukan Tugas Analytics
- Tugas Analitik yang perlu diselesaikan untuk menjawab permasalahan bisnis teridentifikasi
- Jenis Tugas Analitik:
- Regresi/Estimasi: Memprediksi nilai kontinyu. Contoh: Prediksi harga rumah, harga emas
- Klasifikasi: Memprediksi kelas/kategori dari kasus. Contoh: Prediksi kolektibilitas pinjaman, kebangkrutan perusahaan.
- Klastering: Mengelompokkan kasus berdasar kemiripan. Contoh: Segmentasi nasabah, pengelompokkan pasien.
- Asosiasi: Memprediksi kumpulan item/kejadian yang biasa terjadi bersama. Contoh: Mencari barang jualan yang biasa dibeli bersama, market basket analysis.
- Anomali Detection: Menemukan kasus abnormal/tidak biasa. Contoh: Pendeteksian transaksi ilegal penggunaan kartu kredit, penerobosan jaringan.
- Sequence Mining: Memprediksi apa yang akan terjadi. Contoh: Prediksi apakah nasabah berhenti berlangganan, menentukan alur pada transaksi e-commerce.
- Rekomendasi: Memberikan rekomendasi berdasar asosiasi preferensi pengguna. Contoh: Rekomendasi film dan saham
Pengukuran Performansi
- Ukuran keberhasilan proses data science
- Root Mean Squared Error (RMSE)
- R-Square
- Jackard index
- Precision
- Recall
- F1-Score
Business Understanding Berdasarkan Data
- Struktur Data: Deskripsi data (atribut) yang diperlukan.
- Jumlah Data: Berapa banyak (record) data yang diperlukan
- Sumber Data: Tempat asal data, baik internal (Sistem Informasi/ ERP, Excel, dokumen) maupun eksternal (Web API, Web Scraping, public data, open data).
Business Understanding: Merencanakan Manajemen Projek
- Cost Benefit Analysis: Menentukan apakah menguntungkan.
- Situation Assessment: Menganalisa keadaan organisasi. Project Plan: Menentukan Scope (WBS), Time, Schedule, dan Tim Pengembang.
Data Understanding
- Mengenali atau mendalami data yang dimiliki.
- Mengumpulkan Data yang Diperlukan: Jumlah data (baris dan kolom), deskripsi data.
- Menelaah data secara eksploratif: Karakteristik atribut/fitur, keterkaitan antar data (analisis statistik korelasi, Anova, Chi-Squared).
- Memvalidasi Data.
Data Preparation
- Memperbaiki kualitas data untuk Pemodelan.
- Memilih dan Memilah Data.
- Membersihan Data
- Mengkonstruksi data.
- Integrasi data.
Modeling
- Mengembangkan Model (Pengetahuan).
- Membangun Skenario Pemodelan
- Membangun model.
- Memilih Algoritma. Disesuaikan dengan Tugas Analytics yang dipilih, contoh k-Nearest Neighbor (k-NN), Naïve Bayes, Regression Techniques, Support Vector Machines (SVMs).
- Membagi data.
- Data Latih: Mengembangkan model
- Data Uji: Mengukur performansi model
- Menentukan Langkah Eksperimen.
- Mengembangkan model dengan Teknik ML
Model Evaluation
- Mengevaluasi Performansi Model Yang Dihasilkan.
- Mengukur performansi model.
- Menilai apakah proses sudah maksimal
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.