Untitled

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Algoritma manakah di bawah ini yang termasuk dalam kategori clustering?

  • Decision Tree
  • K-Means (correct)
  • Logistic Regression
  • Naive Bayes

Algoritma manakah yang digunakan untuk mengidentifikasi hubungan antar item dalam dataset, sering digunakan dalam analisis keranjang pasar?

  • Linear Discriminant Analysis (LDA)
  • K-Nearest Neighbor (kNN)
  • FP-Growth (correct)
  • K-Medoids

Metode klasifikasi apa yang menggunakan probabilitas bersyarat untuk memprediksi kelas suatu data?

  • Linear Discriminant Analysis (LDA)
  • Naive Bayes (NB) (correct)
  • K-Nearest Neighbor (kNN)
  • Decision Tree (CART)

Algoritma manakah di bawah ini yang paling cocok untuk memprediksi kategori berdasarkan variabel input dengan membangun serangkaian aturan keputusan?

<p>Decision Tree (C4.5) (A)</p> Signup and view all the answers

Teknik clustering manakah yang menggunakan representasi visual untuk mengurangi dimensi data dan mengelompokkan data berdasarkan kesamaan karakteristik?

<p>Self-Organizing Map (SOM) (B)</p> Signup and view all the answers

Algoritma manakah yang mengklasifikasikan data berdasarkan jarak terdekat ke tetangga di ruang fitur?

<p>K-Nearest Neighbor (kNN) (A)</p> Signup and view all the answers

Manakah dari berikut ini yang digunakan untuk mengukur kekuatan hubungan antara dua variabel kategorikal?

<p>Chi Square (A)</p> Signup and view all the answers

Algoritma klasifikasi manakah yang bertujuan untuk menemukan hyperplane yang memaksimalkan margin antara kelas-kelas?

<p>Linear Discriminant Analysis (LDA) (C)</p> Signup and view all the answers

Dalam clustering, metode manakah yang memungkinkan suatu titik data menjadi anggota lebih dari satu klaster dengan derajat keanggotaan yang berbeda?

<p>Fuzzy C-Means (FCM) (A)</p> Signup and view all the answers

Algoritma manakah yang memperluas algoritma C4.5 dengan menangani ketidakpastian menggunakan interval probabilitas?

<p>Credal C4.5 (B)</p> Signup and view all the answers

Mengapa metodologi data science diperlukan dalam pengembangan aplikasi berbasis AI?

<p>Untuk menyediakan kerangka kerja terstruktur yang membantu dalam menyelesaikan masalah organisasi atau bisnis secara efektif dan efisien. (D)</p> Signup and view all the answers

Apa yang menjadi fokus utama dalam metodologi data science?

<p>Memastikan bahwa setiap langkah dalam proses data science selaras dengan tujuan bisnis dan memberikan nilai tambah yang terukur. (C)</p> Signup and view all the answers

Bagaimana metodologi data science membantu dalam menyelesaikan masalah organisasi atau bisnis?

<p>Dengan menyediakan langkah-langkah terstruktur untuk mengidentifikasi masalah, mengumpulkan data yang relevan, menganalisis data, dan mengimplementasikan solusi. (C)</p> Signup and view all the answers

Apa tujuan utama dari pembahasan metodologi data science?

<p>Untuk menyediakan panduan langkah-langkah dalam mengembangkan aplikasi data science atau data mining berbasis AI untuk menyelesaikan masalah organisasi/bisnis. (D)</p> Signup and view all the answers

Dalam konteks metodologi data science, mengapa penting untuk memahami langkah-langkah utama yang diperlukan?

<p>Agar dapat memastikan bahwa setiap langkah yang diambil relevan dengan tujuan bisnis dan memberikan hasil yang akurat dan dapat diandalkan. (A)</p> Signup and view all the answers

Apa peran utama metodologi data science dalam pengembangan aplikasi berbasis AI?

<p>Menyediakan kerangka kerja yang sistematis dan terstruktur untuk memastikan aplikasi AI selaras dengan tujuan bisnis dan memberikan nilai tambah yang signifikan. (B)</p> Signup and view all the answers

Bagaimana Linear Regression (LR), Neural Network (NN), dan Support Vector Machine (SVM) saling berhubungan dalam konteks data mining?

<p>Ketiganya adalah metode yang dapat digunakan untuk estimasi dan forecasting, dan pemilihan metode tergantung pada karakteristik data serta tujuan analisis. (D)</p> Signup and view all the answers

Dalam konteks data mining, bagaimana pemilihan antara Linear Regression (LR), Neural Network (NN), dan Deep Learning (DL) untuk tugas estimasi atau forecasting sebaiknya dilakukan?

<p>Pilih berdasarkan kompleksitas masalah, ukuran data, dan sumber daya komputasi yang tersedia, serta evaluasi kinerja model pada data validasi. (D)</p> Signup and view all the answers

Flashcards

Apa itu Data Mining?

Studi tentang metode untuk menemukan pola tersembunyi dalam data.

Apa itu Metodologi Data Science?

Pendekatan langkah demi langkah untuk memecahkan masalah data science.

Tujuan Metodologi Data Science?

Mengembangkan aplikasi data science atau data mining berbasis AI.

Fokus Utama Metodologi?

Untuk menyelesaikan masalah bisnis/organisasi menggunakan data science.

Signup and view all the flashcards

Apa itu Estimasi?

Menggunakan data untuk memperkirakan nilai di masa depan.

Signup and view all the flashcards

Apa itu Forecasting?

Memprediksi nilai di masa depan berdasarkan data historis.

Signup and view all the flashcards

Apa itu Linear Regression?

Model statistik untuk memprediksi hubungan antara variabel.

Signup and view all the flashcards

Apa itu Neural Network?

Model kompleks yang terinspirasi oleh otak manusia.

Signup and view all the flashcards

Decision Tree

Metode klasifikasi yang menggunakan struktur pohon untuk membuat keputusan.

Signup and view all the flashcards

Naive Bayes (NB)

Algoritma klasifikasi probabilistik berdasarkan teorema Bayes dengan asumsi independensi fitur.

Signup and view all the flashcards

K-Nearest Neighbor (kNN)

Algoritma klasifikasi yang mengklasifikasikan data berdasarkan jarak ke tetangga terdekat.

Signup and view all the flashcards

Linear Discriminant Analysis (LDA)

Teknik reduksi dimensi dan klasifikasi yang mencari kombinasi linear fitur untuk memisahkan kelas.

Signup and view all the flashcards

Logistic Regression (LogR)

Model regresi yang menggunakan fungsi logistik untuk memprediksi probabilitas kelas.

Signup and view all the flashcards

K-Means

Algoritma clustering yang mempartisi data menjadi 'k' kelompok berdasarkan jarak ke centroid.

Signup and view all the flashcards

K-Medoids

Varian K-Means yang menggunakan medoid (titik data aktual) sebagai pusat cluster.

Signup and view all the flashcards

Self-Organizing Map (SOM)

Teknik clustering yang merepresentasikan data dalam peta dua dimensi dengan mempertahankan topologi data.

Signup and view all the flashcards

Fuzzy C-Means (FCM)

Metode clustering di mana setiap titik data memiliki derajat keanggotaan ke setiap cluster.

Signup and view all the flashcards

FP-Growth & A Priori

Algoritma yang menemukan asosiasi atau hubungan menarik antar item dalam dataset.

Signup and view all the flashcards

Study Notes

Gambaran Umum

  • Tujuan utama materi ini adalah membahas metodologi data science secara umum.
  • Materi bertujuan untuk mengembangkan aplikasi data science atau data mining berbasis AI.
  • Langkah-langkah utama yang diperlukan untuk menyelesaikan masalah organisasi/bisnis dijelaskan.
  • Tugas-tugas yang terkait dengan data science juga dibahas.

Capaian Pembelajaran

  • Metodologi Data Science akan dipelajari.
  • Langkah-langkah utama dalam metodologi data science juga akan dipelajari.

Agenda

  • Alasan mengapa metodologi diperlukan
    • Mengapa Mayoritas Projek AI Gagal
  • Berbagai Metodologi Data Science
    • Tidak semua metodologi sama lengkapnya.
  • Langkah Pengembangan
    • Dari Masalah Bisnis menjadi Aplikasi AI

Sistem AI Berbasis (Big) Data

  • Data diproses menjadi informasi, informasi menjadi pengetahuan, dan pengetahuan menjadi kebijaksanaan (wisdom).
  • Sistem AI (Big) Data dikembangkan melalui 2 tahap, pengembangan (pelatihan) dan penggunaan.

Tujuan Tugas/Task yang Biasa Dikembangkan

  • Deskriptif: Menjelaskan keadaan bisnis melalui data historis.
  • Diagnostik: Menjelaskan mengapa suatu masalah terjadi dengan data historis.
  • Prediktif: Memproyeksikan atau memprediksi hasil masa depan berdasarkan data historis.
  • Preskriptif: Menggunakan hasil analitik prediktif dan pengetahuan lain untuk menyarankan upaya terbaik di masa depan.

Jenis Task yang Dikembangkan

  • Regresi / Estimasi
  • Klasifikasi
  • Clustering
  • Association
  • Anomaly Detection
  • Sequence Mining
  • Recommendation Systems

Mayoritas Proyek Pengembangan AI/DS Gagal

  • PROBLEM: Tidak Jelas; Problem salah; atau Over promising.
  • DATA: Tidak cukup (jumlah) atau tidak tepat (variabel), kualitas tidak mencukupi, tidak mengerti arti (semantic) data, berbagai bias, hubungan antar variabel tidak dipikirkan (sampling, Fairness).
  • MODEL: Terlalu kompleks, Metriks pengukuran tidak tepat, ALGORITHMS: Terlalu sophisticated; Tidak dimengerti secara teknis atau tidak tepat.
  • SUMBER DAYA MANUSIA: One man show atau dukungan pemangku kepentingan kunci kurang.

Pentingnya Metodologi Pengembangan

  • Pengembangan Sistem AI berdasarkan data tidak sama dengan Data + Machine Learning (ML) Algorithms.
  • Metodologi pengembangan adalah metoda iterative yang menyelesaikan masalah dengan data dan data science melalui urutan langkah tertentu.

Jenis Metodologi

  • Metodologi kegiatan Teknis
  • Metodologi kegiatan bisnis (dan teknis)

Metodologi Teknis

  • Kegiatan DS/AI dianggap Kegiatan Teknikal, terdapat proses Knowledge Discovery in Databases (KDD).
  • SEMMA: Sebuah metodologi dari SAS Institute.

Metodologi Lengkap

  • Kegiatan DS/AI dianggap Kegiatan Bisnis: Masalah Bisnis menjadi Masalah DS/AI.
  • CRISP-DM: Metode standar industri.
  • 6 phases of CRISP-DM*:
  • Business understanding
  • Data understanding
  • Data preparation
  • Modeling
  • Evaluation
  • Deployment
  • IBM Data Science Methodology
  • Microsoft's Team Data Science Process
  • Domino DataLab Methodology

Standard Kompetensi Kerja Nasional Indonesia

  • KepMen Ketenagakerjaan No 299 tahun 2020, tujuan utama untuk menemukan pengetahuan, insight atau pola yang bermanfaat dari data untuk berbagai keperluan..
  • Fungsi Utama: Business Understanding, Data Understanding, Data Preparation, Modeling, Model Evaluation, Deployment, Evaluation
  • Fungsi Dasar: Menentukan objektif bisnis, tujuan teknis, rencana proyek, mengumpulkan data, menelaah & memvalidasi data; memilah, membersihkan, mengkonstruksi & menentukan label data; mengintegrasikan data, membangun skenario pengujian & model; mengevaluasi hasil pemodelan & proses pemodelan; membuat rencana deployment model, melakukan deployment model & rencana pemeliharaan & pemeliharaan; melakukan review proyek & membuat laporan akhir proyek.

Tim Pengembang: Kegiatan Bersama

  • Data Scientist: Mengembangkan model terbaik dari data untuk menjawab permasalahan bisnis
  • Data Engineer: Menyiapkan (big) data untuk diolah/dimodelkan
  • Data Analyst: Menganalisis atau mencari insight dari data dan menampilkannya dalam dashboard.
  • Project/Product Manager: Mengelola projek/ produk berbasis data.
  • Domain Expert: Memberi arahan tentang domain permasalahan
  • IT People: Menyiapkan infrastruktur IT (terutama deployment).

Komposisi Data Science

  • Data Analytics + Data Engineering sama dengan menghasilkan Data Science
  • Keterampilan yang dibutuhkan untuk menjadi data analyst: Pengetahuan bisnis, Analytical skills, and Communication skills.
  • Keterampilan yang dibutuhkan untuk menjadi data engineer: Database technology(Hadoop) & Database processing dan koloborasi

Langkah Pengembangan

  • Tahapan Business Understanding: Menentukan Masalah Bisnis.
    • Kasus: Kegagalan Kredit.
    • Problem: Bagaimana menurunkan NPL (Non-Performing Loan) suatu bank.
    • Pertanyaan: Bagaimana memperbaiki perhitungan Credit score.
    • Measurable outcomes: Persentase Penurunan kredit gagal bayar.

Tahapan Business Understanding: Menentukan Tugas Analytics

  • Tugas Analitik yang perlu diselesaikan untuk menjawab permasalahan bisnis teridentifikasi
  • Jenis Tugas Analitik:
    • Regresi/Estimasi: Memprediksi nilai kontinyu. Contoh: Prediksi harga rumah, harga emas
    • Klasifikasi: Memprediksi kelas/kategori dari kasus. Contoh: Prediksi kolektibilitas pinjaman, kebangkrutan perusahaan.
    • Klastering: Mengelompokkan kasus berdasar kemiripan. Contoh: Segmentasi nasabah, pengelompokkan pasien.
    • Asosiasi: Memprediksi kumpulan item/kejadian yang biasa terjadi bersama. Contoh: Mencari barang jualan yang biasa dibeli bersama, market basket analysis.
    • Anomali Detection: Menemukan kasus abnormal/tidak biasa. Contoh: Pendeteksian transaksi ilegal penggunaan kartu kredit, penerobosan jaringan.
    • Sequence Mining: Memprediksi apa yang akan terjadi. Contoh: Prediksi apakah nasabah berhenti berlangganan, menentukan alur pada transaksi e-commerce.
    • Rekomendasi: Memberikan rekomendasi berdasar asosiasi preferensi pengguna. Contoh: Rekomendasi film dan saham

Pengukuran Performansi

  • Ukuran keberhasilan proses data science
    • Root Mean Squared Error (RMSE)
    • R-Square
    • Jackard index
    • Precision
    • Recall
    • F1-Score

Business Understanding Berdasarkan Data

  • Struktur Data: Deskripsi data (atribut) yang diperlukan.
  • Jumlah Data: Berapa banyak (record) data yang diperlukan
  • Sumber Data: Tempat asal data, baik internal (Sistem Informasi/ ERP, Excel, dokumen) maupun eksternal (Web API, Web Scraping, public data, open data).

Business Understanding: Merencanakan Manajemen Projek

  • Cost Benefit Analysis: Menentukan apakah menguntungkan.
  • Situation Assessment: Menganalisa keadaan organisasi. Project Plan: Menentukan Scope (WBS), Time, Schedule, dan Tim Pengembang.

Data Understanding

  • Mengenali atau mendalami data yang dimiliki.
    • Mengumpulkan Data yang Diperlukan: Jumlah data (baris dan kolom), deskripsi data.
    • Menelaah data secara eksploratif: Karakteristik atribut/fitur, keterkaitan antar data (analisis statistik korelasi, Anova, Chi-Squared).
    • Memvalidasi Data.

Data Preparation

  • Memperbaiki kualitas data untuk Pemodelan.
    • Memilih dan Memilah Data.
    • Membersihan Data
    • Mengkonstruksi data.
    • Integrasi data.

Modeling

  • Mengembangkan Model (Pengetahuan).
  • Membangun Skenario Pemodelan
  • Membangun model.
    • Memilih Algoritma. Disesuaikan dengan Tugas Analytics yang dipilih, contoh k-Nearest Neighbor (k-NN), Naïve Bayes, Regression Techniques, Support Vector Machines (SVMs).
    • Membagi data.
      • Data Latih: Mengembangkan model
      • Data Uji: Mengukur performansi model
    • Menentukan Langkah Eksperimen.
  • Mengembangkan model dengan Teknik ML

Model Evaluation

  • Mengevaluasi Performansi Model Yang Dihasilkan.
    • Mengukur performansi model.
    • Menilai apakah proses sudah maksimal

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

More Like This

Untitled Quiz
6 questions

Untitled Quiz

AdoredHealing avatar
AdoredHealing
Untitled
6 questions

Untitled

StrikingParadise avatar
StrikingParadise
Untitled Quiz
50 questions

Untitled Quiz

JoyousSulfur avatar
JoyousSulfur
Untitled
53 questions

Untitled

ProperMahoganyObsidian avatar
ProperMahoganyObsidian
Use Quizgecko on...
Browser
Browser