Nota Dr Wan - Analisis Data Eksploratif (EDA) - PDF

Summary

These notes provide an overview of exploratory data analysis (EDA), focusing on techniques like histograms and dot plots for visualizing data distributions. The text explains how these techniques can be used to understand data patterns.

Full Transcript

TERP4034 KAEDAH PENYELIDIKAN LANJUTAN TAJUK 1 Analisis Data Eksploratif (EDA 1.1 Konsep EDA Apa itu Analisis Data Eksploratif (EDA). Konsep E...

TERP4034 KAEDAH PENYELIDIKAN LANJUTAN TAJUK 1 Analisis Data Eksploratif (EDA 1.1 Konsep EDA Apa itu Analisis Data Eksploratif (EDA). Konsep Eksplorasi Data sangat dipengaruhi oleh John Tukey, seorang ahli statistik yang memperkenalkan pendekatan Exploratory Data Analysis (EDA) dalam bukunya Exploratory Data Analysis (1977). John Tukey menekankan bahawa analisis data tidak hanya tentang pengujian hipotesis, tetapi juga tentang menjelajahi, memahami, dan menemukan wawasan baru dalam data sebelum melakukan analisis lebih lanjut Dr. Wan Sakiah Wan Ngah IPGMKPI TERP4034 KAEDAH PENYELIDIKAN LANJUTAN Dr. Wan Sakiah Wan Ngah IPGMKPI TERP4034 KAEDAH PENYELIDIKAN LANJUTAN Dr. Wan Sakiah Wan Ngah IPGMKPI TERP4034 KAEDAH PENYELIDIKAN LANJUTAN 1.2 Teknik EDA bagi Plotting Data Mentah 1. Histogram Analisis Data Eksploratif (EDA) merupakan langkah kritikal dalam memahami pola dan distribusi data sebelum menjalankan analisis yang lebih kompleks. Salah satu teknik utama dalam EDA ialah histogram, yang digunakan untuk memvisualisasikan taburan data mentah secara intuitif. Menggambarkan Pola Taburan Data Histogram membantu mengenal pasti bentuk distribusi data, sama ada normal, miring ke kanan, miring ke kiri, atau bimodal. Ini penting untuk menentukan sama ada data memenuhi andaian statistik tertentu, seperti normaliti, yang diperlukan dalam banyak ujian statistik inferens. Mengesan Outlier dan Nilai Pencilan Histogram membolehkan penyelidik mengenal pasti kehadiran outlier atau nilai pencilan yang mungkin menjejaskan analisis. Jika histogram menunjukkan bar yang terpencil jauh daripada taburan utama, ini menunjukkan kemungkinan adanya nilai ekstrem yang perlu disiasat lebih lanjut. Memahami Kecenderungan Pusat dan Penyebaran Melalui histogram, penyelidik dapat mengenal pasti ukuran pemusatan seperti mod (nilai paling kerap muncul) serta penyebaran data berdasarkan lebar dan bentuk histogram. Ini membantu dalam memahami dispersi data, sama ada data terkumpul di sekitar satu nilai atau tersebar luas. Mudah Digunakan dan Difahami Histogram adalah kaedah visualisasi yang intuitif dan mudah difahami oleh pelbagai pihak, termasuk bukan pakar statistik. Ini menjadikannya alat yang berguna untuk komunikasi hasil awal dalam penyelidikan data. Pengelompokan Data yang Mungkin Mengaburkan Maklumat Walaupun histogram sangat berguna, keberkesanannya bergantung kepada bilangan bin (kelas) yang dipilih. Jika bin terlalu sedikit, pola taburan boleh menjadi terlalu umum, manakala jika terlalu banyak, ia boleh menghasilkan "noise" yang tidak mencerminkan pola sebenar. Oleh itu, pemilihan bin yang sesuai adalah penting dalam menghasilkan histogram yang bermakna. Kesimpulan Histogram merupakan teknik EDA yang sangat berkesan dalam memvisualisasikan taburan data mentah, mengesan outlier, memahami penyebaran, dan mempermudah interpretasi data. Namun, keberkesanannya bergantung kepada pemilihan parameter seperti bilangan bin dan skala visualisasi yang digunakan. Oleh itu, histogram sering digunakan bersama teknik EDA lain seperti boxplot dan scatterplot untuk memberikan gambaran yang lebih menyeluruh tentang data. 2. Dot Plot Pengenalan Dr. Wan Sakiah Wan Ngah IPGMKPI TERP4034 KAEDAH PENYELIDIKAN LANJUTAN Analisis Data Eksploratif (EDA) adalah pendekatan awal yang digunakan untuk memahami ciri-ciri utama data sebelum melakukan analisis statistik lanjut. Salah satu teknik visualisasi yang digunakan dalam EDA ialah dot plot. Dot plot merupakan kaedah yang mudah dan berkesan untuk memaparkan nilai individu dalam dataset, terutama untuk dataset kecil hingga sederhana. Keberkesanan Dot Plot dalam EDA Menunjukkan Nilai Individu dalam Dataset ✔ Tidak seperti histogram atau boxplot yang hanya memberikan ringkasan data, dot plot memaparkan setiap nilai dalam dataset secara jelas. ✔ Membantu penyelidik melihat frekuensi sebenar bagi setiap nilai. Contoh: Jika kita mempunyai dataset: [50, 55, 60, 65, 70, 75, 80, 85, 90, 95], dot plot boleh dipaparkan seperti berikut: 50 55 60 65 70 75 80 85 90 95 Setiap titik mewakili satu nilai data, menjadikannya mudah untuk dianalisis. Memvisualisasikan Taburan Data dengan Jelas ✔ Dot plot memudahkan pemerhatian terhadap pola taburan data seperti: Taburan normal (simetri) Taburan miring (skewed left atau right) Taburan bimodal (dua puncak) ✔ Membantu penyelidik menentukan sama ada data mempunyai pemusatan di tengah atau terselerak. Contoh: Jika terdapat lebih banyak titik di sebelah kiri dot plot, ini menunjukkan taburan miring ke kanan (positif skewed). Sesuai untuk Dataset Kecil hingga Sederhana ✔ Ideal untuk data dengan bilangan elemen yang kecil atau sederhana (kurang daripada 50-100 nilai). ✔ Untuk dataset kecil, dot plot lebih berkesan berbanding histogram kerana tidak memerlukan pembahagian ke dalam bin yang boleh menyebabkan kehilangan maklumat. Dr. Wan Sakiah Wan Ngah IPGMKPI TERP4034 KAEDAH PENYELIDIKAN LANJUTAN ✖ Kurang sesuai untuk dataset besar kerana titik-titik mungkin bertindih dan menjadikannya sukar untuk dibaca. Mengesan Outlier dengan Mudah ✔ Outlier dalam dataset mudah dikesan kerana titik terpencil dapat dilihat dengan jelas dalam dot plot. ✔ Membantu dalam mengenal pasti kesalahan pengukuran atau nilai ekstrem yang mungkin mempengaruhi analisis data. Contoh: Jika semua nilai berkumpul antara 50 hingga 90, tetapi terdapat satu nilai 120, dot plot akan menunjukkan titik ini secara jelas sebagai outlier. Mudah Difahami dan Digunakan ✔ Dot plot adalah visualisasi yang mudah dan intuitif, sesuai untuk digunakan oleh penyelidik, pelajar, dan mereka yang baru dalam analisis data. ✔ Tidak memerlukan perisian statistik yang kompleks dan boleh dilukis secara manual atau menggunakan perisian asas seperti Excel. Kelemahan Dot Plot ✖ Kurang sesuai untuk dataset besar – Jika terdapat terlalu banyak titik, dot plot menjadi berselerak dan sukar dibaca. ✖ Kurang digunakan dalam aplikasi industri – Histogram dan boxplot lebih popular dalam analisis data berskala besar kerana lebih mudah untuk mengekstrak pola umum dalam dataset besar. ✖ Kurang berkesan untuk data kategori – Dot plot lebih sesuai untuk data numerik berbanding data kategori, di mana bar chart lebih sesuai digunakan. Kesimpulan Dot plot adalah teknik EDA yang sangat berkesan untuk dataset kecil hingga sederhana kerana ia: Menunjukkan nilai individu dengan jelas, membolehkan pemerhatian terhadap frekuensi sebenar. Membantu mengenal pasti pola taburan seperti simetri, miring, atau bimodal. Mengesan outlier dengan mudah, memberikan pemahaman yang lebih mendalam terhadap data. Namun, untuk dataset yang lebih besar, teknik lain seperti histogram atau boxplot lebih sesuai kerana dot plot boleh menjadi terlalu padat dan sukar untuk dibaca. Oleh itu, pemilihan kaedah EDA bergantung kepada saiz data dan tujuan analisis. Dr. Wan Sakiah Wan Ngah IPGMKPI TERP4034 KAEDAH PENYELIDIKAN LANJUTAN 3. Stem-and-Leaf Plot Keberkesanan Stem and Leaf Plot dalam EDA Menunjukkan Nilai Individu ✔ Berbeza dengan histogram yang mengelompokkan data ke dalam bin, stem-and-leaf plot mengekalkan nilai asal dalam bentuk batang (stem) dan daun (leaf). ✔ Membantu dalam mengenal pasti frekuensi nilai individu dengan lebih tepat. Contoh: Jika dataset adalah [50, 55, 60, 65, 70, 75], stem-and-leaf plot ditulis sebagai: 5|05 6|05 7|05 Dari sini, kita boleh melihat nilai sebenar tanpa kehilangan maklumat. Menggambarkan Taburan Data dengan Jelas ✔ Membantu penyelidik mengenal pasti sama ada taburan simetri, miring ke kiri, miring ke kanan, atau bimodal. ✔ Mudah untuk melihat pemusatan data (contohnya, nilai paling kerap muncul). Contoh: Jika stem-and-leaf plot menunjukkan bahawa kebanyakan nilai berada di antara 60 hingga 80, ini menunjukkan bahawa data tertumpu dalam julat tersebut. Mengesan Outlier dan Corak Tidak Normal ✔ Outlier boleh dikenal pasti dengan mudah jika terdapat nilai yang jauh terpisah dari kelompok utama. ✔ Membantu dalam mengenal pasti gap atau lompatan besar antara nilai data. Contoh: 5|05 6|05 7|05 9|0 Dari plot ini, nilai 90 kelihatan sebagai outlier kerana tiada nilai antara 75 hingga 90. Memudahkan Perbandingan Dataset Kecil ✔ Sesuai untuk dataset kecil hingga sederhana (biasanya kurang daripada 50 nilai). ✔ Mudah digunakan untuk membandingkan beberapa kumpulan data dalam satu paparan. Contoh Perbandingan Dua Kumpulan Data Jika terdapat dua kumpulan data (misalnya skor ujian dua kelas berbeza), kita boleh menyusun dua stem-and-leaf plot bersebelahan untuk melihat perbezaan taburan. Kelemahan Stem-and-Leaf Plot ✖ Kurang sesuai untuk dataset besar – Jika dataset terlalu besar, stem-and-leaf plot menjadi rumit dan sukar dibaca. ✖ Kurang digunakan dalam aplikasi industri – Histogram dan boxplot lebih biasa digunakan dalam bidang analisis data dan pembelajaran mesin. Dr. Wan Sakiah Wan Ngah IPGMKPI TERP4034 KAEDAH PENYELIDIKAN LANJUTAN ✖ Memerlukan susunan data yang baik – Untuk memastikan plot mudah dibaca, data perlu diurutkan terlebih dahulu, yang mungkin memerlukan langkah tambahan. Kesimpulan Stem-and-leaf plot merupakan teknik EDA yang berkesan untuk dataset kecil dan sederhana kerana ia: Mengekalkan nilai individu, membolehkan analisis yang lebih terperinci. Membantu mengenal pasti taburan, pemusatan, dan penyebaran data dengan jelas. Mengesan outlier dan pola tidak normal dengan lebih mudah berbanding histogram. Namun, untuk dataset besar, histogram dan boxplot lebih sesuai kerana lebih ringkas dan mudah dibaca. Oleh itu, pemilihan kaedah bergantung kepada saiz data dan tujuan analisis. PLOTTING STATISTIK SEDERHANA 1. Box plot Keberkesanan Teknik EDA bagi Plotting Statistik Sederhana Menggunakan Box Plot Pengenalan Analisis Data Eksploratif (EDA) memainkan peranan penting dalam memahami ciri-ciri utama dataset melalui visualisasi dan statistik deskriptif. Salah satu teknik visualisasi yang sangat berkesan dalam EDA ialah box plot (juga dikenali sebagai box-and- whisker plot). Box plot digunakan untuk menunjukkan taburan data berdasarkan kuartil, termasuk nilai median, julat antara kuartil (IQR), dan kehadiran outlier dalam dataset. Keberkesanan Box Plot dalam EDA Memaparkan Ringkasan Statistik Secara Visual ✔ Box plot memberikan ringkasan lima nombor yang merangkumi: Minima (Q1 - 1.5 * IQR, jika tiada outlier) Kuartil pertama (Q1 – 25%) Median (Q2 – 50%) Kuartil ketiga (Q3 – 75%) Maksima (Q3 + 1.5 * IQR, jika tiada outlier) ✔ Membantu memahami taburan data secara cepat tanpa perlu mengira statistik secara manual. Mendeteksi Outlier dengan Jelas ✔ Box plot sangat berkesan dalam mengenal pasti outlier, iaitu titik yang berada jauh daripada julat interkuartil (IQR). ✔ Outlier biasanya ditunjukkan sebagai titik di luar “whiskers” dalam box plot. Contoh: Jika dataset mempunyai nilai normal antara 50 hingga 90, tetapi terdapat satu nilai 120, box plot akan menunjukkan 120 sebagai outlier, membolehkan penyelidik menyelidiki puncanya. Dr. Wan Sakiah Wan Ngah IPGMKPI TERP4034 KAEDAH PENYELIDIKAN LANJUTAN Memudahkan Perbandingan Antara Beberapa Kumpulan ✔ Box plot sangat berguna apabila kita ingin membandingkan taburan data antara beberapa kumpulan atau kategori. ✔ Contohnya, jika kita ingin membandingkan markah pelajar antara dua kelas, box plot dapat menunjukkan perbezaan median, IQR, dan sebaran data dengan jelas. Memahami Simetri dan Skewness Data ✔ Jika median berada di tengah kotak dan whiskers hampir sama panjang, ini menunjukkan taburan normal atau simetri. ✔ Jika median lebih dekat ke salah satu sisi kotak, data mungkin skewed ke kiri atau kanan. ✔ Membantu penyelidik menentukan sama ada perlu transformasi data sebelum menggunakan ujian statistik tertentu. Mengurangkan Gangguan Daripada Nilai Individu ✔ Tidak seperti dot plot atau histogram yang memaparkan setiap titik data, box plot hanya menunjukkan ringkasan statistik. ✔ Ini menjadikannya berguna untuk dataset besar, di mana terlalu banyak titik data boleh menyebabkan visualisasi lain menjadi sukar untuk dibaca. Kelemahan Box Plot ✖ Tidak Menunjukkan Frekuensi atau Bentuk Taburan Secara Terperinci – Tidak seperti histogram, box plot tidak menunjukkan bilangan pemerhatian pada setiap julat nilai. ✖ Kurang Efektif untuk Dataset Kecil – Jika dataset terlalu kecil, box plot mungkin tidak memberikan gambaran yang bermakna. ✖ Tidak Memberikan Informasi tentang Mod – Tidak seperti histogram, box plot tidak menunjukkan bilangan mod dalam dataset. Kesimpulan Box plot adalah alat yang sangat berkesan dalam EDA untuk memahami taburan data, mengesan outlier, dan membandingkan kumpulan data. Ia sangat sesuai digunakan untuk dataset bersaiz sederhana hingga besar tetapi perlu digabungkan dengan teknik lain seperti histogram atau dot plot untuk mendapatkan gambaran yang lebih lengkap tentang data. Dr. Wan Sakiah Wan Ngah IPGMKPI TERP4034 KAEDAH PENYELIDIKAN LANJUTAN 2. Mean Plot Teknik EDA bagi Plotting Statistik Sederhana Menggunakan Mean Plot Pengenalan Analisis Data Eksploratif (EDA) bertujuan untuk meneroka dan memahami dataset sebelum menjalankan analisis statistik yang lebih kompleks. Salah satu teknik visualisasi dalam EDA ialah Mean Plot, yang digunakan untuk menunjukkan nilai purata (mean) sesuatu dataset atau untuk membandingkan purata antara beberapa kumpulan data. Mean plot sering digunakan dalam analisis statistik deskriptif dan inferensi, terutama dalam menganalisis perbezaan antara kategori atau kumpulan dalam kajian eksperimen dan kajian longitudinal. Keberkesanan Mean Plot dalam EDA Memberikan Gambaran Jelas tentang Nilai Purata ✔ Mean plot membantu memaparkan trend purata sesuatu dataset secara visual tanpa perlu melihat angka individu. ✔ Membantu penyelidik menilai kecenderungan umum dalam dataset. Contoh: Jika purata markah peperiksaan bagi dua kumpulan pelajar adalah 65 dan 80, mean plot akan menunjukkan perbezaan ini dengan titik atau garis, memudahkan interpretasi data. Memudahkan Perbandingan antara Kumpulan atau Kategori ✔ Mean plot sangat berkesan apabila membandingkan purata antara beberapa kumpulan. ✔ Jika disertakan dengan bar kesalahan (error bars) yang mewakili sisihan piawai atau selang keyakinan, mean plot dapat menunjukkan kepelbagaian dan ketidakpastian dalam data. Contoh: Jika kita ingin membandingkan purata skor ujian antara pelajar lelaki dan perempuan: Lelaki: Purata = 75 Perempuan: Purata = 80 Mean plot dapat dengan jelas menunjukkan bahawa pelajar perempuan mempunyai skor purata yang lebih tinggi berbanding lelaki. Mengenal Pasti Corak dan Trend dalam Data ✔ Dalam kajian bersiri masa (time series analysis), mean plot dapat membantu mengenal pasti trend perubahan purata dari satu tempoh ke tempoh lain. ✔ Berguna dalam kajian perniagaan, perubatan, dan sains sosial untuk melihat kesan intervensi atau perbezaan purata dalam tempoh tertentu. Contoh: Mean plot yang menunjukkan purata jualan bulanan dalam tempoh 12 bulan boleh membantu perniagaan mengenal pasti musim puncak dan luar musim. Lebih Ringkas dan Mudah Difahami ✔ Mean plot adalah mudah difahami oleh penyelidik dan bukan penyelidik kerana hanya memaparkan titik atau garis yang mewakili purata dataset. ✔ Berbeza dengan histogram atau box plot yang memaparkan keseluruhan taburan, mean Dr. Wan Sakiah Wan Ngah IPGMKPI TERP4034 KAEDAH PENYELIDIKAN LANJUTAN plot memberi ringkasan terus kepada purata tanpa terlalu banyak maklumat tambahan. Kelemahan Mean Plot ✖ Tidak Menunjukkan Taburan Data Secara Keseluruhan – Mean plot hanya menunjukkan purata tetapi tidak memberikan maklumat tentang sebaran, varians, atau bentuk taburan data. ✖ Terlalu Bergantung pada Mean – Jika data mempunyai outlier, nilai mean boleh terjejas dan memberikan gambaran yang tidak tepat. Dalam kes ini, median mungkin lebih sesuai. ✖ Kurang Berkesan untuk Dataset Kecil – Jika dataset mempunyai sedikit nilai, mean plot mungkin tidak memberikan maklumat yang mencukupi tentang variasi dalam data. Kesimpulan Mean plot ialah alat yang berkesan untuk memahami dan membandingkan nilai purata sesuatu dataset, terutama dalam kajian kategori dan analisis bersiri masa. Namun, ia kurang berkesan dalam menunjukkan taburan data dan sebaiknya digunakan bersama teknik lain seperti box plot atau histogram untuk mendapatkan gambaran lebih menyeluruh. 3. Std Plot Teknik EDA bagi Plotting Statistik Sederhana Menggunakan Standard Deviation (STD) Plot Pengenalan Analisis Data Eksploratif (EDA) adalah pendekatan penting dalam memahami ciri-ciri utama sesuatu dataset sebelum melakukan analisis statistik lanjut. Salah satu teknik visualisasi dalam EDA ialah Standard Deviation (STD) Plot, yang digunakan untuk menggambarkan penyebaran data berdasarkan sisihan piawai (standard deviation, σ). STD plot membantu menilai tahap variasi dalam data, yang penting untuk memahami kestabilan dataset serta mengenal pasti kemungkinan outlier atau trend yang menarik. Keberkesanan STD Plot dalam EDA Menunjukkan Variasi dalam Dataset ✔ STD plot sangat berguna untuk memahami sejauh mana nilai dalam dataset berbeza dari purata (mean). ✔ Jika sisihan piawai tinggi, ini menunjukkan data mempunyai sebaran yang luas dan Dr. Wan Sakiah Wan Ngah IPGMKPI TERP4034 KAEDAH PENYELIDIKAN LANJUTAN tidak homogen. ✔ Jika sisihan piawai rendah, data lebih terkumpul hampir dengan nilai purata, menunjukkan kurangnya variasi dalam dataset. Contoh: Jika gaji pekerja dalam syarikat mempunyai sisihan piawai yang tinggi, ini bermaksud terdapat jurang besar antara gaji pekerja junior dan senior. Jika sisihan piawai gaji rendah, ini menunjukkan gaji pekerja hampir sama. 2. Membantu Mengenal Pasti Data yang Tidak Stabil atau Outlier ✔ STD plot membantu mengenal pasti dataset yang mempunyai nilai ekstrem atau outlier, yang boleh mempengaruhi keputusan analisis. ✔ Jika STD plot menunjukkan nilai sisihan piawai yang sangat tinggi, ini boleh menjadi petunjuk bahawa terdapat nilai luar biasa (extreme values) dalam data yang mungkin perlu diperiksa lebih lanjut. Contoh: Jika skor pelajar dalam ujian berkisar antara 30 hingga 95, STD plot akan menunjukkan sisihan piawai yang tinggi, menandakan adanya pelajar yang mendapat skor sangat rendah atau sangat tinggi. Memudahkan Perbandingan Antara Kumpulan Data ✔ STD plot sangat berguna apabila membandingkan variabiliti antara beberapa kumpulan data. ✔ Jika dua kumpulan mempunyai purata yang hampir sama tetapi sisihan piawai berbeza, ini menunjukkan satu kumpulan lebih seragam berbanding kumpulan lain. Contoh: Dua kelas dengan purata markah ujian 75, tetapi satu kelas mempunyai sisihan piawai tinggi (σ = 15) dan satu lagi mempunyai sisihan piawai rendah (σ = 5). Ini menunjukkan bahawa kelas pertama mempunyai pelajar dengan prestasi sangat berbeza-beza, manakala kelas kedua lebih seragam dalam pencapaian mereka. Sesuai untuk Data Bersiri Masa (Time Series Data) ✔ Dalam analisis data bersiri masa, STD plot boleh digunakan untuk melihat turun naik dalam dataset sepanjang tempoh tertentu. Dr. Wan Sakiah Wan Ngah IPGMKPI TERP4034 KAEDAH PENYELIDIKAN LANJUTAN ✔ Membantu dalam mengenal pasti trend kestabilan atau ketidaktentuan (volatility) dalam data. Contoh: Dalam pasaran saham, STD plot boleh digunakan untuk melihat sejauh mana harga saham berfluktuasi dalam tempoh tertentu, di mana sisihan piawai tinggi menunjukkan pasaran tidak stabil. Kelemahan STD Plot ✖ Tidak Menunjukkan Bentuk Taburan Data – Tidak seperti histogram atau box plot, STD plot hanya menunjukkan tahap variasi tanpa memberikan gambaran tentang bentuk taburan (skewness atau kurtosis). ✖ Kurang Berguna untuk Dataset Kecil – Jika dataset terlalu kecil, sisihan piawai mungkin tidak memberikan gambaran yang tepat tentang variasi sebenar. ✖ Tidak Mengenal Pasti Arah Perubahan Data – STD plot hanya menunjukkan variasi keseluruhan tanpa memberikan maklumat tentang sama ada nilai meningkat atau menurun. Kesimpulan Standard Deviation (STD) Plot adalah alat yang berkesan dalam EDA untuk memahami variasi dalam dataset, mengenal pasti kestabilan data, dan mengesan outlier. Ia sangat berguna dalam analisis perbandingan kumpulan dan kajian data bersiri masa. Namun, ia tidak menggantikan histogram atau box plot dalam menggambarkan bentuk taburan data dan sebaiknya digunakan bersama teknik lain untuk mendapatkan gambaran yang lebih menyeluruh. Dr. Wan Sakiah Wan Ngah IPGMKPI

Use Quizgecko on...
Browser
Browser