Ortaokul Öğrencilerinin Akademik Başarılarının Eğitsel Veri Madenciliği Yöntemleri İle Tahmini PDF
Document Details
2020
Banu ABBASOĞLU
Tags
Summary
This article examines the prediction of academic achievement of secondary school students using educational data mining methods. The study analyzes the impact of demographic and socioeconomic factors on student performance in 2019-2020 using data from Yalova secondary schools. The research employs various classification techniques for estimation.
Full Transcript
Veri Bilim Derg, 3(1), 1-10, 2020 VERİ BİLİMİ DERGİSİ www.dergipark.gov.tr/veri Ortaokul Öğrencilerinin Akademik Başarılarının Eğitsel Veri Madenciliği...
Veri Bilim Derg, 3(1), 1-10, 2020 VERİ BİLİMİ DERGİSİ www.dergipark.gov.tr/veri Ortaokul Öğrencilerinin Akademik Başarılarının Eğitsel Veri Madenciliği Yöntemleri ile Tahmini Banu ABBASOĞLU1 Bahçeşehir Üniversitesi, Eğitim Bilimleri Enstitüsü, Bilgisayar ve Öğretim Teknolojileri, İstanbul Özet Eğitsel Veri Madenciliği, eğitim ortamlarından gelen benzersiz veri türlerini araştırmak için yöntemler geliştirmek, öğrencileri ve öğrendikleri ortamları daha iyi anlamak için bu yöntemleri kullanmakla ilgilenen yeni bir disiplindir. Eğ itsel veri madenciliğ i, bilgisayar bilimi, eğ itim ve istatistik alanlarının birleşimi olarak dü şü nü lebilir. Bu çalışmanın amacı, öğrencilerin demogra- fik özelliklerinin ve sosyoekonomik durumlarının öğrencilerin yıl sonu genel başarı ortala- malarına olan etkilerini eğitsel veri madenciliği yöntemleri ile analiz etmektir. Bu amaçla, 2019- 2020 eğitim-öğretim yılı, 2. Dönemi’nde, Yalova ilinde sosyo demografik açıdan farklı dört resmi ortaokuldaki, 5, 6, 7 ve 8. sınıf, 1395 ortaokul öğrencisinin, E-Okul Yönetim Bilgi Sisteminden sosyo demografik özelliklerine ilişkin verileri elde edilmiştir. Daha sonra elde edilen verilerden Makale Bilgisi sınıflandırma teknikleri ve algoritmaları ile yıl sonu genel başarım ortalamaları tahmin edil- miştir. Sınıflandırıcı algoritmaların uygulanması sonucunda yıl sonu genel başarı ortalaması başarımında lojistik algoritması en iyi tahmini gerçekleştirmiştir. Başvuru 12/06/2020 Anahtar Kelimeler: Eğitsel Veri Madenciliği, Ders Başarı Ortalaması Tahmini, Sınıflandırma Kabul: 11/07/2020 Prediction of Academic Achievements of Secondary School Students with Educational Data Mining Methods Abstract Educational Data Mining is a new discipline that is interested in developing methods to explore unique data types from educational environments, and using these methods to better under- stand students and the environments they learn. It can be thought of as a combination of educa- tional data mining, computer science, education and statistics. The aim of this study is to analyze the effects of demographic characteristics and socioeconomic status of students on the overall average success scores of students by using educational data mining methods. For this purpose, in the second term of 2019-2020 academic year, data on sociodemographic properties of 1395 middle school students from class 5, 6, 7 and 8 in Yalova province via e-School Management Information System were obtained. Afterwards, the average of year-end overall performance with classification techniques and algorithms was estimated. As a result of the application of classifier algorithms, the logistic algorithm has achieved the best estimation in the performance of the end-of-year overall success average. Keywords: Educational Data Mining, Course Success Average Estimation, Classification 1 * iletişim e-posta: [email protected] ** Bu çalışmanın bir kısmı III. International Conference on Data Science and Applications 2020'de sözlü olarak sunulmuştur. 1 Veri Bilim Derg, 3(1), 1-10, 2020 1 Giriş Bourdieu'nun ünlü kültürel yeniden üretim teorisindeki temel yöntemler ve algoritmalara yönelik bir paradigma olarak hipotez, nesiller boyunca aktarılan, aileler ve bireyler taraf- ortaya çıkmıştır. Meksika’da eğ itimin kalitesini artırmak için, ından sahip olunan kültürel sermayenin, bireylerin eğitim geleneksel, açık ve uzaktan eğ itim ortamlarından elde edilen başarısına katkıda bulunan önemli bir kaynak olduğudur, verilerle, sınıflandırma (Bayes teoremi, karar ağ açları, J48) kü- yüksek sosyoekonomik düzeye sahip aileler çocuklarına daha meleme ve regresyon yöntemleri kullanılarak öğ renci davranış fazla eğitim kaynağı sağlar ve ergenlerin eğitimsel başarısını ve performanslarının modellemesi, değ erlendirilmesi ve bu teşvik eder [1, 2]. Sosyoekonomik düzeyi yüksek olan bir aile, değ erlendirmeler üzerinden geribildirim sağ lanması, müfredat çocukları için daha iyi bir yaşam ortamı ve daha fazla eğitim ve öğ retmenlerin değ erlendirilmesi, bilgi keşfi amacıyla, daha kaynağı sağlayabilir. Sosyoloji ve eğitim alanında, ailenin so- doğ rusu yeni bir eğ itim reformu yaratmak için eğ itsel veri ma- syoekonomik durumu ile akademik başarı arasındaki ilişkiyi denciliğ inden yararlanılmıştır. belirlemeye yönelik pek çok araştırma yapılmıştır. Literatürün Ülkemizde yapılan bir çalışmada, 6, 7, 8.sınıf ortaokul öğrenci- kapsamlı incelenmesi sonucunda sosyoekonomik durum ile lerine 24 soruluk bir anket uygulamış, Türkçe, Matematik ders- akademik başarı arasında anlamlı bir ilişkinin olduğu birçok leri ve dönem sonu genel başarı ortalamalarını regresyon / çok araştırma sonuçlarına rastlanmıştır. Örneğin; ABD'deki dört il- sınıflı makine öğ renmesi modelleri oluşturarak tahmin etmiştir köğretim okuluna kayıtlı 8.sınıf öğrencilerinin sosyoekonomik. Uzaktan eğ itimde de benzer amaçlar doğ rultusunda düzeyinin akademik başarılarına olan etkisi araştırılmıştır. Bu çalışmalar gerçekleştirilmiştir. Transilvanya Ü niversitesi'nde araştırmada, öğrenciler ekonomik olarak dezavantajlı ve gerçekleştirilen çalışmada bilgisayar kullanım alanı, bilgisayar dezavantajlı olmayan öğrenciler olarak kategorize edilmiştir. kullanımının ö nemi, bilgisayar kullanımını gerektiren fakü lte Sonuçlar ekonomik olarak dezavantajlı öğrencilerin matema- etkinlikleri, ö ğ rencilerin ü niversitede bilgisayar kullanım sü re- tik, dil sanatları, sosyal bilgiler ve fen puanlarının ekonomik leri, internet ve web sitesi kullanımı, teknoloji yatırımları, BT olarak dezavantajlı olmayan öğrencilere göre daha düşük kaynaklarına erişim konularıyla ilgili ö ğ rencilerin eğ itim siste- olduğunu göstermiştir. Yine Pakistan’daki 1580 ortaokul minin bilgisayarlaşmasıyla ilgili gö rü şlerini analiz etmiştir. öğrencisinin sosyoekonomik düzeyinin akademik başarıları Eğitsel veri madenciliğinde ulusal ve uluslararası farklı öz nite- üzerindeki etkileri araştırılmıştır. Araştırmacı öğrencileri üst, likler kullanılarak yapılan çalışmalar olduğu görülmektedir. orta ve düşük sosyal sınıflara ayırmış, bulgular, üst sınıfa men- Bu çalışmada da eğ itsel veri madenciliğ inde sıklıkla kullanılan sup öğrencilerin orta ve düşük sınıfa mensup öğrencilerinden ve tahmin edici modeller arasında yer alan sınıflandırma te- daha başarılı olduğunu göstermiştir. Türkiye'de ise yapılan knikleri ve algoritmaları kullanılmış ve sonuçlar irdelenmiştir. bir çalışmada, 8. sınıf ilköğretim okulu öğrencilerine, 25 soruluk bir anket uygulanmış ve çeşitli değişkenlerin (annele- rin eğitim düzeyi, kardeş sayısı) akademik başarı üzerindeki et- Eğitsel Veri Madenciliği kisini araştırılmıştır. Araştırmacı, öğrencilerin evdeki olana- “Eğitsel Veri Madenciliği”, eğitim ortamlarından gelen ben- kları ve annelerin eğitim düzeylerinin artması ve kardeşlerinin zersiz veri türlerini araştırmak için yöntemler geliştirmek ve sayısının azalmasıyla öğrencilerin okullarda akademik perfor- öğrencileri ve öğrendikleri ortamları daha iyi anlamak için bu mansta artış gösterdiğini tespit etmiştir. Bir başka yöntemleri kullanmakla ilgilenen “yeni bir disiplin” olarak çalışmada, 1990 ve 2000 yılları arasında yayınlanan dergiler- tanımlanmaktadır. Eğ itsel veri madenciliğ i, bilgisayar bi- deki sosyoekonomik durum ve akademik başarı ile ilgili litera- limi, eğ itim ve istatistik alanlarının birleşimi olarak dü şü nü le- türü gözden geçirilmiş, incelenen sonuçlar ışığında ebeveynle- bilir. Veri madenciliği tekniklerinin eğitim sistemlerine rin sosyoekonomik yapıdaki konumlarının öğrencilerin akade- uygulanması, eğitim programlarını sürekli iyileştirmek mik başarıları üzerinde güçlü bir etkisi olduğunu göstermiştir amacıyla, öğretim tasarımını yeniden biçimlendirmenin bir. Bu bağlamda akademik başarı ile sosyoekonomik durumun yolu olarak görülmüştür. Veri madenciliği tekniklerinin arka plan ilişkisi ile ilgili birçok çalışma yapıldığı ve ilişkinin eğitim sistemlerini tasarlamak üzere nasıl uygulanacağı Şekil güçlü yönde olduğu söylenebilir. Öğrencilerin akademik 1’de gösterilmektedir. Şekil 1’ de görebileceğimiz gibi, eğitimci- başarılarında pek çok faktör rol oynar. Şimdiye kadar yapılan ler ve akademik sorumlular eğitim sistemlerinin tasarlanması, çalışmalardan öğrencilerin akademik başarısında hangi fakt- planlanması, inşa edilmesi ve sürdürülmesinden sorumludur. örlerin öncelikli olarak rol oynadığı tam olarak ortaya konula- Keşfedilen bilgi yalnızca eğitim tasarımcıları ve öğretmenler ta- mamıştır. Ülkemizde eğitime yapılan teknolojik, fiziki ve proje rafından değil, aynı zamanda kullanıcılar (öğrenciler) taraf- bazlı yatırımlara rağmen uluslararası sınavlarda başarı istenen ından da kullanılabilir. Böylece eğitimciler, öğretim için daha seviyede değildir. Bireyin akademik başarısı ü zerinde etkili o- nesnel geri bildirim alabilir, ders içeriğinin yapısını ve öğrenme lan pek çok değ işken bulunabilir. Bu araştırmada bireyin aka- sürecindeki etkinliğini değerlendirebilirler. Bu değerelendirme demik başarısı ü zerinde etkisi olabileceğ i dü şü nü len sosyoeko- sayesinde, öğrenciler rehberlik ve izlemedeki gereksinimlerine nomik (anne baba eğ itimi, anne ve babanın hayatta olma göre gruplara ayrılabilir ve öğretimde en sık yapılan hatalar durumu, aile ile yaşama durumu, ailenin ekonomik geliri, aile- saptanabilir, daha etkili etkinlikler bulunarak, derslere uyar- deki kardeş sayısı, odası olma durumu, takviye kurs alma lanması sağlanabilir. Derslerin daha iyi kişiselleştirilmesi için durumu) ve demografik (yaş, cinsiyet, sürekli hastalık durumu, saha yeniden yapılandırabilir, içerik öğrencinin gelişimine göre özel eğitim durumu, devam durumu) verileri eğitsel veri ma- yeniden düzenlenebilir ve planlanabilir. Bu bağlamda, denciliği yöntemleri ile işlenerek bireyin akademik başarım eğitim sürecini iyileştirmeye yardımcı olacak faydalı bilgileri analizinin yapılması amaçlanmıştır. keşfetmek için farklı veri madenciliği teknikleri uygulanabilir. Eğ itsel veri madenciliğ i, geleneksel, açık ve uzaktan eğ itim ortamlarındaki verileri araştırmak için tasarım modelleri, 2 Veri Bilim Derg, 3(1), 1-10, 2020 Şekil 1. Veri Madenciliğ i Tekniklerinin Eğ itim Sistemlerini Tasarlamak İçin Uygulanması. Eğitsel veri madenciliği yöntemlerinin taksonomisi şu şekilde- 1.2. Performans metrikleri açısından karşılaştırıldığ ında yıl dir : sonu not ortalaması tahmininde en iyi performans gö steren 1.Tahmin sınıflama algoritması/algoritmaları nelerdir? 1.1. Sınıflandırma 2) Birinci araştırma probleminde en iyi performans gö steren 1.2. Regresyon sınıflama algoritması kullanılarak ö ğ rencilerin yıl sonu genel 1.3. Yoğunluk Hesaplama başarı ortalamalarının daha ö nceden tahmin edilmesi mü mkü n 2. Kü meleme mü dü r? 3. İlişki Madenciliğ i 3.1. Birliktelik kuralı madenciliğ i 2 Yöntem 3.2. Korelasyon madenciliğ i 3.3. Sıralı ö rü ntü madenciliğ i Bu araştırmada elde edilen öğrenci verilerinden yıl sonu genel 3.4. Nedensel veri madenciliğ i başarı ortalamalarını tahmin etmek amacıyla eğitsel veri ma- 4. İnsan yargısı için veri damıtma denciliği yöntemlerinden sınıflandırma teknikleri ve algorit- 5. Modeller ile keşif maları kullanılmıştır. Öğrencilerden elde edilen verilere dayanarak, bir öğrencinin notlarını veya diğer öğrenme Tahmin yönteminde amaç, verilerin başka bir yönünün bir- çıktılarını tahmin etmek için en sık kullanılan teknikler leşiminden (öngörücü değişkenler) verilerin tek bir yönünü sınıflandırma, kümeleme ve ilişkilendirmedir. Bu (öngörülen değişken) çıkaran bir model geliştirmektir. Tahmin çalışmada öğrencilerin yıl sonu genel başarı ortalamalarını yöntemlerinden sınıflandırma (öngörülen değişken kategorik tahmininde “Logistic Regression (Lojistik Regresyon), Linear bir değer olduğunda) kullanılır. Bu çalışmada da öğrenci- SVM (Doğrusal Destek Vektör Makineleri), Non-Linear SVM lerin akademik başarılarını eğitsel veri madenciliği yöntemleri (Doğrusal Olmayan Destek Vektör Makineleri), RandomForest ile tahmin etmek için sınıflandırma teknikleri ve algoritmaları (RastgeleOrman), NaiveBayes (Naif Bayes), Bagging, K-nearest kullanılmıştır. Bu amaçla, 5., 6., 7. ve 8. sınıf ortaokul neigborhood (K-En Yakın Komşu), Multilayer Perceptron (Ya- öğ rencilerinin demografik özellikleri ve sosyoekonomik pay Sinir Ağları)” sınıflayıcıları olmak üzere çok çeşitli durumları (öngörücü değişkenler) hakkında elde edilen veriler sınıflandırma yöntemleri denenmiş ve sonuçlar kullanılarak genel başarı ortalamalarını (öngörülen değişken) karşılaştırılmıştır. Elde edilen sonuçlara bulgular bölümünde tahmin eden bir model geliştirmeye çalışılmıştır. Bu amaçla yer verilmiştir. aşağıdaki sorulara cevap aranmıştır: 1) Ö ğ rencilerin e-okul sistemindeki demografik ve sosyoeko- nomik verileri kullanılarak oluşturulan farklı sınıflama modele- rinin öğrencilerin yıl sonu genel başarı ortalamalarını tahmin etme başarısı nasıldır? 1.1. Öğrencilerin yıl sonu genel başarı ortalamalarının tahmin edilmesinde hangi değişkenler daha önemlidir? 3 Veri Bilim Derg, 3(1), 1-10, 2020 2.1 Veri Seti Ksayısı Kardeş Sayısı Bu çalışma, 2018-2019 eğitim-öğretim yılı 2. Dönemi’nde, Yalova İlindeki ortaokul öğrencilerinden elde edilen verilerle Kendine Ait Odası Olma Du- yapılmıştır. Örneklem seçiminde tabakalı örnekleme yöntemi oda rumu kullanılmıştır. Tabakalı örnekleme, evrendeki alt grupların belirlenip bunların evren büyüklüğü içindeki oranlarıyla hastalık Sürekli Hastalık Durumu örneklemde temsil edilmelerini amaçlar. Tabakalı örnekleme için önce evren içinde homojen alt gruplar (tabakalar), daha sonra her bir tabaka için alt evren oluşturulur. Bu Öeğitim Özel Eğitim Durumu bağlamda, bu çalışmada sosyo demografik açıdan farklılıklara sahip dört resmi ortaokul örneklem olarak seçilmiştir. Ör- neklem tabakaları saptandıktan sonra, her tabaka içinde devam Devamsızlık Durumu birbirine denk kümeler (her okuldan 5.6.7.8.sınıf öğrencileri) saptanmış ve her küme içinden yine seçkisiz örnekleme yapıla- rak belirli sayıda öğrenci çekilerek, 1395 örnek seçilmiştir. Mkurs Matematik Kurs Alma Durumu Öğ rencilerin gizli tutularak E-okul Yönetim Bilgi Sistemi’nden elde edilebilen 27 bağımsız değişkenden oluşmaktadır. E-okul Yönetim Bilgi Sistemi’nden elde edilebilen bağımsız Tkurs Türkçe Kurs Alma Durumu değişkenler Tablo 1’de gösterilmiştir. Ykurs Yabancı Dil Kurs Alma Durumu Tablo 1. E-okul Yönetim Bilgi Sistemi’nden Elde Edilen Bağımsız Değişkenlerin Listesi Dkurs Drama Kurs Alma Durumu Bağımsız Açıklama Değişkenler Beden Eğitimi Kurs Alma Du- Bkurs rumu Cinsiyet Öğrenci Cinsiyeti Mkurs Müzik Kurs Alma Durumu Yaş Öğrenci Yaşı Görsel Sanatlar Kurs Alma Du- Gkurs rumu Asağ Anne Sağ/Ölü Olma Durumu Yazarlık ve Yazma Becerileri Ykurs Kurs Alma Durumu Bsağ Baba Sağ/Ölü Olma Durumu Fkurs Fen Kurs Alma Durumu Ebeveynlerin Birlikte/Ayrı ABayrı Olma Durumu 2.2 Öznitelik Seçme Ayaşam Anne İle Yaşama Durumu Özellik altkümesi seçimi, olabildiğince alakasız ve gereksiz bil- gileri belirleme ve kaldırma işlemidir. Bu işlem, verilerin bo- Byaşam Baba İle Yaşama Durumu yutsallığını azaltır ve öğrenme algoritmalarının daha hızlı ve daha etkili çalışmasına izin verebilir. Özellik alt kümesi seçimi, AByaşam Aile İle Yaşama Durumu öğrenme algoritmasının belirli bir problem için önemli özelliklere odaklanmasına yardımcı olabilir. Bu araştır- mada da öğrencilerin başarısını etkilediği düşünülen 27 Aöğrenim Anne Eğitim Durumu bağımsız değişken bulunmaktadır. Bu bağımsız değişkenlerin, hangilerinin öğrenci başarısını tahmin etmede daha etkili ol- duğu bilinmemektedir. Bunun için E-okul Yönetim Bilgi Sis- Böğrenim Baban Eğitim Durumu temi’nden elde edilebilen bütün bağımsız değişkenler yerine, tahmin sonuçlarını artıracağı düşünülen korelasyona dayalı özellik seçicisi, (Correlation Based Feature Selector - CFS) kul- Açalışma Anne Çalışma Durumu lanılarak özellik alt kümesi seçimine gidilmiştir. CFS verilerin daha verimli kullanılması, alakasız verilerin kaldırılması, öğ- renme doğruluğunun artırılması amacıyla, makine öğrenimi Bçalışma Baba Çalışma Durumu için bir ön işleme adımı olan korelasyona dayalı özellik seçici- sidir. Bu yöntemle özellik alt kümesi seçilirken, sınıfla gelir Gelir Durumu yüksek oranda korelasyonlu olan, ancak birbiriyle ilişkili ol- mayan özellikler içeren bir özellik alt kümesi elde edilir. Özellik alt kümesi seçimi ile 27 olan bağımsız değişken sayısı 8’e düşmüştür. CFS uygulanması sonucunda Genel Başarı 4 Veri Bilim Derg, 3(1), 1-10, 2020 Ortalaması (GBO) tahmini için şu bağımsız değişkenler elde olarak ayrılabilir bir veri kümesi için, doğrusal bir edilmiştir: Özellik Alt Kümesi Seçimi Sonrası Elde Edilen sınıflandırma işlevi sağlar ve iki sınıfı biribirinden ayıran bir Bağımsız Değişkenler : yaş, devam, ABayrı, Aöğrenim, Böğ- hiper düzleme karşılık gelir. İki sınıf arasındaki aralığı renim, gelir, oda, Fkurs maksimize ederek, en uygun yüksek boyutlu bir hiper düzlemi Araştırmada ayrıca, Temel Bileşen Analizi (Principal Compo- bulur. nent Analysis- PCA) kullanılmıştır. PCA orijinal veri setindeki RandomForest (RastgeleOrman) yö ntemi, sınıflandırma bilgilerin çoğunu koruyarak değişken sayısını önemli ölçüde amacıyla kullanılan bir başka topluluk ö ğ renme yö ntemidir. azaltmak için kullanılır. PCA bunu yapmak için boyut küçültme RastgeleOrman, her biri birbirinden bağ ımsız olarak ve aynı tekniğini kullanarak, verilerin boyutsallığını azaltır. dağ ılım kullanılarak eğitim verisinden rastgele elde edilmiş bir ö rnekleme dayanan karar ağ açlarından oluşturulan bir 2.3 Sınıflandırma Yöntemleri topluluktur. Bu yö ntem eğ itim sırasında birçok karar ağ acı o- luşturur ve daha sonra kestirim sırasında bu karar ağ açlarının Sınıflandırma işlemi en basit şekliyle bağımsız değişken sınıflandırma sonuçlarından yararlanılarak, girdinin sınıfına değerleri belli iken, bağımlı değişkenin değerini/düzeyini göre çoğ unluk oyu aracılığ ıyla karar belirlenir. tahmin etme işlemidir. Gerek istatistik gerekse makine Bagging yö ntemi, orijinal veri setinden elde edilen bootstrap öğrenimi temelli çeşitli sınıflandırma yöntemleri geliştirilmiştir ö rneklerine tahminciler uygulanarak bir topluluk oluşturur. Bu. arada bootstrap uygulaması, iadeli rasgele seçim yapıp alt ö rneklemler oluşturmak için kullanılır. Orijinal veri setindeki Bu çalışmada, Logistic Regression (Lojistik Regresyon), Linear SVM (Doğrusal Destek Vektör Makineleri), Non-Linear SVM sayı ile aynı olacak alt ö rneklemler oluşturur. Bu nedenle bazı (Doğrusal Olmayan Destek Vektör Makineleri), RandomForest gö zlemler bootstrap sonucunda oluşturulan ö rneklemlerde yer (RastgeleOrman), NaiveBayes (Naif Bayes), Bagging, K-nearest almazken bazıları iki veya daha fazla defa gö rü lebilir. Tahmin- neigborhood (K-En Yakın Komşu), Multilayer Perceptron (Ya- lerin birleştirilmesi aşamasında sınıflandırma ağ açlarında pay Sinir Ağları) sınıflandırma yöntemleri kullanılmış olup sonuçlar oylama ile belirlenir. aşağıda kısaca açıklanmıştır: NaiveBayes (Naif Bayes), yönteminde Bayes olasılığına bağlı ηb (X | Z1),... , η (X | Zb) (2) formülü kullanılır olarak sınıflandırma yapılır. Bayes olasılığı koşulu olasılığın k. tane ayrık olay için genelleştirilmiş halidir. Bu olasılık aşağıdaki şekilde tanımlanır: Multilayer Perceptron (Yapay Sinir Ağları) nöronlardan oluşur. Ağ içerisindeki bir nöron diğer nöronlara sinyaller gönderir, P(CJ / X ) = P (X / CJ ) P (CJ) / P (X) (1) böylece gelen girdiler tanımlanır. Bir Y nöronu ele alınırsa, bu nöron X₁, X₂, X₃ nöronlarından işaret alır. Daha sonra X₁, X₂, X₃ P (C / XJ ): X durumu verilmişken CJ sınıfının ortaya çıkma o- nöronlarını Y nöronuna bağlayan ağırlıklar (w₁, w₂, w₃) hesap- lasılığı lanır. Öğrenme sürecinde verilerin çıktı katmanına ulaşabil- mesi için w ağırlıkların hesaplanması gerekir. Öğrenme için ay- P (X / CJ ): CJ sınıfında X durumunun ortaya çıkma olasılığı rılmış veri kümesi üzerinde bu ağırlıklar hesaplandıktan sonra, P (CJ): (CJ) sınıfının ortaya çıkma olasılığı diğer veri kümesi ile de öğrenmenin ne kadar gerçekleştiğini P (X): X durumunun ortaya çıkma olasılığı. bulmak için ağırlıklar test edilir. Test işlemi sonunda ağırlıkla- rın etkinliği doğrulanırsa, öğrenme işlemi tamamlanır. Bayes sınıflamada amaç, X = (X1.......Xp) yani bağ ımsız değ işken Formülle tanımlanacak olursa bir Y-girdi nöronu gelen sinyal- vektörünün değ eri biliniyorken bağımlı değişken değerini lerin ağırlıklarla çarpımının toplamıdır: tahmin etmektir. Bağımlı değişken değerini tahmin etmek için P (CJ / X ) şeklindeki Bayes olasılıkları hesaplanarak en büyük Y-girdi = w₁x₁+ w₂x₂+ w₃x₃ (3) olasılık değerine ait sınıf seçilir. K-nearest neigborhood (K-En Yakın Komşu), eğitim setinde Logistic (Lojistik), popüler bir regresyon yöntemidir. Lojistik test nesnesine en yakın olan bir grup k nesnesi bulur ve bu k modelin dayandığ ı matematiksel form f (z) olarak tanımlanır. f nesnesine belli bir sınıfın atanmasını temel alır. Bu yaklaşımın (z) işlevi 0 ile 1 arasında değ işir. Model, her zaman 0 ile 1 ara- üç temel unsuru vardır: Bilinen nesneler kümesi, nesneler a- sında bir sayı olan bir olasılığ ı tanımlamak için tasarlanmıştır. rasındaki mesafeyi hesaplamak için benzerlik ölçümü ve en yakın komşuların sayısı olan k'nın değeri. Bilinmeyen bir nes- Range: 0 ≤ f (z) ≤ 1 (4) neyi sınıflandırmak için, bu nesnenin bilinen nesnelere olan mesafesi hesaplanır, en yakın k komşuları tanımlanır ve bu en z değ eri - ∞ olduğ unda; f (z) lojistik fonksiyonu 0'a eşit olur. Z yakın komşuların sınıf etiketleri daha sonra nesnenin sınıf eti- değ eri +∞ olduğ unda; f (z) lojistik fonksiyonu 0'a eşit olur. Lo- ketini belirlemek için kullanılır. Bir eğitim seti D ve bir test nes- jistik model, asla 1’in üstünde veya 0'ın altında bir risk tahmini nesi x = (x′, y′) verildiğinde, algoritma z ile tüm eğitim nesneleri almaz. Bu, diğ er olası modeller için her zaman doğ ru değ ildir, (x, y) ∈ D arasındaki mesafeyi (veya benzerliğini) en yakın bu yüzden bir olasılık tahmin edildiğ inde lojistik model genel- komşu listesini belirlemek için hesaplar, Dz (x, bir eğitim nes- likle ilk tercihtir. nesinin verileri, y ise onun sınıfıdır. Benzer şekilde, x′ test nes- nesinin verileri ve y′ ise onun sınıfıdır). En yakın komşu listesi 3 Bulgular elde edildikten, test nesnesi en yakın komşusunun çoğunluk sınıfına göre sınıflandırılır. SVM (Destek Vektör Makineleri), tüm bilinen algoritmalar Bu çalışmada, 5, 6, 7 ve 8. ortaokul öğ rencilerinin dönem sonu arasında en sağlam ve doğru yöntemlerden birini sunar. genel başarı ortalamaları, öğrencilerin sosyoekonomik ve de- SVM'nin amacı, eğitim verilerindeki iki sınıfın üyelerini ayırt mografik özelliklerine dair verileri kullanılarak sınıflandırma etmek için en iyi sınıflandırma işlevini bulmaktır. Doğrusal yöntemleri ile tahmin edilmiştir. Öğ rencilerin yılsonu notları 5 Veri Bilim Derg, 3(1), 1-10, 2020 Tablo 2’de görülen Milli Eğ itim Bakanlığ ı ilköğretim not Sınıflandırıcı ölçeğine göre sınıflandırma teknikleri ve algoritmaları ile tah- Doğruluk (%) Algoritma min edilmiştir. Bu çalışmada dokuz sınıflandırıcı algoritma ile sınıflandırma testleri gerçekleştirilmiştir. Analizler yapılırken, Multilayer Perceptron 60.40 sınıflandırıcı algoritmaların yalnız kullanılmasının (standa- lone) yanısıra çoklu meta sınıflandırıcı (MultiClassClasifier) Tablo 3’te görüldüğü üzere, sınıflandırıcı algoritmaların yalnız algoritmaları kullanılarak da analizler yapılmıştır. uygulanmaları sonucunda, genel başarı ortalaması tahmininde (MultiClassClasifier) Çoklu Sınıflandırıcı Algoritmalara ait so- logistic (%64.00), Linear SVM (%62.20), Non-Linear SVM nuçlara bulgularda yer verilmiştir. (%63.05) algoritmaları en iyi sonucu vermiştir. En düşük başarı tahmini k-Nearest Neighborhood (k-NN) algoritmasında (% 59.30) görülürken en iyi başarı tahmini logistic algoritmasında Tablo 2. MEB İlköğretim Not Ölçeği olmuştur. Genel olarak sınıflandırıcılar arasında çok büyük ba- şarı farklılıkları yoktur. Önişlem sürecinde korelasyona dayalı Puan Not özellik seçici (CFS) uygulanması sonucunda 27 olan bağımsız değişken sayısı 8’e düşmüştür. Genel başarı ortalaması tahmi- 0–24 0 nine elde edilen bağımsız değişkenlerle devam edilmiştir (yaş, devam, ABayrı, Aöğrenim, Böğrenim, gelir, oda, Fkurs). 24-44 1 Tablo 4. Korelasyona Dayalı Özellik Seçici Uygulanması İle 45-54 2 Seçilen Bağımsız Değişkenlere Göre Sınıflandırıcı 55-69 3 Algoritmaların Tahmin Sonuçları 70-84 4 Sınıflandırıcı Algoritma Doğruluk (%) 85-100 5 Logistic 63.50 Bu araştırmada, sınıflandırma teknik ve algoritmaları uygula- Naïve Bayes 60.90 nırken, algoritmanın performansını değerlendirmek, en iyi so- nuca ulaşabilmek için, 10 - kat çapraz doğrulama (Cross-valida- tion) test tekniği kullanılmıştır. Cross-validation (CV) test tek- Linear SVM 63.00 niğinde, verilerin bir kısmı (eğitim örneği) algoritmayı eğitmek için kullanılırken ve geri kalan veriler (doğrulama örneği) ola- k-NN (k=10) 60.01 rak kullanılır. Çapraz doğ rulama, tek bir veri setinden eğ itim ve test setlerinin bir dağ ılımını oluşturur. Çapraz doğ rulama işle- RandomForest 58.10 minde veriler, her biri kat olarak adlandırılan k altkümelerine S1..... Sk ayrılır. Daha sonra öğ renme algoritması, eğ itim seti Non-Linear SVM 61.40 olarak Si dışındaki tüm altkümelerin birleşimini ve test seti ola- rak Si'yi kullanarak, her seferinde, i = 1 ila k için k kere uygula- Bagging 60.20 nır. Waikato Bilgi Analizi Ortamı (WEKA) programında var olan tü m algoritmalar bu veri dosyası ü zerinde sırayla çalıştı- Multilayer 60.80 rılmış ve en yü ksek korelasyon katsayısı veren dokuz algoritma Perceptron seçilerek tablolaştırılmıştır. Tablo 4’te görüldüğü üzere, CFS uygulanması sonucu k-NN Tablo 3. En İyi Performans Gösteren Sınıflandırıcı Algorit- algoritması ile genel başarı ortalaması tahmininde başarı ol- malar dukça artmıştır. Naive Bayes ve Multilayer Perceptron yöntem- lerinde öznitelik seçme ile başarımda bir miktar artış gözlenmiş Sınıflandırıcı olup diğer yöntemlerde başarımın düşmesine yol açmıştır. CFS Doğruluk (%) uygulanması sonucunda GBO’sında en başarılı tahmin yine lo- Algoritma gistic algoritmasında olmuştur. En düşük tahmin değeri Ran- Logistic 64.00 domForest (% 58.10) algoritmasında olmuştur. MultiClassClas- sifier, kullanılarak en iyi başarı tahmini veren 8 algoritma tek- Naïve Bayes 60.60 rar denenerek analizlere devam edilmiştir. Linear SVM 62.20 (k-NN) (k=10) 59.30 RandomForest 61.60 Non-Linear SVM 63.05 Bagging 61.90 6 Veri Bilim Derg, 3(1), 1-10, 2020 Tablo 5. MultiClassClassifier ile Yapılan Sınıflandırıcı Algorit- söylenebilir. PCA kullanılarak 27 olan değişken sayısı 19 adet maların Tahmin Sonuçları değişken örüntüsüne dönüşmüştür. Elde edilen 19 adet değiş- ken örüntüsü üzerinde sınıflandırıcı algoritmalar kullanılarak analizlere devam edilmiştir. Sınıflandırıcı Doğruluk (%) Algoritma Tablo 6. MultiClassClassifier ve CFS ile Yapılan Sınıflandırıcı Algoritmaların Tahmin Sonuçları Logistic 62.15 Naïve Bayes 60.45 Sınıflandırıcı Algoritma Doğruluk (%) Linear SVM 56.20 Logistic 62.10 k-NN (k=30) 60.16 Naïve Bayes 61.04 RandomForest 61.03 Linear SVM 56.11 Non-Linear SVM 55.81 k-NN (k=18) 61.34 Bagging 59.94 RandomForest 58.61 Multilayer Perceptron 58.54 Non-Linear SVM 56.03 Bagging 60.90 Tablo 5’te görüldüğü üzere, MultiClassClassifier kullanılarak yapılan sınıflamada algoritmaların tahmin sonuçlarında çok Multilayer Perceptron 60.40 büyük başarı farklılıkları görülmemiştir. Sınıflandırıcı algorit- maların yalnız uygulanması ile kıyaslandığında, MultiClassClas- sifier ile yapılan sınıflamada sadece k-NN (%60.10) algoritma- Tablo 7’de görüldüğü üzere, PCA ile seçilen özniteliklere göre sında artış olduğu görülmüş, diğer algoritmalarda GBO tahmi- sınıflandırıcı algoritmaların doğ ruluk sonuçları, CFS başarımı ninde düşüş görülmüştür. En düşük başarı tahmini veren algo- ile kıyaslandığında, logistic, k-NN, RandomForest, Linear SVM, ritma, Non-Linear SVM olmuştur. En yüksek tahmin veren algo- Multilayer Perceptron algoritmalarında genel başarı ortalama ritma yine logistic olmuştur. CFS ile MultiClassClassifier ile ya- tahmininde artış görülmüştür. Fakat yine Genel Başarı Ortala- pılan sınıflama analizleri karşılaştırıldığında, çoklu sınıflandır- ması tahmininde sınıflandırıcı algoritmalar arasında çok büyük mada yine sadece k-NN (%60.10) algoritmasında bir miktar ar- başarı farklılıkları yoktur. Sınıflandırıcı algoritmaların yalnız tış olmuş, diğer algoritmalarda başarı tahmininde düşüş yaşan- uygulanması başarımı ile PCA ile seçilen özniteliklere göre sı- mıştır. Bu bağlamda, CFS ile yapılan analiz sonuçlarının MultiC- nıflandırıcı algoritmaların tahmin sonuçları lassClassifier ile yapılan sınıflama analizlerinden daha iyi tah- karşılaştırıldığında, yine algoritmalar arasında çok büyük min sonuçları verdiği söylenebilir. MultiClassClassifier ile CFS başarı farklılıkları gözlenmemiştir. Logistic algoritması, şim- birlikte kullanılarak analizler 8 algoritma için tekrar edilmiştir. diye kadar yapılan analizlerin tümünde en yüksek tahmin değe- Tablo 6’da, MultiClassClassifier ile CFS ile yapılan sınıflandırıcı rini veren algoritma olmasına rağmen, PCA kullanılarak yapılan algoritmaların genel başarı ortalaması tahmin sonuçları görül- analiz sonucunda % 64.13 tahmin değeri ile en yüksek değere mektedir. ulaşmıştır. Tablo 6’da görüldüğü üzere, MultiClassClassifier ile CFS birlikte Tablo 7. PCA Kullanılarak Oluşturulan Özniteliklere Göre kullanılarak yapılan sınıflandırıcı algoritmaların tahmin sonuç- Sınıflandırıcı Algoritmaların Tahmin Sonuçları ları ile sınıflandırıcı algoritmaların yalnız kullanımından elde edilen tahmin sonuçları karşılaştırıldığında, sadece Naive Ba- yes (% 61.04), k-NN (% 61.34) algoritmalarında genel başarı Sınıflandırıcı Doğruluk (%) ortalaması tahmininde bir miktar artış sağlanmış, diğer algorit- Algoritma malarda başarı tahmininde Multilayer algoritması dışında düşüş görülmüştür. MultiClassClassifier ile CFS birlikte kullanı- Logistic 64.13 larak yapılan sınıflandırıcı algoritmaların tahmin sonuçları ile CFS yalnız kullanımından elde edilen sonuçlar karşılaştırıldı- Naïve Bayes 54.86 ğında, başarım sadece, Naïve Bayes (%61.04), k-NN (% 61.34), RandomForest (% 58.61) algoritmalarında görülmüştür. Mul- Linear SVM 62.66 tiClassClassifier ile CFS birlikte kullanılarak yapılan sınıflandı- rıcı algoritmaların tahmin sonuçlarında yine en yüksek genel k-NN (k=30) 61.20 başarı ortalaması tahmini logistic algoritmasında, en düşük ba- şarı tahmini, Non-Linear SVM algoritmasında olmuştur. Bu RandomForest 59.50 bağlamda, CFS kullanılarak yapılan sınıflandırıcı algoritmala- rın, MultiClassClassifier ile CFS birlikte kullanılarak yapılan analiz sonuçlarına göre daha başarılı tahmin sonuçları verdiği 7 Veri Bilim Derg, 3(1), 1-10, 2020 tahmininde PCA yapıldığında, Logistic ve Multilayer Perceptron Sınıflandırıcı Doğruluk (%) algoritmaları; hem CFS hem de MultiClassClassifier ile birlikte Algoritma uygulandığında, Naive Bayes ve k-NN algoritmaları; CFS tek ba- Non-Linear SVM şına uygulandığında; Linear SVM; sınıflandırıcı algoritmaların 62.96 yalnız uygulanmaları sonucunda; RandomForest, Non-Linear SVM, Bagging algoritmaları en iyi tahmini gerçekleştirmiştir. Bagging 59.20 GBO’nda sınıflandırıcı algoritmaların yalnız uygulanması; CFS ile uygulanması, PCA’nın yalnız uygulanması, MultiClassClassi- Multilayer Perceptron 62.33 fier yalnız uygulanması, CFS - MultiClassClassifier yöntemlerinin birlikte uygulanması sonucu genel başarı ortala- ması başarımında logistic algoritması en iyi tahmini gerçekleş- Tablo 8’de görüldüğü üzere, Genel başarı ortalaması tirmiştir Tablo 8. Eğ itim Verileri Üzerinde Yapılan Tüm Sınıflandırıcı Algoritmaların Tahmin Sonuçları Temel Korealasyona Çoklu Meta Sınıflandırıcı Tekli Meta Çoklu Meta Sınıflandırıcı Bileşenler Dayalı Özellik Korealasyona Dayalı Sınıflandırıcı Sınıflandırıcı Algoritma Analizi- Seçicisi Özellik Seçicisi Doğruluk (%) Doğruluk (%) Doğruluk (%) Doğruluk (%) Doğruluk (%) Logistic 64.13 63.50 64.00 62.15 62.10 Naïve Bayes 54.86 60.90 60.60 60.45 61.04 Linear SVM 62.66 63.00 62.20 56.20 56.11 k-NN (k=30) 61.20 60.01 59.30 60.16 61.34 RandomForest 59.50 58.10 61.60 61.03 58.61 Non-Linear SVM 62.96 61.40 63.05 55.81 56.03 Bagging 59.20 60.20 61.90 59.94 60.90 Multilayer 62.33 60.80 60.40 58.54 60.40 Perceptron 8 Veri Bilim Derg, 3(1), 1-10, 2020 4 Sonuçlar ve Öneriler Kaynaklar Eğitsel Veri Madenciliği, eğitim ortamlarından gelen benzer- 1. Bourdieu P. “Culture reproduction and social reproduc- siz veri türlerini araştırmak için yöntemler geliştiren, öğren- tion,” in Knowledge, Education, and Cultural Change, Ed- cileri ve öğrendikleri ortamları daha iyi anlamak için bu yön- itor: Brown R. London, Tavistock, 1973. temleri kullananan yeni bir disiplindir. Literatüre göre, elde 2. Bourdieu P, Passeron JC. “Reproduction in Education, edilen veriler kullanılarak bu verilerden faydalı bilgilere ulaş- Society and Culture”, Vol. 4, Newbury Park, CA: Sage, mak için kullanılan veri madenciliğinin eğitimde kullanılma- 1990. sının da eğitimcilere yol göstermesi açısından faydalı bilgiler 3. Coleman, J. S. “Social capital in the creation of human sağlayacağı söylenebilir. Bu amaçla bu araştırmada da, ortao- capital”. Am.J. Sociol. 94,S95–S120. kul 5, 6, 7 ve 8. sınıf öğ rencilerinin, demografik ve sosyoeko- doi:10.1086/228943, 1988. nomik özelliklerinin akademik başarılarına olan etkilerini an- 4. Pettigrew EJ. “A Study of the impact of scioeconomic sta- lamak için E-okul Yönetim Bilgi sisteminden elde edilen veri- tus on student achievement in a rural east Tennessee leri (27 bağımsız değişken) kullanılmıştır. Sonrasında elde school system”. Electronic Theses and Dissertations. Pa- edilen verilerden öğrencilerin dönem sonu genel başarı orta- per 1844, 2009. lamalarını tahmin etmek için, sınıflandırma yöntemleri ve al- 5. Akhtar Z, Niazi K. “The relationship between socio-eco- goritmaları kullanılmıştır. WEKA programında var olan tü m nomic status and learning achievement of students at algoritmalar bu veri dosyası ü zerinde sırayla çalıştırılmış ve secondary level”. International Journal of Academic Re- en yü ksek korelasyon katsayısı veren sekiz algoritma seçile- search, 3(2), 956-961, 2011. rek değ erlendirilme yapılmıştır. Deneysel sonuçlara göre, ge- 6. Gelbal S. “The effect of socio-economic status of eighth nel başarı ortalaması tahmininde sınıflandırma yöntemle- grade students on their achievement”. Turkish Educa- rinde başarılı sonuçlar elde edilmiştir. Genel başarı ortala- tion and Science, 33(150), 1-13, 2008. ması tahmininde PCA kullanılarak yapılan analiz de logistic sı- 7. Şirin SR. “Socioeconomic status and academic achieve- nıflandırma algoritması en iyi başarımı göstermiştir. Çoklu ment: A meta-analytic review of research”. Review of meta sınıflandırıcı, algoritmaların yalnız uygulanması duru- Educational Research,75, 417–453,2005. munda genel başarı ortalamada sadece k-NN de artış sağ lan- 8. Peña-Ayala A.“Educational Data Mining: A survey and a mıştır. CFS kullanılarak, 27 olan öznitelik sayısı, 8’e düşürüle- data mining-based analysis of recent works”. Expert sys- rek analizler tekrarlandığında, Naive Bayes, k-NN, Linear tems with applications, 41(4), 1432-1462, 2014. SVM, Multilayer Perceptron sınıflandırma algoritmalarında 9. Gök M. “Makine Öğ renmesi Yöntemleri ile Akademik bir miktar artış gözlenmiştir. Çoklu sınıflandırıcı ile yapılan Başarının Tahmin Edilmesi”. Gazi Üniversitesi Fen analizlerle CFS kullanılarak yapılan analiz sonuçları Bilimleri Dergisi, Part C, Tasarım Ve Teknoloji, GU J Sci, karşılaştırıldığında, öznitelik seçme yönteminde GBO tahmin- Part C, 5(3):139-148, 2017. inde daha fazla başarı sağlanmıştır. Öznitelik seçme yöntemi 10. Petcu N. “Data mining techniques used to analyze stu- ve çoklu sınıflandırıcı kullanılarak analizler tekrarlandığında, dents opinions about computization in the educational sınıflandırıcıların yalnız kullanımına göre tahmin system”. Bulletin of the Transilvania University of Bra- sonuçlarında artış yaşanmamıştır. Yine GBO’nda sınıflandırıcı sov. Economic Sciences. Series V, 8(1), 289, 2015. algoritmaların yalnız uygulanması, öznitelik seçme yöntemi 11. Bousbia N, Belamri I. Which Contribution Does EDM ile uygulanması, Temel Bileşenler Analizi ile uygulanması, Provide to Computer-Based Learning Environments? Çoklu Meta Sınıflandırıcı, Korelasyona Dayalı Özellik Seçicisi- Editor: Peñ a-Ayala A, Educational data mining (s.3-25). nin birlikte uygulanması sonucu GB ortalaması başarımında Volume, 524, Newyork, Springer, 2014. logistic algoritması en iyi tahmini gerçekleştirmiştir. Bu 12. Peña-Ayala A.“Educational Data Mining: A survey and a çalışmada akademik başarıyı etkilediği düşünülen ve E-okul data mining-based analysis of recent works”. Expert sys- Yönetim Bilgi Sistemi’nden elde edilebilen veriler ile araş- tems with applications, 41(4), 1432-1462, 2014. tırma yapılmıştır. Gelecekteki araştırmalar için akademik ba- 13. Romero C, Ventura S, Pechenizkiy M, Baker Ryan SJ d. şarıyı etkilediği düşünülen diğer faktörler (öğrencinin sürekli Handbook of Educational Data Mining. Chapman, katıldığı sosyal etkinlikler, evde toplam ders çalışma süresi, Hall/CRC Data Mining and Knowledge Discovery Series, oyun oynama sıklığı vb.) faktörlerde araştırmaya dahil edile- CRC Press, 2011. rek öğrencilere ve ebeveynlerine çevrimiçi veya çevrimdışı 14. Romero C, Ventura S. “Educational data mining: a survey uygulanabilecek anketler ile dönem sonu herhangi bir ders from 1995 to 2005”. Expert System with Applications, ortalaması veya genel başarı ortalamasına yönelik başarım 33, 135-146, 2007. tahmini çalışması yapılabilir. 15. Baker RSJD, Yacef K. “The State of Educational Data Min- ing in 2009: A Review and Future Visions. Journal of Ed- Veri Erişebilirliği ucational Data Mining”, Article 1, Vol 1, No 1, Fall 2009. 16. Hämäläinen W, Vinni M. Classifiers for Educational Data Mining. Editors: Romero C, Ventura, S Pechenizkiy, M Bu çalışmada kullanılan veri seti ve.arff dosyasına aşağıdaki Baker, RSJD. Handbook of Educational Data Mining, bağlantılardan ulaşabilirsiniz. 2011. 17. Akgün ÖE, Büyüköztürk Ş, Çakmak EK, Demirel F, Ka- https://drive.google.com/file/d/11eIZm_oIuFmMIJaG- radeniz Ş. Bilimsel Araştırma Yöntemleri. 3. Bölüm. wNCCzGpgOhDWPLYP/view?usp=sharing Örnekleme Yöntemleri. 22. Baskı. Ankara: Pegem Akad- emi, 2008. https://drive.google.com/file/d/1HVwD94dBx7JPTb4LFh 18. Hall MA. “Correlation-based Feature Selection for Ma- gwlnlGzIt-X0NR/view?usp=sharing chine Learning”. Doctoral dissertation, University of 9 Veri Bilim Derg, 3(1), 1-10, 2020 Waikato, Dept. of Computer Science, Hamilton, NewZaland, 1999. 19. Yu L, Liu H. “Feature Selection for High-Dimensional Data: A Fast Correlation-Based Filter Solution”. Depart- ment of Computer Science & Engineering, Arizona State University, Tempe, AZ 85287-5406, USA, 2003. 20. Jolliffe I. Principal Component Analysis.Editor: Lovric M. International Encyclopedia of Statistical Science. Springer, Berlin, Heidelberg, 2014. 21. Zaki MJ, Wagner M. Data Mining and Analysis: Funda- mental Concepts and Algorithms. Online (and Offline) Robust PCA, Novel, 2013. 22. Gürsoy T. Veri Madenciliğinde Güncel Yaklaşımlar. 1. Baskı, Çağlayan Yayıncılık, İstanbul, 2014. 23. Altunkaynak B. Veri Madenciliği Yöntemleri ve R Uygu- lamaları Kavramlar-Modeller-Algoritmalar. 1. Baskı. Seçkin Yayıncılık, Ankara, 2017. 24. Wu X, Kumar V, Quinlan JR, Ghosh J, Yang O, Motoda H, McLachlan GJ, Liu B, Yu PS, Zhou Z, Steinbach, M, Hand DJ, Steinberg D, 2007. “10 Algorithms in Data Mining”. Knowledge & Information Systems, Jan 2008, Vol. 14 Is- sue 1, p1-37, 37p, 4 Diagrams, 2 Graphs; DOI: 10.1007/s10115-007-0114-2. 25. Breiman L. “RandomForests”. Machine Learning, 45(1), 5-32, 2001. 26. Gelbal S. “The effect of socio-economic status of eighth grade students on their achievement”. Turkish Educa- tion and Science, 33(150), 1-13, 2008. 27. Steele MB. “Exact bootstrap k-nearest neighbor learn- ers”. Mach Learn, 2009.74:235–255 DOI 10.1007/s10994-008-5096-0. 28. Kleinbaum DG, Klein M. Logistic Regression. A Self- Learning Text.Third Edition, Springer New York, 2010. 29. Sammut C, Webb G. “Encyclopedia of Machine Learning. Cross Validation”, 2010. 10