Veri Madenciliği Ders Notları PDF
Document Details
Uploaded by Deleted User
Balıkesir Üniversitesi
Kadriye Ergün
Tags
Summary
This document is a lecture note on data mining. It covers the introduction to data mining, data mining steps, data mining methods, text mining, web mining and data mining applications. The lecture notes are from Balıkesir University's MF Industrial Engineering Department.
Full Transcript
VERİ MADENCİLİĞİ (Data Mining) (Veri Madenciliğine Giriş) Yrd.Doç.Dr. Kadriye ERGÜN [email protected] Ders Bilgileri EME4214 Veri Madenciliği Ders ile ilgili duyurular http://kergun.baun.edu.tr/ Kaynaklar İTÜ Veri Madenciliği Ders Notları, Ş...
VERİ MADENCİLİĞİ (Data Mining) (Veri Madenciliğine Giriş) Yrd.Doç.Dr. Kadriye ERGÜN [email protected] Ders Bilgileri EME4214 Veri Madenciliği Ders ile ilgili duyurular http://kergun.baun.edu.tr/ Kaynaklar İTÜ Veri Madenciliği Ders Notları, Şule Gündüz Öğüdücü Veri Madenciliği Yöntemleri, Yalçın Özkan. Veri Madenciliği: Kavram ve Algoritmaları, Gökhan Silahtaroğlu. Veri Madenciliği(Kavram ve Teknikler), Aysan Şentürk. Başarı Notu Vize (%40) Final (%60) Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 2 Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma Kümeleme İlişkilendirme/birliktelik kuralları Metin madenciliği WEB madenciliği Veri Madenciliği Uygulamaları Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 3 VERİ MADENCİLİĞİNE GİRİŞ Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 4 İçerik Veri madenciliği ve bilgi keşfinin tanımı Veri madenciliğinin tarihçesi Veri madenciliğinin uygulama alanları Veri madenciliğinde temel kavramlar Veri kaynakları Veri madenciliği modellerinin gruplanması Veri ambarları Veri madenciliğinde sorunlar Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 5 Veri Madenciliği Giriş İçinde yaşadığımız bilişim çağında elektronik ortamda mevcut verinin hızlı artışı ve bilginin fazlalaşması sebebiyle öncelikle, genelde Veri Tabanlarında Bilgi Keşfi olarak adlandırılan yeni bir paradigma ortaya çıkmıştır. Daha yaygın bir kullanımla bu alana Veri Madenciliği denilmektedir. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 6 Veri Madenciliği Tanımları (1/2) Veri Madenciliği(Data Mining): Büyük miktarda veri içinden, gelecekle ilgili tahmin yapmamızı sağlayacak bağıntı ve kuralların aranmasıdır. (Knowledge Discovery in Databases) Daha önceden bilinmeyen, geçerli ve uygulanabilir bilgilerin geniş veritabanlarından elde edilmesi ve bu bilgilerin işletme kararları verilirken kullanılmasıdır. Büyük ölçekli veriler arasından değeri olan bir bilgiyi elde etme işidir. Yapısal veritabanlarında depolanmış verilerden geçerli, yeni, potansiyel olarak yararlı ve nihayetinde anlaşılabilir örüntülerin tanımlanması işlemidir. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 7 Veri Madenciliği Tanımları (2/2) Bu tanımlamalardan da anlaşıldığı üzere veriler arasındaki ilişkileri ortaya koymak ve gerektiğinde ileriye yönelik tahminlerde bulunmak veri madenciliği çalışmaları sayesinde mümkün olmaktadır. Bunun anlamı, veri madenciliği bir kurumda üretilen tüm verilerin belirli yöntemler kullanarak var olan ya da gelecekte ortaya çıkabilecek gizli bilgiyi ortaya çıkarma süreci olarak değerlendirilmesidir. Bu açıdan bakıldığında veri madenciliği işinin kurumların Karar Destek Sistemleri için önemli bir yere sahip olduğu söylenebilir. Veri madenciliği çalışmaları, sınıflandırma, ilişki kurma, kümeleme, regresyon, veri özetleme, değişikliklerin analizi, sapmaların tespiti gibi belirli sayıda teknik yaklaşımları içerir. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 8 Veri Madenciliği ile İlişkili Diğer Disiplinler Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 9 Veri Madenciliğinin Tarihçesi (1/4) Data FishingData Dredging: 1960 istatistikçiler Data Mining: 1990 veritabanı kullanıcıları, ticari Knowledge Discovery in Databases (KDD): 1989 Yapay zeka, makine öğrenmesi toplulukları Data Archaeology, Information Harvesting, Information Discovery, Knowledge Extraction,... Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 10 Veri Madenciliğinin Tarihçesi (2/4) Veri madenciliği, kavramsal olarak 1960’lı yıllarda, bilgisayarların veri analiz problemlerini çözmek için kullanılmaya başlamasıyla ortaya çıkmıştır. O dönemlerde, bilgisayar yardımıyla, yeterince uzun bir tarama yapıldığında, istenilen verilere ulaşmanın mümkün olacağı gerçeği kabullenilmiştir. Bu işleme veri madenciliği yerine önceleri veri taraması (data dredging), veri yakalanması (data fishing) gibi isimler verilmiştir. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 11 Veri Madenciliğinin Tarihçesi (3/4) 1990’lı yıllara gelindiğinde Veri Madenciliği ismi, bilgisayar mühendisleri tarafından ortaya atıldı. Bu camianın amacı, geleneksel istatistiksel yöntemler yerine, veri analizinin algoritmik bilgisayar modülleri tarafından değerlendirmesini vurgulamaktı. Bu noktadan sonra bilimadamları veri madenciliğine çeşitli yaklaşımlar getirmeye başladılar. Bu yaklaşımların kökeninde istatistik, makine öğrenmesi (machine learning), veritabanları, otomasyon, pazarlama, araştırma gibi disiplinler ve kavramlar yatmaktaydı. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 12 Veri Madenciliğinin Tarihçesi (4/4) İstatistik, süre gelen zaman içerisinde verilerin değerlendirilmesi ve analizleri konusunda hizmet veren bir yöntemler topluluğuydu. Bilgisayarların veri analizi için kullanılmaya başlamasıyla istatistiksel çalışmalar hız kazandı. Hatta bilgisayarın varlığı daha önce yapılması mümkün olmayan istatistiksel araştırmaları mümkün kıldı. 1990lardan sonra istatistik, veri madenciliği ile ortak bir platforma taşındı. Verinin, yığınlar içerisinden çekip çıkarılması ve analizinin yapılarak kullanıma hazırlanması sürecinde veri madenciliği ve istatistik sıkı bir çalışma birlikteliği içine girmiş bulundular. Bunun yanısıra veri madenciliği, veritabanları ve makine öğrenimi disipliniyle birlikte yol aldı. Günümüzdeki Yapay Zeka çalışmalarının temelini oluşturan makine öğrenimi kavramı, bilgisayarların bazı işlemlerden çıkarsamalar yaparak yeni işlemler üretmesidir. Önceleri makineler, insan öğrenimine benzer bir yapıda inşa edilmeye çalışıldı. Ancak 1980lerden sonra bu konuda yaklaşım değişti ve makineler daha spesifik konularda kestirim algoritmaları üretmeye yönelik inşa edildi. Bu durum ister istemez uygulamalı istatistik ile makine öğrenim kavramlarını, veri madenciliği altında bir araya getirdi. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 13 Bilgi Keşfi Teoride veri madenciliği bilgi keşfi işleminin aşamalarından biridir. Pratikte veri madenciliği ve bilgi keşfi eş anlamlı olarak kullanılır. Veri madenciliği teknikleri veriyi belli bir modele uydurur. veri içindeki örüntüleri bulur örüntü: veri içindeki herhangi bir yapı Sorgulama ya da basit istatistik yöntemler veri madenciliği değildir. Büyük veri kaynaklarından yararlı ve ilginç bilgiyi bulmak Bulunan bilgi gizli, önemli, önceden bilinmeyen, yararlı olmalı. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 14 Bilgi Keşfi Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 15 Bilgi Keşfinin Aşamaları Veri Temizleme : Gürültülü ve tutarsız verileri çıkarmak Veri Bütünleştirme : Birçok data kaynağını birleştirebilmek Veri Seçme : Yapılacak olan analiz ile ilgili olan verileri belirlemek Veri Dönüşümü : Verinin veri madenciliği yöntemine göre hale dönüşümünü gerçekleştirmek Veri Madenciliği : Verilerdeki örüntülerin belirlenmesi için veri madenciliği yöntemlerinin uygulanması Örüntü Değerlendirme: Bazı ölçütlere göre elde edilmiş ilginç örüntüleri bulmak ve değerlendirmek Bilgi Sunumu : Elde edilen bilgilerin kullanıcılara sunumunu Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 16 Veri Madenciliği Uygulama Alanları Veritabanı analizi ve karar verme desteği Pazar araştırması Hedef Pazar, müşteriler arası benzerliklerin saptanması, sepet analizi, çapraz pazar incelemesi Risk analizi Kalite kontrolü, rekabet analizi, öngörü Sahtekarlıkların saptanması Diğer Uygulamalar Belgeler arası benzerlik (haber kümeleri, e-posta) Sorgulama sonuçları Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 17 Veri Madenciliği Uygulama Alanları Bilim İş Hayatı Web Devlet Astronomi Reklam Metin Madenciliği Terörle Mücadele Biyoinformatik CRM (Müşteri İlişkileri (haber grubu, Kanun Yaptırımı İlaç keşfi Yönetimi) ve Müşteri email, Vergi Modelleme dokümanlar) Kaçakçılarının E-ticaret Web analizi Profilinin Yatırım değerlendirme Arama motorları Çıkarılması ve karşılaştırma Sağlık Üretim Spor/eğlence Telekom (telefon ve iletişim) Hedef pazarlama Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 18 Uygulamalar Hangi promosyonu ne zaman uygulamalıyım? Hangi müşteri aldığı krediyi geri ödemeyebilir? Bir müşteriye ne kadar kredi verilebilir? Sahtekarlık olabilecek davranışlar hangileridir? Hangi müşteriler yakın zamanda kaybedilebilir? Hangi müşterilere promosyon yapmalıyım? Hangi yatırım araçlarına yatırım yapmalıyım? Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 19 Veri Kaynakları Veri dosyaları Veritabanı kaynaklı veri kümeleri ilişkisel veritabanları, veri ambarları Gelişmiş veri kümeleri duraksız veri (data stream), algılayıcı verileri (sensor data) zaman serileri, sıralı diziler (biyolojik veriler) çizgeler, sosyal ağ (social networks) verileri konumsal veriler (spatial data) çoğul ortam veritabanları (multimedia databases) nesneye dayalı veritabanları www Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 20 Veri Madenciliği Algoritmaları amaç : veriyi belli bir modele uydurmak tanımlayıcı En iyi müşterilerim kimler? Hangi ürünler birlikte satılıyor? Hangi müşteri gruplarının alışveriş alışkanlıkları benzer? kestirime dayalı Kredi başvurularını risk gruplarına ayırma Şirketle çalışmayı bırakacak müşterileri öngörme Borsa tahmini seçim: veriye uyan en iyi modeli seçmek için kullanılan kriter arama: veri üzerinde arama yapmak için kullanılan teknik Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 21 Veri Madenciliği Yöntemleri Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 22 Veri Madenciliği İşlevleri (1/2) Sınıflandırma (Classification): Veriyi önceden belirlenmiş sınıflardan birine dahil eder. Danışmanlı (Gözetimli) öğrenme Örüntü tanıma Kestirim Eğri uydurma (Regression): Veriyi gerçel değerli bir fonksiyona dönüştürür. Zaman serileri inceleme (Time Series Analysis): Zaman içinde değişen verinin değerini öngörür. İstisna Analizi (Outlier Analysis): Verinin geneline uymayan nesneleri belirleme Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 23 Veri Madenciliği İşlevleri (2/2) Kümeleme (Clustering): Benzer verileri aynı grupta toplama Danışmansız (Gözetimsiz) öğrenme Özetleme (Summarization): Veriyi alt gruplara ayırır. Her alt grubu temsil edecek özellikler bulur. Genelleştirme (Generalization) Nitelendirme (Characterization) İlişkilendirme kuralları (Association Rules) Veriler arasındaki ilişkiyi belirler Sıralı dizileri bulma (Sequence Discovery): Veri içinde sıralı örüntüler bulmak için kullanılır. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 24 Veri Madenciliğinde Temel Kavramlar Veri (Data) Enformasyon(Information) Bilgi (Knowledge) Bilgelik (Wisdom) Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 25 Veri (Data) (1/2) Veri kelimesi Latince’de “gerçek, reel” anlamına gelen “datum” kelimesine denk gelmektedir. “Data” olarak kullanılan kelime ise çoğul “datum” manasına gelmektedir. Her ne kadar kelime anlamı olarak gerçeklik temel alınsa da her veri her daim somut gerçeklik göstermez. Kavramsal anlamda veri, kayıt altına alınmış her türlü olay, durum, fikirdir. Bu anlamıyla değerlendirildiğinde çevremizdeki her nesne bir veri olarak algılanabilir. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 26 Veri (Data) (2/2) Veri, oldukça esnek bir yapıdadır. a. Bir araştırmanın, bir Temel olarak varlığı bilinen, tartışmanın, bir muhakemenin işlenmemiş, ham haldeki kayıtlar temeli olan ana öğe. olarak adlandırılırlar. Bu kayıtlar b. Bir sanat eserine veya bir edebî ilişkilendirilmemiş, düzenlenmemiş esere temel olan ana ilkeler: yani anlamlandırılmamışlardır. "Bir romanın verileri." Ancak bu durum her zaman geçerli değildir. İşlenerek farklı bir boyut c. Bilgi, data. kazanan bir veri, daha sonra bu d. Matematik: Bir problemde haliyle kullanılmak üzere kayıt bilinen, belirtilmiş anlatımlardan altına alındığında, farklı bir amaç bilinmeyeni bulmaya yarayan şey. için veri halini koruyacaktır. Bu e. Bilişim: Olgu, kavram veya konuyu daha iyi açıklayabilmek için komutların, iletişim, yorum ve enformasyon kavramını incelemek işlem için elverişli biçimli gerekmektedir. gösterimi. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 27 Enformasyon (Information) Enformasyon, veri kavramının şeklinde tanımlanabilir. Daha özel tanımından yola çıkıldığında, olarak ise, formatlanmış ve adreslemedeki ikinci safhadır. Yani yapılandırılmış veriler bütünü verilerin ilişkilendirilmiş, olarak tanımlanabilir. düzenlenmiş, anlamlandırılmış, Yaygın anlamda enformasyon işlenmiş halidir. Bu haliyle terimi, "haber" (ing. news, alm. enformasyon, potansiyel olarak nachrichf) veya mesaj terimiyle içinde bilgi barından bir veri eşanlamlıdır. halindedir. Veriler enformasyona Belli bir alanda ve belli bir dönüştürülerek kullanışlı hale toplumda bilgi ve haberlerin getirilirler. Bu yönüyle yayılmasına olanak sağlayan enformasyon anlam katılmış araçların tümüne verilen isimdir. verilerdir. Enformasyon, genel olarak insanın dış dünyayla ilişkisinde, belirsizlik düzeyini azaltan her tür uyaran Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 28 Bilgi (Knowledge) Bilgi, bu süreçteki üçüncü ürünü olarak tanımlanmaktadır. aşamadır. Enformasyonun, bilgiye Enformasyonun daha yüksek dönüşmesi, bireyin onu algılaması, biçimi olarak bilginin tüm modelleri özümsemesi ve sonuç çıkarmasıyla altında yatan, bilginin ham gerçekleşir. Dolayısıyla bireyin maddelerinden onlara anlam algılama yeteneği, yaratıcılık, eklenerek ortaya çıkarılması deneyim gibi kişisel nitelikleri de gerektiği düşüncesidir. bu süreci doğrudan etkilemektedir. Bilgiden, farklı enformasyon «İnsan aklının erebileceği olgu, parçacıkları arasındaki ilişkiler gerçek ve ilkeler bütünü, anlaşılmalıdır. Örneğin bir kişiyi malumat» olarak sözlüğümüzde sadece bir T.C kimlik numarasının tanımlanan bilgi, bilişim dilinde temsil edebileceği bilgisine sahip kurallardan yararlanarak kişinin olunmalıdır. veriye yönelttiği anlam demektir. Felsefi olarak ise insanların maddi ve toplumsal anlıksal etkinliğinin Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 29 Bilgelik (Wisdom) Bilgelik ulaşılmaya çalışılan bir alanı veya alanları anlamak noktadır ve bu kavramların için daha geniş ve zirvesinde yer alır. Bilgilerin genelleştirilmiş kuralları ve kişi tarafından toplanıp bir şemaları temsil etmesiyle sentez haline getirilmesiyle bilgiden ayrılır. ortaya çıkan bir olgudur. Bilgelik bilginin teferruatlı ve Yetenek, tecrübe gibi kişisel hassas kullanımını gerektirir. nitelikler birer bilgelik Bilgelik karar alma ve kararın elemanıdır. uygulanması sırasında tecrübe Neyin bilindiğinin (bilgi) ve en edilir. iyinin ne olduğunun (sosyal ve etnik faktörler) dikkate alınarak en uygun davranışın sergilenmesi demektir. Belirli Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 30 Bilgi Piramidi Bilgi piramidi hiyerarşisi incelenecek olursa bilgiye ulaşmanın kolay olmadığı görülür. Yeni teknolojiler enformasyona İletişim ve paylaşım/Farkında olmak ulaşmayı daha kolay hale getirmektedir Neden/Ne zaman? buna karşın, doğru ve güvenilir, yeterli enformasyona ulaşmak zordur. Eğer ulaşılan enformasyon hatalı ya da eksik ise doğal olarak elde edilecek bilgi ve Bilginin faaliyet için kullanımı uygulama sonuçları da sağlıklı Nasıl? olmayacaktır. Veriler arasındaki ilişkiler Ne?/Nerede?/Ne zaman?/ Neden?/Kim? Gözlemler Ölçümler Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 31 Bilgi Piramidi Bilgeliğe ulaşabilmek için geçilmesi gereken yollar bilgi piramidinin aşamalarına benzemektedir. Veriden bilgeliğe kadar olan yükselme sırasında, gözlemlerden iletişime varan boyutlarda değişiklik gerekmekte ve bilge olana sağlanacak değerin buradan çıkacağı varsayılmaktadır. Bilgelik için gereken şartlara bakıldığında ise, hem bağlam hem de anlayış açısından, gerçekleştirilmesi gereken bir bakış açısının ortaya çıktığı görülmektedir. Bilgelik, deneyimlerin düşünme becerilerine dahil edilmesi ile oluşmaktadır Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 32 Veri, Enformasyon, Bilgi, Bilgelik Piramidi (Bilgi Piramidinin Geliştirilmiş Hali) Kaynak:Temel Bilgi Teknolojileri-I , AÖF Yayını Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 33 Veri Ambarı Veritabanı: birbirleriyle ilişkili bilgilerin depolandığı alanlardır. Veri Ambarı: ilişkili verilerin sorgulandığı ve analizlerinin yapılabildiği bir depodur. Veri ambarı veritabanını yormamak için oluşturulmuştur. Bir veri ambarı ilgili veriyi kolay, hızlı, ve doğru biçimde analiz etmek için gerekli işlemleri yerine getirir. Veri ambarı, işlemsel sistemlerdeki veriyi kopyalayıp, karar verme işlemi için uygun formda saklar. Data Mart: veri ambarlarının alt kümeleridir. Veri ambarları bir iş probleminin tamamına yönelik bir bakış sağlarken, data mart’lar sadece belli bir kısma bakış sağlarlar. Veri pazarları ile veriye hızlı erişim sağlayabiliriz. İkinci olarak, verinin gruplanmamış yapıda olması ve farklı iş birimlerinin farklı verileri görmesidir. Bu da bize gereksiz bir iş yükü ve güvenlik sorununa neden olmaktadır. İşte tam bu noktada, veri pazarları konuya, bölümlere uygun, veri ambarının küçük bir kopyası halinde çözüm sunmaktadır. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 34 Veri Ambarı Amaca yönelik Birleştirilmiş Zaman değişkenli Değişken değil Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 35 Veri Ambarları: Amaca Yönelik Müşteri, ürün, satış gibi belli konular için düzenlenebilir. Verinin incelenmesi ve modellenmesi için oluşturulur. Konuyla ilgili karar vermek için gerekli olmayan veriyi kullanmayarak konuya basit, özet bakış sağlar. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 36 Veri Ambarları: Birleştirilmiş Veri kaynaklarının birleştirilmesiyle oluşturulur. Canlı veri tabanları, dosyalar. Veri temizleme ve birleştirme teknikleri kullanılır. Değişik veri kaynakları arasındaki tutarlılık sağlanır. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 37 Veri Ambarları: Zaman Değişkenli Zaman değişkeni canlı veri tabanlarına göre daha uzundur. Canlı veri tabanları: Güncel veriler bulunur (en çok geçmiş 1 yıl) Veri ambarları: Geçmiş hakkında bilgi verir (geçmiş 5-10 yıl) Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 38 Veri Ambarları: Değişken Değil Canlı veritabanlarından alınmış verinin fiziksel olarak başka bir ortamda saklanması. Canlı veritabanlarındaki değişimin veri ambarlarını etkilememesi. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 39 Veri Ambarı Mimarisi Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 40 Veri Kaynakları İki yaklaşım: sorgulamalı veri ambarı Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 41 Veri Ambarı & Birleşmiş Veritabanları Veritabanlarının birleştirilmesi: Farklı veritabanları arasında bir arabulucu katman Sorgulamalı Bir sorgulamayı her veritabanı için alt sorgulamalara ayır Sonucu birleştir Veri ambarı: Veri daha sonra kullanılmak üzere birleştirilip veri ambarında saklanıyor. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 42 Veri Madenciliği & OLAP OLAP (On-Line Analytical Processing) Veri ambarlarının işlevi Veriyi inceleme ve karar verme OLTP (On-Line Transaction Processing) saatler sürebilen işlemler OLAP avantajları Daha geniş kapsamlı sonuçlar Daha kısa süreli işlem OLAP dezavantajları Kullanıcı neyi nasıl soracağını bilmesi gerekiyor Genelde veriden istatistiksel inceleme yapmak için kullanılır. OLAP NE sorusuna cevap verir, veri madenciliği NEDEN sorusuna cevap verir. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 43 Veri Madenciliğinde Sorunlar (1/3) Gizlilik ve sosyal haklar Kişilere ait verilerin toplanarak, kişilerden habersiz ve izinsiz olarak kullanılması Veri madenciliği yöntemleri ile bulunan sonuçların izinsiz olarak açıklanması (/paylaşılması) Gizlilik ve veri madenciliği politikalarının düzenlenmesi Kullanıcı Arabirimi Görüntüleme Sonucun anlaşılabilir ve yorumlanabilir hale getirilmesi Bilginin sunulması Etkileşim Veri madenciliği ile elde edilen bilginin kullanılması Veri madenciliği yöntemine müdahale etmek Veri madenciliği yönteminin sonucuna müdahale etmek Veri madenciliği yöntemi Başarım ve ölçeklenebilirlik Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 44 Veri Madenciliğinde Sorunlar (2/3) Veri madenciliği yöntemi Farklı tipte veriler üzerinde çalışabilme Farklı seviyelerde kullanıcı ile etkileşim halinde olabilme Uygulama ortamı bilgisini kullanabilme Veri madenciliği ile elde edilen sonucu anlaşılır şekilde sunabilme Gürültülü ve eksik veri ile çalışabilme (ve iyi sonuç verebilme) Değişen veya eklenen verileri kolayca kullanabilme Örüntü değerlendirme: önemli örüntüleri bulma Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 45 Veri Madenciliğinde Sorunlar (3/3) Başarım ve ölçeklenebilirlik Kullanabilirlik ve ölçeklenebilirlik Zaman karmaşıklığı ve yer karmaşıklığı kabul edilebilir Örnekleme yapabilme Paralel ve dağıtık yöntemler Artımlı veri madenciliği Parçala ve çöz Veri kaynağı Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 46 VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN [email protected] Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma Kümeleme İlişkilendirme/birliktelik kuralları Metin madenciliği WEB madenciliği Veri Madenciliği Uygulamaları Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 2 Veri Önişleme Veri Veri Önişleme Veriyi Tanıma Veri temizleme Veri birleştirme Veri dönüşümü Veri azaltma Benzerlik ve farklılık Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 3 VERİ ÖNİŞLEME Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 4 Veri Nedir? Nesneler ve nesnelerin niteliklerinden oluşan küme kayıt (record), varlık (entity), örnek (sample, instance) nesne için kullanılabilir. Nitelik (attribute) bir nesnenin (object) bir özelliğidir bir insanın yaşı, ortamın sıcaklığı… boyut (dimension), özellik (feature, characteristic) olarak da kullanılır. Nitelikler ve bu niteliklere ait değerler bir nesneyi oluşturur. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 5 Değer Kümeleri Nitelik için saptanmış sayılar veya semboller Nitelik & Değer Kümeleri aynı nitelik farklı değer kümelerinden değer alabilir ağırlık: kg, lb(libre, ağırlık ölçüsü) farklı nitelikler aynı değer kümesinden değer alabilirler ID, yaş: her ikisi de sayısal Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 6 İstatistiksel Veri Türleri 1- Nümerik Veriler : Sayısal-Nümerik-Nicel Veriler de denmektedir. Boy,Yaş gibi süreklilik arzeden değerler Nümerik verilerdir. “Daha fazla” ifadesi ile kullanılabilirler. Sürekli ve süreksiz olarak iki başlıkta ele alınabilir: a) Sürekli Nümerik Veriler: Yaş, Sıcaklık b) Aralıklı Nümerik Veriler (Interval): Çocuk Sayısı, Kaza Sayısı 2-Nominal Veriler : Kategorik bir veri çeşididir. “Daha fazla” ifadesi ile kullanılmazlar. İkiye ayrılır: a)Binary Veriler: Var-Yok, Kadın-Erkek, Hasta-Sağlıklı b)İkiden Çok Kategorili: Medeni Durum-Renk-Irk-Şehir, İsim, Forma Numarası Örneğin forma numarası oyuncunun seviyesi ile ilgili bir bilgi içermez. 3-Ordinal Veriler : Ordinal veriler de yine kategorik veri türündendir. Fakat değerleri arasında sıralı bir ilişki bulunmaktadır. “Daha fazla” ifadesi ile kullanılabilirler ancak nekadar daha fazla olduğunun ölçüsünü veremezler. Örneğim: Eğitim Düzeyi, Sosyoekonomik ölçek skorları gibi. Nominal veriler, ordinal verilere göre daha az bilgi taşırlar. 4-Ratio Veriler : Nümerik verilere benzerler. 100 santigrat derece, 50 santrigat derecenin iki katı denilemez ama derece kelvine çevrilirse 60 kelvin 30 kelvinin 2 misli sıcak denilebilir. Oran verilebilir veri türlerine Ratio veriler denir. Burada kelvin derece ratio türünden bir değişken iken, santigrat ise nümerik veri türüne örnek olarak verilebilir. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 7 Nitelik Türleri Belli aralıkta yeralan değişkenler (interval) sıcaklık, tarih İkili değişkenler (binary) cinsiyet Ayrık ve sıralı değişkenler (nominal, ordinal, ratio scaled) göz rengi, posta kodu Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 8 Problem Gerçek uygulamalarda toplanan veri kirli eksik: bazı nitelik değerleri bazı nesneler için girilmemiş, veri madenciliği uygulaması için gerekli bir nitelik kaydedilmemiş meslek = “ ” gürültülü: hatalar var maaş= “-10” tutarsız: nitelik değerleri veya nitelik isimleri uyumsuz yaş= “35”, d.tarihi: “03/10/2004” önceki oylama değerleri: “1,2,3”, yeni oylama değerleri: “A,B,C” bir kaynakta nitelik değeri ‘ad’, diğerinde ‘isim’ Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 9 Verinin Gürültülü Olma Nedenleri Eksik veri kayıtlarının nedenleri Veri toplandığı sırada bir nitelik değerinin elde edilememesi, bilinmemesi Veri toplandığı sırada bazı niteliklerin gerekliliğinin görülememesi İnsan, yazılım ya da donanım problemleri Gürültülü (hatalı) veri kayıtlarının nedenleri Hatalı veri toplama gereçleri İnsan, yazılım ya da donanım problemleri Veri iletimi sırasında problemler Tutarsız veri kayıtlarının nedenleri Verinin farklı veri kaynaklarında tutulması İşlevsel bağımlılık kurallarına uyulmaması Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 10 Sonuç Veri güvenilmez Veri madenciliği sonuçlarına güvenilebilir mi? Kullanılabilir veri madenciliği sonuçları kaliteli veri ile elde edilebilir. Veri kaliteli ise veri madenciliği uygulamaları ile yararlı bilgi bulma şansı daha fazla. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 11 Veri Önişleme Veri temizleme Eksik nitelik değerlerini tamamlama, hatalı veriyi düzeltme, aykırılıkları saptama ve temizleme, tutarsızlıkları giderme Veri birleştirme Farklı veri kaynağındaki verileri birleştirme Veri dönüşümü Normalizasyon ve biriktirme Veri azaltma Aynı veri madenciliği sonuçları elde edilecek şekilde veri miktarını azaltma Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 12 Veriyi Tanıma Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 13 Veriyi Tanımlayıcı Özellikler Amaç: Veriyi daha iyi anlamak Merkezi eğilim (central tendency), varyasyon, yayılma, dağılım Verinin dağılım özellikleri Ortanca, en büyük, en küçük, sıklık derecesi, aykırılık, varyans Sayısal nitelikler -> sıralanabilir değerler verinin dağılımı kutu grafiği çizimi ve sıklık derecesi incelemesi Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 14 Merkezi Eğilimi Ölçme Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 15 Verinin Dağılımını Ölçme Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 16 Veri Temizleme Gerçek uygulamalarda veri eksik, gürültülü veya tutarsız olabilir. Veri temizleme işlemleri Eksik nitelik değerlerini tamamlama Aykırılıkların bulunması ve gürültülü verinin düzeltilmesi Tutarsızlıkların giderilmesi Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 17 Eksik Veri Veri için bazı niteliklerin değerleri her zaman bilinemeyebilir. Eksik veri diğer veri kayıtlarıyla tutarsızlığı nedeniyle silinmesi bazı nitelik değerleri hatalı olması dolayısıyla silinmesi yanlış anlama sonucu kaydedilmeme veri girişi sırasında bazı nitelikleri önemsiz görme Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 18 Eksik Veriler nasıl Tamamlanır? Eksik nitelik değerleri olan veri kayıtlarını kullanma Eksik nitelik değerlerini elle doldur Eksik nitelik değerleri için global bir değişken kullan (Null, bilinmiyor,...) Eksik nitelik değerlerini o niteliğin ortalama değeri ile doldur Aynı sınıfa ait kayıtların nitelik değerlerinin ortalaması ile doldur Olasılığı en fazla olan nitelik değeriyle doldur Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 19 Gürültülü Veri Ölçülen bir değerdeki hata Yanlış nitelik değerleri hatalı veri toplama gereçleri veri girişi problemleri veri iletimi problemleri teknolojik kısıtlar nitelik isimlerinde tutarsızlık Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 20 Gürültülü Veri nasıl düzeltilir? Gürültüyü yok etme Bölmeleme veri sıralanır, eşit genişlik veya eşit derinlik ile bölünür Kümeleme aykırılıkları belirler Eğri uydurma veriyi bir fonksiyona uydurarak gürültüyü düzeltir. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 21 Bölmeleme Veri sıralanır: 4, 8, 15, 21, 21, 24, 25, 28, 34 Eşit genişlik: Bölme sayısı belirlenir. Eşit aralıklarla bölünür Eşit derinlik: Her bölmede eşit sayıda örnek kalacak şekilde bölünür. her bölme ortalamayla ya da bölmenin en alt ve üst sınırlarıyla temsil edilir. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 22 Kümeleme Benzer veriler aynı kümede olacak şekilde gruplanır Bu kümelerin dışında kalan veriler aykırılık olarak belirlenir ve silinir. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 23 Eğri Uydurma Veri bir fonksiyona uydurulur. Doğrusal eğri uydurmada, bir değişkenin değeri diğer bir değişken kullanılarak bulunabilir. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 24 Veri Birleştirme Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 25 Veri Birleştirme Farklı kaynaklardan verilerin tutarlı olarak birleştirilmesi Şema birleştirilmesi Aynı varlıkların saptanması meta veri kullanılır Nitelik değerlerinin tutarsızlığının saptanması Aynı nitelik için farklı kaynaklarda farklı değerler olması Farklı metrikler kullanılması Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 26 Gereksiz Veri Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 27 Veri Dönüşümü Veri, veri madenciliği uygulamaları için uygun olmayabilir Seçilen algoritmaya uygun olmayabilir Veri belirleyici değil Çözüm Veri düzeltme Bölmeleme Kümeleme Eğri Uydurma Biriktirme Genelleme Normalizasyon Nitelik oluşturma Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 28 Normalizasyon min-max normalizasyon z-score normalizasyon ondalık normalizasyon Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 29 VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN [email protected] Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma Kümeleme İlişkilendirme/birliktelik kuralları Metin madenciliği WEB madenciliği Veri Madenciliği Uygulamaları Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 2 Veri Önişleme Veri Veri Önişleme Veriyi Tanıma Veri temizleme Veri birleştirme Veri dönüşümü Veri azaltma Benzerlik ve farklılık Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 3 Veri Dönüşümü Veri, veri madenciliği uygulamaları için uygun olmayabilir Seçilen algoritmaya uygun olmayabilir Veri belirleyici değil Çözüm Veri düzeltme Bölmeleme Kümeleme Eğri Uydurma Biriktirme Genelleme Normalizasyon Nitelik oluşturma Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 4 Normalizasyon min-max normalizasyon ondalık normalizasyon min-max normalleştirmesi ile Ondalık ölçekleme ile orijinal veriler yeni veri normalleştirmede ise, ele aralığına doğrusal dönüşüm alınan değişkenin ile dönüştürülürler. Bu veri değerlerinin ondalık kısmı aralığı genellikle 0-1 hareket ettirilerek aralığıdır. normalleştirme z-score normalizasyon gerçekleştirilir. Hareket edecek ondalık nokta sayısı, z Skor normalleştirmede değişkenin maksimum (veya 0 ortalama mutlak değerine bağlıdır. normalleştirme) ise Ondalık ölçeklemenin değişkenin her hangi bir y formülü aşağıdaki şekildedir: değeri, değişkenin ortalaması ve standart sapmasına bağlı Örneğin 900 maksimum olarak bilinen Z dönüşümü ile değer ise, n=3 olacağından normalleştirilir. 900 sayısı 0,9 olarak normalleştirilir. Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 5 Normalizasyon Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 6 Nitelik Oluşturma Yeni nitelikler yarat orjinal niteliklerden daha önemli bilgi içersin alan=boy x en veri madenciliği algoritmalarının başarımı daha iyi olsun Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 7 Veri Azaltma Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 8 Veri Azaltma Veri miktarı çok fazla olduğu zaman veri madenciliği algoritmalarının çalışması ve sonuç üretmesi çok uzun sürebilir veriyi azaltma başarımı artırır sonucun (nerdeyse) hiç değişmemesi gerekir Veri azaltma nitelik birleştirme nitelik azaltma veri sıkıştırma veri ayrıştırma ve kavram oluşturma veri küçültme eğri uydurma kümeleme histogram örnekleme Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 9 Nitelik Birleştirme Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 10 Nitelik Seçme - Nitelik Azaltma Nitelik Seçme Nitelikler kümesinin bir alt kümesi seçilerek veri madenciliği işlemi yapılır. Nitelik azaltma d boyutlu veri kümesi k=0 2. sim(i,j)=sim(j,i) Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 28 İkili Değişkenler Arası Benzerlik Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 29 Kosinüs Benzerliği Balıkesir Üniversitesi MF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 30 VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN [email protected] Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma Kümeleme İlişkilendirme/birliktelik kuralları Metin madenciliği WEB madenciliği Veri Madenciliği Uygulamaları Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi İçerik Sınıflandırma işlemi Sınıflandırma tanımı Sınıflandırma uygulamaları Sınıflandırma yöntemleri Karar ağaçları Yapay sinir ağları Bayes sınıflandırıcılar Bayes ağları Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Sınıflandırma (Classification) Sınıflandırma (classification) problemi: nesnelerden oluşan veri kümesi (öğrenme kümesi): D={t1,t2,…,tn} her nesne niteliklerden oluşuyor, niteliklerden biri sınıf bilgisi Sınıf niteliğini belirlemek için diğer nitelikleri kullanarak bir model bulma Öğrenme kümesinde yer almayan nesneleri (test kümesi) mümkün olan en iyi şekilde doğru sınıflara atamak sınıflandırma=ayrık değişkenler için öngörüde (prediction) bulunmak. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Sınıflandırma (Classification) Amaç: Yeni bir kayıt geldiğinde, bu etmek: sınıflandırma kaydı geliştirilen modeli sürekli nitelik değerlerini kullanılarak mümkün olduğunca tahmin etmek: öngörü doğru bir sınıfa atamak. verinin dağılımına göre bir model bulunur bulunan model, başarımı belirlendikten sonra niteliğin gelecekteki ya da bilinmeyen değerini tahmin etmek için kullanılır Sınıflandırma: hangi topun model başarımı: doğru hangi sepete koyulabileceği sınıflandırılmış sınama Öngörü: Topun ağırlığı kümesi örneklerinin oranı Veri madenciliği uygulamasında: ayrık nitelik değerlerini tahmin Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Danışmanlı & Danışmansız Öğrenme Danışmanlı (Gözetimli, Supervised) öğrenme= sınıflandırma Sınıfların sayısı ve hangi nesnenin hangi sınıfta olduğu biliniyor. Danışmansız (Gözetimsiz, Unsupervised) öğrenme= kümeleme (clustering) Hangi nesnenin hangi sınıfta olduğu bilinmiyor. Genelde sınıf sayısı bilinmiyor. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Sınıflandırma Uygulamaları Kredi başvurusu değerlendirme Kredi kartı harcamasının sahtekarlık olup olmadığına karar verme Hastalık teşhisi Ses tanıma Karakter tanıma Gazete haberlerini konularına göre ayırma Kullanıcı davranışları belirleme Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Sınıflandırma için Veri Hazırlama Veri dönüşümü: Sürekli nitelik değeri ayrık hale getirilir Normalizasyon ([-1,...,1], [0,...,1]) Veri temizleme: gürültüyü azaltma gereksiz nitelikleri silme Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Sınıflandırma İşlemi Sınıflandırma işlemi üç aşamadan oluşur: 1. Model oluşturma 2. Model değerlendirme 3. Modeli kullanma Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Sınıflandırma İşlemi: Model Oluşturma 1. Model Oluşturma: Her nesnenin sınıf etiketi olarak tanımlanan niteliğinin belirlediği bir sınıfta olduğu varsayılır Model oluşturmak için kullanılan nesnelerin oluşturduğu veri kümesi öğrenme kümesi olarak tanımlanır Model farklı biçimlerde ifade edilebilir IF – THEN – ELSE kuralları ile Karar ağaçları ile Matematiksel formüller ile Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Sınıflandırma İşlemi: Model Değerlendirme 2. Model Değerlendirme: Modelin başarımı (doğruluğu) sınama kümesi örnekleri kullanılarak belirlenir. Sınıf etiketi bilinen bir sınama kümesi örneği model kullanılarak belirlenen sınıf etiketiyle karşılaştırılır. Modelin doğruluğu, doğru sınıflandırılmış sınama kümesi örneklerinin toplam sınama kümesi örneklerine oranı olarak belirlenir. Sınama kümesi model öğrenirken kullanılmaz. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Sınıflandırma İşlemi: Modeli Kullanma 3. Modeli kullanma: Model daha önce görülmemiş örnekleri sınıflandırmak için kullanılır Örneklerin sınıf etiketlerini tahmin etme Bir niteliğin değerini tahmin etme Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Sınıflandırıcı Başarımını Değerlendirme Doğru sınıflandırma başarısı Hız modeli oluşturmak için gerekli süre sınıflandırma yapmak için gerekli süre Kararlı olması veri kümesinde gürültülü ve eksik nitelik değerleri olduğu durumlarda da iyi sonuç vermesi Ölçeklenebilirlik büyük miktarda veri kümesi ile çalışabilmesi Anlaşılabilir olması kullanıcı tarafından yorumlanabilir olması Kuralların yapısı birbiriyle örtüşmeyen kurallar Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Sınıflandırma Yöntemleri Karar ağaçları (decision trees) Yapay sinir ağları (artificial neural networks) Bayes sınıflandırıcılar (Bayes classifier) İlişki tabanlı sınıflandırıcılar (association-based classifier) k-en yakın komşu yöntemi (k- nearest neighbor method) Destek vektör makineleri (support vector machines) Genetik algoritmalar (genetic algorithms) ... Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Karar Ağaçları Karar Ağacı Yaygın kullanılan öngörü yöntemlerinden bir tanesidir. Ağaçtaki her düğüm bir özellikteki testi gösterir. Düğüm dalları testin sonucunu belirtir. Ağaç yaprakları sınıf etiketlerini içerir. Karar ağacı çıkarımı iki aşamadan oluşur Ağaç inşası Başlangıçta bütün öğrenme örnekleri kök düğümdedir. Örnekler seçilmiş özelliklere tekrarlamalı olarak göre bölünür. Ağaç Temizleme (Budama) (Tree pruning) Gürültü ve istisna kararları içeren dallar belirlenir ve kaldırılır. Karar ağacı kullanımı: Yeni bilinmeyen örneğin sınıflandırılması Bilinmeyen örneğin özellikleri karar ağacında test edilerek sınıfı bulunur. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Bir Kredi Kartı Kampanyasında Yeni Bir Örneğin Sınıflandırılması Düşük Yanıtlamaz Bayan X Borç yüksek gelirli. Düşük Yanıtlar Yüksek Gelir Çok Yanıtlar Bay Çocuk Yüksek Cinsiyet Az Yanıtlamaz Bayan Yanıtlamaz Ağaç bayan X’in kredi kampanyasına yanıt vermeyeceğini öngörür. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi 17 Karar Ağacı Yöntemleri Karar ağacı oluşturma yöntemleri genel olarak iki aşamadan oluşur: 1. ağaç oluşturma en başta bütün öğrenme kümesi örnekleri kökte seçilen niteliklere bağlı olarak örnek yinelemeli olarak bölünüyor. 2. ağaç budama öğrenme kümesindeki gürültülü verilerden oluşan ve sınama kümesinde hataya neden olan dalları silme (sınıflandırma başarımını artırır) Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Karar Ağacı Oluşturma Yinelemeli işlem ağaç bütün verinin oluşturduğu tek bir düğümle başlıyor eğer örnekleri hepsi aynı sınıfa aitse düğüm yaprak olarak sonlanıyor ve sınıf etiketini alıyor eğer değilse örnekleri sınıflara en iyi bölecek olan nitelik seçiliyor işlem sona eriyor örneklerin hepsi (çoğunluğu) aynı sınıfa ait örnekleri bölecek nitelik kalmamış kalan niteliklerin değerini taşıyan örnek yok Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnekleri En İyi Bölen Nitelik Hangisi? Bölmeden önce: 10 örnek C0 sınıfında 10 örnek C1 sınıfında Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi En iyi Bölme Nasıl Belirlenir? “Greedy” (aç gözlü)yaklaşım çoğunlukla aynı sınıfa ait örneklerin bulunduğu düğümler tercih edilir Düğümün kalitesini ölçmek için bir yöntem Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi En İyi Bölen Nitelik Nasıl Belirlenir? İyilik Fonksiyonu (Goodness Function) Farklı algoritmalar farklı iyilik fonksiyonları kullanabilir: bilgi kazancı (information gain): ID3, C4.5 bütün niteliklerin ayrık değerler aldığı varsayılıyor sürekli değişkenlere uygulamak için değişiklik yapılabilir gini index (IBM IntelligentMiner) her nitelik ikiye bölünüyor her nitelik için olası bütün ikiyi bölünmeler sınanıyor Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Bilgi / Entropi p1, p2,.., ps toplamları 1 olan olasılıklar. Entropi (Entropy) Entropi rastgeleliği, belirsizliği ve beklenmeyen durumun ortaya çıkma olasılığını gösterir. Sınıflandırmada olayın olması beklenen bir durum entropi=0 Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Entropi Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Bilgi Kazancı (ID3 / C4.5) Bilgi kuramı kavramlarını kullanarak karar ağacı oluşturulur. Sınıflandırma sonucu için en az sayıda karşılaştırma yapmayı hedefler. Ağaç bir niteliğe göre dallandığında entropi ne kadar düşer? A niteliğinin S veri kümesindeki bilgi kazancı Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN [email protected] Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma Kümeleme İlişkilendirme/birliktelik kuralları Metin madenciliği WEB madenciliği Veri Madenciliği Uygulamaları Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi İçerik Sınıflandırma yöntemleri Karar ağaçları ile sınıflandırma Entropi Kavramı ID3 Algoritması Entropiye dayalı algoritmalar C4.5 Algoritması Twoing Algoritması Sınıflandırma ve regresyon Gini Algoritması ağaçları (CART) k-en yakın komşu algoritması Bellek tabanlı algoritmalar Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Karar Ağaçları ile Sınıflandırma Sınıflandırma problemleri için yaygın kullanılan yöntemdir. Sınıflandırma doğruluğu diğer öğrenme metotlarına göre çok etkindir. Öğrenmiş sınıflandırma modeli ağaç şeklinde gösterilir ve karar ağacı (decision tree) olarak adlandırılır. Karar ağaçları akış şemalarına benzeyen yapılardır. Her bir nitelik bir düğüm tarafından temsil edilir. Dallar ve yapraklar ağaç yapısının elemanlarıdır. En son yapı yaprak en üst yapı kök ve bunların arasında kalan yapılar dal olarak isimlendirilir. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Karar Ağaçlarında Dallanma Kriterleri Karar ağaçlarında en önemli sorunlardan birisi hangi kökten itibaren bölümlemenin veya dallanmanın hangi kritere göre yapılacağıdır. Aslında her farklı kriter için bir karar ağacı algoritması karşılık gelmektedir. Bu algoritmalar şu şekilde gruplandırılabilir. ID3 ve C4.5, entropiye dayalı sınıflandırma algoritmalarıdır. Twoing ve Gini, CART (Classification And Regression Trees) sınıflandırma ve regresyon ağaçlarına dayalı sınıflandırma algoritmalarıdır. k-en yakın komşu algoritması bellek tabanlı sınıflandırma yöntemleri arasında yer almaktadır. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Entropi (1/3) Entropi, rastgele değere sahip bir değişken veya bir sistem için belirsizlik ölçütüdür. Enformasyon, rassal bir olayın gerçekleşmesi halinde ortaya çıkan bilgi ölçütüdür. Bir süreç için entropi, tüm örnekler tarafından içerilen enformasyonun beklenen değeridir. Eşit olasıklı durumlara sahip sistemler yüksek belirsizliğe sahiptirler. Shannon, bir sistemdeki durum değişikliğinde, entropideki değişimin enformasyon boyutunu tanımladığını öne sürmüştür. Buna göre bir sistemdeki belirsizlik arttıkça, bir durum gerçekleştiğinde elde edilecek enformasyon boyutu da artacaktır. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Entropi (2/3) Shannon bilgiyi bitlerle ifade ettiği için, logaritmayı 2 tabanında kullanmıştır. S bir kaynak olsun. Bu kaynağın 𝑚1 , 𝑚2 , … 𝑚𝑛 olmak üzere 𝑛 mesaj üretildiğini varsayalım. Tüm mesajlar birbirinden bağımsız üretilmektedir ve 𝑚𝑖 mesajlarının üretilme olasılıkları 𝑝𝑖 ’dir. 𝑃 = 𝑝1 , 𝑝2 , … 𝑝𝑛 olasılık dağılımına sahip mesajları üreten S kaynağının entropisi 𝐻(𝑆) şu şekildedir. 𝑛 𝐻 𝑆 =− 𝑝𝑖 log2 𝑝𝑖 𝑖=1 Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Entropi (3/3) Bir paranın havaya atılması olayı rassal X sürecini göstersin. Yazı ve tura gelme olasılıkları eşit olduğundan elde edilecek entropi, 𝑛 1 1 1 1 𝐻 𝑋 =− 𝑝𝑖 log 2 𝑝𝑖 = − log 2 + log 2 =1 2 2 2 2 𝑖=1 Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek Aşağıdaki 8 elemanlı S kümesi verilsin. S = {evet, hayır, evet, hayır, hayır, hayır, hayır, hayır} “evet “ ve “hayır” için olasılık, 2 6 𝑝 𝑒𝑣𝑒𝑡 = 𝑝 ℎ𝑎𝑦𝚤𝑟 =, 8 8 2 2 6 6 𝐻 𝑆 = − log 2 + log 2 = 0.81128 8 8 8 8 Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi ID3 Algoritması (1/4) Karar ağaçları yardımıyla sınıflandırma işlemlerini yerine getirmek üzere Quinlan tarafından birçok algoritma geliştirilmiştir. Bunlar arasında ID3 ve C4.5 algoritması yer almaktadır. ID3(Iterative Dichotomiser 3) algoritması sadece kategorik verilerle çalışmaktadır. Karar ağaçları çok boyutlu veriyi belirlenmiş bir niteliğe göre parçalara böler. Her adımda verinin hangi özelliğine göre ne tür işlem yapılacağına karar verilir. Oluşturulabilecek tüm ağaçların kombinasyonu çok fazladır. Karar ağaçlarının en az düğüm ve yaprak ile oluşturulması için farklı algoritmalar kullanılarak bölme işlemi yapılır. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi ID3 Algoritması (2/4) Karar Ağacında Entropi Bir eğitim kümesindeki sınıf niteliğinin alacağı değerler kümesi T, her bir sınıf değeri 𝐶𝑖 olsun. T sınıf değerini içeren küme için 𝑃𝑇 sınıfların olasılık dağılımı, 𝐶1 𝐶2 𝐶𝑘 𝑃𝑇 = , ,…, 𝑇 𝑇 𝑇 şeklinde ifade edilir. T sınıf kümesi için ortalama entropi değeri ise 𝑛 𝐻 𝑇 =− 𝑝𝑖 log 2 𝑝𝑖 𝑖=1 şeklinde ifade edilir. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi ID3 Algoritması (3/4) Karar ağaçlarında bölümlemeye hangi düğümden başlanacağı çok önemlidir. Uygun düğümden başlanmazsa ağacın içerisindeki düğümlerin ve yaprakların sayısı çok fazla olacaktır. Bir risk kümesi aşağıdaki gibi tanımlansın. 𝐶1 =“var”, 𝐶2 =“yok” RISK = {var, var, var, yok, var, yok, yok, var, var, yok} Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi ID3 Algoritması (4/4) Dallanma için niteliklerin seçimi Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek Karar ağacından elde edilen kurallar 1.EĞER(BORÇ = YÜKSEK) İSE (RİSK = KÖTÜ) 2.EĞER(BORÇ = DÜŞÜK) VE (GELİR = YÜKSEK) İSE (RİSK = İYİ) 3.EĞER(BORÇ = DÜŞÜK) VE (GELİR = DÜŞÜK) VE (STATÜ = ÜCRETLİ) İSE (RİSK = İYİ) 4.EĞER(BORÇ = DÜŞÜK) VE (GELİR = DÜŞÜK) VE (STATÜ = İŞVEREN) İSE(RİSK = KÖTÜ) Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Uygulama: Hava problemi örneği Uygulama: Hava problemi OYUN = {hayır, hayır, hayır, hayır, hayır, evet, evet, evet, evet, evet, evet, evet, evet, evet} C1, sınıfı "hayır", C2, sınıfı ise "evet“ P1=5/14, P2=9/14 Adım1: Birinci dallanma Adım1: Birinci dallanma Adım1: Birinci dallanma Adım1: Birinci dallanma Adım1: Birinci dallanma Birinci dallanma sonucu karar ağacı: Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma Oyun için entropi: Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma Adım 3: HAVA niteliğinin “bulutlu” değeri için dallanma: Adım 3: HAVA niteliğinin “bulutlu” değeri için dallanma: Adım 3:HAVA niteliğinin “yağmurlu” değeri için dallanma: Adım 3:HAVA niteliğinin “yağmurlu” değeri için dallanma: Adım 3:HAVA niteliğinin “yağmurlu” değeri için dallanma: Oluşturulan Karar Ağacı C4.5 Algoritması C4.5 ile sayısal değerlere sahip nitelikler için karar ağacı oluşturmak için Quinlan tarafından geliştirilmiştir. ID3 algoritmasından tek farkı nümerik değerlerin kategorik değerler haline dönüştürülmesidir. En büyük bilgi kazancını sağlayacak biçimde bir eşik değer belirlenir. Eşik değeri belirlemek için tüm değerler sıralanır ve ikiye bölünür. Eşik değer için 𝑣𝑖 , 𝑣𝑖+1 aralığının orta noktası alınabilir. 𝑣𝑖 + 𝑣𝑖+1 𝑡𝑖 = 2 Nitelikteki değerler eşik değere göre iki kategoriye ayrılmış olur. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek Tabloda örneğe ait eğitim kümesi ele alındığında sayısal değerlere sahip olan NİTELİK2 niteliğinin seçilmesi durumunda bilgi kazancının bulunması istenmektedir. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek Eşik değerinin belirlenmesi NİTELİK2≤ 83 veya NİTELİK2>83 testi uygulanarak düzenleme yapıldığında yandaki tablo elde edilir. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek Entropi değerleri ve Bilgi kazancı hesaplanır Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek Oluşturulan karar ağacı Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek Karar ağacından elde edilen kurallar 1.EĞER(NİTELİK1 = a) VE(NİTELİK2 = Eşit veya Küçük) İSE(SINIF = Sınıf1) 2.EĞER(NİTELİK1 = a) VE(NİTELİK2 = Büyük) İSE(SINIF = Sınıf2) 3.EĞER(NİTELİK1 = b) İSE(SINIF = Sınıf1) 4.EĞER(NİTELİK1 = c) VE(NİTELİK3 = yanlış) İSE(SINIF = Sınıf1) 5.EĞER(NİTELİK1 = c) VE(NİTELİK3 = doğru) İSE(SINIF = Sınıf2) Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN [email protected] İçerik Sınıflandırma yöntemleri Karar ağaçları ile sınıflandırma Entropi Kavramı ID3 Algoritması Entropiye dayalı algoritmalar C4.5 Algoritması Twoing Algoritması Sınıflandırma ve regresyon Gini Algoritması ağaçları (CART) k-en yakın komşu algoritması Bellek tabanlı algoritmalar Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Sınıflandırma ve Regresyon Ağaçları (CART) Sınıflandırma ve regresyon ağaçları veri madenciliğinin sınıflandırma ile ilgili konuları arasında yer alır. Bu yöntem 1984’te Breiman tarafından ortaya atılmıştır. CART karar ağacı, herbir karar düğümünden itibaren ağacın iki dala ayrılması ilkesine dayanır. Yani bu tür karar ağaçlarında ikili dallanmalar söz konusudur. CART algoritmasında bir düğümde belirli bir kriter uygulanarak bölünme işlemi gerçekleştirilir. Bunun için önce tüm niteliklerin var olduğu değerler gözönüne alınır ve tüm eşleşmelerden sonra iki bölünme elde edilir. Bu bölünmeler üzerinde seçme işlemi uygulanır. Bu kapsamdaki iki algoritma bulunmaktadır. Twoing Algoritması Gini Algoritması Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Twoing Algoritması Twoing algoritmasında eğitim kümesi her adımda iki parçaya ayrılarak bölümleme yapılır. Aday bölünmelerin sağ ve sol kısımlarının her birisi için nitelik değerinin ilgili sütundaki tekrar sayısı alınır. Aday bölünmelerin sağ ve sol kısımlarındaki her bir nitelik değeri için sınıf değerlerinin olma olasılığı hesaplanır. Her bölünme için uygunluk değeri en yüksek olan alınır. Burada, T eğitim kümesindeki kayıt sayısını, B aday bölünmeyi, d düğümü, Tsinifj ise j.sınıf değerini gösterir. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek (1/8) Tabloda çalışanların maaş, deneyim, görev niteliklerine göre hedef niteliği olan memnun olma durumlarına ait 11 gözlem verilmiştir. Twoing algoritmasını kullanarak sınıflandırma yapınız. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek (2/8) Aday bölünmeler aşağıdaki gibidir. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek (3/8) Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek (4/8) Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek (5/8) Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek (6/8) Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek (7/8) Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek (8/8) Karar ağacından elde edilen kurallar 1. EĞER (GÖREV = YÖNETİCİ) İSE (MEMNUN = EVET) 2. EĞER (GÖREV = UZMAN) VE (MAAŞ = NORMAL) İSE (MEMNUN =EVET) 3. EĞER (GÖREV = UZMAN) VE (MAAŞ = DÜŞÜK VEYA MAAŞ = YÜKSEK) VE (DENEYİM=YOK) İSE (MEMNUN = EVET) 4. EĞER (GÖREV = UZMAN) VE (MAAŞ = DÜŞÜK VEYA MAAŞ = YÜKSEK) VE (DENEYİM = ORTA VEYA DENEYİM = İYİ) İSE (MEMNUN = HAYIR) Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Gini Algoritması Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek (1/8) Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek (2/8) Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek (3/8) Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek (4/8) Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek (5/8) Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek (6/8) Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek (7/8) Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek (8/8) Karar ağacından elde edilen kurallar 1. EĞER (YAŞ = GENÇ) İSE (SONUÇ = HAYIR) 2. EĞER (YAŞ = ORTA VEYA YAŞ = YAŞLI) VE (CİNSİYET = ERKEK) İSE (SONUÇ = EVET) 3. EĞER (YAŞ = ORTA VEYA YAŞ = YAŞLI) VE (CİNSİYET = KADIN) VE (YAŞ = YAŞLI) İSE (SONUÇ = EVET) 4. EĞER (YAŞ = ORTA VEYA YAŞ = YAŞLI) VE (CİNSİYET = KADIN) VE (YAŞ = ORTA) İSE (SONUÇ = HAYIR) Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Bellek Tabanlı Algoritmalar K-en yakın komşu algoritması (K-nearest neighbor algorithm). Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi K-en yakın komşu algoritması Sınıflandırma yöntemlerinden birisi de K-en yakın komşu algoritmasıdır. Bu yöntem sınıfları belli olan bir örnek kümesindeki gözlem değerlerinden yararlanarak örneğe katılacak yeni bir gözlemin hangi sınıfa ait olduğunu belirlemek amacıyla kullanılır. Bu yöntem örnek kümedeki gözlemlerin her birinin, sonradan belirlenen bir gözlem değerine olan uzaklıklarının ve en küçük uzaklığa sahip k sayıda gözlemin seçilmesi esasına dayanmaktadır. Uzaklıkların hesaplanmasında i ve j noktaları için örneğin Öklid uzaklık formülü kullanılabilir. (Diğer uzaklıklar veri önişleme kısmında açıklanmıştı) 𝑝 2 𝑑 𝑖, 𝑗 = 𝑥𝑖𝑘 − 𝑥𝑗𝑘 𝑘=1 Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi K-en yakın komşu algoritması K-en yakın komşu algoritması, gözlem değerlerinden oluşan bir küme için aşağıdaki adımları içerir. a) K parametresi belirlenir. Bu parametre verilen bir noktaya en yakın komşuların sayısıdır. b) Bu algoritma verilen bir noktaya en yakın komşuları belirleyeceği için söz konusu nokta ile diğer tüm noktalar arasındaki uzaklıklar tek tek hesaplanır. c) Yukarıda hesaplanan uzaklıklara göre satırlar sıralanır ve bunlar arasından en küçük olan k tanesi seçilir. d) Seçilen satırların hangi kategoriye ait oldukları belirlenir ve en çok tekrarlanan kategori değeri seçilir. e) Seçilen kategori, tahmin edilmesi beklenen gözlem değerinin kategorisi olarak kabul edilir. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek 1. Aşağıda verilen gözlem tablosu X1 ve X2 nitelikleri ve Y sınıfından oluşmaktadır. Bu gözlem değerine bağlı olarak yeni bir gözlem değeri olan X1=8, X2=4 değerlerinin yani (8,4) gözleminin hangi sınıfa dahil olduğunu k-en yakın komşu algoritması ile bulunuz. X1 X2 Y 2 4 KÖTÜ 3 6 İYİ 3 4 İYİ 4 10 KÖTÜ 5 8 KÖTÜ 6 3 İYİ 7 9 İYİ 9 7 KÖTÜ 11 7 KÖTÜ 10 2 KÖTÜ Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek 1. a) K’nın belirlenmesi: k=4 kabul edilir. b) Uzaklıkların hesaplanması: (8,4) noktası ile gözlem değerlerinin her biri arasındaki uzaklıklar Öklid uzaklığına göre hesaplanır. 𝑝 2 𝑑 𝑖, 𝑗 = 𝑥𝑖𝑘 − 𝑥𝑗𝑘 𝑘=1 Biçiminde birinci gözlem olan (2,4) noktası ile (8,4) noktası arasındaki uzaklık, 𝑑 𝑖, 𝑗 = 2 − 8 2 + 4 − 4 2 = 6.00 Benzer şekilde uzaklıklar hesaplandığında tablodaki sonuç ortaya çıkacaktır. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek 1. (8,4) noktasının gözlem değerlerine olan uzaklıkları, X1 X2 Uzaklık 2 4 6 3 6 5,39 3 4 5 4 10 7,21 5 8 5 6 3 2,24 7 9 5,1 9 7 3,16 11 7 4,24 10 2 2,83 Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi c) En küçük uzaklıkların belirlenmesi: Satırlar sıralanarak en küçük k=4 tanesi belirlenir. Bu dört nokta verilen (8,4) noktasına en yakın gözlem değerleridir. X1 X2 Uzaklık Sıra 2 4 6 9 3 6 5,39 8 3 4 5 6 4 10 7,21 10 5 8 5 5 6 3 2,24 1 7 9 5,1 7 9 7 3,16 3 11 7 4,24 4 10 2 2,83 2 Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek 1. d) Seçilen satırların ilişkin sınıfların belirlenmesi: (8,4) noktasına en yakın olan gözlem değerlerinin Y sınıfları göz önüne alınır ve içinde hangi değerin baskın olduğu araştırılır. Bu dört gözlem içinde bir tane İYİ 3 tane KÖTÜ sınıfı vardır. X1 X2 Uzaklık Sıra k komşunun Y değeri 2 4 6 9 3 6 5,39 8 3 4 5 6 4 10 7,21 10 5 8 5 5 6 3 2,24 1 İYİ 7 9 5,1 7 9 7 3,16 3 KÖTÜ 11 7 4,24 4 KÖTÜ 10 2 2,83 2 KÖTÜ e) Yeni gözlemin sınıfı: KÖTÜ değerlerinin sayısı İYİ değerlerinin sayısından fazla olduğu için (8,4) noktasının sınıfı KÖTÜ olarak belirlenir. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek 2. Aşağıda verilen gözlem tablosunda Y sınıf niteliğini ifade etmektedir. Bu verilere dayanarak (7,8,5) noktasının hangi sınıf değerine sahip olduğunu belirleyelim. Gözlemlerin gerçek değerleri değil normalize edilmiş değerleri kullanılacaktır. Gözlem değerlerini (0,1) aralığına çekmek için min-max normalleştirmesi kullanılacaktır. X1 X2 X3 Y 10 5 19 EVET 8 2 4 HAYIR 18 16 6 HAYIR 12 15 8 EVET 3 15 15 EVET Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek 2. Min-max normalleştirmesi sonucu dönüştürülen değerler aşağıdadır. 𝑋−𝑋𝑚𝑖𝑛 𝑋∗ = (min-max normalizasyonu 𝑋𝑚𝑎𝑥 −𝑋𝑚𝑖𝑛 X1 X2 X3 Y 0,47 0,21 1 EVET 0,33 0 0 HAYIR 1 1 0,13 HAYIR 0,6 0,93 0,27 EVET 0 0,93 0,73 EVET Aday noktanın normalizasyon değeri (0.27,0.43, 0.07) Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek 2. a) K’nın belirlenmesi: k=3 kabul edilir. b) Uzaklıkların hesaplanması: (0,27, 0,43, 0,07) noktası ile gözlem değerlerinin her biri arasındaki uzaklıklar Öklid uzaklığına göre hesaplanır. 𝑑 𝑖, 𝑗 = 0,47 − 0,27 2 + 0,21 − 0,43 2 + 1 − 0,07 2 = 0,98 X1 X2 X3 Uzaklık 0,47 0,21 1 0,98 0,33 0 0 0,44 1 1 0,13 0,93 0,6 0,93 0,27 0,63 0 0,93 0,73 0,87 Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek 2. c) En küçük uzaklıkların belirlenmesi: Satırlar sıralanarak en küçük k=3 tanesi belirlenir. X1 X2 X3 Uzaklık Sıra 0,47 0,21 1 0,98 5 0,33 0 0 0,44 1 1 1 0,13 0,93 4 0,6 0,93 0,27 0,63 2 0 0,93 0,73 0,87 3 Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek 2. d) Seçilen satırların ilişkin sınıfların belirlenmesi: (0,27, 0,43, 0,07) noktasına en yakın olan gözlem değerlerinin Y sınıfları göz önüne alınır ve içinde hangi değerin baskın olduğu araştırılır. Bu üç gözlem içinde bir tane HAYIR 2 tane EVET sınıfı vardır. X1 X2 X3 Uzaklık Sıra k komşunun Y değeri 0,47 0,21 1 0,98 5 0,33 0 0 0,44 1 HAYIR 1 1 0,13 0,93 4 0,6 0,93 0,27 0,63 2 EVET 0 0,93 0,73 0,87 3 EVET e) Yeni gözlemin sınıfı: EVET değerlerinin sayısı HAYIR değerlerinin sayısından fazla olduğu için (7,8,5) gözleminin sınıfı EVET olarak kabul edilir. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Ağırlıklı Oylama K-en yakın komşu algoritması sınıfı bilinmeyen gözlem değeri için k gözlem içindeki en fazla tekrar eden sınıfın seçilmesi esasına dayanmaktadır. Ancak seçilen bu sınıf sadece k komşunun göz önüne alınması nedeniyle her zaman uygun olmayabilir. Bu son aşamada k komşu arasında en çok tekrarlanan sınıfı seçme yöntemi yerine ağırlıklı oylama (weighted voting) denilen bir yöntem uygulanabilir. Söz konusu ağırlıklı oylama yöntemi gözlem değerleri için aşağıdaki bağıntıya göre ağırlıklı uzaklıkların hesaplanmasına dayanır. 1 𝑑 𝑖, 𝑗 ′ = 𝑑 𝑖, 𝑗 2 d(i,j) ifadesi i ve j gözlemleri arasındaki Öklid uzaklığıdır. Her bir sınıf değeri için bu uzaklıkların toplamı hesaplanarak ağırlıklı oylama değeri elde edilir. En büyük ağırlıklı oylama değerine sahip olan sınıf değeri yeni gözlemin ait olduğu sınıf olarak kabul edilir. Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi Örnek 2. Ağırlıklı Oylama Sonucu Ağırlıklı Oylama sonucunda Örnek 2.’deki değerin sınıfının HAYIR olduğu görülür. X1 X2 X3 Uzaklık Sıra k komşunun Y değeri Ağırlı