Podcast
Questions and Answers
Aşağıdakilerden hangisi veri madenciliği sürecinde Fayyad vd. tarafından sunulan adımlardan biri değildir?
Aşağıdakilerden hangisi veri madenciliği sürecinde Fayyad vd. tarafından sunulan adımlardan biri değildir?
- Seçim (Feature Selection)
- Dönüştürme (Transformation)
- Model Oluşturma (Modeling) (correct)
- Ön İşleme (Preprocessing)
Veri madenciliği sürecinde 'parazit temizleme' ve 'eksik veri tamamlama' hangi aşamanın temel öğelerindendir?
Veri madenciliği sürecinde 'parazit temizleme' ve 'eksik veri tamamlama' hangi aşamanın temel öğelerindendir?
- Seçim
- Yorumlama
- Dönüştürme
- Ön İşleme (correct)
CRISP-DM süreç modelinde, veri madenciliği projesinin amaç ve gereksinimlerinin anlaşılmasına odaklanılan ilk aşama aşağıdakilerden hangisidir?
CRISP-DM süreç modelinde, veri madenciliği projesinin amaç ve gereksinimlerinin anlaşılmasına odaklanılan ilk aşama aşağıdakilerden hangisidir?
- İşin Anlaşılması (correct)
- Değerleme
- Verinin Anlaşılması
- Veri Hazırlama
CRISP-DM modelinde, hangi aşama ham veriden başlayarak nihai veri setine ulaşana kadar gerekli tüm faaliyetleri kapsar?
CRISP-DM modelinde, hangi aşama ham veriden başlayarak nihai veri setine ulaşana kadar gerekli tüm faaliyetleri kapsar?
Veri kalitesi sorunları nedeniyle işletmelerin yılda 1 milyon dolardan fazla para kaybettiği tahminini belirten araştırma, hangi yılda yapılmıştır?
Veri kalitesi sorunları nedeniyle işletmelerin yılda 1 milyon dolardan fazla para kaybettiği tahminini belirten araştırma, hangi yılda yapılmıştır?
Aşağıdakilerden hangisi veri kalitesi faktörlerinden biri değildir?
Aşağıdakilerden hangisi veri kalitesi faktörlerinden biri değildir?
Bir ölçüm cihazının hatalı kalibre edilmesi sonucu ortaya çıkan hatalar hangi tür hatalardır?
Bir ölçüm cihazının hatalı kalibre edilmesi sonucu ortaya çıkan hatalar hangi tür hatalardır?
Anketlerde veya kredi kartı başvuru formlarında kişilerin doğum tarihi veya gelir gibi bilgileri boş bırakması veya yanlış cevaplaması hangi tür soruna yol açar?
Anketlerde veya kredi kartı başvuru formlarında kişilerin doğum tarihi veya gelir gibi bilgileri boş bırakması veya yanlış cevaplaması hangi tür soruna yol açar?
Veri ön işleme sürecinde toplam zamanın %40-%60'ının harcanmasının temel nedeni aşağıdakilerden hangisidir?
Veri ön işleme sürecinde toplam zamanın %40-%60'ının harcanmasının temel nedeni aşağıdakilerden hangisidir?
Aşağıdakilerden hangisi veri ön işleme adımlarından biri değildir?
Aşağıdakilerden hangisi veri ön işleme adımlarından biri değildir?
Veri entegrasyonunda farklı veri kaynaklarında yer alan verinin fiziki olarak bir veri ambarında bütünleştirilmesi yaklaşımında temel sorun nedir?
Veri entegrasyonunda farklı veri kaynaklarında yer alan verinin fiziki olarak bir veri ambarında bütünleştirilmesi yaklaşımında temel sorun nedir?
ETL sürecinde hangi işlem ilk olarak gerçekleştirilir?
ETL sürecinde hangi işlem ilk olarak gerçekleştirilir?
Aşağıdakilerden hangisi veri kaynakları arasındaki tutarsızlık / heterojen yapı nedenlerinden biri değildir?
Aşağıdakilerden hangisi veri kaynakları arasındaki tutarsızlık / heterojen yapı nedenlerinden biri değildir?
ELT sürecinde dönüşüm işlemi nerede gerçekleştirilir?
ELT sürecinde dönüşüm işlemi nerede gerçekleştirilir?
Aşağıdakilerden hangisi ELT sürecinin olumlu yanlarından biridir?
Aşağıdakilerden hangisi ELT sürecinin olumlu yanlarından biridir?
Veri yayınımı veya federasyonu yaklaşımında temel odak noktası nedir?
Veri yayınımı veya federasyonu yaklaşımında temel odak noktası nedir?
Hangi terim doğru olmayan, hatalı veya standart formata uymayan veriyi ifade eder?
Hangi terim doğru olmayan, hatalı veya standart formata uymayan veriyi ifade eder?
Veri temizleme sürecinde ilk adım nedir?
Veri temizleme sürecinde ilk adım nedir?
Aşağıdakilerden hangisi veri tutarsızlıklarının başlıca nedenlerinden biridir?
Aşağıdakilerden hangisi veri tutarsızlıklarının başlıca nedenlerinden biridir?
Bir karakter dizisi içindeki yazım hatalarının kullanılan dilin gramer kurallarına göre analizine ne ad verilir?
Bir karakter dizisi içindeki yazım hatalarının kullanılan dilin gramer kurallarına göre analizine ne ad verilir?
Aynı nesne için birden fazla kaydın bulunması durumunda yapılan işleme ne ad verilir?
Aynı nesne için birden fazla kaydın bulunması durumunda yapılan işleme ne ad verilir?
Küçük gözlem hatalarının etkilerini azaltmak için kullanılan veri ön işleme tekniği hangisidir?
Küçük gözlem hatalarının etkilerini azaltmak için kullanılan veri ön işleme tekniği hangisidir?
Aşağıdakilerden hangisi veri perdahlama algoritmalarından biridir?
Aşağıdakilerden hangisi veri perdahlama algoritmalarından biridir?
Bir veya daha fazla gözlem / öznitelik değerinin veri dizisinde eksik kalmasına ne ad verilir?
Bir veya daha fazla gözlem / öznitelik değerinin veri dizisinde eksik kalmasına ne ad verilir?
Aşağıdakilerden hangisi eksik veriye yol açan nedenlerden biri değildir?
Aşağıdakilerden hangisi eksik veriye yol açan nedenlerden biri değildir?
Eksik verinin giderilmesi sürecinde ilk aşama nedir?
Eksik verinin giderilmesi sürecinde ilk aşama nedir?
Aşağıdakilerden hangisi eksik verinin tesadüfilik düzeyinin belirlenmesinde kullanılan sınıflandırma yöntemlerinden biridir?
Aşağıdakilerden hangisi eksik verinin tesadüfilik düzeyinin belirlenmesinde kullanılan sınıflandırma yöntemlerinden biridir?
Bir özniteliğe ilişkin bir verinin eksik bulunma olasılığı, bu değerin kendinden kaynaklanmıyorsa veya başka bir özniteliğin değeri ile ilişkili değilse, bu durum hangi tür eksikliktir?
Bir özniteliğe ilişkin bir verinin eksik bulunma olasılığı, bu değerin kendinden kaynaklanmıyorsa veya başka bir özniteliğin değeri ile ilişkili değilse, bu durum hangi tür eksikliktir?
Aşağıdakilerden hangisi eksik verinin giderilmesi için kullanılan yöntemlerden biridir?
Aşağıdakilerden hangisi eksik verinin giderilmesi için kullanılan yöntemlerden biridir?
Veri dizisinde eksik veri bulunması durumunda, eksik verinin bulunduğu gözlemleri veri dizisinden silmeye ne ad verilir?
Veri dizisinde eksik veri bulunması durumunda, eksik verinin bulunduğu gözlemleri veri dizisinden silmeye ne ad verilir?
Sıra dışı değer analizinin kullanım alanlarından biri değildir?
Sıra dışı değer analizinin kullanım alanlarından biri değildir?
Tek değişkenli bir analizde sıra dışı değerlerin belirlenmesinde kullanılan temel prensip nedir?
Tek değişkenli bir analizde sıra dışı değerlerin belirlenmesinde kullanılan temel prensip nedir?
Sıra dışı değerlerin tespit edilmesinde standart sapma temelli yöntemler hangi tür dağılımlar için geçerlidir?
Sıra dışı değerlerin tespit edilmesinde standart sapma temelli yöntemler hangi tür dağılımlar için geçerlidir?
Aşağıdakilerden hangisi çok değişkenli veri dizilerinde sıra dışı değerlerin bulunmasında kullanılan yaklaşımlardan biridir?
Aşağıdakilerden hangisi çok değişkenli veri dizilerinde sıra dışı değerlerin bulunmasında kullanılan yaklaşımlardan biridir?
Veri dönüştürme işlemi neyi amaçlar?
Veri dönüştürme işlemi neyi amaçlar?
Hangi normalleştirme yönteminde değerler *-1,+1+ veya *0,+1+ aralığında yer alacak şekilde dönüştürülür?
Hangi normalleştirme yönteminde değerler *-1,+1+ veya *0,+1+ aralığında yer alacak şekilde dönüştürülür?
Yaş, gelir gibi sürekli veri dizisi değerlerinin genç, orta yaşlı, yaşlı ve ya fakir, zengin gibi kavramsal etiketlerle ifade edilerek kategorik değerlere dönüştürülmesine ne ad verilir?
Yaş, gelir gibi sürekli veri dizisi değerlerinin genç, orta yaşlı, yaşlı ve ya fakir, zengin gibi kavramsal etiketlerle ifade edilerek kategorik değerlere dönüştürülmesine ne ad verilir?
Veri indirgeme yöntemlerinden biri değildir?
Veri indirgeme yöntemlerinden biri değildir?
Aşağıdakilerden hangisi makine öğrenimi alanında alt dizilerin seçimini sağlayacak algoritmalardan biri değildir?
Aşağıdakilerden hangisi makine öğrenimi alanında alt dizilerin seçimini sağlayacak algoritmalardan biri değildir?
Faktör analizinin temel amaçlarından biri değildir?
Faktör analizinin temel amaçlarından biri değildir?
Flashcards
Veri Madenciliği Süreci
Veri Madenciliği Süreci
Veriden bilgiye giden yolda takip edilen adımları içeren süreçtir.
Seçim (Feature Selection)
Seçim (Feature Selection)
Veri madenciliği sürecinde önemli görülen verilerin seçilmesi veya oluşturulmasıdır.
Ön İşleme (Preprocessing)
Ön İşleme (Preprocessing)
Verinin kalitesini ve uygunluğunu artırmak için yapılan işlemlerdir. Parazitleri temizler, eksik verileri tamamlar ve yeni öznitelikler oluşturur.
Dönüştürme (Transformation)
Dönüştürme (Transformation)
Signup and view all the flashcards
Veri Madenciliği (Data Mining)
Veri Madenciliği (Data Mining)
Signup and view all the flashcards
Yorumlama (Interpretation)
Yorumlama (Interpretation)
Signup and view all the flashcards
CRISP-DM Süreç Modeli
CRISP-DM Süreç Modeli
Signup and view all the flashcards
İşin Anlaşılması (Business Understanding)
İşin Anlaşılması (Business Understanding)
Signup and view all the flashcards
Verinin Anlaşılması (Data Understanding)
Verinin Anlaşılması (Data Understanding)
Signup and view all the flashcards
Veri Hazırlama (Data Preparation)
Veri Hazırlama (Data Preparation)
Signup and view all the flashcards
Modelleme (Modelling)
Modelleme (Modelling)
Signup and view all the flashcards
Değerleme (Evaluation)
Değerleme (Evaluation)
Signup and view all the flashcards
Kullanıcılarla Paylaşım (Deployment)
Kullanıcılarla Paylaşım (Deployment)
Signup and view all the flashcards
Garbage In Garbage Out
Garbage In Garbage Out
Signup and view all the flashcards
Veri Kalitesi Sorunları
Veri Kalitesi Sorunları
Signup and view all the flashcards
Anlaşılabilirlik (Understandability)
Anlaşılabilirlik (Understandability)
Signup and view all the flashcards
Değer Katabilirlik (Value-added)
Değer Katabilirlik (Value-added)
Signup and view all the flashcards
Erişilebilirlik (Accessibility)
Erişilebilirlik (Accessibility)
Signup and view all the flashcards
Güvenlik (Security)
Güvenlik (Security)
Signup and view all the flashcards
Sistematik Hata
Sistematik Hata
Signup and view all the flashcards
Tesadüfi Hata
Tesadüfi Hata
Signup and view all the flashcards
Eksik Öznitelik
Eksik Öznitelik
Signup and view all the flashcards
Veri Ön İşleme
Veri Ön İşleme
Signup and view all the flashcards
Veri Entegrasyonu
Veri Entegrasyonu
Signup and view all the flashcards
Veri Temizleme
Veri Temizleme
Signup and view all the flashcards
Veri Dönüştürme
Veri Dönüştürme
Signup and view all the flashcards
Veri İndirgeme
Veri İndirgeme
Signup and view all the flashcards
Veri Konsolidasyonu
Veri Konsolidasyonu
Signup and view all the flashcards
ETL Süreci
ETL Süreci
Signup and view all the flashcards
Veri Tutarsızlığı
Veri Tutarsızlığı
Signup and view all the flashcards
ELT Süreci
ELT Süreci
Signup and view all the flashcards
Veri Yayınımı / Federasyonu
Veri Yayınımı / Federasyonu
Signup and view all the flashcards
Kirli Veri
Kirli Veri
Signup and view all the flashcards
Veri Temizleme
Veri Temizleme
Signup and view all the flashcards
Gramer İncelemesi
Gramer İncelemesi
Signup and view all the flashcards
Çifte Kayıtların Ayıklanması
Çifte Kayıtların Ayıklanması
Signup and view all the flashcards
Veri Dilimleme
Veri Dilimleme
Signup and view all the flashcards
Veri Per Dahlama (Data Smoothing)
Veri Per Dahlama (Data Smoothing)
Signup and view all the flashcards
Eksik Veri
Eksik Veri
Signup and view all the flashcards
Eksik Verinin Giderilmesi
Eksik Verinin Giderilmesi
Signup and view all the flashcards
Study Notes
Veri Madenciliği Süreci
- Veri madenciliği ve veritabanlarında bilgi keşfi için çeşitli süreçler mevcuttur.
- Fayyad vd. tarafından sunulan ilk süreçtir.
- CRISP-DM (Cross Industry Standard Process for Data Mining) SPSS tarafından geliştirilmiştir.
- Fayyad, Piatetsky-Shapiro ve Smith tarafından 1996'da sunulan süreç şu adımları içerir:
Seçim (Feature Selection)
- Önemli olduğu düşünülen verinin seçilmesi veya oluşturulmasıdır.
- Veri madenciliği süreci, elde edilen ve hedef veri olarak adlandırılan bu veri üzerinde gerçekleştirilir.
Ön İşleme (Preprocessing)
- Veri madenciliği çalışmalarında iyi sonuçlar elde etmek, hazırlanan verinin uygunluğuna ve kalitesine bağlıdır.
- Verideki parazit (noise) miktarı azaldıkça sonuçların kalitesi artar.
- Sorunlu verinin temizlenmesi, eksik verinin tamamlanması ve yeni özniteliklerin oluşturulması bu aşamanın önemli unsurlarıdır.
Dönüştürme (Transformation)
- Verinin, farklı veri madenciliği yöntemleri için uygun formata dönüştürülmesidir.
Veri Madenciliği (Data Mining)
- Belirlenen amaçlara uygun veri madenciliği yöntemlerinin kullanılmasıdır.
- Bu aşamanın sonunda çeşitli örüntüler (patterns) elde edilir.
Yorumlama (Interpretation)
- Veri madenciliği aşamasında belirlenen örüntülerin yeterli bilgi içerip içermediğinin yorumlanmasıdır.
- Elde edilen örüntüler yeterli bulunmazsa önceki adımlar tekrar edilir.
CRISP-DM Süreç Modeli
- CRISP-DM, veri madenciliği problemlerinin çözümünde izlenmesi önerilen bir süreç modelidir.
- Bu model, veri madenciliği sürecini altı ana aşamaya ayırır:
- İşin Anlaşılması (Business Understanding)
- Verinin Anlaşılması (Data Understanding)
- Veri Hazırlama (Data Preparation)
- Modelleme (Modelling)
- Değerleme (Evaluation)
- Kullanıcılarla Paylaşım (Deployment)
- Aşamaların sırası kesin olmamakla birlikte, farklı aşamalar arasında ileri ve geri geçişler olabilir.
İşin Anlaşılması (Business Understanding)
- Projenin amaç ve gereksinimlerinin işletme bakış açısıyla anlaşılmasına odaklanılır.
- Amaç ve gereksinimler, bir veri madenciliği problemi olarak tanımlanır ve amaçlara ulaşmak için bir plan tasarlanır.
Verinin Anlaşılması (Data Understanding)
- Veri kalitesine ilişkin problemleri tanımlama, veri hakkında ilk izlenimleri edinme, ilginç alt kümeleri belirleme veya veri kümelerinde gizli bilgiyi ortaya çıkarma gibi amaçları içerir.
- Hipotez geliştirme de bu aşamada yapılır.
Veri Hazırlama (Data Preparation)
- Ham veriden nihai veri kümesine ulaşmak için gerekli tüm faaliyetleri kapsar.
- Tablo, kayıt, öznitelik seçimi ve modelleme araçları için verinin temizlenmesi ve dönüştürülmesini içerir.
- İşlemler önceden belirlenemeyen bir sırada ve birçok kez tekrarlanabilir.
Modelleme (Modelling)
- Çeşitli modelleme yöntemleri seçilir ve uygulanır.
- Parametreler, optimal değerler elde edilecek şekilde ayarlanmalıdır.
- Aynı veri madenciliği problemi için çeşitli yöntemler bulunabilir.
- Bazı yöntemler verinin düzenlenmesinde özel şartlara sahip olabileceği için veri hazırlama aşamalarına geri dönmek gerekebilir.
Değerleme (Evaluation)
- Modelleme aşamasında, veri analizi açısından yüksek kaliteli modeller kurulur.
- Kurulan modellerin ilgililerle paylaşılmadan önce detaylıca değerlendirilmesi önemlidir.
- Modelin kuruluşunda izlenen adımlar gözden geçirilmeli ve modelin işletme amaçlarını gerçekleştirileceğine emin olunmalıdır.
- Yeterince incelenmemiş önemli işletme konuları varsa, bunların belirlenmesi ana amaç olmalıdır.
- Bu aşamanın sonunda veri madenciliği sonuçlarının kullanımı konusunda karar verilir.
Kullanıcılarla Paylaşım (Deployment)
- Modelin oluşturulmasıyla proje sona ermez.
- Kazanılan bilginin, son kullanıcının faydalanabileceği şekilde düzenlenmesi ve sunulması gerekir.
- İhtiyaçlara bağlı olarak, bu aşama basit bir rapor üretmek kadar kolay veya tekrarlanabilir bir veri madenciliği süreci uygulamak kadar karmaşık olabilir.
- Genellikle bu aşamayı veri analisti yerine müşteriler üstlenir.
Veri Madenciliği Projeleri
- Projeler, bir Excel çalışma tablosundaki küçük bir veri kümesinin modellenmesinden, yüz binlerce nesnenin birçok öznitelikle birlikte kullanıldığı büyük projelere kadar değişebilir.
- Projenin boyutlarına göre süreç de kısmen veya büyük ölçüde farklılaşır.
- Sürekli güncel tutulan bir veri ambarına sahip işletme ile ilk kez bu tür projelere adım atacak bir işletme arasında süreç, zaman ve maliyet açısından farklar olacaktır.
Veri Önişleme
- "Garbage In Garbage Out" (Çöp Girişi, Çöp Çıkışı) prensibi, veri analizinde kaliteli verinin önemini vurgular.
- Düşük kaliteli veri ile yapılacak analizlerin hatalı sonuçlar vermesi kaçınılmazdır.
- Ölçemediğini yönetemezsin ilkesi, veri kalitesinin önemini ifade eder.
Veri Büyüklüğü ve Karmaşıklığı
- Bilginin bir süreç sonucunda keşfedilebilir olduğu kabul edildiğinde, akıl ve bilincin algılayamayacağı büyüklükte ve karmaşıklıkta veri ile karşılaşılır.
- Veri toplama sürecinde, algılamada beynin kullandığı filtrelere benzer şekilde davranılır, ancak bu durumda toplanan veri yeterince zengin olmayabilir.
- Verinin büyük hacimlerde olması ve farklı heterojen kaynaklardan toplanması, parazitli, eksik ve tutarsız verilerin ortaya çıkmasında rol oynar.
Veri Kalitesi ve Kayıplar
- 2010 yılında yapılan bir araştırmaya göre, katılımcıların %36'sı veri kalitesi sorunları nedeniyle işletmelerin yılda 1 milyon dolardan fazla para kaybettiğini tahmin etmektedir.
- Doğru ölçülen, doğru kaydedilen ve veri analizi projesinde beklentileri karşılayan veri, kaliteli olarak kabul edilir.
Veri Kayıt Yöntemleri
- Veri kaydı makineler veya insanlar tarafından yapılır.
- Makinenin arızalı olması verinin doğruluğunu etkiler.
- İnsan hataları daha büyük sorunlara yol açabilir, çünkü makine hataları sistematik olurken, insan hataları tesadüfi olduğundan belirlenmesi ve ayıklanması daha zordur.
Veri Kalitesi Faktörleri
- Anlaşılabilirlik: Verinin kolayca anlaşılabilir olması.
- Değer Katabilirlik: Verinin kullanımı ile avantaj ve fayda sağlanabilmesi.
- Erişilebilirlik: Verinin doğru ve güvenilir olması.
- Güncellik: Verinin elde olması ve kolayca elde edilebilir olması.
- Güvenlik: Verinin eldeki iş için yeterince güncel olması.
- İnanılırlık: Verinin güvenliğinin sağlanabilmesi için veriye erişimin uygun bir şekilde kısıtlanmış olması.
- Nesnellik: Verinin doğru olduğunun tüm paydaşlar tarafından kabul görmesi.
- Özlü Gösterim: Verinin yansız, önyargısız ve tarafsız olması.
- Saygınlık: Verinin derli toplu gösterimi.
- Tamlık: Veri kaynağının ve içeriğinin saygın olması.
- Tutarlılık: Verinin eksik olmaması ve eldeki iş için yeterli olması.
- Uygunluk: Verinin eldeki işe uygulanabilir ve yardımcı olması.
- Veri Miktarının Uygunluğu: Verinin hacminin eldeki iş için yeterli olması.
- Yorumlanabilirlik: Verinin uygun dil, sembol ve birimlerde olması, tanımların açık olması.
Ölçme Hataları
- Ölçme işlemi sırasında ortaya çıkan hatalar iki kategoriye ayrılır: sistematik hata ve tesadüfi hata.
- Sistematik hata, ölçüm cihazının hatalı kalibre edilmesiyle ortaya çıkar.
- Tesadüfi hata, ölçüm sırasında tesadüfi olarak ölçümün bozulmasına neden olan etkenler sonucunda ortaya çıkar.
- Ölçüm için kullanılan diğer iki kavram doğruluk ve hassasiyettir.
İnsan Hataları ve Eksik Veri
- İnsan eliyle yapılan hatalı girişler, sınırlayıcı giriş kurallarıyla kısmen engellenebilir.
- Anket veya kredi kartı başvuru formları gibi araçlarla toplanan verilerin doğruluğu tartışmalıdır.
- Gizlenmiş eksik veri (doğum tarihi, gelir gibi bilgilerin boş bırakılması veya kasten yanlış cevaplanması) önemli bir sorundur.
Veri Kalitesini Etkileyen Faktörler
- Gerekli bazı özniteliklerin bulunmaması veya öznitelik değerlerinin sadece birleştirilmiş veriden oluşması veri kalitesini etkiler.
- Veri farklı dijital kaynaklardan toplandığı için, tek bir veri deposunda analizler için uygun hale getirilmesi gerekir.
- Veri ön işleme (data preprocessing) süreci, bilgi keşfi sürecinde toplam zamanın %40-%60'ını alabilir.
- Verinin kalitesinin artırılmaması veya sürdürülebilir olmaması, veri analizi ve veri madenciliği yöntemlerinin başarısız olmasına neden olur.
Veri Ön İşleme
- Veri ön işleme, veri analizi sürecinin hızla tamamlanabilmesi ve sonuçların kalitesinin artırılması amacıyla yapılan işlemlerdir.
- Veri entegrasyonu (data integration), veri temizleme (data cleaning), veri dönüştürme (data transformation) ve veri indirgeme (data reduction) işlemlerini kapsar.
Veri Entegrasyonu
- Verinin çeşitli kaynaklardan toplanması, seçilmesi ve entegre edilerek tek bir kaynakta bir araya getirilmesi işlemidir.
- Entegre sistemlerin kullanılması günümüzde önemli olsa da, yılların birikimiyle oluşan çeşitli iç ve dış veri tabanlarının bir araya getirilmesi ve veri ambarı (data warehouse) gibi veri depolarında saklanması, veri işlemenin en ağır işlemidir.
Veri Temizleme
- Verideki parazitlerin ortadan kaldırılması, eksik verinin tamamlanması ve tutarsızlıkların düzeltilmesi işlemidir.
- Sıra dışı değer (outlier) analizi de veri temizleme aşamasının önemli bir parçasıdır.
Veri Dönüştürme
- Normalleştirme (normalization), kesimlere ayırmak (discretization) / birleştirme (aggregation) gibi teknikler kullanılarak verinin modelleme aşamasında kullanılacak veri analizi modelleri / yöntemleri için hazırlanmasıdır.
Veri İndirgeme
- Öznitelik ve/veya nesne sayısının, örnekleme (sampling), faktör analizi, boyut indirgeme (dimension reduction) gibi çeşitli tekniklerle azaltılması ile veri hacminin küçültülmesi işlemidir.
Veri Ön İşleme Süreçleri
- Veri Entegrasyonu:
- Veri Konsolidasyonu
- ETL Süreci
- ELT Süreci
- Veri Yayınımı / Federasyonu
- Veri Temizleme:
- Veri Tutarsızlıklarının Saptanması
- Gramer İncelemesi
- Çifte Kayıtların Ayıklanması
- Veride Parazit Azaltımı (Veri Dilimlere Ayırma, Veri Perdahlama)
- Eksik Verilerin Tamamlanması
- Sıra Dışı Değer Analizi
- Veri Dönüştürme:
- Veri Normaleştirme
- Veri Standartizasyonu
- Sürekli Veri Dizisi Değerlerinin Kategorizasyonu
- Veri İndirgeme:
- Boyut Sayısının Azaltılması
- Öznitelik Alt Dizisinin Seçilmesi
- Faktör Analizi
- Örnekleme
Veri Entegrasyonu
- "Veri zengini, bilgi fakiri" ifadesi, veri analizlerinde sıkça dile getirilen bir durumdur.
- İşletmelerin çeşitli yazılımlar kullanarak elde ettiği veriyi düzen içinde tutamaması sorunlara yol açar.
- Bu nedenle, bir işletmenin farklı yazılımlar kullanarak zaman içinde ürettiği verinin bir bütün halinde sorgulanabilmesi önemlidir.
- Veri entegrasyonu, tek bir işletmenin farklı yazılımlarla sakladığı verinin bütünleştirilmesi olabileceği gibi, işletmelerin birleşmesi sonucu da ortaya çıkabilir.
İşletme Birleşmeleri ve Veri Entegrasyonu
- İşletmelerin birleşmesi sonucunda gerçekleşmesi gereken entegrasyon, birçok işletme birimi için büyük sorun oluştururken, en zorlu sorun bilgi ve iletişim teknolojileri biriminde yaşanır.
- Müşterilerin hesap işlemlerinin sürdüğü iki bankanın veritabanlarının birleştirilmesinin yol açacağı sorunlar, işin zorluğunu gösterir.
Veri Entegrasyonu Tanımı
- Veri entegrasyonu, farklı veri depolarında bulunan verinin tek bir veri deposunda toplanması veya fiziki olarak bir araya getirilmese de kullanıcıya bütün halinde sunulması için gerekli işlemlerin gerçekleştirilmesidir.
Yaklaşımlar
- Bilgi teknolojisinin farklılaşması ve gereksinimlerin çeşitli yaklaşımların geliştirilmesine neden olmuştur.
- Bu yaklaşımları veri konsolidasyonu (data consolidation), veri yayınımı (data propagation) ve veri federasyonu (data federation) olmak üzere üç ana başlık altında incelemek mümkündür.
Veri Konsolidasyonu
- Veri entegrasyonunda en fazla uygulanan çözümlerden biri, farklı veri kaynaklarında yer alan verinin fiziksel olarak bir veri ambarında bütünleştirilmesidir.
- Bu yaklaşımda en önemli sorun, sürecin zaman alması ve sürekli senkronizasyon yapılamaması nedeniyle veri ambarındaki verinin güncel tutulamamasıdır.
- İhtiyaçlara göre senkronizasyon işleminin haftalık, günlük hatta saatlik olarak yapılması gerekebilir.
- Süreci tasarlayan analistin, veri hacminin zaman içinde ne kadar büyüyeceğini tahmin etmesi ve tasarımlarını buna göre yapması önemlidir.
- Bazı sistemler, terabaytlarca veriyi işleyerek veri ambarlarını güncelleyebilir, bu da sürekli senkronizasyonu neredeyse imkansız hale getirir.
- Verinin tek bir fiziksel ortamda ve optimum bir şemaya uygun olarak saklanması, sorgu sürelerini büyük ölçüde kısaltır.
ETL Süreci
- Veri konsolidasyonunda kullanılan geleneksel yöntem ETL (Extraction, Transformation, Loading – Çıkartım, Dönüşüm, Yükleme) sürecidir.
- Bu süreçte, farklı veri kaynaklarında bulunan veri seçilerek bir araya getirilir, dönüştürülür ve belirlenen yapı dahilinde bir veri ambarına yüklenir.
Veri Kaynakları Arasındaki Tutarsızlık
- Veri kaynakları arasındaki veri tutarsızlığının giderilmesi önemlidir.
- Tutarsızlıklar / heterojen yapı dört ana başlıkta toplanabilir:
- Verinin farklı formatlarda bulunması (Syntactic Heterogenity)
- Verinin veri kaynaklarında farklı şema veya yapıda depolanması (schematic, structural heterogenity)
- Verinin veri kaynaklarında farklı anlam içermesi (semantic heterogenity)
- Verinin farklı işletim sistemi veya donanım platformlarının kullanıldığı veri kaynaklarında depolanması (system heterogenity)
ETL Sürecinin Olumlu Yanları
- Veri ambarı sunucusunda dönüşüm için işgücüne ihtiyaç duyulmaması.
- Üçüncü parti ETL araçları içinden seçim yapabilme olanağı.
- ETL sistemlerinin kaynak ve hedef sistemden bağımsız olması.
- Spesifik işlemlerin tekrar kullanılabilir bileşenlerle gerçekleştirilmesini sağlayan modüler ve yapısal ETL tasarımı.
- Veri deposunda yer alan her kaydın ayrı ayrı işlenmesi ile kuralların daha kolay uygulanabilmesi.
- ETL araçlarının grafik veri haritalama (data mapping) ve sisteme gömülü veri temizleme ve dönüştürme fonksiyonlarını içeren görsel entegre geliştirme ortamını (IDE – integrated development environment) desteklemesi.
- Çıkartım sürecinde sadece ilgili verinin işlenmesi nedeni ile gereksiz zaman kaybının önlenmesidir.
ETL Sürecinin Olumsuz Yanları
- ETL için ilave donanım yatırımının gerekmesi.
- ETL sistemi inşası için ilave maliyet veya ETL aracı lisanslama maliyeti.
- Satır temelli (row-based) yaklaşım nedeni ile düşün performans.
- ETL aracının uygulamaya geçirilebilmesi için özel yetenek ve öğrenme eğrisinin gerekliliği.
- ETL aracı geliştiricisine bağımlılık nedeni ile düşük esneklik.
- Verinin , veri ambarına erişinceye kadar bir fazla katmanda daha işlem görmesidir.
ELT Süreci
- ELT (Extraction, Loading, Transformation – Çıkartım, Yükleme, Dönüşüm) sürecinde ilk önce yükleme işlemi yapılır ve dönüşüm işlemi doğrudan veri ambarında gerçekleştirilir.
- Bilgisayarların işlemci güçlerinin artması, karmaşık dönüşümlerin veritabanlarında gerçekleştirilebilmesi ile ELT süreci popüler hale gelmiştir.
- ELT sürecinin yükleme aşamasını optimize etmek için sqlloader gibi veri depolama araçları kullanılmakta ve daha sonra verinin yığın dönüşümü için SQL’den yararlanılmaktadır.
ELT Mimarisi
- ELT mimarisi kullanılarak inşa edilen bir veri dönüştürme yazılımı, geleneksel ETL ile kıyaslandığında üstün performans ve ölçeklenebilirlik sunmaktadır.
ELT Sürecinin Olumlu Yanları
- Veritabanı teknolojisinin daha iyi performans göstermesinin sağlanması
- SQL kullanarak basit dönüştürme spesifikasyonları
- ETL için geliştirilen araçlardan faydalanabilme
- Verinin taşınmaması nedeni ile daha az ağ trafiğinin oluşması
- Çıkartım ve yükleme süreçlerinin veri dönüşümünden ayrılması nedeni ile sürecin daha yönetilebilir olmasının sağlanması
- Veri temizleme sürecinin, sadece kontrol edilmemiş veri için gerçekleştirilmesi
- Süreçlerin bağımsız olması nedeni ile ETL rutinlerindeki değişikliklerin daha az maliyet, zaman ve risk içermesidir.
ELT Sürecinin Olumsuz Yanları
- ELT süreci için yazılımların sınırlı olması
- Ayrıntılı run-time izleme istatistikilerinin kaybı
- Performans için küme temelli tasarım nedeni ile modülaritenin kaybolması
- BI raporlama performansını etkilecek şekilde veritabanı kaynaklarının dönüşüm amaçlı kullanılmasıdır.
Veri Yayınımı / Federasyonu
- Son yıllarda veri hacmindeki artış, işletmeleri ölçeklenebilir ve daha sağlam veri entegrasyonu stratejileri geliştirmeye zorlamaktadır.
- Klasik veri konsolidasyonu, giderek artan yükleme süreleri ve bu artış neden ile senkronizasyon sıklığının azaltılması gibi nedenlerle yetersiz kalmaya başlamıştır.
- Bu durumda, mevcut veri kaynaklarını bulunduğu kaynakta sorgulamaya odaklanılmıştır.
- Sanal veri tabanı olarak isimlendirilen bu yaklaşımda, farklı veri kaynaklarında yer alan verinin uyumlu olmaması ve geleneksel veri ön işleme tekniklerinin kullanılmasındaki sorunlar ortaya çıkar.
- Paketleyici (wrapper) farklı veri kaynakları ile sanal veritabanı arasında bağın kurulmasını ve dönüşüm işlemlerinin yapılmasını sağlamaktadır.
Veri Temizleme
- Kirli veri, yanıltıcı, doğru olmayan veya genel formata uymayan, imla veya noktalama hataları içeren, yanlış bir veri alanına girilmiş olan veya tekrarlayan (duplicate) veridir.
- Girdi maskeleri (input masks) veya geçerlilik kuralları (validation rules) kullanılarak kısmen engellenebilir.
- Bazı durumlarda, kirli veriyi bir veri tabanında tamamen yok edebilmek mümkün değildir.
- Örneğin, bir kullanıcı sahtekarlık amacı ile kasten gerçek gözüken yanıltıcı veya var olmayan personel verisi giriyorsa, yakalanabilmesi pek mümkün değildir.
Veri Temizleme Tanımı
- Veri temizleme, bir veri dizisinde, tablosunda veya herhangi bir veri deposunda bulunan hatalı veya bozuk kayıtların tespit edilmesi, düzeltilmesi veya ortadan kaldırılması işlemidir.
- Temizleme işleminden sonra veri dizisinin, sistemdeki diğer benzer veri dizileri ile tutarlı olması beklenir.
- Verinin temiz olması, veri analizine güvenin en temel anahtarlarından biridir.
- Veri analizini yapan kişilerin dürüstlüğü ayrı bir öneme sahiptir.
- Kirli veri ile yapılan analizler sonucunda doğru olmasa da bir takım sonuçlar elde edilebilir.
- Veri temizleme kavramı sadece kullanıcı giriş hataları veya otomatik veri toplama araçlarının hatalarını düzeltme işlemi ile sınırlı değildir.
- Veri tutarsızlıklarının saptanması, eksik verinin tamamlanması, parazitli verinin perdahlanması, sıra dışı değerlerin giderilmesi gibi geniş bir yelpazeyi barındırır.
Veri Temizleme Süreci
Veri temizleme sürecinin adımları:
- Veri tutarsızlıklarının saptanması.
- Hangi işlemlerin gerçekleştirileceğinin belirlendiği iş akışı tanımlanır (workflow specification)
- İş akışları icra edilerek sonuçların doğruluğu denetlenir.
Veri Tutarsızlıklarının Nedenleri
Veri tutarsızlıklarının başlıca nedenleri:
- Kötü tasarlanmış veri giriş formları
- Veri girişinde insan hataları
- Veri toplamada kullanılan cihazlardaki hatalar
- Kasıtlı olarak cevaplayıcının doğru cevabı vermemesi
- Güncelliğini kaybetmiş veri, yani çürümüş veri
Veri Tutarsızlıklarının Saptanması İçin Yapılması Gerekenler:
- Veri hakkında bilgilerin yer aldığı metadata'da iyi tanımlanmış olması
- Her bir özniteliğe ilişkin değerlerdeki tutarsızlıklar, aritmetik ortalama, medyan, mod, standart sapma, basıklık ve çarpıklık gibi betimleyici istatistik değerlerin hesaplanması
- Örnek: Kredi kartlarının tekil numaralara sahip olması gibi öznitelik değerleri söz konusu ise, tekrarlayan değerlerin bulunup bulunmadığı araştırılarak tutarsızlıklar giderilir.
Gramer İncelemesi (Parsing)
- Gramer incelemesi, bir karakter dizisi (string) içerisinde yer alan yazım hatalarının, kullanılan dilin geçerli gramer kurallarına göre analizidir.
Çifte Kayıtların Ayıklanması (Duplicate Elimination)
- Bir veritabanı içerisinde veya farklı veri tabanlarından entegrasyon sonrasında aynı nesne için birden fazla kayıt bulunabilir.
- İki kaydın tüm öznitelik değerlerinin aynı olması durumunda, çifte kayıtların ayıklanması kolaydır.
- Öznitelik değerlerinin bazılarının farklı olması durumunda (örneğin iki farklı adres veya telefon numarası), bu kayıtların ayıklanması için daha zorlu teknikler gerekecektir.
Veride Parazit Azaltımı
- Veri Dilimleme (Data Binning): Küçük gözlem hatalarının etkilerini azaltmada kullanılan bir veri önişleme tekniğidir.
- Dilim olarak isimlendirilen ve tanımlanan sınır değerler içerisinde yer alan orijinal veri değerleri, aritmetik ortalama, medyan gibi dilimin bir temsilcisi ile değiştirilir.
- Bu işlem sonucunda veri sayısının, belirli bir hassasiyet kaybı karşılığında önemli ölçüde azaltılması sağlanmaktadır.
- Veri Perdahhlama (Data Smoothing): Veri dizisinin parazitlerden arındırılabilmesi için, enterpolasyon (interpolation), ekstrapolasyon (extrapolation), regresyon analizi, eğri uydurma (curve fitting) gibi tekniklerin kullanıldığı bir yakınsama fonksiyonunun oluşturulmasıdır.
- Veri perahlamada en temel algoritmalardan biri hareketli ortalamadır (moving average).
- Hareketli ortalamalar, özellikle istatistikte zaman serisi verisinde kısa dönemli dalgalanlamaları yumuşatmak ve uzun dönemli eğilimleri vurgulamak için kullanılır.
Veri Perdahlamada Eğri Uydurma (Curve Fitting)
- Veri perdahlamada eğri uydurma yoğun kullanım olanağı bulan tekniklerden bir diğeridir.
- Veri serilerine üstel (exponential), lineer, polinom gibi farklı fonksiyonlar uygulanabilir.
- Kalman, Savitzky-Golay, Kolmogorov-Zurbenko gibi çok çeşitli perdahlama ve filtreleme teknikleri kullanılır.
Eksik Verinin Tamamlanması
- Eksik veri veya değer (missing data / value), bir veya daha fazla gözlem / öznitelik değerinin, sistematik olmayan bir veri giriş hatası veya cevap vericinin özellikle cevap vermemesi gibi nedenlerle veri dizisinde eksik kalmasıdır.
- Örneğin, gelir ile öğrenim durumu arasındaki ilişkinin araştırıldığı bir çalışmada, bazı gözlemlerde gelir değerlerinin eksik olması, elde edilecek sonuçların güvenilirliğinin tartışmalı hale getirecektir.
- Eksik veri, ana kütleyi temsil eden örneğin temsil yeteneğini azaltacak ve ana kütle hakkındaki çıkarımların doğruluğuna zarar verecektir.
- Veri toplama aşamasına geçilmeden önce, eksik veriden nasıl kaçınılacağının net bir şekilde planlanması gerekmektedir.
Eksik Veriye Yol Açan Nedenler
- Hatalı veya eksik tasarım.
- Cevaplayıcının kişisel özellikleri.
- Ölçüm araçlarının özellikleri.
- Veri toplama ortamlarındaki olumsuzluklar.
- Veri yönetimin başarısızlığı.
Hatalı veya Eksik Tasarımdan Kaynaklanan Eksik Veri
- Eksik verinin bir nedeni araştırma tasarımında yapılan hatalardır:
- Yanlılık (bias): Ön yargılı davranma, taraf tutma.
- Seçme yanlılığı (selection bias).
- Değerlendirme yanlılığı (evaluation bias).
- Yayın yanlılığı (publication bias).
- Hatırlama Yanlılığı (recall bias).
- Uygun Örnekleme Yöntemi Seçememek.
- Yeterli Sayıda Denek Üzerinde Çalışmamak.
- Araştırmayı Standart Koşullarda Yürütememek.
- Yanlılık (bias): Ön yargılı davranma, taraf tutma.
Cevaplayıcının Kişisel Özelliklerinden Kaynaklanan Eksik Veri
- Cevaplayıcının soruyu yetersiz bilgi birikimi nedeni ile algılayamaması, ilk aklan gelen eksik veri nedenidir.
- Diğer taraftan cevaplayıcı soruyu cevaplamayabilir.
Ölçüm Aracının Özelliklerinden Kaynaklanan Eksik Veri
- Ölçüm araçlarından kaynaklanan eksik veri, ölçüm cihazının hatalı çalışmasından veya bu ölçüm aracını kullanan kişi veya kişilerin yetersizliğinden kaynaklanabilir.
Veri Yönetiminden Kaynaklanan Eksik Veri
- Zayıf veri yönetimi sonucunda veri depolama araçlarının tamamen veya kısmen bozulması ile ham verinin kaybedilmesi söz konusu olabilir.
- Benzeri şekilde ilgili yazılımların kullanılması sırasında kullanıcı kaynaklı hatalar sonucunda da veri kaybı mümkündür.
Eksik Verinin Giderilmesi Süreci
- Eksik veri örüntüsünün betimlenmesi.
- Eksik verinin tesadüfilik düzeyinin belirlenmesi.
- Eksik verinin giderilmesi.
Eksik Veri Örüntüsünün Betimlenmesi
- Bu süreçte birinci aşama eksik verinin nedenlerinin tespit edilmesi ve hangi özniteliklerde veya gözlemlerde eksik verinin yoğunlaştığını gösteren eksik veri örüntüsünün betimlenmesi olacaktır.
- Eksik verinin tüm veri dizisi göz önüne alındığında oransal olarak büyüklükleri, gelir, sahip olunan otomobil markası ve modeli gibi özniteliklerin aynı gözlemde eksik görülme sıklığı gibi sorunların bu aşamada cevaplandırılması gerekmektedir.
- Eksik verileri eksik olmayan siyah ve eksik verileri beyaz renkte grafik üzerine plot ettiğimizde eksik verilerin nerelerde yoğunlaştığı görülmektedir.
Eksik Verinin Tesadüfilik Düzeyinin Belirlenmesi
- Geliştirilen yöntemlerin büyük ölçüde kullanımı, eksik verinin tesadüfilik düzeyine bağlıdır.
- Bu nedenle eksik verinin tesadüfilik düzeyinin bir takım istatistik testlerle belirlenmesi sürecin ikinci aşamasını oluşturmaktadır.
- Bu aşamada analizi gerçekleştirmek üzere aritmetik ortalama, standart sapma, kovaryans, korelasyon gibi değerler de hesaplanır.
Eksik Verinin Sınıflandırılması
- Eksik verinin tesadüfilik düzeyinin belirlenmesinde kullanılan en yaygın sınıflandırma yöntemleri üç gruba ayrılmıştır:
- Tamamen Tesadüfi Eksiklik (Missing Completely at random MCAR).
- Tesadüfi Eksiklik (Missing at Random MAR).
- Tesadüfi Olmayan Eksiklik (Missing at Random MNAR).
Tamamen Tesadüfi Eksiklik (MCAR)
- Bir gözlemde bir özniteliğe ilişkin bir verinin eksik bulunma olasılığı, bu değerin kendinden kaynaklanmıyorsa veya başka bir özniteliğin değeri ile ilişkili değilse, bu durum tamamen tesadüfi eksiklik (MCAR) olarak sınıflandırılır.
- Cevaplayıcı bu soruyu cevaplamayı tesadüfi olarak atlamış ise veya eksik veri, ölçüm cihazlarındaki hatadan veya veri girişi yapan elemanın hatasından kaynaklanıyorsa, bu durum tamamen tesadüfi eksiklik olarak sınıflandırılacaktır.
Tesadüfi Eksiklik (MAR)
- Bir gözlemde bir özniteliğe ilişkin bir verinin eksik bulunma olasılığı, bu değerin kendinden kaynaklanmıyorsa, ancak başka bir özniteliğin değeri ile ilişkili ise, bu durum tesadüfi eksiklik olarak (MAR) sınıflandırılır.
- Cevaplayıcıların cinsiyet ve gelirlerinin öznitelikler arasında yer aldığı bir çalışmada, erkeklerin daha yüksek sayıda gelir verisini eksik bırakmaksı, cinsiyet faktörüne bağlanacaktır.
Tesadüfi Olmayan Eksiklik (MNAR)
- MCAR veya MAR olarak sınıflandırılmadığı takdirde, veri tesadüfi olmayan eksiklik sınıfında MNAR yer alacaktır.
- Örneğin, zihin sağlığı üzerine yapılan bir araştırmada, depresyon teşhisi konulmuş kişiler, zihni durumlarını daha az açıklamaya meyilli olacaklarından veri MNAR sınıfında yer alacaktır.
- Ana kütleyi temsil ettiği öngörülen eldeki mevcut verinin veya örnek kütlenin zihni durum skorunun aritmetik ortalaması ile ana kütleden veya tüm veriden elde edilen aritmetik ortalama arasında temsil sapması söz konusu olacaktır.
Eksik Verinin Sınıflandırılmasındaki Amaç
- Eksik verinin sınıflandırılmasındaki amaç, silme veya atama yöntemleri kullanıldığında ortaya çıkacak olan temsil sapmasının gözlem altında tutulabilmesidir.
- MCAR olarak belirlenen veri dizisine ilgili yöntemler uygulandığında herhangi bir temsil sapması olmayacağı, MAR olarak belirlenen veri dizisinde ihmal edilebilir düzeyde olabileceği, MNAR da ise önemli düzeyde olacağı öngörülür.
- MNAR olarak sınıflandırıldığında parametrelerin temsil sapmasına uğramamış tahmini elde edebilmek için tek yol eksikliğin modellenmesi olacaktır.
Tesadüfi Sınıfının Belirlenmesi
- Bir veri dizisinde yer alan eksik verinin hangi tesadüfilik sınıfında yer aldığını belirleyebilmek için geliştirilmiş ve yine üç grupta toplanabilecek testler bulunmaktadır.
- Birinci yöntemde gözlemler Y değişken değerleri eksik ve eksik olmayan olmak üzere iki gruba ayrılır ve iki grup arasında anlamlı bir farklılık olup olmadığı istatistik t testleri kullanılarak sorgulanır.
- İkinci yöntemde, değişkenlerin her bir çifti için eksik verinin korelasyonunu değerlendirmek üzere ikili (dichotomized) korelasyonları kullanır.
- Üçüncü yöntemde, tüm değişkenler üzerinde eksik verinin örüntüsünün analiz edilmesini ve tesadüfi eksik veri süreci için beklenen örüntü ile kıyaslanmasını sağlar.
Eksik Verinin Giderilmesi
- Eksik verinin giderilmesi için birçok farklı yöntem bulunmaktadır.
- Bunlar;
- Silme Yöntemleri
- Tekli Atama Yöntemleri
- Model Temelli Yöntemleri
- olarak üç ana grupta incelenebilir.
Silme Yöntemleri
- Silme yöntemleri içerisinde eksik verinin giderilmesinde kullanılan başlıca yöntemler:
- Tam Gözlem Yöntemi (Complete Case Method)
- Mevcut Gözlem Yöntemi (Available Case Method)
- Mevcut Öğe Yöntemi (Available Item Method)
- Bireysel Büyüme Eğrisi Analizi (Individual Growth Curve Analysis)
- Çok Örnekli Analiz (Multisample Analysis)
Tam Gözlem Yöntemi (Complete Case Method)
- Veri dizisinde eksik veri bulunması durumunda uygulanacak en basit çözüm, eksik verinin bulunduğu gözlemleri veri dizisinden silmektir.
- Bu işlem liste temelli silme (listwise deletion) olarak adlandırılır.
- Liste temelli silme işleminde eksik verinin fazla olması durumunda ciddi veri kayıpları gerçekleşecektir.
Mevcut Gözlem Yöntemi (Available Case Method)
- Bu yönteme pairwise deletion olarak da bilinen ve lineer regresyon, faktör analizi gibi birçok modelde kullanılan bir yöntemdir.
- Lineer regresyon, örneğin aritmetik ortalaması ve kovaryans matrisi veya aritmetik ortalama, standart sapma ve korelasyon matrisi kullanılarak tahmin edilebilir.
- Mevcut gözlem yöntemindeki ana fikir, benzer şekilde mevcut tüm gözlemler kullanılarak bu özet istatistiklerin hesaplanmasıdır.
- Örneğin X ve Z değişkenleri arasındaki kovaryansı hesaplamak için X ve Z değişkenlerine ilişkin eldeki mevcut tüm veri kullanılır ve hesaplanan özet ölçüleri ile ilgili parametrelerin hesaplanmasına çalışılır.
Tekli Atama Yöntemleri (Single Imputation)
- Veri dizisinin belirlenen bir özniteliğe göre küme analizi, diskriminanz analizi gibi bir yöntemle gruplandırılmasından sonra, her grupta bulunan eksik verinin, her grubun aritmetik ortalaması veya medyan değeri ile tamamlanmasıdır.
- Bir diğer yöntem ise eksik verinin bulunduğu gözlemde, eksik verinin aynı gözlemdeki diğer öznitelik değerlerinden faydalanılarak regresyon analizi, karar ağacı yöntemleri veya Bayes temelli yöntemlerle tamamlanmasıdır.
Tekli Atama Yöntemleri (Single Imputation) Örnekleri
- Eksik verinin tamamlanmasında "olsa olsa" yaklaşımı veri seti içinde yer alan kayıtlardan tamamen rastlantı
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.