hafta6statistikseldilmodelleme_8a5959c79e86e8d6b022475140ee789c_.pdf
Document Details

Uploaded by RetractableParrot
Yıldız Technical University
Tags
Related
Full Transcript
Dr.Öğr. Üyesi Şengül BAYRAK HAYTA ▪ Dil tanıma, dili bilinmeyen bir dokümanın, dilbilimsel özellikler ve algoritmalar kullanılarak tayin edilmesi işlemidir. ▪ İstatistiksel dil tanıma, yakınlıklara veya benzerliklere dayalı olarak yapıldığından olabilmektedir. doküman sınıflandırmada bazen hatalar ▪...
Dr.Öğr. Üyesi Şengül BAYRAK HAYTA ▪ Dil tanıma, dili bilinmeyen bir dokümanın, dilbilimsel özellikler ve algoritmalar kullanılarak tayin edilmesi işlemidir. ▪ İstatistiksel dil tanıma, yakınlıklara veya benzerliklere dayalı olarak yapıldığından olabilmektedir. doküman sınıflandırmada bazen hatalar ▪ Örneğin, aslında Almanca olan bir metin Hollanda dilinde gibi sınıflanabilmektedir. 2 3 ▪ Konuşma tanıma (speech recognition) ▪ El yazısı tanıma (Handwriting recognition) ▪ İmla hatası düzeltme (Spelling correction) ▪ Makine çeviri sistemleri (Machine translaton systems) ▪ Optik karakter tanıma (Optical character recognizers) 4 EL YAZISI TANIMA(HANDWRITING RECOGNITION) 5 İMLA HATASI DÜZELTME (SPELLING CORRECTION) 6 HARF TABANLI DİL MODELLEME(LETTER BASED MODELLING) 1940 yıllarından beri doğal dillerin biçimsel ve karakteristik özellikleri incelenir. Bilgi alma etki alanında vektör uzayı modeli ve olasılıksal model gibi başarılı modeller bulunmakla birlikte, dil tanıma modelleri daha çok konuşma tanıma etki alanından alınmıştır (Salton ve McGill, 1983)(Robertson ve Sparck, 1976). Dil tanımada kullanılan birçok istatistiksel model önce konuşma tanıma konusuna uygulanmıştır. Shannon (Shannon, 1948) tarafından geliştirilen kelime ve harf dizileri kullanımı bunlara bir örnektir. Shannon, İngilizce dilini araştırmış, dilin düzensizliğini ve tahmin edilebilirliğini araştırmıştır. 7 HARF TABANLI DİL MODELLEME(LETTER BASED MODELLING) 8 HARF TABANLI DİL MODELLEME(LETTER BASED MODELLING) 9 HARF TABANLI DİL MODELLEME(LETTER BASED MODELLING) 10 HARF TABANLI DİL MODELLEME(LETTER BASED MODELLING) 11 HARF TABANLI DİL MODELLEME(LETTER BASED MODELLING) Aynı zamanda n-gram modelleri ve Hidden Markov Modeli (HMM) sıklıkla dil tanımada kullanılmıştır. Geliştirilen dil modelleri bilgi alma etki alanında da kullanılmıştır. Sorgu sonuçlarının iyileştirilmesi bilgi almada dil modellerinin kullanımına bir örnektir. Zipf (Zipf, 1949) tüm istatistiksel yöntemlere uygulanabilecek bir yöntem önermiştir. Bilgisayar teknolojisinin hızla gelişmesiyle birlikte daha fazla bilgi toplanmış ve Zipf ile Shannon araştırmaları kullanılarak yeni teknolojiler geliştirilmiştir. Böylece dil tanıma, bilgi şifreleme işlemleri, optik karakter tanıma(OCR), konuşma tanıma, yazı doğrulama işlemlerinde kullanılmıştır. 12 HARF TABANLI DİL MODELLEME(LETTER BASED MODELLING) Bir derlem üzerinde yapılacak ilk işlem, kelimeleri, kelime sayılarını ve kelime tiplerini bulmaktır. ▪ Bir derlem için common words (sık kullanılan kelimeleri) bulmadır. 13 HARF TABANLI DİL MODELLEME(LETTER BASED MODELLING) Kelime sayıları konusunda bir başka önemli konu frekansların frekansının bulunmasıdır. Örneğin, derlemde 1 kez geçen yani frekansı 1 olan kelimelerin frekansı, frekansı 2 olanların frekansı v.s. bulunur. Bu dağılımlar derlem hakkında bilgi vericidir. 14 N-GRAM Verilen bir dizgide tekrar oranını bulmaya yarayan yöntemdir. İsmi n ve gram kelimelerinin birleşiminden oluşmaktadır. n: tekrarın kontrol edildiği değerdir. gram: bu tekrarın dizilim içerisindeki ağrılığını ifade etmek için kullanılmıştır. Modellediğimiz probleme göre, konuşma metni veya yazılı metin içerisindeki kelime, hece, ya da harf olarak seçilebilmektedir. 15 HARF TABANLI DİL MODELLEME(LETTER BASED MODELLING) 16 HARF TABANLI DİL MODELLEME(LETTER BASED MODELLING) 17 HARF TABANLI DİL MODELLEME(LETTER BASED MODELLING) 18 HARF TABANLI DİL MODELLEME(LETTER BASED MODELLING) 19 ZİPF YASASI Dilbilimde bu yasaya göre herhangi bir yazılı metinde geçen sözcükler en sık kullanılandan en seyrek kullanılana doğru sıralandığında, elde edilen sıralama listesindeki her bir sözcüğün sıra numarası ile o sözcüğün metin içerisinde geçme sıklığı çarpımı her zaman sabit bir sayıyı vermektedir. 20 ZİPF YASASI 21 ZİPF YASASI Zipf Yasası’na göre, N sayıda sözcük bulunan bir metinde, K sıra numarasına sahip sözcüklerin dağılım fonksiyonu f(K,s,N) aşağıdaki gibidir. 1 𝑠 𝑓 = 𝐾, 𝑠, 𝑁 𝑁 𝐾 σ𝑛=1 1Τ𝑛 𝑠 𝑁 sözcüklerin sayısını, 𝐾 sözcüklerin sırasını, 𝑠 sözcüklerin dağılımını karakterize eden üssel değeri temsil etmektedir. 22 Eğer biz her bir kelimenin derlemde hangi sıklıkta geçtiğini sayar ve daha sonra bunun kaçıncı sırada olduğunu elde edersek; biz kelimenin frekansı ile sırası arasındaki ilişkiyi bulabiliriz. Kelimenin frekansı f, pozisyonu ise rank anlamında r olmak üzere; Zipf’ kuralı f ile 1/r’ nin doğru orantılı olduğunu ve f.r çarpımının sabit olduğunu iddia eder. En fazla sıklıkla kullanılan sözcük, ikinci sırada sıklıkla kullanılan sözcükten 2 misli daha fazla, üçüncü sıradaki sözcükten 3 misli daha fazla kullanılmaktadır. 23 «f.r» çarpımı doğal diller için faydalı bir dağılımdır. Bu dağılım sayesinde genel kelimelerin elenmesi mümkün olacaktır. Çünkü genel kelimeler ya rank değeri küçük ya da frekansı küçük olan değerler sunarlar. Ortalardaki rank değerleri ve ortalardaki frekans değerleri de orta değerlerdir ve doğal dil çalışırken ortalar ile çalışmak uygun olandır. 24 ÖRNEK: Zipf Yasası’na uygulanan MRG raporlarına ait en sık kullanılan sözcükten en seyrek kullanılan sözcüğe doğru yapılan sözcük sıralaması hesaplanmak istenmektedir. 25 ▪ Şekilde görüldüğü gibi baştaki sıralamadaki sözcüklerin sıklığı diğerlerine göre çok daha fazla sıklıkta geçtiği gözlemlenmekte, diğer tüm sözcükler gittikçe azalan sayılarda gözlemlenmektedir. ▪ 122 bireye ait MRG rapor verisinde geçen sözcükler sıralandığında 789 sözcükten oluşan bir epilepsi sözlüğü elde edilmiştir ve bu sözlükte hazırlanan tüm metinlerde, en sık kullanılan sözcüğün 1101 defa geçtiği görülmüştür. 26 KELİME TABANLI DİL MODELLERİ 27 KELİME TABANLI DİL MODELLERİ 28 KELİME TABANLI DİL MODELLERİ 29 MARKOV YAKLAŞIMI VE BASİT N-GRAM 30 MARKOV YAKLAŞIMI VE BASİT N-GRAM 31 BIGRAM GRAMER DEĞERLERİ 32 ÖRNEK BİR CÜMLENİN OLASILIĞININ HESAPLANMASI 33 N-GRAMS SONUÇLARI 34 YUMUŞATMA TEKNİKLERİ 35 DİĞER YUMUŞATMA TEKNİKLERİ – GOOD TURING 36 WORD2VEC 37 KELİMELERİN KODLANMASI 38 WORD2VEC 39 KELİME DAĞARCIĞI OLUŞTURMA 40 ▪ Kelimelerin doküman içindeki frekansı ile dokümanlar arasındaki frekansının ölçülmesidir. 41 TF-IDF hesabı: TF hesabı: IDF hesabı: 42