Hafta 2 Dilbilim Esasları ve Dil Modelleri PDF
Document Details
Uploaded by RetractableParrot
Yıldız Technical University
Dr. Öğr.Üyesi Şengül Bayrak Hayta
Tags
Summary
Bu belge, dilbilim esasları ve doğal dil işlemenin temelleri hakkında bir sunum/ders notu. Morfoloji, sentaks, semantik ve dilbilimsel kavramları ele alıyor. Ayrıca, doğal dil işlemede kullanılan bazı yöntemler ve yaklaşımları tanıtıyor.
Full Transcript
Dilbilimin Esasları ve Doğal Dil İşlemenin Temelleri Dr. Öğr.Üyesi Şengül Bayrak Hayta Dilbilim (Linguistic) Dilbilimin amacı; dilbilimsel özelliklerin açıklanması ve karakterize edilmesidir. Dilin bileşenleri şunlardır: Diyalog (sözlü dil kullanımı) Yazım (yazılı dil kullanımı) Kurallar (gramer) Ko...
Dilbilimin Esasları ve Doğal Dil İşlemenin Temelleri Dr. Öğr.Üyesi Şengül Bayrak Hayta Dilbilim (Linguistic) Dilbilimin amacı; dilbilimsel özelliklerin açıklanması ve karakterize edilmesidir. Dilin bileşenleri şunlardır: Diyalog (sözlü dil kullanımı) Yazım (yazılı dil kullanımı) Kurallar (gramer) Konuyla ilgili sorular şunlardır: İnsanlar dili nasıl kazanır, nasıl üretir ve nasıl kullanır? Dilbilimsel söyleyişler ve arasındaki ilişkiler nelerdir? Dil iletişimlerinde kullanılan dilbilimsel yapılar nasıl anlaşılır? 2 Dil Nedir? 3 Dil Nedir? 4 Gramer 5 Gramer Gramerin amacı cümle oluşturma için formüller ortaya koymaktır. Bununla birlikte; Serbest metinlerin kesin ve tam olarak formüllere bağlanabilmesi mümkün değildir. Ayrıca kelimeler her zaman yalın halleriyle kullanılmazlar. 6 Doğal Dil İşlemede Bilginin Düzeyleri 7 DDİ’de Yaklaşım Modelleri 8 Alternatif yaklaşım Metinlerin gramere dayalı olarak anlaşılmasına ek olarak “kullanılan dilde sıklıkla meydana gelen örüntülerin elde edilmesi” bir diğer yaklaşımdır. Yaklaşım istatistiksel bir hal alır. Bu yaklaşımın adı İstatistiksel Doğal Dil İşlemedir. 9 Dilin öğrenilmesi konusundaki teoriler Rasyonalist yaklaşım Deneyime dayalı yaklaşım 10 Rasyonalist yaklaşım 1960-1985 yılları arası yapılan çalışmaları kapsar Dilbilim, psikoloji, yapay zekâ ve doğal dil işleme teknikleri yaygın olarak kullanılmıştır. “İnsan beynindeki bilginin önemli bir kısmının duyularla değil de genetik kalıtım ile sabit olarak bulunduğu inancı” ile karakterize edilebilir. Dilbilim içinde rasyonalist yaklaşım; Noam Chomsky’nin ana dil konusundaki argümanlarının yaygın şekilde kabulü ile baskın bir hal almıştır. 11 Uyaranların Azlığı – rasyonalist yaklaşımın anti tezi Rasyonalist yaklaşım; “dilin ana parçaları çocuğun genetik yapısı ile birlikte yazılı gelmektedir” der. Bununla birlikte; “Çocukların doğal dil gibi karmaşık bir olguyu o yaşta limitli bilgileri ile nasıl öğrenebildikleri anlaşılır değildir” 12 Deneyime dayalı yaklaşım 1920-1960 ve 1985 – halen baskın olan yaklaşım deneyime dayalı yaklaşımdır. Bu yaklaşım beynin bilişsel yeteneklerinin var olduğu kabulüne dayanır. Fakat; “Beynin çeşitli dil bileşenleri ve diğer bilişsel alanlar için detaylı prensip ve prosedürlerle işe başlayabilmesi zordur. Yani beyin sıfırdan dil öğrenme yeteneklerine bilişsel yetenekleri ile kavuşamaz.” 13 Üretici dilbilim Chomsky ve diğerleri insan beynindeki dil modelini iki şeyle açıklarlar: dilin yeterliliği (linguistic competence) ve dilin performansı (Linguistic performance). Dilin yeterliliği: bir doğal konuşmacının (anadili o dil olan kişi) zihninde oluşanların sözlü olarak nasıl sunulacağına dair dil yapısını yansıtır. Dilin performansı: kişilerin dili kullanma becerilerini yansıtır. Eğitim, zeka ve başka faktörler dili kullanımı etkiler. Kişilerin dili kullanma becerisi dil performansıdır. Dolayısıyla dilin yeterli olması o dilin zenginliği, dilin performansı ise onu kullanan kişilerin ne kadar iyi kullandığı ile ilgilidir. 14 Sesbilgisi (Fonetik) 15 Sesbilgisi (Fonetik) Alfabesi 16 Ses Bilim (Fonoloji) 17 Konuşma parçaları (parts of speech) ve morfoloji (morphology) 18 Konuşma parçaları (parts of speech) ve morfoloji (morphology) Morfoloji: Morfemler dilin anlamlı en küçük birimleridir. Morfoloji ise bu birimleri inceleyen alandır. Bütün kelimeler hatta bütün hecelerin anlamlı birimler olması zorunlu değildir. Morfoloji kelimelerin veya hecelerin morfemlerinin ne olduğunu bulmak için keşfetme prosedürünü uygular. Sentaks: Sentaks cümle yapısını araştırmaya odaklanır. Geniş anlamda gramerin bir bölümüdür. Semantik: Dilbilimsel semantik dilbilimsel işaretlerin ve işaretler dizisinin anlamını inceler. Lexicon: Eklerle birlikte bir alana özel kelimelerin tutulduğu sözlüktür. 19 Konuşma parçaları (parts of speech) ve morfoloji (morphology) 20 Sentaks (Sözdizim) 21 Sentaks (Sözdizim) 22 Sentaks (Sözdizim) 23 Sentaks (Sözdizim) 24 Semantik (Anlambilimsel) 25 Semantik (Anlambilimsel) 26 Semantik (Anlambilimsel) 27 Semantik (Anlambilimsel) 28 Semantik (Anlambilimsel) 29 Semantik (Anlambilimsel) 30 Semantik (Anlambilimsel) 31 Semantik (Anlambilimsel) 32 Semantik (Anlambilimsel) 33 Semantik (Anlambilimsel) 34 Semantik (Anlambilimsel) 35 Semantik (Anlambilimsel) 36 Semantik (Anlambilimsel) 37 Semantik (Anlambilimsel) 38 Semantik (Anlambilimsel) 39 Semantik (Anlambilimsel) 40 Semantik (Anlambilimsel) 41 Semantik (Anlambilimsel) 42 Sözcükbirim 43 İngilizce’de Sözcükbirim Nasıldır? 44 Sözcükbirim 45 Biçimbirim (Morpheme) 46 Biçimbirim (Morpheme) 47 Biçimbirim (Morpheme) 48 Biçimbirim (Morpheme) 49 İngilizce’de Biçimbirim (Morpheme) 50 Biçimbirim (Morpheme) 51 Biçimbirim (Morpheme) 52 Biçimbirim (Morpheme) 53 Biçimbirim Türleri Nelerdir? 1. Bağımlı Biçimbirim ve Bağımsız Biçimbirim 2. Sıfır Biçimcik 3. Portmanto Biçimcik 4. Tekçil Biçimcik 54 55 Bağımlı biçimbirim ve bağımsız biçimbirim 56 Sıfır biçimcik 57 Portmanto biçimcik 58 Tekçil biçimcik 59 Biçimbilim Analizinin Temel Görevleri nelerdir? 60 Biçimbilim Analizinin Temel Görevleri nelerdir? 61 Parts of Speech (POS) Sentaktik veya gramere dayalı kategorilere POS adı verilir. Bunlar temel olarak üçe ayrılır. Nouns (isimler): kişiler, hayvanlar, kavramlar veya nesneleri isimlendirmede kullanılırlar. Verbs (fiiller): bir cümledeki aksiyonu sunarlar. Adjectives (sıfatlar): isimleri açıklamada kullanılırlar. Kelime Sınıfları Açık veya sözlüksel kategoriler İsimler, fiiller, sıfatlar İsim, sıfat, fiil birliktelikleri Yeni üretilen kelimeler Kapalı veya fonksiyonel kelimeler Edatlar, tanımlayıcılar, bazı zamirler Of, at, on, the, a gibi kelimeler 62 Phrase Structure Phrase (Sözcük öbeği): bir sözcük öbeği, kelimelerin herhangi bir grubunu ifade etmede kullanılır. Birden fazla kelimenin tek bir anlamı ifade edecek şekilde gruplanmasıdır. Bir sözcük öbeği gramer hiyerarşisi açısından bir cümlecik (clause)’dan daha azını ifade eder. Phrase Structure (Sözcük öbeği yapısı): Bir sözcük öbeği oluşturulurken o sözcük öbeğini oluşturan kelimelerin sırası önemlidir. Sözcük öbeği yapısı bununla ilgilenir. Sözcük öbeği oluştururken bu işlemi sözdizimi kurallarına göre yaparız. 63 Phrase structure 64 İsim öbekleri (Noun Phrases -NP) Bir isim cümleciği, öznesi bir isim veya bir zamir olan bir cümledir. Genellikle bir tanımlık (the, a etc) ile birlikte kullanılır. Cümlelerin kurucu unsurudur. İşi yapan elemandır. İsim cümlecikleri genellikle fiili yapan veya fiilden etkilenendir. İsim cümlecikleri normalde; Seçimlik bir tanımlayıcı (a, the, an, this, etc.) Sıfır veya daha fazla sayıda sıfat cümleciği Bir isim başlığı Ve belki bazı modifiers (düzenleyiciler) prepositional phrases veya relative clauses içerir. 65 Edat öbekleri (Prepositional Phrases - PP) Edat cümlecikleri bir edat ile başlar ve ondan sonra bazen bir isim, bazen bir zamir, bazen bir fiilimsi ile devam eder. Fiil cümleciklerinde, genellikle zamansal ve mekânsal özellikleri sunarlar. Örnekler At home At = preposition; home = noun. In time In = preposition; time = noun. From Richie From = preposition; Richie = noun. With me With = preposition; me = pronoun. 66 Fiil öbekleri (Verb Phrases - VP) Cümlenin en önemli unsuru fiildir. fiil cümleciği sentaktik olarak fiile bağlı bütün elemanları organize eder. Fiil cümlecikleri subject noun phrase içermez. Örnekler Getting to school on time was a struggle. He was trying to keep his temper. That woman quickly showed me the way to hide. 67 Sıfat öbekleri (Adjective Phrases-AP) Karmaşık adjective phrases nispeten nadir bulunur Bazı örnekler: She is very sure of herself. He seemed to be a man who was quite certain to succeed. 68 İstatistiksel Doğal Dil İşleme Amacı dilbilimsel olaylar için olasılıklar atamaktır. Dilbilimsel olaylar alışılmış (usual) ve sıra dışı (unusual) olarak anılır. Dilbilimsel öğeler arasındaki birliktelikler ve dil kullanımında sıklıkla meydana gelen tercihlerin tanımları ile ilgilidir. 69 Cevaplanması gereken sorular 1. İnsanlar ne söyler? 2. Bu söylenen şeyler dünya hakkında ne söyler/ ne sorar / ne ister? Derlem içerisindeki örüntüler dilin sentaktik yapısı sayesinde kolayca bulunabilir ve böylece, istatistiksel doğal dil işleme prensip olarak ilk sorunun cevabı ile uğraşır. Üretici dilbilimciler metnin içeriği ile uğraşmak yerine metni soyutlayarak, dilin altındaki gramer yapısını açıklamaya çalışırlar. İnsanların akıllarında hangi kalıcı yapılar var, bu aranır. 70 Dilbilgisellik Dilbilgisellik kavramı bir cümlenin iyi formda olması anlamında bir kavramdır. İnsanların, varlıklar hakkında ne söyleyip söylemediği ile ilgili değildir. Semantik anlam ile de ilgili değildir. Colorless green ideas sleep furiously. (renksiz yeşil fikirler öfkeyle uyurlar) 71 Disambiguation (muğlaklık) Muğlaklık bir kelime veya bir cümlenin birden fazla anlama gelmesi olup bir NLP sistemi başarılı şekilde bir kelimenin veya cümlenin doğru anlamını bulmayı sağlar. Muğlaklık giderme için; kelime anlamı, kelime kategorisi, sentaktik yapı ve semantik kapsam gibi konulardan yardım alır. Elle kodlanmış sentaktik kısıtlar ve tercih kuralları zaman alıcıdır. 72 İlk işlem (kelime sayıları) Bir derlem üzerinde yapılacak ilk işlem, kelimeleri, kelime sayılarını ve kelime tiplerini bulmaktır. Bu çalışmanın birincil çıktısı derlem için common words (sık kullanılan kelimeleri) bulmadır. 73 Kelime sayıları (word count) 74 Frekansların frekansı Kelime sayıları konusunda bir başka önemli konu frekansların frekansının bulunmasıdır. Örneğin, derlemde 1 kez geçen yani frekansı 1 olan kelimelerin frekansı, frekansı 2 olanların frekansı v.s. bulunur. Bu dağılımlar derlem hakkında bilgi vericidir. 75 Frekansların frekansı 76 Zipf’s Law Eğer biz her bir kelimenin derlemde hangi sıklıkta geçtiğini sayar ve daha sonra bunun kaçıncı sırada olduğunu elde edersek; biz kelimenin frekansı ile sırası arasındaki ilişkiyi bulabiliriz. Kelimenin frekansı f, pozisyonu ise rank anlamında r olmak üzere; Zipf’ kuralı f ile 1/r’ nin doğru orantılı olduğunu ve f.r çarpımının sabit olduğunu iddia eder. 77 Zipf’s Law 78 «f.r» çarpımı «f.r» çapımı doğal diller için faydalı bir dağılımdır. Bu dağılım sayesinde genel kelimelerin elenmesi mümkün olacaktır. Çünkü genel kelimeler ya rank değeri küçük ya da frekansı küçük olan değerler sunarlar. Ortalardaki rank değerleri ve ortalardaki frekans değerleri de orta değerlerdir ve doğal dil çalışırken ortalar ile çalışmak uygun olandır. 79