Introduzione alla linguistica computazionale PDF
Document Details
Uploaded by MomentousConflict3000
Università Mercatorum
Teresa Agovino
Tags
Summary
This document is an introduction to computational linguistics, focusing on theoretical and practical applications. It discusses tools and algorithms in the field. This PDF document is from an Italian university.
Full Transcript
Teresa Agovino - Introduzione alla linguistica computazionale Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autor...
Teresa Agovino - Introduzione alla linguistica computazionale Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633). 1 di 13 Teresa Agovino - Introduzione alla linguistica computazionale Indice 1. LA LINGUISTICA COMPUTAZIONALE...................................................................................... 3 2. AUTOMI, ALGORITMI E MODELLI.......................................................................................... 5 3. USI LINGUISTICI.................................................................................................................... 8 BIBLIOGRAFIA............................................................................................................................ 13 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633). 2 di 13 Teresa Agovino - Introduzione alla linguistica computazionale 1. La linguistica computazionale La nascita ufficiale della linguistica computazionale si fa coincidere di norma con la fondazione dell'Association for Computational Linguistics (ACL) nel 1962. In realtà le basi della materia esistevano già da circa vent’anni, con i primi sviluppi dell'intelligenza artificiale e della traduzione automatica. Rispetto a discipline come la sociolinguistica, la psicolinguistica o la neurolinguistica, la linguistica computazionale vanta una più accentuata ed evidente pluralità di programmi di ricerca e metodologie. Tale pluralità è un effetto dell’incontro tra linguistica teorica (e applicata) e le nuove tecnologie informatiche. La linguistica computazionale, quindi, congiunge problemi teorici e/o applicativi relativi al linguaggio con problemi teorici e/o applicativi relativi all'informatica e ai computer; è dunque una materia interdisciplinare e multidisciplinare. L'informatica, ma anche la statistica, la matematica e l'intelligenza artificiale forniscono strumenti e metodi per le analisi linguistiche e per le loro applicazioni, coprendo settori come la fonologia, la morfologia, la sintassi e la semantica. Le applicazioni computazionali possono avere diversi obiettivi, tra cui 1lo sviluppo di strumenti informatici per lo studio e la ricerca specialistica sulle lingue 2e lo sviluppo di applicazioni di interesse generale, che svolgono compiti di tipo linguistico (traduttori automatici, dizionari informatizzati, sintetizzatori vocali, call centers automatizzati). 1 - Lo sviluppo di strumenti informatici per lo studio e la ricerca specialistica sulle lingue - Del primo tipo sono le applicazioni destinate a specialisti del linguaggio, che, attraverso gli strumenti computazionali, riescono a portare alla luce aspetti delle lingue storico-naturali che altrimenti non sarebbero rilevabili. Di tali strumenti si serve, in genere, la cosiddetta «linguistica dei corpora», che esamina testi scritti o parlati, studiandone le varie caratteristiche: il lessico, le strutture sintattiche o morfologiche, le tipologie testuali e stilistiche, gli aspetti fonetici. La linguistica computazionale ha sviluppato strumenti informatici di analisi automatica dei testi che permettono di estrarre una gran quantità di dati da insiemi di testi di centinaia di milioni di parole. Software elementari possono disporre le parole di un testo in ordine alfabetico o indicare quante volte una parola compare nel testo. 2- Lo sviluppo di applicazioni di interesse generale, che svolgono compiti di tipo linguistico (traduttori automatici, dizionari informatizzati, sintetizzatori vocali, call centers automatizzati). - Il secondo approccio prevede invece l'uso di conoscenze linguistiche per l'elaborazione di applicazioni informatiche di uso comune. Molti di noi oggi adoperano programmi che controllano e correggono l'ortografia dei testi, gli spell-checkers, che sono appunto applicazioni di linguistica computazionale. Anche i dizionari online e i dizionari dei sinonimi-contrari sono semplici applicazioni computazionali. Programmi ancora più sofisticati Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633). 3 di 13 Teresa Agovino - Introduzione alla linguistica computazionale ci permettono di far sì che il nostro computer legga, con una voce naturale, un testo scritto - sono le applicazioni text-to- speech (dal testo al parlato) – o all'inverso ci permettono di dettare un testo al computer ottenendone una versione trascritta. Infine, la linguistica computazionale si occupa anche di integrare diverse applicazioni che servono per ottenere informazioni su orari o sull'elenco telefonico, di fare acquisti, di prenotare un viaggio, mediante l'interazione linguistica con una macchina: sono i cosiddetti «sistemi di dialogo uomo-macchina». I diversi obiettivi delineati – scientifici, applicativi, commerciali - non permettono di identificare la linguistica computazionale con uno specifico dominio di ricerca, né tanto meno con una teoria linguistica definita. Nonostante ciò, nel corso degli anni si sono potute sviluppare applicazioni integrate con risultati molto promettenti. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633). 4 di 13 Teresa Agovino - Introduzione alla linguistica computazionale 2. Automi, algoritmi e modelli La linguistica ha come oggetto di indagine le lingue storico-naturali, cioè lingue che si stratificano nel tempo e che vengono spontaneamente tramandate di generazione in generazione all'interno di una comunità linguistica o di più comunità in contatto. Le lingue degli uomini, così come sono parlate, capite ed eventualmente scritte e lette, sono il tradizionale terreno di discussione di linguisti, psicologi, biologi, neuroscienziati e filosofi. Ma l'uomo non è solo interessato alla propria facoltà linguistica come oggetto di studio, ma come attività pratica «insegnabile» non solo ad altri esseri viventi ma anche alle macchine. L'ambizione a creare esseri artificiali, meccanici, che svolgessero azioni solitamente svolte da esseri viventi, animali e uomini, è sempre stata nella fantasia dell'uomo, dalle ideazioni degli ingegneri alessandrini alle teste parlanti medioevali, fino ai veri e propri automi (dal greco autòmatos: «che agisce da sé»), macchine che, sulla base di istruzioni, eseguono un'azione o compiono atti di tipo linguistico. Accanto all'interesse per gli automi si sviluppa, soprattutto nel Seicento, l'interesse per le lingue perfette e le lingue artificiali e per la riflessione su quelle caratteristiche delle lingue e delle loro grammatiche che le rendono simili, per certi aspetti, a dei calcoli. Filosofi come Thomas Hobbes e Gottfried Leibniz sottolineano alcune delle caratteristiche che accomunano il pensiero e il linguaggio a calcoli e lingue algebriche. Ma solo a partire dalla fine degli anni Quaranta del Novecento, l'idea di costruire macchine che possano svolgere compiti linguistici diventa oggetto di un ricco filone di ricerca, interno a quel paradigma multidisciplinare detto «intelligenza artificiale». La possibilità di costruire macchine che producano comportamenti linguistici è fondata sulla presenza di un modello, un quadro astratto e formale, che contempli in dettaglio tutte le possibilità dell'interazione. La linguistica computazionale ha dunque, tra i suoi compiti principali, quello di definire i modelli che rendano possibile una performance adeguata da parte della macchina. Questi modelli non sono necessariamente sono gli stessi modelli di cui si serve un uomo per parlare e comprendere. Da una macchina, oggi, non ci aspettiamo che sappia usare la lingua in tutte le sue possibili sfaccettature, ma che governi almeno alcune precise e circoscritte pratiche linguistiche. Quello che ci interessa è dunque poter fornire un modello che descriva il comportamento che la macchina dovrà assumere nel caso della specifica pratica che le viene richiesta (analizzare un sintagma, trovare un traducente in una lingua straniera, attribuire a una parola la sua categoria grammaticale, riconoscere la parola pronunciata da un parlante, ecc.). Non è quindi necessario che il modello che usiamo per «far fare» alla macchina una determinata cosa in determinate circostanze sia lo stesso che spinge noi a un comportamento simile nell'interazione con altri esseri umani. In altri termini, è necessario un modello Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633). 5 di 13 Teresa Agovino - Introduzione alla linguistica computazionale linguistico, ma questo modello può discostarsi dal modello linguistico usato dagli esseri umani. Ciò, ovviamente, non esclude che l'evoluzione dei modelli linguistici computazionali fornisca suggerimenti per modelli della produzione e ricezione linguistica nelle comunità umane. Input e output - Definiamo il comportamento di una macchina in base all’output che fornisce a un dato input. L'input è pensabile come lo stimolo (sensoriale, linguistico, ecc.), o il dato, che viene fornito alla macchina per essere trattato. L'output è il comportamento che la macchina esibisce dopo aver ricevuto l'input: produzione di una risposta, un suono, una azione, un movimento, ecc. Il percorso che la macchina deve fare per associare a un input uno specifico output consiste nell'uso di un sistema di mediazione astratto, un modello. Il modello filtra l'input, lo analizza e vi associa, a seconda delle sue caratteristiche, mediante una serie di algoritmi, un output. Algoritmi - Un algoritmo è una serie finita di procedimenti e operazioni che servono per risolvere un problema. Gli algoritmi possono essere insiemi di regole deterministiche, ma anche insiemi di procedure basate sulla probabilità. Un algoritmo deve prevedere tutti i passi necessari per risolvere il problema e deve inoltre contemplare tutti i possibili input di dati. Possiamo pensare all’algoritmo come a un programma che rappresenta le mosse necessarie a risolvere un problema. Un programma richiede un linguaggio formale, ossia un codice che definisce in modo astratto e univoco classi e relazioni tra classi di elementi estratti da un inventario (o alfabeto). Si può dire, sinteticamente, che un linguaggio formale (L) contiene tutte le possibili sequenze di elementi (stringhe) estratti da un inventario finito (I, insieme di elementi di base) e formate seguendo un insieme finito di regole (R). L'insieme dell'inventario I e delle regole R forma la cosiddetta grammatica del linguaggio formale. L'insieme delle regole R è spesso detto sintassi del linguaggio formale. Esempio: Prendiamo come esempio un inventario formato da tre elementi I{a,b,c,} e una regola che dice che è possibile costruire una stringa, formando una combinazione di due elementi ripetibili dell'inventario, nei quali la posizione degli elementi è rilevante (cioè genera stringhe diverse). Allora avremo che aa, ab, ecc. sono stringhe di L{aa,ab,ac,ba,bb,bc,ca,cb,cc}, mentre *a, *b, *c, *aaa, *ab, ecc. non sono stringhe di L. (L'asterisco indica convenzionalmente elementi impossibili, non grammaticali, non ammessi o inesistenti). Le stringhe di un linguaggio formale devono essere sequenze finite dei simboli dell'inventario. I termini grammatica e sintassi per parlare di questi modelli astratti che servono per scrivere programmi e lo stesso termine linguaggio, sono presi in prestito dalla linguistica. È bene però osservare Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633). 6 di 13 Teresa Agovino - Introduzione alla linguistica computazionale come il loro senso sia un po' diverso rispetto al consueto. Alcune delle differenze di questi usi le vedremo nel prossimo paragrafo. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633). 7 di 13 Teresa Agovino - Introduzione alla linguistica computazionale 3. Usi linguistici Come si è visto, due delle nozioni centrali per la costruzione di un automa sono quelle di regola e di algoritmo. Anche le lingue naturali sono, in parte, governate da regole. Le regole linguistiche, tuttavia, hanno uno statuto completamente diverso rispetto alle regole che servono a descrivere la combinazione di simboli di un linguaggio formale. Le regole della grammatica di una lingua, infatti, sono sottoposte a notevoli pressioni da parte degli utenti, che introducono innovazioni e da parte della storia, che opacizza fenomeni e ne preserva altri. È tuttavia proprio la rappresentazione della lingua come un sistema regolato, ordinato e coerente, ad aver spinto a ipotizzare la possibilità di una riproducibilità delle competenze linguistiche e delle loro manifestazioni da parte di una macchina. Una regola linguistica può essere vista come la descrizione di una pratica linguistica. In particolare, una regola linguistica non è sempre rispecchiata nel comportamento linguistico degli individui, quindi non può essere intesa come una generalizzazione dell'esperienza. Si tratta di una posizione affermata, per esempio, a partire dagli anni Sessanta, da Noam Chomsky, il quale assume la centralità della competenza linguistica, intesa come capacità di produrre frasi ben formate e di esprimere intuitivamente giudizi di grammaticalità (dire se una data frase è grammaticale o no, ossia se appartiene alle frasi generabili con la grammatica di una data lingua). Questa posizione, che sostiene la nozione di regola come base per la definizione della grammatica, è anch'essa descrittiva e non prescrittiva. Esistono molti modi di concepire la creatività linguistica; uno di questi lega la nozione di creatività alla rappresentazione di una lingua come ordinata in regole richiede la specificazione di almeno due tipologie di creatività, che Chomsky distingue in creatività basata su regole (rule-based creativity) e creatività che cambia le regole (rule-changing creativity). Negli Aspetti della teoria della sintassi, Chomsky parla della creatività basata su regole come di quella proprietà delle lingue che rende l'uomo capace di esprimere un numero potenzialmente infinito di pensieri per far fronte a un numero indefinito di nuove situazioni. Si tratta di una creatività che poggia di fatto sulle regole, poiché su di esse si «accomoda». È la creatività che permette di generare frasi mai prodotte prima, semplicemente combinando i lessemi di una lingua secondo le regole della sua sintassi. Il secondo tipo di creatività, basata su una potenzialità di tipo semiotico, invece va a toccare il sistema stesso delle regole, ossia permette, in date circostanze, di rompere una regola e di ristrutturare il sistema dalle sue fondamenta. Questa creatività è una «capacità umana di muoversi all'interno e, per dir così, all'esterno di sistemi e codici linguistici e non linguistici diversi, dandosi diverse “tecniche” [...] e Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633). 8 di 13 Teresa Agovino - Introduzione alla linguistica computazionale all'occorrenza mutandole» (De Mauro). La creatività linguistica costituisce dunque a un tempo il presupposto della potenziale infinitezza dei segni di una lingua e della sua regolarità e anche del discostarsi, a volte radicale, delle lingue da una rappresentazione che le avvicina a calcoli. La lingua è anche caratterizzata da un fenomeno importantissimo che conferisce una struttura peculiare alla lingua stessa e ai suoi testi: la ridondanza. La nozione di ridondanza dipende dalla prevedibilità di molti aspetti dei testi linguistici in specifici contesti situazionali e pragmatici, ossia dalle caratteristiche che permettono ai locutori di ricostruire il senso o la forma di un testo, anche quando questo risulti per qualche motivo mutilato. Il fatto che i testi parlati e scritti presentino elementi prevedibili ed eccedenti, in dati contesti, ha una funzione importantissima di contrasto dei disturbi, del rumore e dell'errore, poiché ci consente appunto di comprendere enunciati anche in condizioni meno che ottimali (per esempio se passa un aereo, se un presente tossisce, se il locutore ha il raffreddore o alcune particolarità di pronunzia, ecc.). La ridondanza assume dunque nel quadro che presenteremo un ruolo centrale nelle dinamiche linguistiche, svolgendo numerose funzioni essenziali: la capacità di pre-correzione di eventuali errori della trasmissione e di lotta ai disturbi che possono intervenire a tutti gli stadi del processo di comunicazione; il conferimento di predicibilità e struttura ai vari elementi del discorso; l'agevolazione della percezione e della comprensione degli enunciati e la garanzia del buon funzionamento anche delle articolazioni poco accurate; la garanzia della sincronizzazione tra i parlanti; il mantenimento di un serbatoio di parole adoperabili quando si formano nuovi bisogni comunicativi... Incalcolabilità delle lingue - L'assimilazione di alcune caratteristiche delle lingue a forme simili a calcoli è stata una delle spinte teoriche più significative per la nascita della linguistica computazionale. Ciò che è calcolabile è, in effetti, sempre implementabile in una macchina. Ciò che, in qualunque sua forma, rappresenta invece aspetti di incalcolabilità nelle lingue è gestibile con molta più difficoltà dalla macchina. Un calcolo, per essere definito tale, prevede una serie di condizioni tra cui la presenza di un inventario di simboli finito e di un insieme finito di regole di combinazione dei simboli in stringhe/segni del linguaggio. I significati veicolati dai segni di un calcolo possono essere sinonimici, a patto però che la forma di un sinonimo sia prevedibile mediante l'applicazione di un numero definito di regole (De Mauro). Potenziale infinitezza dei segni - Le lingue storico-naturali, così come i calcoli, possono produrre un numero potenzialmente infinito di segni. Se pensiamo alla matematica, esiste sempre un modo, attraverso l'applicazione delle regole aritmetiche, di produrre nuovi numeri, poiché ad esempio è sempre possibile creare un numero applicando l'operazione x+1, aggiungendo 1 a un numero dato. Anche nelle lingue storico-naturali i segni sono potenzialmente infiniti: non solo è possibile produrre sempre nuove frasi, Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633). 9 di 13 Teresa Agovino - Introduzione alla linguistica computazionale seguendo le regole della grammatica di una lingua, ma è anche possibile creare nuovi lessemi, nuove parole, che esprimano nuovi significati. La potenziale infinitezza dei segni si fonda tuttavia nei calcoli e nelle lingue su caratteristiche diverse (De Mauro). Nel caso dei calcoli, dato un inventario finito e un insieme di regole altrettanto finito, l'infinitezza potenziale viene prodotta dal fatto che non vi è limite di lunghezza nella produzione dei segni: è, cioè, sempre possibile, mediante l'applicazione di una delle regole del calcolo, generare un nuovo segno più lungo (ad esempio un numero che abbia due, tre, quattro cifre in più). Nel caso delle lingue naturali, oltre alla illimitatezza della lunghezza dei segni (il cui limite è definito pragmaticamente dalla limitatezza della memoria umana, ma ciò ovviamente vale anche per le stringhe dei calcoli), vi è un altro fattore importante, ossia il fatto che l'inventario delle unità di prima articolazione (i morfi, dotati di significante e significato) è aperto. È sempre possibile per l'individuo e per la comunità aggiungere nuovi morfi, soprattutto lessicali, all'insieme delle parole di una lingua. Se guardiamo invece alla seconda articolazione, quella che definisce l'insieme dei fonemi, unità minime asemantiche, della lingua, l'inventario non solamente è finito, ma è anche generalmente piuttosto ridotto, raccogliendo per ciascuna lingua da una quindicina a una quarantina di classi fonematiche distintive (L’italiano, ad esempio, ha solo 30 fonemi). Significati - Molte caratteristiche della lingua quali la presenza di sinonimie, polisemie, omonimie possono generare ambiguità o vaghezza e sono dunque fenomeni che richiedono particolare attenzione in campo computazionale. Una caratteristica tipica delle lingue naturali è l'imprevedibilità dell'organizzazione dei sensi entro un dato significato. Il lessema calcio, ad esempio, si polarizza in due accezioni principali: una che descrive genericamente un colpo dato con il piede, e una seconda che individua il gioco. La formazione delle accezioni è un fenomeno naturale che riguarda la strutturazione dei significati di qualunque lingua e subisce l'influenza di numerosi fattori, tra cui la naturale tendenza al mutamento nel corso del tempo e la possibilità di adeguamento ai bisogni espressivi della comunità linguistica. Questi fattori determinano come conseguenza non solo l'imprevedibilità delle accezioni di un lessema in una lingua, ma anche la radicale differenza di accezioni che si riscontrano osservando lessemi simili in lingue diverse; ciò determina uno degli aspetti di maggiore difficoltà per i processi di traduzione. Un secondo aspetto relativo all'organizzazione dei significati è la loro estensibilità, ossia la capacità nel tempo, ma anche nei diversi strati della massa parlante, di sviluppare nuovi usi e dunque di inserire nuovi sensi in un dato significato, per rispondere ai bisogni comunicativi. È il caso, ad esempio, dell'accezione tecnica di navigare riferita all'esplorazione di pagine web, creatasi per prestito semantico sull'inglese surf the net. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633). 10 di 13 Teresa Agovino - Introduzione alla linguistica computazionale Sinonimie e omonimie - Una asimmetria nel rapporto tra forma e contenuti linguistici è generata dalla presenza, in tutte le lingue storico-naturali, di sinonimie e omonimie. Le sinonimie si configurano come parziali sovrapponibilità di possibili sensi in alcuni enunciati prodotti o producibili. Sinonime possono essere due espressioni che, in determinati contesti linguistici ed extralinguistici, possono veicolare lo stesso senso per un dato locutore. Due sinonimi sono, per esempio, le parole dizionario e vocabolario. Le sinonimie possono essere più o meno cristallizzate, più o meno estese, ma sono sempre fatti che riguardano il piano delle realizzazioni linguistiche concrete. La sinonimia è dunque, si può dire, un fenomeno che si istituisce sul piano della parole (v. Saussure). Una delle sfide più sottili cui è sottoposta la ricerca in linguistica computazionale è data dall'imprevedibilità delle sinonimie, detta anche incalcolabilità (De Mauro) dei confini delle famiglie di sensi che due o più parole possono condividere, dall'imprevedibilità con cui accezioni diverse e loro sinonimi possono essere associati anche a singoli traducenti (tra una moltitudine di candidati possibili) nei compiti traduttivi e metalinguistici. Nei calcoli, infatti, le sinonimie sono possibili (2+4 è sinonimo di 3+3), ma sono sempre calcolabili, ossia è sempre possibile ricostruire in base a quale insieme di regole definite una stringa diventa sinonima di un'altra. Le omonimie, invece, manifestano un'asimmetria, centrata tuttavia non sul piano semantico, bensì su quello formale, del significante. Gli omonimi, infatti, sono parole caratterizzate da un significante comune, ma che rimandano a significati radicalmente diversi, spesso senza alcuna parentela etimologica. Esistono due tipi di omonimia, che pongono diversi problemi al trattamento computazionale. Gli omonimi assoluti, come calcio inteso come "pedata” e calcio come "Ca", elemento chimico, o calcio come "impugnatura di un fucile o pistola”, sono parole che hanno la stessa grafia (omografe) stessa forma fonica (omofone) pur essendo lessemi diversi sotto tutti gli aspetti. Gli omonimi assoluti sono appartenenti alla stessa categoria grammaticale (nell'esempio tutti sostantivi) e spesso appartenenti anche alla stessa classe flessionale (nell'esempio sostantivi maschili con singolare in -o e plurale in -i). Gli omonimi testuali, invece, sono parole appartenenti a categorie grammaticali diverse e/o a classi flessionali diverse, ma convergenti nella grafia o nella forma fonica. Di questo tipo sono gli omonimi di faccia "viso" e faccia "voce del verbo fare". Il risultato di questo tipo di omonimia è che i lessemi sono omonimi solamente in alcune delle loro possibili forme testuali e non in tutte. Anche le omonimie costituiscono una tipica fonte di problemi nella linguistica computazionale, poiché quella che per un essere umano è una caratteristica normale delle lingue e dei testi, facilmente gestibile nelle interazioni quotidiane, per uno strumento computazionale necessita di una gran quantità di elaborazione per l'operazione di disambiguazione. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633). 11 di 13 Teresa Agovino - Introduzione alla linguistica computazionale Ambiguità sintattiche - Anche a livello sintattico esistono alcune caratteristiche peculiari delle lingue che rendono complicato il loro trattamento computazionale. Esistono, ad esempio, quei fenomeni che raccogliamo sotto il nome di ambiguità sintattiche, che fanno sì che alcune frasi prese in isolamento possano avere diverse interpretazioni sintattiche associabili a più di un plausibile albero sintattico. Per esempio, la frase la vecchia porta la sbarra si presta a due diverse analisi sintattiche. In questo caso, la lingua parlata consente solitamente di disambiguare le forme mediante il ricorso al contesto e al cotesto e mediante una prosodia adeguata. Se guardiamo invece solo la frase scritta in isolamento entrambe le interpretazioni sono egualmente plausibili e ben formate. L'ambiguità sintattica è una caratteristica pervasiva delle nostre produzioni linguistiche, anche se nella maggioranza dei casi il ricorso alla pragmatica e alla semantica permette di disambiguare la forma senza nemmeno rendersi conto delle sue possibili diverse analisi sintattiche. Frasi come il medico visita il paziente con gli occhiali o lo studente ha risolto i suoi problemi col computer, inserite in specifici contesti, non creano quasi mai difficoltà interpretative, anche se, come nel caso precedente, presentano la possibilità di corrispondere a diversi alberi sintattici, dato che in entrambi i casi il sintagma preposizionale può dipendere sia direttamente dal verbo, sia dal sintagma nominale seguente. Anche in questo caso, la materia computazionale necessita di una gran quantità di elaborazione per l'operazione di disambiguazione Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633). 12 di 13 Teresa Agovino - Introduzione alla linguistica computazionale Bibliografia Isabella Chiari, Introduzione alla linguistica computazionale, Bari, Laterza, 2007. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633). 13 di 13