Traduction Automatique PDF
Document Details
Uploaded by ExaltedBildungsroman8637
Higher Institute of Management
Tags
Summary
Ce document traite de la traduction automatique, de son histoire et de ses différentes approches. Il explique les systèmes basés sur des règles, ainsi que les approches par transfert et par interlangue, et aborde les défis liés aux dictionnaires incomplets et aux règles complexes.
Full Transcript
TRADUCTION AUTOMATIQUE La traduction automatique (TA) est définie par l'Association européenne de traduction automatique (EAMT) comme l'application de l'informatique à la tâche de traduire des textes d'une langue naturelle à une autre. Selon Hutchins et Somers, les systèmes de TA sont des systèmes...
TRADUCTION AUTOMATIQUE La traduction automatique (TA) est définie par l'Association européenne de traduction automatique (EAMT) comme l'application de l'informatique à la tâche de traduire des textes d'une langue naturelle à une autre. Selon Hutchins et Somers, les systèmes de TA sont des systèmes informatisés responsables de la production de traductions d'une langue naturelle à une autre, avec ou sans assistance humaine. Bouillon et Clas ajoutent que la TA consiste à traduire des textes d'une langue source vers une langue cible en utilisant l'informatique. Ils distinguent la traduction automatique assistée par l'humain (TAAH) de la traduction entièrement automatique de haute qualité (TEAHQ), cette dernière permettant d'obtenir une qualité finale équivalente à une traduction humaine sans intervention humaine. Hutchins et Somers ont également proposé une classification du domaine de la TA qui permet de visualiser les différents types d'automatisation dans ce domaine. Plus un système se rapproche de la gauche de l’axe, plus l’intervention de la machine est importante. Inversement, plus un système est placé vers la droite, plus l’intervention de l’humain est importante. La traduction automatique regroupe donc tous les types de traduction compris entre la TEAHQ et la TAAH. La TAO (traduction assistée par ordinateur), quant à elle, regroupe les systèmes dont l’automatisation « s’applique à des parties du processus ou à une tâche précise qui lui est associée » (L’Homme, 2008, p. 11), soit les systèmes compris entre la TAAH et la THAO (traduction humaine assistée par ordinateur)2 Historique L'histoire de la traduction automatique (TA) a connu des hauts et des bas, avec des débuts peu après l'avènement des ordinateurs numériques pendant la Première Guerre mondiale aux États-Unis et au Royaume-Uni. Initialement conçus pour des tâches militaires telles que le calcul de tables de tir et le décryptage des communications ennemies, ces ordinateurs ont rapidement révélé leur potentiel pour d'autres applications. L'idée d'utiliser ces machines pour la traduction a été évoquée pour la première fois par le mathématicien Warren Weaver en 1947, ouvrant la voie à la possibilité de communication en temps réel sans barrières linguistiques. La TA trouve son inspiration dans le mythe de la tour de Babel, symbolisant la confusion des langues comme un châtiment divin, et dans les tentatives passées de créer des langues universelles pour surmonter ces barrières. Des précurseurs de la TA, tels que Federico Pucci et Georges Artsrouni, ont présenté Les différents systèmes et approches de TA Les systèmes basés sur les règles Les systèmes à base de règles, également connus sous le nom d'approche classique, utilisent des informations linguistiques encodées dans des dictionnaires et des grammaires pour analyser la langue source et générer un output dans la langue cible. Ces systèmes sont classés en systèmes directs et indirects, avec le triangle de Vauquois comme représentation courante. Plus l'analyse du texte source est approfondie, plus la représentation intermédiaire est simplifiée et peut être directement utilisée pour la génération du texte cible. En revanche, une analyse sommaire du texte source nécessite de nombreuses correspondances inter linguistiques. Les systèmes de traduction automatique peuvent être classés en deux catégories : les systèmes directs, également connus sous le nom de première génération, et les systèmes indirects, appelés de seconde génération. Les systèmes directs sont bilingues et unidirectionnels, se contentant de traduire mot à mot à l'aide d'un dictionnaire bilingue, tandis que les systèmes indirects effectuent une analyse plus approfondie du texte source en mettant en relation les représentations linguistiques contenues dans la source avec celles de la cible. Ces représentations incluent les catégories grammaticales, les fonctions syntaxiques et parfois le sens des mots, ce qui permet une traduction plus précise prenant en compte la structure grammaticale de la phrase dans son ensemble. Les systèmes indirects peuvent être traités par deux approches différentes : par interlangue ou par transfert. Approche par transfert Les systèmes de traduction reposent sur le principe de la connaissance contrastive entre deux langues, avec trois phases principales : l'analyse, le transfert et la génération. L'analyse consiste à extraire les informations nécessaires pour comprendre le sens des mots et des phrases de la langue source, puis à les représenter dans un arbre syntaxique. Le transfert consiste à mettre en relation ces informations avec celles nécessaires pour produire la représentation dans la langue cible. Enfin, la génération permet de produire une traduction conforme aux règles de la langue cible. Cependant, cette approche rencontre des problèmes liés aux dictionnaires incomplets et à la complexité des règles morphologiques, syntaxiques, sémantiques et contextuelles. Approche par interlangue En comparaison, l'approche par interlangue fonctionne en extrayant une représentation commune à toutes les langues pour produire une traduction à partir de cette représentation. Les systèmes par interlangue effectuent une analyse de la phrase source pour créer une représentation abstraite du contenu propositionnel, indépendante des langues utilisees Les systèmes basés sur les corpus Les systèmes basés sur les corpus ne se reposent pas sur des données linguistiques pour générer des traductions, mais plutôt sur des corpus bilingues grâce à une approche statistique ou basée sur des exemples. On distingue trois types de systèmes basés sur les corpus : les systèmes basés sur les exemples, les systèmes statistiques et les systèmes neuronaux. La qualité des traductions dépend de la qualité, de la taille et de la pertinence du corpus utilisé, ainsi que des langues source et cible. Les systèmes basés sur les exemples Les systèmes basés sur les exemples utilisent des exemples préexistants pour fournir des traductions par analogie. Ils se reposent sur un corpus bilingue composé de segments sources alignés aux segments cibles correspondants appelés « exemples ». Un algorithme compare l'exemple en langue source le plus proche de la phrase à traduire avec sa traduction en langue cible pour démarrer la traduction. Si une phrase comme "The oat fields are seeded" n'est pas dans la liste d'exemples, le système cherche d'abord des phrases sources similaires avec des fragments communs et retient les plus semblables en fonction de la catégorie grammaticale, sémantique ou structure. Par exemple, il pourrait retenir "the corn fields", "oat is a cereal" et "the rice is seeded". Une fois les fragments alignés avec leur traduction, ils sont combinés pour générer la phrase cible. Un exemple illustratif est une série d'exemples alignés contenant le mot "field" dans un corpus. L’approche statistique es systèmes de traduction statistique extraient des probabilités à partir de corpus bilingues pour générer des traductions, offrant ainsi de nombreuses suggestions de traduction. Selon Hearne et Way (2011), ces systèmes suivent deux processus : l'entraînement, qui consiste à extraire un modèle de traduction et un modèle de langue à partir de corpus parallèles et monolingues respectivement, et le décodage, qui cherche la traduction la plus probable selon ces modèles. Le modèle de traduction contient un dictionnaire bilingue avec des probabilités pour chaque traduction possible, tandis que le modèle de langue évalue la fluidité des séquences de mots cibles. Le décodage traite la traduction comme un problème de recherche pour trouver la traduction la plus probable. Les systèmes neuronaux La traduction automatique a connu une révolution ces dernières années avec l'avènement de la traduction automatique neuronale (TAN), qui promet une qualité proche de celle d'une traduction humaine. Ce nouveau système utilise des réseaux neuronaux profonds pour apprendre à repérer les irrégularités dans les données et prédire la traduction à partir du texte original. Les données utilisées sont des textes originaux et traduits, et le processus de traduction automatique ressemble à celui d'un être humain, transformant la phrase originale en une représentation abstraite avant de générer la traduction en tenant compte des règles de la langue cible. Les erreurs varient en fonction des systèmes utilisés, mais la TAN représente une avancée majeure dans le domaine de la traduction automatique. Évaluation de la TA 'évaluation de la traduction automatique est un domaine de recherche très actif, où la qualité des résultats peut être mesurée manuellement en comparant la traduction à celle d'un humain ou en évaluant sa lisibilité et sa fidélité. Elle peut également être évaluée en fonction de son utilité pour une tâche spécifique. Au fil du développement des systèmes de traduction automatique, différentes méthodes d'évaluation ont été développées, permettant de comparer les performances des systèmes, de mesurer les progrès et de corriger les erreurs pour améliorer continuellement les outils de traduction. Les méthodes d'évaluation peuvent être classées en deux catégories : l'évaluation humaine et l'évaluation automatique, chacune ayant ses propres avantages et inconvénients pour atteindre divers objectifs. Évaluation humaine Puisque les systèmes de traduction automatique ont pour objectif la reproduction des résultats de la traduction humaine, il serait logique d’utiliser les jugements humains pour évaluer les résultats de la traduction automatique. Cependant, l’évaluation humaine de la TA est coûteuse, et subjective par nature. Examinons maintenant les méthodes d’évaluation humaine qui sont utilisées pour évaluer les systèmes de traduction automatique. Fidélité et fluidité Évaluation automatique Les métriques de traduction automatique (TAM) présentent plusieurs propriétés intéressantes, notamment des évaluations rapides des résultats de traduction et une forte corrélation avec les jugements humains. Elles comparent généralement les résultats des systèmes de traduction automatique à des traductions humaines, mais certaines n'utilisent pas de traduction de référence. Il existe deux façons de proposer une traduction humaine basée sur la métrique : proposer une seule référence ou plusieurs références pour une seule phrase. L'algorithme BLEU (Bilingual Evaluation Understudy) est actuellement le plus utilisé dans l'industrie de la traduction, basé sur l'idée que plus une traduction automatique est proche d'une traduction humaine professionnelle, meilleure elle est. Il existe plusieurs mesures, notamment METEOR, TER, Word Error Rate, GTM et NIST. Ces mesures font l'objet d'un débat constant et leur efficacité à distinguer les meilleurs systèmes des moins performants est souvent remise en question. La distance d'édition est une méthode utilisée pour évaluer la précision des traductions (TA) en calculant le nombre minimum de modifications nécessaires pour convertir le résultat d'un système de TA en une traduction de référence. Ces mesures sont appelées « mesures de fidélité », ce qui signifie que des valeurs plus élevées indiquent une qualité de traduction moindre. Le Bilingual Évaluation Understudy (BLEU) est la méthode la plus utilisée dans l'évaluation des traductions automatiques, avec une forte corrélation avec l'évaluation humaine. Le score BLEU est calculé sur la base du nombre de n-grammes dans la proposition de traduction, la longueur typique étant de 4. Le BLEU mesure la proportion d'exactitude dans la proposition de traduction, plutôt que la précision de la traduction de référence. Cependant, il n'y a pas de pénalité pour les mots manquants, mais il y a un paramètre « briveté » qui reflète le nombre de n-grammes dans la proposition de traduction. BLEU permet également des traductions multiples de référence, mais son utilisation n'est pas encore très répandue. Parmi les faiblesses de BLEU, citons l'absence de calcul de « rappel », l'absence de « comparaison » entre les synonymes et l'incapacité à détecter les variations sémantiques correctes. La méthode NIST a été conçue comme une version améliorée de BLEU, réduisant le paramètre « briveté » et déterminant l'importance des n-grammes sur la base de la fréquence.