[page U de M][Accueil Forum][En bref][Calendrier][Vient de paraitre][Etudiants][Opinions]


Un RALI à travers les outils d'aide à la traduction

Le Laboratoire de recherche appliquée en linguistique informatique est à l'avant-scène du traitement automatique de la langue.

Le responsable du RALI, Elliott Macklovitch (à l'avant plan), et son collègue Guy Lapalme nous font une démonstration des outils informatiques mis au point par leur laboratoire et accessibles sur son site Internet.

Deux dictionnaires bilingues, l'un de 1997 et l'autre de 1998, n'ont pu me donner la traduction d'un mot relativement fréquent en anglais nord-américain, le mot saliance.

Mais je l'ai trouvé sans peine dans le TransSearch, un outil conçu par le Laboratoire de recherche appliquée en linguistique informatique (RALI), du Département d'informatique et de recherche opérationnelle.

Le TransSearch n'est pas tout à fait un dictionnaire; il s'agit plutôt d'un programme informatique - un "concordancier bilingue" - effectuant une recherche dans une "mémoire de traduction", c'est-à-dire une banque de données contenant deux séries de documents dont l'une est la traduction de l'autre. En lui soumettant un mot ou une expression, le programme affiche une série de phrases contenant le mot demandé avec la traduction en contexte.

TransSearch, auquel on peut avoir accès à partir du site Internet du RALI (www-rali.iro.umontreal.ca), offre la possibilité d'effectuer une recherche dans trois corpus de textes: le Journal des débats à la Chambre des communes (Hansard 1986-1993), les jugements de la Cour suprême (1986-1992) et un bitexte anglais-français sélectionné par les chercheurs, ce qui fait plusieurs centaines de millions de mots. Le programme permet également d'afficher le texte complet d'où la citation est extraite.

Les aides à la traduction
Il ne s'agit là que de l'un des nombreux produits conçus par le RALI dans le domaine du traitement automatique de la langue. "Nous ne travaillons pas directement sur la traduction automatique, mais plutôt sur des outils d'extraction d'information, d'aide à la traduction ou encore d'identification automatique de la langue", précise le professeur Guy Lapalme, membre du Laboratoire.

Un de ces outils, le Système d'identification de la langue et du codage, permet d'établir dans quelle langue et dans quel code informatique un texte est écrit. Ceci est essentiel pour qu'un système de traduction puisse effectuer une recherche intelligente dans des textes de différentes langues et affiche le texte dans les bons caractères. Chacun de nous utilise déjà ce produit du RALI sans le savoir; il s'agit en effet du système employé par le navigateur Netscape et le robot de recherche Excite pour vous permettre d'explorer le Web.

Le RALI travaille aussi à faciliter la tâche de tout opérateur de clavier francophone avec le Réacc. Si le cauchemar des courriels sans accent semble pratiquement disparu, certains hésitent encore à utiliser les lettres accentuées pour leur courrier électronique et de nombreux textes en version électronique en sont privés (comme lorsque vous faites une recherche dans les archives électroniques de Forum!). Le Réacc réintroduit automatiquement les accents dans de tels textes.

Une version interactive a également été produite, permettant une accentuation en temps réel, si bien que l'utilisateur n'aurait pratiquement plus à se soucier des accents.

Autre produit prometteur pour ceux qui ont à rechercher de l'information dans des documents autres que les banques de données, par exemple des rapports d'enquêtes ou des articles de journaux: l'Exibum, pour "Extraction d'information bilingue de l'Université de Montréal", est capable d'analyser l'information contenue dans des documents français ou anglais à la lumière de catégories préétablies en fonction des besoins de l'utilisateur.

Tous ces outils et quelques autres peuvent être testés à l'aide des démonstrateurs accessibles sur le site du Laboratoire.

De nombreux autres projets sont par ailleurs en développement au RALI. Par exemple, le programme TransType fournira aux traducteurs des suggestions de traduction en temps réel en devançant le travail d'écriture à partir de l'analyse du texte source et de l'amorce de traduction.

Dans le même domaine, le projet TransTalk vise à augmenter la performance des programmes de reconnaissance vocale utilisés en traduction en fournissant, lorsque cela est possible, une version écrite du texte à traduire; l'appareil pourra ainsi distinguer plus facilement des mots comme "cheveux" ou "chevaux" en repérant, dans le texte source, le mot horses.

Créé en 1997, le RALI succède à l'ex-Centre d'innovation en technologie de l'information du ministère canadien de l'Industrie. En août dernier, le RALI était l'hôte de la Conférence internationale sur la linguistique informatique et du congrès de l'Association for Computational Linguistics, qui a réuni quelque 772 experts du monde entier.

Daniel Baril


[page U de M][Accueil Forum][En bref][Calendrier][Vient de paraitre][Etudiants][Opinions]