Quel numéro/What number?

Un laboratoire informatique à l'assaut des technologies de traduction.

Les professeurs Guy Lapalme et Pierre Isabelle observent le travail d'Elliott Macklovitch, qui a participé à la mise au point du logiciel TransSeach. Le RALI compte neuf employés en plus des étudiants aux cycles supérieurs.

L'expression out to lunch signifie, bien sûr, "parti dîner", mais elle a bien d'autres significations au Canada anglais. Le logiciel TransSearch permet d'en prendre connaissance en naviguant dans le Journal des débats à la Chambre des communes (1986-1993), une banque de données qui compte plus de 100 millions de mots. Ainsi, après quelques secondes de manipulation, l'usager perplexe découvrira que out to lunch n'est pas très flatteur. En effet, l'expression peut vouloir dire "perdu dans le bois", "hors propos", "à côté de ses pompes", "pas tout à fait là" ou "dans les patates".

Utilisée plusieurs fois durant les débats à la Chambre des communes entre 1986 et 1993, l'expression est traduite différemment selon le contexte. Le logiciel TransSearch agit donc comme un répertoire sur mesure extrêmement utile aux traducteurs actuels. "C'est une façon de recycler l'inspiration des traducteurs passés", signale le linguiste Elliott Macklovitch, qui a travaillé à l'élaboration du logiciel sous la direction de l'informaticien Michel Simard. Les chercheurs ont collaboré aussi avec une équipe du Département de linguistique et de traduction qui rédige un dictionnaire bilingue canadien.

Le "concordancier bilingue", nom savant du logiciel TransSearch, n'est qu'un des projets de recherche menés au laboratoire de recherche appliquée en linguistique informatique (RALI), qui a été inauguré le 19 septembre au Pavillon André-Aisenstadt. Ce laboratoire, où l'on effectue des recherches de pointe en traitement de la langue, porte un nouveau nom mais regroupe des spécialistes qui travaillaient depuis longtemps sur ces projets sous l'égide du Centre d'innovation en technologie de l'information (CITI) ou de façon indépendante au sein du Département d'informatique et de recherche opérationnelle (DIRO).

En présentant à Forum l'équipe de linguistes et d'informaticiens qui composent le laboratoire, Pierre Isabelle, le responsable du Rali, faisait remarquer que cette union entre les spécialistes de la langue et ceux de la technologie avait plusieurs avantages. "Il y a une culture à acquérir d'un côté comme de l'autre, mais c'est très fertile", signale le chercheur, lui-même docteur en linguistique. À une époque où l'on constate une lacune dans le contenu des différents systèmes informatiques, cette interdisciplinarité est bien accueillie.

La traduction automatique, c'est out

Mais informatique et traduction n'ont pas toujours fait des miracles. Le magazine Protégez-vous tient une rubrique où sont reproduites les traductions lamentables, souvent dues aux logiciels de traduction. Or, les chercheurs du RALI ne croient pas qu'un logiciel puisse réaliser à court terme une traduction automatique, opération trop complexe pour être efficace.

"Le seul secteur où la traduction automatique présente une efficacité satisfaisante, c'est dans des textes courts", explique Guy Lapalme, qui travaille au DIRO depuis 1980. Mais il ne faut pas, selon lui, lancer la pierre aux chercheurs, car ils ont réussi quelques percées. "Je dirais que 98% des rapports météorologiques que vous lisez ou entendez sont des traductions automatiques de textes anglais."

C'est d'ailleurs aux chercheurs de l'Université de Montréal que les météorologues doivent l'ancêtre du logiciel qu'ils utilisent aujourd'hui. Le projet de traduction automatique de l'Université de Montréal (TAUM), disparu en 1980, a en effet donné naissance au TAUM-météo, toujours utilisé. "Ironie du sort, les bulletins traduits sont souvent de meilleure qualité sur le plan linguistique que les bulletins originaux, car ce sont des linguistes qui les ont conçus", signale M. Lapalme.

Il n'en demeure pas moins que le vrai développement scientifique est du côté de l'aide à la traduction. Le logiciel TransSearch n'en est qu'un exemple. Le traducteur professionnel, souvent seul devant un clavier, pourra donc un jour simplement approuver la traduction informatisée de la partie d'un texte qui ne présente pas de difficulté, et s'attaquer uniquement aux problèmes complexes. Cela lui évitera en même temps le travail fastidieux qui consiste à retaper l'ensemble du texte.

Des ordinateurs qui écrivent

Guy Lapalme consacre ses recherches à la génération de textes, c'est-à-dire aux ordinateurs capables d'écrire des textes à partir de données. "Bien sûr que c'est possible, explique-t-il. Actuellement, nos systèmes sont capables de rédiger de courts textes, de un ou deux paragraphes, à partir des données de la bourse par exemple. La machine choisit quoi dire et comment le dire."

Cela ne donne pas forcément du Marcel Proust, mais l'ordinateur est capable de structurer des phrases et de choisir ce qui mérite d'être souligné, par exemple que les cotes boursières ont monté ici et descendu là. "Ainsi, on peut donner les cotes du Dow Jones, et le texte ressemblera à un rapport boursier. On peut aussi, grâce à un logiciel de traduction automatique, donner un rapport bilingue."

D'autres projets de recherche sont en cours. Le professeur Isabelle travaille notamment en collaboration avec Alis Technologies sur un système d'identification de la langue et du codage. Plein de promesses, ce système permettra de connaître la langue d'usage de la multitude de documents qui circulent dans Internet. Grâce à ce logiciel, on a pu savoir avec une certaine précision quelles étaient les "langues secondes" dans le réseau des réseaux. Certains francophiles prenant leurs désirs pour des réalités croyaient que le français était la deuxième langue des communications. Erreur: c'est l'allemand, suivi du japonais. Le français, lointain quatrième, ne véhiculerait guère plus de 1% du contenu...

L'informaticien Michel Simard conçoit quant à lui un logiciel qui sera capable d'effectuer la réaccentuation automatique des textes, particulièrement dans le courrier électronique. Ce qui paraît simple au profane est en réalité très difficile à réaliser sur le plan informatique: comment savoir si le mot "cote" est bien orthographié s'il parvient sans accent: s'agit-il de "côté", de "coté", de "côte" ou de "cote"? Impossible à savoir si ce mot n'est pas interprété dans son contexte.

La réaccentuation automatique a un avenir prometteur, car la majorité des langues ont des accents et des signes diacritiques. L'anglais est l'une des rares à en faire l'économie. Déjà, le groupe de recherche met au point une version espagnole du logiciel.

Quand on demande à Guy Lapalme d'où proviendra le développement le plus considérable, il répond que c'est de l'intégration de ces technologies. "Nous aurons réussi quand l'ordinateur fera la traduction, la réaccentuation ou la génération de textes sans que l'usager s'en aperçoive. Les meilleures interfaces sont celles qu'on ne voit pas..."

Mathieu-Robert Sauvé