[page U de M][Accueil Forum][En bref][Calendrier][Vient de paraitre][Etudiants][Opinions]


La banque du français québécois

La base de données Textum mise en réseau et accessible sur Internet.

Le concepteur de la base de données Textum, André Clas, et la responsable du projet de mise en ligne, Monique Cormier, tous deux professeurs au Département de linguistique et de traduction.


Les linguistes et chercheurs du monde entier qui s'intéressent au français québécois ont maintenant un accès direct à un imposant corpus de textes représentatifs de la langue de chez nous.

Depuis le 17 mai, la base de données textuelles du Groupe de recherche en sémantique, lexicologie et terminologie (GRESLET) du Département de linguistique et de traduction, Textum, est en effet accessible sur Internet (babar2.ling.umontreal.ca).

Textum est une banque de textes créée en 1988 par André Clas, directeur du GRESLET, et Jean Baudot pour les besoins du projet interuniversitaire du dictionnaire bilingue canadien. Le contenu de la banque provient de quotidiens de chaque province canadienne, de revues spécialisées et du fonds littéraire des Éditions Leméac. L'ensemble totalise 310 millions de mots! L'utilité de cette banque est de constituer un corpus lexicographique représentant notamment l'usage du français québécois en contexte réel, ce qui permet d'en relever les expressions, la fréquence des usages ainsi que les particularités de sens et de syntaxe.

"Il y a une dizaine d'années, des chercheurs déploraient le manque d'accès aux banques lexicographiques et le Secrétariat à la politique linguistique a demandé aux universités de les rendre accessibles même au grand public, explique Monique Cormier, responsable du projet de dictionnaire et de la mise en réseau de Textum. Dans une première étape, nous rendons ainsi disponible tout le fonds Leméac, qui totalise près de 10 millions de mots. Le reste de la base sera graduellement accessible au cours des deux prochaines années."

Par cette réalisation, le Secrétariat à la politique linguistique veut encourager la recherche sur le français québécois en plus d'en améliorer l'usage et la qualité. La mise en ligne, financée par le Secrétariat, a nécessité le transfert des données d'un système Unix à un système PC et la création d'un logiciel de navigation pour Internet, travaux réalisés par le linguiste-informaticien Alain Auger et la firme SMA. L'Université y a pour sa part contribué par l'achat d'un nouveau serveur.

"Textum permet entre autres d'étudier la cooccurrence lexicale et la combinatoire syntaxique de diverses expressions, reprend Monique Cormier. Par exemple, une recherche à partir du verbe "éveiller" permet de constater qu'il se combine fréquemment avec les noms "soupçon", "curiosité", "imagination" ou "désir", pour former des expressions comme "éveiller les soupçons" ou "éveiller la curiosité"."

La banque est munie de deux portes d'entrée. Le grand public n'a qu'un accès à des textes restreints afin de respecter les exigences de la Loi sur les droits d'auteur. Les chercheurs, quelle que soit leur université d'attache, peuvent en revanche avoir un accès aux textes complets grâce à un mot de passe qu'ils obtiennent auprès de Mme Cormier.

Le réseau québécois
La partie de Textum mise en ligne sur Internet ne constitue en fait qu'un maillon d'un réseau regroupant les autres banques de textes des universités Laval, de Sherbrooke, de l'UQAM et de l'UQAR.

"Ce sont des banques de nature différente, mais la mise en commun des données servant à des équipes concurrentes constituait un défi", souligne Monique Cormier.

Le Secrétariat à la politique linguistique a rendu l'ensemble de ces banques accessible à partir d'un guichet unique à l'adresse http://www.mri.gouv.qc.ca/spl. Les usagers sont ainsi en mesure de choisir celle qui correspond le mieux à leur besoin ou de naviguer de l'une à l'autre.

Daniel Baril


[page U de M][Accueil Forum][En bref][Calendrier][Vient de paraitre][Etudiants][Opinions]