Corps de l’article

Comme l’explique Henri Béjoint dans un bref avant-propos, le présent volume est tiré d’un colloque tenu les 28 et 29 septembre 2006 à l’Université Lumière Lyon 2 à l’initiative du Centre de recherche en terminologie et traduction ou CRTT. Il thématise en particulier les points de vue complémentaires du compilateur et de l’utilisateur des dictionnaires spécialisés, thème qui revient dans l’ensemble des contributions, mais qui n’est pas le seul. On peut signaler d’autres avancées méthodologiques, notamment du côté de la collocation, son identification, son traitement et sa caractérisation. S’agissant d’actes de colloque, toutefois, il n’échappe pas complètement au grand écueil de ce type de publication, à savoir la disparité des méthodologies et la dispersion thématique. Certains auteurs, en effet, ne problématisent pas le rôle du corpus dans les dicos spécialisés.

John Jairo Giraldo et M. Teresa Cabré, dans « Traitement des sigles dans les principaux dictionnaires d’abrégement online : le cas d’Acronym Finder », abordent la question des différences qui existent entre les dictionnaires de sigles sous forme papier et les ressources équivalentes en ligne (on se demande à ce propos pourquoi l’anglicisme parfaitement inutile online est repris partout dans le texte). Il ressort de l’analyse, qui, contrairement à ce que la première partie du titre ne laisse entendre, ne concerne qu’Acronym Finder, que la nomenclature de ce dictionnaire en ligne est riche et relativement fiable, mais qu’il lui manque de nombreux éléments qu’une démarche lexicographique mâtinée de principes terminologiques aurait apportés. Les auteurs en proposent une sous la forme d’une interface qui présente les nombreuses catégories absentes, dont le type d’abrégement, le contexte, la prononciation, le genre, le nombre, les équivalences dans d’autres langues… Ces informations seraient certes très utiles, mais on peut se demander si ce traitement supplémentaire très onéreux ne représente pas un tel surcroît de travail de la part des concepteurs qu’ils l’excluraient par principe.

Le regretté Henri Zinglé présente un article axé sur les outils, mais qui fait ressortir des catégories linguistiques tout à fait pertinentes pour le sujet de ce recueil. Dans « Extraction de termes complexes et d’unités phraséologiques à partir d’un corpus à l’aide de Ztools », il s’agit d’appareiller méthodes et outils en vue de l’extraction des deux catégories envisagées dans le titre. Pour les termes, c’est le terminologue qui retient ou qui rejette les séquences candidates, toutes composées de deux mots pleins, car celles qui en comportent davantage ne sont pas mentionnées ici. Les catégories postulées sont les suivantes : unités lexicales médicales, relevant le cas échéant de la spécialité étudiée, unités lexicales complexes de la langue générale et combinaisons en voie de lexicalisation. Une démarche similaire est adoptée pour les unités phraséologiques, les catégories retenues étant les structures modifiant un substantif, un adjectif, gouvernant un verbe ainsi que les verbes gouvernant un substantif. On peut regretter à ce propos l’absence de précision au niveau de l’analyse linguistique permettant cette catégorisation.

Agnès Tutin, dans « L’apport des corpus pour l’élaboration d’une base de collocations de la langue scientifique générale », explore les possibilités de la gestion semi-automatique de cette tranche de lexique située entre celui de base commune et celui proprement disciplinaire ou terminologique[1]. Elle est d’ailleurs envisagée dans plusieurs langues. La solution proposée comporte une modélisation lexicale sommaire intervenant avant traitement, inspirée du cadre sens-texte de Mel’čuk, tout en s’en écartant en ce qui concerne certains aspects. Du point de vue du traitement automatique de la langue, l’auteure passe en revue plusieurs outils qu’elle évalue par rapport à cette tâche. Malgré l’automatisation de certaines parties du travail, il s’avère que plusieurs étapes restent chronophages, et que la rareté de corpus spécialisés constitue un frein réel, constaté d’ailleurs par d’autres intervenants.

Olivier Kraif, dans « Extraction automatique de lexique bilingue : application pour la recherche d’exemples en lexicographie », profite de la disponibilité récente de grands corpus parallèles (c’est-à-dire traduits) pour proposer des méthodes d’extraction automatique de listes bilingues, qu’il appelle lexiques. Celles-ci sont en fait conçues dans une optique prédictionnairique, car c’est au lexicographe de décider ce qui doit être retenu. L’auteur prévoit d’ailleurs que le lien avec les textes d’origine soit maintenu, voire optimisé, afin de palier l’inconvénient de la décontextualisation qui compromet les jeux de cohésion comme de cohérence, assurant ainsi une meilleure équivalence textuelle. Le seul bémol aux yeux du présent lecteur se situe au niveau de la qualité et de la pertinence des textes sources, mais cet aspect n’enlève rien à celles des propositions présentées.

Elizabeth Marshman et Marie-Claude L’Homme, dans « Portabilité des marqueurs de la réalisation causale ; études sur deux corpus spécialisés », appliquent au français une recherche déjà engagée en anglais sur la possibilité d’identifier des marqueurs de la causalité dans deux corpus relevant de domaines fortement différenciés, ceux de la médecine et de l’informatique. Les résultats sont contrastés : si certains verbes fonctionnent de manière similaire dans les deux corpus, de nombreux autres varient à des différents degrés selon le contexte. Apporter des informations actantielles, selon les auteures, est susceptible d’améliorer sensiblement les résultats.

Le ton devient plus polémique lorsque Patrick Leroyer présente « La correction de la traduction L2 > L1 comme fonction du dictionnaire spécialisé ». Il s’agit de montrer la supériorité de la théorie qu’il appelle fonctionnelle, telle qu’elle est prônée par Tarp[2] en particulier, en opposition avec celle de Wiegand, parfois connue sous le même nom, et avec le « triptyque lexicographie, dictionnairique, métalexicographie » de Quemada et de Pruvost. La fonction corrective, selon Leroyer, n’est prise en compte que par la première théorie. Il en fait la démonstration, du moins pour la pertinence de la théorie qu’il défend, exemple (rapport annuel > aaresrapport [danois]) à l’appui. La dimension corpus, toutefois, sans doute sous-entendue dans la constitution de la base qui sous-tend le dictionnaire en question, passe sous silence.

Geoffrey Williams, dans « Le corpus et le dictionnaire dans les langues scientifiques », constate que les dictionnaires d’apprentissage de l’anglais n’ont visiblement pas de politique d’inclusion du vocabulaire du type étudié dans ce volume par Tutin. Partant de l’idée que ce vocabulaire est indispensable aux nombreux étudiants scientifiques non anglophones (secteur appelé en France LANSAD – Langues destinées aux spécialistes d’autres disciplines) qui sont appelés à rédiger en anglais, il recommande une méthode susceptible de combler cette lacune, en particulier en ajoutant des définitions en fonction des emplois proprement scientifiques et en présentant les principaux réseaux collocationnels.

Valérie Delavigne, dans « Construire un dictionnaire d’oncologie pour les patients : aspects méthodologiques », applique les principes de la socioterminologie à la constitution d’un corpus susceptible de sous-tendre ce projet terminographique et de son traitement en vue de la présentation sur une interface, Lexonco (LEXique d’ONCOlogie). Les champs retenus couvrent en effet de très nombreux aspects linguistiques et cognitifs des termes retenus, mais la question de leur pertinence dans un contexte de vulgarisation n’est pas vraiment problématisée. En effet, le métalangage peut paraître rebutant à un utilisateur déjà fragilisé par sa maladie (hyperonyme, méronyme, chrononyme), et certaines informations, comme la règle de formation du terme, peuvent sembler étrangères à ses préoccupations. Toutefois, l’auteure fait valoir un double processus de validation auprès de « collèges » d’experts et de patients. L’apport essentiel de cette contribution est sans doute la réflexion sur la constitution d’un corpus destiné à un dictionnaire de vulgarisation – soit en parfaite conformité avec le sujet du volume – mais certains lecteurs regretteront l’absence d’exemple d’article « modèle », qui aurait facilité la compréhension de la démarche lexicographique de l’auteure.

Le français médical fournit le corpus de l’article d’Isabelle Carrière, intitulé « MédiTerm : encodage des adjectifs médicaux dans un dictionnaire spécialisé ». Il s’agit des adjectifs généralement connus sous le nom de relationnels, mais comme l’explique l’auteure, cette étiquette ne suffit pas pour que le type de relation qu’entretient celui-ci avec son étymon, généralement un nom, soit précisé. C’est le but qu’elle se donne dans la construction de la base mentionnée dans le titre. L’article rend compte des différentes étapes de la méthodologie de l’extraction, faisant appel à TermoStat de Drouin, du classement et de l’analyse des adjectifs retenus, réalisée à l’aide de Syntex de Bourigault et al. L’interface de consultation est présentée en détail, ainsi que les différentes classes sémantiques dégagées par l’analyse. Voilà un article qui remplit parfaitement le cahier des charges de ce recueil !

La plupart des contributions de ce recueil viennent des linguistes, certes de différents pays et de différents horizons thématiques, et l’intérêt des rencontres telles que les journées d’étude est bien l’interaction avec les spécialistes d’autres domaines. C’est le cas dans l’article de Bernard Jacquemin et de Sabine Ploux « Corpus spécialisé et ressource de spécialité : l’information forme le sens », car les auteurs viennent du monde des sciences cognitives, où il est question de la gestion des connaissances, ici prise en compte par des modèles mathématiques très élaborés. L’outil qui est destiné à présenter des relations sémantiques de manière automatique est l’atlas sémantique, des graphes qui représentent la proximité ou l’éloignement dans un corpus par rapport à un mot donné. Ces corpus peuvent être soit primaires, à savoir l’exploitation de textes rédigés, soit secondaires, provenant de dictionnaires existants. Le degré de spécialisation peut paraître faible – le corpus primaire du français est Le Monde – mais c’est bien la méthode qui est intéressante dans cet article.

Sara Castagnoli reprend un des thèmes déjà évoqués par Kraif, à savoir la possibilité d’accéder aux textes qui composent le corpus. Dans « Corpus et bases de données terminologiques : l’interprétation au service des usagers », elle rend compte de la confection d’une base élaborée à l’Université de Bologne sur le thème connu en France sous le nom d’hygiène et sécurité. L’intégration raisonnée des corpus dans les ressources terminologiques fait décidément partie des tendances constatées dans ce forum.

Comme Kraif encore, Nathalie Gasiglia et Hans Paulussen souhaitent mettre à profit la disponibilité sur la toile de ressources bilingues sous la forme de corpus parallèles. Dans « De la création d’un corpus bilingue du tourisme à partir du Web à son exploration avec ParaSearch et Unitex pour la documentation des lexicographes », ils détaillent les moyens de les évaluer (car ils sont très conscients de la qualité souvent très médiocre de textes traduits recueillis automatiquement) et surtout de les extraire et de les traiter, moyennant en particulier les outils mentionnés dans le titre, le premier mis au point par Paulussen, le second par l’Institut Gaspard Monge, de l’Université de Marne-la-Vallée.

Pierre Corbin continue une réflexion amorcée en 2005[3] sur le traitement lexicographique d’un corpus de commentaires radiophoniques de matchs de football. Dans « Peut-on parler d’une langue du football ? Réflexion sur une expérience en cours de constitution et d’exploitation d’une ressource discursive informatisée », Corbin situe cette recherche dans le cadre de la production dictionnairique déjà riche sur les discours footballistiques. Il le fait notamment en procédant à des recherches d’ordre sémasiologique (toutes les occurrences de drible/dribler dans son corpus oral) et onomasiologique (toutes les expressions témoignant des actes de jeu).

Ce recueil ne manquera pas d’intéresser ceux qui travaillent sur les différents aspects de la collecte et l’analyse des collocations dans les textes spécialisés, en particulier en français, sans oublier les éventuelles extensions plurilingues.