Corps de l’article

1. Problématique

Dérivation et figement sont les deux procédés linguistiques assurant le renouvellement du lexique. La dérivation opère au niveau des unités monolexicales tandis que le figement se réalise à travers les unités polylexicales, d’où la distinction entre « syntaxe lexicale (celle du mot) et syntaxe syntagmatique (celle des phrases et des syntagmes) » (Mejri 2000 : 42). Toutefois, le passage d’une langue à une autre rend moins évidente cette distinction. En effet, la traduction (français-arabe ; arabe-français) montre que figement et dérivation s’enchevêtrent. Il ne s’agit donc plus de traiter la traduction en termes d’équivalence, soit monolexicale, soit polylexicale, entre les différentes unités de la langue source et de la langue cible.

Notre objectif étant double, il s’agira pour nous :

  • De faire de la polylexicalité une marque morphologique qui permet d’intégrer dans la traduction la notion d’équivalence entre séquences figées, collocations et incorporation morphologique ;

  • D’illustrer le jeu d’équivalence entre construction polylexicale (ou analytique) et construction monolexicale d’incorporation morphologique (ou synthétique) en partant d’un corpus lexicographique français-arabe.

En partant de l’idée qu’il existe un niveau intermédiaire entre les séquences totalement figées appelées séquences idiomatiques et les séquences dites libres, on pourra envisager le processus de traduction des syntagmes composés de deux ou plusieurs mots : aux séquences idiomatiques de la langue source, on fait correspondre des séquences figées dans la langue cible. Restent les collocations qui ont cette particularité d’appartenir à la fois à la combinatoire libre et à la combinatoire figée. Quel traitement faut-il leur consacrer dans un dictionnaire bilingue français-arabe ? Quels sont les outils méthodologiques nécessaires à l’élaboration d’un concordancier bilingue (français-arabe) des combinaisons figées et semi-figées ?

Pour répondre à ces questions, nous partons de la définition de la collocation donnée par Blumenthal et Hausmann (2006 : 9) comme étant une « co-occurrence lexicale restreinte […] de structure binaire : une base et un collocatif […] dont les relations sont hiérarchisées et orientées » et qui est plus adaptée au traitement automatique des collocations. Étant donné que les collocations n’ont pas uniquement un sens propre, autrement dit non compositionnel, et qu’elles ont, selon les termes de Mejri (2008 : 196), une double combinatoire libre et figée, nous prenons en compte l’information contextuelle autour de la collocation pour étudier son comportement syntaxique, voire établir des classes de collocations. Ces classes seront répertoriées dans des bases de données linguistiques prêtes à une exploitation informatique pour l’extraction automatique.

Nous commencerons par expliciter la relation qui existe entre formation analytique et formation synthétique dans les deux langues en question avant de fournir quelques exemples de concordanciers monolingues et bilingues et de montrer leur impact sur la qualité de la traduction et sur les mécanismes d’extraction automatique. Nous finirons par un exemple spécifique de traitement : celui des concordances de collocations.

2. Synthèse et analyse dans les formations lexicales

2.1. Propriétés intralinguales

Selon la grammaire générative, la dérivation est un type de syntaxe transposé de la syntaxe ordinaire de la phrase. Guilbert (1971 : xxxii) affirme dans cette même perspective que « dans la procédure de la préfixation, comme dans celle de la suffixation, la création résulte de la transposition en schèmes lexicaux d’un agencement syntaxique des éléments de formation selon une phrase de base et ses diverses transformations ». Partant de là, nous pouvons parler de deux situations différentes :

  • La première où l’on assiste à une intégration syntagmatique et où l’on se situe au niveau de la séquence libre : dans ce cas, le problème de la paraphrase serait posé en termes d’équivalence sémantique entre la phrase de base et les diverses transformations dont elle fait l’objet. La paraphrase se présente alors comme une reformulation du contenu prédicatif exprimé dans la séquence libre initiale ;

  • La deuxième situation, celle de l’intégration morphologique où l’on a affaire à une seule unité lexicale qui serait le résultat d’une opération morphologique d’incorporation : le terme d’incorporation désigne le procédé propre à certaines langues polysynthétiques par lequel un nom (habituellement un complément d’objet) perd son autonomie et s’intègre morphologiquement au verbe. Même si un tel phénomène peut être observé dans des systèmes linguistiques et pas d’autres, les récentes études montrent que la notion d’incorporation morphologique peut s’appliquer au français pour rendre compte de certains mots construits. La dérivation permet donc de condenser la construction syntagmatique dans une seule unité, morphologiquement bien construite. La paraphrase de cette même unité nécessite une opération de désintégration qui permet de retrouver la structure syntaxique de base, c’est-à-dire la séquence libre qui a donné naissance à ce lexème.

On peut citer à titre d’illustration plusieurs syntagmes formés sur le verbe prendre + nom et qui ont pour correspondants des verbes simples tels que :

  • prendre un abonnement → s’abonner

  • prendre une habitude → s’habituer

  • prendre une décision → décider

Or, l’élément incorporé peut avoir différentes fonctions dans la phrase (Sfar 2006). Il peut être :

  • prédicatif : faire une promenade (= se promener), mettre en prison (= emprisonner), etc. ;

  • argumental : mettre dans une cage (= encager), mettre à l’abri (= abriter), etc.

Pour séparer l’élément incorporé de l’élément incorporant, on a recours au mécanisme de la paraphrase. Selon que l’élément est prédicatif ou argumental, la paraphrase fait intervenir des éléments qui permettent d’introduire les unités incorporées en question ; il peut s’agir d’un verbe opérateur ou d’un verbe support, etc. La nature et la fonction des éléments introducteurs varient selon la fonction de l’unité incorporée.

La notion d’incorporation participe donc du principe de l’économie de la langue. Elle permet de condenser une construction syntaxique en un mot. On s’appuie sur la paraphrase lexicographique comme outil d’analyse pour montrer les jeux de distribution des modes de formation lexicale. Les verbes parasynthétiques dérivés en contenus dans les phrases suivantes :

sont tous paraphrasables par des syntagmes formés d’un verbe + un nom :

Les limites entre les unités monolexicales construites par dérivation et les unités polylexicales construites par composition ou figement ne sont pas tranchées. On remarque qu’il peut y avoir des recoupements entre les deux tant sur le plan sémantique que sur le plan syntaxique puisqu’on peut trouver une base nominale qui sert de racine pour former à la fois un dérivé et un nom composé ayant la même valeur sémantique (ex : estoc = estocade / coup d’estoc). Selon Gross (1996 : 31), le substantif coup et le suffixe -ade sont synonymes. Ils ont la même fonction. Ils permettent à un substantif concret de devenir un nom prédicatif. Cette relation est productive :

  • une arquebusade = des coups d’arquebuse

  • une bastonnade = des coups de bâton

  • une fusillade = des coups de fusil

L’unité dérivée intègre l’élément nominal (arquebuse, bâton, fusil) qui complète le nom prédicatif coup. La détermination du nom coup participe à la formation de l’unité construite qui spécifie, grâce à l’incorporation, le type de coup en question.

2.2. Propriétés interlinguales

Le phénomène de l’incorporation, présent également dans le système linguistique arabe et caractérisé par une grande variété morphologique de par la diversité des schèmes consonantiques et des valeurs syntaxiques et sémantiques qui leur sont associées, se traduit différemment. Les cas où l’incorporation dans les deux langues donne lieu à des unités équivalentes morphologiquement et sémantiquement ne sont pas très fréquents. Nous pouvons fournir quelques exemples de verbes comme :

  • emboîter / forme: 039610aro001n.png

  • embrigader / forme: 039610aro002n.png

  • emmagasiner / forme: 039610aro003n.png

  • emplumer / forme: 039610aro004n.png

  • encaisser / forme: 039610aro005n.png

  • enherber / forme: 039610aro006n.png

Pour le reste, trois cas de figure peuvent être observés :

  1. Les cas où l’on est en présence de dérivés morphologiques dans les deux langues correspondant à des formations syntagmatiques ou paraphrastiques. Nous retenons l’exemple des dérivés en -aie comme :

    • pommeraie = lieu planté de pommiers / forme: 039610aro007n.png

    • cerisaie = lieu planté de cerisiers / forme: 039610aro008n.png

    • bananeraie = lieu planté de bananiers / forme: 039610aro009n.png

    où le mot forme: 039610aro010n.png ([bustɛ:n] = jardin) permet d’introduire le locatif.

  2. Les cas où la formation synthétique en français est traduite par une formation analytique en arabe :

    • empocher / forme: 039610aro011n.png (mettre dans sa poche)

    • encager / forme: 039610aro012n.png (mettre dans une cage)

    • enfariner / forme: 039610aro013n.png (cacher de farine)

    • enjuponner / forme: 039610aro014n.png (faire mettre une jupe)

    • enrubanner / forme: 039610aro015n.png (enjoliver avec un ruban)

  3. Les cas où l’incorporation morphologique en français est traduite par deux types de formation en arabe : la formation analytique (composée d’un verbe + un nom) et la formation synthétique (verbe simple) :

Tableau 1

Correspondance entre unités monolexicales et unités polylexicales en français et en arabe

Correspondance entre unités monolexicales et unités polylexicales en français et en arabe

-> Voir la liste des tableaux

Contrairement aux séquences figées qui fonctionnent comme un bloc et qui, par conséquent, possèdent des correspondants bien déterminés, les unités mono- ou polylexicales décrites ci-dessus ont ceci de particulier : elles sont interchangeables et ne sont pas disponibles en langue de la même manière en français et en arabe. L’élaboration d’un dictionnaire bilingue français-arabe devrait donc prendre en considération ces différents cas de figure et les spécificités de chaque système linguistique, à savoir les propriétés morphologiques (formations synthétiques vs formations analytiques) et les propriétés syntactico-sémantiques des unités (mécanismes d’appropriation entre verbes support et prédicats nominaux, phénomène collocationnel, etc.).

3. Équivalence entre unités monolexicales et unités polylexicales

La recherche d’équivalents est une opération qui pose problème parce qu’elle implique à la fois les propriétés morphologiques et les propriétés syntactico-sémantiques des langues en question. Si les dictionnaires bilingues fournissent des équivalents isolés, c’est parce qu’ils utilisent des unités monolexicales hors emploi. Or, la même unité lexicale, qu’elle soit mono- ou polylexicale, a des potentialités d’emplois multiples. Sa traduction, qu’elle soit intra- ou interlinguale, ne peut donc pas passer sous silence cette dimension contextuelle ou discursive. Le sens issu de l’emploi en contexte peut être bien ancré dans l’usage au point de se lexicaliser. Selon Mel’čuk (2003 : 59), « un DEC (Dictionnaire explicatif et combinatoire) bilingue L1→ L2 [= pour les locuteurs de L1] est l’union de deux DEC monolingues de L1 et de L2 dont le métalangage lexicographique est L1, qui contiennent tous les commentaires nécessaires en L1, et qui sont munis d’un index lexical L1 L2, assurant, pour l’usager, l’accès au DEC de L2 ». Cette manière de procéder, nommée également approche séparatiste (Mel’čuk 2003 : 59), n’est pas des plus faciles à réaliser, mais présente l’avantage d’apporter des éléments de réponse assez satisfaisants. Elle est de loin préférable dans des applications computationnelles et à des fins théoriques. Nous présentons dans ce qui suit deux types de correspondances qui impliquent les dimensions morphologiques, syntactico-sémantiques et discursives de chaque système linguistique.

3.1. Formations dérivationnelles et correspondances sémantiques

Plusieurs études en rapport avec la traduction automatique montrent qu’elle est tributaire de descriptions linguistiques fines et détaillées dans chacune des langues concernées. D’une manière générale, si la description linguistique est uniformisée, elle garantit les équivalences lexicales indépendamment de leurs formes morphologiques. Pour ce faire, il faut établir une grille d’analyse des unités lexicales en question. Nous illustrerons notre raisonnement par un exemple de formation prédicative : les verbes parasynthétiques.

3.1.1. Le cas des prédicats verbaux

Parmi les informations nécessaires à la description des prédicats verbaux, nous retiendrons :

  1. Le schéma d’arguments : qu’il s’agisse d’une formation monolexicale ou polylexicale, il est nécessaire d’indiquer le schéma d’arguments pour permettre d’établir des correspondances. Dans l’exemple du verbe encager, qui ne possède pas d’équivalent monolexical en arabe, l’indication du schéma d’arguments peut être une solution au blocage de la correspondance. L’emploi prédicatif correspond au schéma argumental suivant : N0<hum> N1<oiseau>, avec l’indication du sens : mettre dans une cage.

  2. La classe sémantique du prédicat verbal : on classera sous le même trait sémantique action et dans la sous-classe <emprisonner> les deux unités : monolexicale (encager) et son équivalent paraphrastique (mettre dans une cage). Il en est de même pour la traduction.

  3. Les formes morphologiques apparentées : une fois décrites, les unités lexicales peuvent être mises en relation de manière à faciliter la mise en correspondance. On dépasse alors les limites de la forme morphologique pour établir des relations sémantiques et syntaxiques.

Il est clair que cette manière de procéder permet de passer outre les limites de la morphologie pour établir des relations entre des unités lexicales présentant les mêmes propriétés syntaxiques et sémantiques.

3.2. Collocations et correspondances

Si la collocation se définit essentiellement par son caractère discursif associé à une présence fréquente dans les divers corpus, la traduction de la collocation d’une langue L1 à une langue L2 se heurte à un grand nombre de problèmes. D’abord, ce qui peut être considéré comme collocationnel dans une langue ne l’est pas forcément dans l’autre. Ainsi, les équivalents en arabe de soleil de plomb [hara:ra sa:hiqa = chaleur écrasante / ʃamsun ha:riqa : = soleil brûlant] ne sont pas considérés comme une collocation. Ensuite se pose le problème de la forme du correspondant en L2. Une collocation peut être traduite par une autre collocation comme dans :

  • poser une question / forme: 039610aro017n.png

  • fournir la preuve / forme: 039610aro018n.png

  • apporter des modifications / forme: 039610aro019n.png

Si ce n’est pas le cas, on peut avoir un changement au niveau du collocatif – les éléments qui constituent une séquence collocative n’obéissent à aucune logique autre que l’usage – ; ainsi, aux syntagmes déposer une plainte, donner une conférence et rendre service, on fait correspondre respectivement les groupes collocationnels suivants :

  • déposer une plainte / forme: 039610aro020n.png [= lever-plainte] 

  • donner une conférence / forme: 039610aro021n.png [= présenter-conférence] 

  • rendre service / forme: 039610aro022n.png [= rendre-service]

Le passage d’une langue à une autre impose une nouvelle sélection au niveau du collocatif : déposer / lever ; donner / présenter, etc. Dans d’autres cas, la collocation peut avoir pour correspondant un mot simple, notamment dans les combinaisons verbe + nom. Nous donnons à titre d’exemple les collocations formées sur le verbe mettre :

  • mettre à jour / forme: 039610aro023n.png

  • mettre à zéro / forme: 039610aro024n.png

  • mettre au point / forme: 039610aro025n.png

  • mettre en action / forme: 039610aro026n.png

  • mettre en application / forme: 039610aro027n.png

  • mettre en mémoire / forme: 039610aro028n.png

  • mettre en série / forme: 039610aro029n.png

  • mettre en valeur / forme: 039610aro030n.png

Par ailleurs, la traduction du collocatif peut être à l’origine d’une désambiguïsation de la collocation en question dans la langue source. L’adjectif accablant utilisé avec preuve, charge et témoignage est traduit différemment en arabe de manière à obtenir trois collocations différentes :

  • charge accablante / forme: 039610aro031n.png

  • preuve accablante / forme: 039610aro032n.png

  • témoignage accablant / forme: 039610aro033n.png

Le dernier cas de figure concerne les lacunes collocationnelles. Il arrive que la langue cible n’offre aucun cas de correspondance. On essaye alors d’appliquer ce que Siepmann (2008 : 184) appelle le « principe de créativité », qui consiste à « déterminer les processus sémantiques ou syntaxiques sous-tendant la composition du syntagme » afin de rendre possible sa traduction :

  • forme: 039610aro034n.png (équivalent : tendre un piège)

  • forme: 039610aro035n.png (équivalent : blessure grave)

  • forme: 039610aro036n.png (équivalent : déclarer faillite)

  • forme: 039610aro037n.png (équivalent : fournir une preuve)

Selon lui, la traduction systématique des configurations collocationnelles est possible mais il faut avoir quelques réserves par rapport à :

  • l’ambiguïté des syntagmes traduits, notamment les collocations qui peuvent être polysémiques ;

  • la transposition des collocations en L2 qui ne se fait pas toujours de la même manière ;

  • la dimension stylistique qui diffère d’une langue à une autre ;

  • le contexte textuel qui impose parfois une traduction au détriment d’une autre ;

  • la fréquence d’emploi du syntagme en question qui n’est pas la même quand on passe d’une langue à une autre ;

  • l’absence de collocation dans la langue cible ou, à plus forte raison, la différence entre les types de collocatifs pour une même base.

4. Traduction et correspondance dans les concordanciers bilingues

Un concordancier est un logiciel qui permet d’extraire et d’afficher les contextes pour chaque occurrence des unités qui font l’objet de la requête (Neveu 2004). Il produit donc des concordances qui sont des listes de toutes les occurrences d’un ou plusieurs mots ou expressions, alignés verticalement en colonne, accompagnés de leurs contextes droit et gauche, et souvent classés par ordre alphabétique.

Tableau 2

Modèle de concordance en français

Modèle de concordance en français

-> Voir la liste des tableaux

Pour l’arabe, c’est dans le cadre des travaux effectués au sein du laboratoire Lexiques, Dictionnaires, Informatique (Université Paris 13) que s’est faite l’implémentation dans des logiciels en usage dans le domaine du TAL tel que UNITEX (Mejri 2008 : 61).

Tableau 3

Modèle de concordance en arabe

Modèle de concordance en arabe

-> Voir la liste des tableaux

Les concordanciers permettent d’explorer l’utilisation d’un mot ou d’une expression dans un type de texte donné. Un même mot, ou une même expression, peut avoir différents sens selon les emplois (voir les travaux de Mathieu-Colas 1998, Gross 1996, etc.) et par conséquent, plusieurs traductions qui correspondent aux diverses acceptions. C’est cette interdépendance inextricable entre le sens d’un mot ou d’une expression et celui de son contexte qui fait que les concordanciers monolingues se présentent comme un outil indispensable à la désambiguïsation des emplois. Ils le sont davantage quand ils représentent deux langues, par exemple le français et l’arabe. Les concordanciers bilingues doivent être adossés à des textes bilingues ou des traductions. C’est à cette fin que des corpus textuels bilingues, notamment français-arabe, sont en cours de constitution au sein du LDI et concernent à la fois la langue générale et les langues spécialisées[3].

Nous discutons dans ce qui suit un exemple tiré des corpus parallèles de la métalangue des sciences du langage. Si nous prenons à titre d’illustration le mot incidence qui appartient à la fois au discours général et au discours spécialisé, nous constatons qu’il bénéficie de deux emplois différents en contexte :

  • incidence (terme linguistique) : forme: 039610aro040n.png

  • incidence (mot de la langue générale) : forme: 039610aro041n.png

Or, une requête formulée sur l’unique base du mot isolé serait peu fiable parce qu’elle donnerait comme réponse tous les contextes d’emploi du mot incidence :

Tableau 4

Concordancier bilingue français-arabe

Concordancier bilingue français-arabe

-> Voir la liste des tableaux

La réalisation de concordanciers bilingues (français-arabe) ne peut se faire que si nous résolvons les problèmes en rapport avec les correspondances interlinguales entre unités lexicales mono- ou polylexicales.

5. Conclusion

Nous avons présenté la notion d’incorporation morphologique et nous en avons montré l’intérêt pour la mise en relation des unités monolexicales et leurs équivalents polylexicaux. C’est au niveau du mot que se situent beaucoup de difficultés linguistiques de la traduction. Le schéma d’arguments constitue un des points d’ancrage de ce mécanisme. L’incorporation sollicite en effet des opérations de reformulation et de paraphrase intra- et interlinguales. Celles-ci s’exercent à travers des transformations qui mettent en oeuvre les spécificités linguistiques de chaque langue :

  • les propriétés morphologiques (formations analytiques vs formations synthétiques) ;

  • les propriétés syntactico-sémantiques (emplois prédicatifs vs emplois argumentaux) ;

  • les propriétés discursives (appropriation et degré de figement dans les syntagmes collocationnels).