Article body

1. Introduction

La psycholinguistique est un domaine de recherche relativement récent qui se donne pour objectif de mettre au jour les mécanismes impliqués dans l’utilisation du langage, plus spécifiquement dans la production, la compréhension et l’acquisition du langage. Les recherches dans ce domaine ont véritablement pris un essor considérable avec ce qu’on a appelé la «révolution cognitive» des années soixante-dix, donc il y a environ trente ans. C’est à partir de ce moment qu’on a vu apparaître des modèles intégrés des processus cognitifs mis en jeu dans le décodage et l’encodage du langage. Au cours de ces années, des travaux en neurolinguistique ainsi que des modélisations informatiques se sont greffés aux travaux de nature plus spécifiquement psycholinguistique. Ces travaux ont non seulement fait avancer les connaissances, mais également modifié en profondeur notre façon de concevoir le traitement du langage par l’individu.

Le présent article propose un survol de ces trente années de développement de la psycholinguistique. Ce survol sera bien sûr partiel; il reflètera mes intérêts personnels et ce qui me semble caractériser la direction qu’a prise le domaine au cours de ces années. Bien que le terme «psycholinguistique» recouvre les mécanismes d’acquisition de la langue maternelle et des langues secondes, j’ai choisi de me limiter aux récents développements en compréhension et en production du langage, en partie pour des raisons d’espace et en partie parce que c’est là où, à mon sens, les progrès les plus spectaculaires ont été faits, autant du point de vue des techniques de recherche que des connaissances elles-mêmes. De plus, la recherche sur l’acquisition, que ce soit de la langue maternelle ou d’une langue étrangère, a pris une direction très différente de celle des recherches sur la compréhension et la production; les questions posées et les manières d’y répondre sont totalement différentes, et on peut dire qu’on a affaire à des domaines distincts, même si à la base il s’agit du traitement du langage par l’individu. Le lecteur intéressé à l’acquisition du langage trouvera des états de la question dans diverses compilations récentes (Fletcher, MacWhinney et coll. 1995; Gernsbacher et coll. 1994; Ritchie, Bhatia et coll. 1996, 1999).

Cet article est organisé en deux parties. Dans la prochaine section, je présente quatre nouveaux courants de recherche qui, aidés par les avancées technologiques des dernières années, sont devenus des sources importantes de données sur les processus cognitifs impliqués dans l’utilisation du langage. La section suivante porte sur l’évolution des connaissances dans la production et dans la compréhension du langage. Dans la mesure du possible, il sera fait référence à des travaux intéressants en français ou portant sur le français.

2. Nouveaux courants de recherche

Dans cette section, je passe en revue quatre grands développements dans les paradigmes de recherche en psycholinguistique depuis le début des années soixante-dix : l’importance prise par les travaux de neuropsychologie, les études de potentiels évoqués, les recherches basées sur le mouvement des yeux en lecture et le courant connexionniste.

2.1 Neuropsychologie

C’est durant les années soixante-dix que s’est développé un nouveau courant de recherche, la neuropsychologie cognitive, se donnant pour objectif de contribuer à la caractérisation du fonctionnement cognitif en utilisant des données d’ordre neurologique.

Les recherches traditionnelles en neuropsychologie ont permis d’établir des corrélations entre des dommages dans des régions spécifiques du cerveau et certains déficits linguistiques. Les aires de Broca et de Wernicke sont depuis longtemps associées aux mécanismes de planification et de production, d’une part, et à l’accès lexical de l’autre. À partir de ce constat, les recherches se sont orientées dans deux directions. D’abord, on a cherché à préciser les fonctions exactes prises en charge par ces aires. Ensuite, on s’est demandé dans quelle mesure il était possible de cerner de façon précise les aires du cerveau impliquées dans les différentes tâches cognitives : les représentations sont-elles distribuées de façon très large ou au contraire localisées assez précisément (Caplan 1994)? Les travaux suivants sont représentatifs des recherches des années quatre-vingt-dix. Kutas 1998 : 954 suggère que l’aire de Broca regroupe en fait quatre ou cinq aires fonctionnellement distinctes. Poeppel 1996 émet l’hypothèse que les diverses tâches de nature phonologique (détection de phonèmes, détection de rimes, etc.) mettent en cause divers sous-systèmes fonctionnels. Grodzinsky 2000 propose que l’aire de Broca est en fait le siège de la composante transformationnelle du langage, la combinatoire syntaxique elle-même étant plus largement représentée. Zurif et Swinney 1994 : 1070 rapportent que les traces de mouvement QU sont traitées par les patients souffrant d’une aphasie de Wernicke, mais pas par ceux souffrant d’aphasie de Broca; ils attribuent ce résultat au fait que la saturation d’une position argumentale par un opérateur est un processus syntaxique plutôt qu’une opération thématique.

Dans les études de patients ayant subi des dommages neurologiques, la perspective modulaire du cerveau défendue par Fodor 1983 est étudiée par le biais de la «double dissociation». Si un sujet donné a des difficultés à effectuer une opération A, mais réussit bien B, alors que chez un autre l’opération B est affectée tandis que A est intacte, on peut raisonnablement en inférer que A et B relèvent de systèmes fonctionnellement indépendants (voir Van Orden, Pennington et Stone 2001 pour une critique de cette approche). Dans le domaine du langage, Caplan 1992, 1994 fait le bilan des recherches sur les aspects du traitement linguistique qui peuvent être affectés de façon sélective par des dommages neurologiques et propose des modèles fonctionnels des opérations cognitives impliquées. Ces modèles psycholinguistiques sont basés sur les modèles existants de compréhension et de production du langage normal et contribuent à les préciser.

Parallèlement à ces travaux portant sur des cas pathologiques, les nouvelles techniques d’imagerie cérébrale comme la tomographie par émission de positrons (tep) ou la magnéto-encéphalographie (meg) fonctionnelle permettent maintenant d’observer les régions du cerveau impliquées dans diverses tâches cognitives chez l’individu sain, et très souvent d’appuyer les hypothèses faites à la suite de l’observation de cas pathologiques. Par exemple, Damasio et coll. 1996 discutent le cas de patients n’ayant aucune difficulté à nommer les parties du corps, mais incapables de donner le nom d’outils ou d’ustensiles. Ces patients ont des lésions dans la partie postérieure du lobe temporal inférieur, des troubles avec d’autres classes conceptuelles étant liés à des dommages dans d’autres régions, ce qui montre que les informations lexicales sont regroupées par classes conceptuelles dans le cerveau. L’implication des mêmes régions est confirmée par l’analyse tep de sujets sains.

Par ailleurs, grâce à la magnéto-encéphalographie, Levelt et coll. 1998 ont pu enregistrer et chronométrer le parcours de l’activation, dans la dénomination d’un dessin, depuis le lobe occipital jusqu’au lobe frontal, en passant par le lobe pariétal et le lobe temporal. Ce trajet reflète les diverses opérations cognitives requises par la tâche : reconnaissance visuelle du dessin, récupération du concept lexical, puis de la forme phonologique du lexème, encodage phonologique et initialisation de l’articulation. La durée de chaque opération est estimée à environ 100 à 150 millisecondes.

Dans le même temps, des recherches dans le domaine cellulaire, particulèrement sur le cortex visuel, ont porté sur le fonctionnement des neurones et sur les types de stimulations auxquelles ils réagissent. On a ainsi pu montrer que les divers aspects du traitement du signal visuel (forme, couleur, mouvement) sont effectués par des cellules spécialisées situées dans des aires spécifiques (Zeki 1990). L’ensemble de ces résultats appuie l’hypothèse de modules spécialisés dans tel ou tel aspect du traitement de l’information, et conforte la perspective défendue par Fodor 1983 et Chomsky 1985 sur la modularité du cerveau.

2.2 Étude des potentiels évoqués

Une autre technologie nouvelle, l’étude des potentiels évoqués (erp, ou «event-related potentials»), donne lieu à de plus en plus de recherches. Les études de potentiels évoqués permettent d’étudier en temps réel l’activité électrique générée par l’influx nerveux lors du traitement du langage. En comparant les potentiels évoqués pendant le traitement de phrases contrôles avec ceux obtenus pour des phrases différant minimalement de celles-ci en un point crucial (soit parce que la phrase devient agrammaticale à partir de ce point, soit parce que le mot placé à ce point est sémantiquement inapproprié), on peut identifier la région du cerveau responsable de la détection de l’erreur, suivre en temps réel le temps pris pour détecter l’erreur, et comparer l’effet de différents types de violations. Bien qu’on ne connaisse pas encore les évènements cellulaires qui sous-tendent les effets observés (Kutas et Van Petten 1994 : 106), les recherches sur les potentiels évoqués ont l’avantage de permettre, à l’aide d’une technique non intrusive, de calculer à la milliseconde près l’effet d’une variable, sans qu’interfèrent d’autres tâches accessoires demandées au sujet.

La N400 est peut-être l’effet le plus étudié dans les études de potentiel évoqué portant sur le langage. Osterhout 1994 rapporte par exemple que la phrase sémantiquement déviante (1b) élicite, comparativement à (1a), une différence de potentiel négative dont le sommet suit d’environ 400 millisecondes le mot moon.

Cette différence, étiquetée N400, a été observée en modalité visuelle (lecture) dans différentes langues, ainsi qu’en modalité auditive et même en asl (Kutas et Van Petten 1994 : 107). À l’inverse, la phrase grammaticalement déviante (2b) élicite une différence positive débutant environ 500 millisecondes après le mot to et dont le sommet se situe autour de 600 millisecondes (différence P600).

La N400 semble donc liée à l’anomalie sémantique, et la P600 à l’agrammaticalité. Des violations de la sous-jacence ou du principe des catégories vides élicitent aussi des différences P600 positives, mais l’anomalie débute vers 200 millisecondes (voir également Hagoort et Brown 1994, Kaan et coll. 2000). La source exacte des différences de potentiel observées est encore inconnue et fait l’objet de diverses hypothèses. Pour Coulson, King et Kutas 1998, la P600 est liée au caractère improbable de l’évènement plutôt qu’à l’agrammaticalité elle-même; ces auteurs suggèrent que des effets négatifs («left lateralized anterior negativities», ou lan) apparaissant de 300 à 500 millisecondes après le stimulus pourraient être des effets plus directs du parsage syntaxique. Kutas 1998 : 962, pour sa part, attribue une lan plus grande pour les relatives objets que pour les relatives sujets à la surcharge sur la mémoire de travail impliquée par le traitement des relatives objets.

2.3 L’étude des mouvements des yeux

La technologie de recherche utilisant l’étude du mouvement des yeux en lecture ne peut pas être qualifiée de récente puisque, selon Estes 1977, elle a été développée dès la fin du XIXe siècle par Cattell 1886, puis par Huey 1908. Mais on peut dire que c’est à partir des années quatre-vingt, à la suite du travail de Just et Carpenter 1980, qu’elle a été utilisée pour tester des modèles psycholinguistiques. L’étude du mouvement des yeux en lecture a permis de montrer ou de confirmer, entre autres, que l’intégration des informations sémantiques se fait en fin de phrase ou de syntagme (Just et Carpenter 1980, Rayner et coll. 1989), que les premières lettres jouent un rôle crucial dans l’identification des mots (Blanchard et coll. 1989) et que la reconnaissance d’un mot est affectée par sa fréquence (Rayner et Duffy 1986). On a aussi utilisé le mouvement des yeux pour étudier la résolution de l’ambiguïté syntaxique (Frazier et Rayner 1982, 1987) et lexicale (Pickering et Frisson 2001). Ces derniers, par exemple, montrent que l’ambiguïté verbale ne donne pas lieu au même traitement que l’ambiguïté nominale : tandis que le nom ambigu reçoit une interprétation immédiate sur la base du contexte dans lequel il se trouve et de la fréquence des interprétations possibles, l’interprétation des verbes ambigus est tardive. Pour une revue plus complète de la question, voir Rayner et Sereno 1994.

2.4 Réseaux d’activation et connexionnisme

Un autre grand courant de recherche qui a dominé toutes ces dernières années est basé sur la notion de distribution d’activation, notion qui a pris un essor considérable au début des années soixante-dix (Collins et Loftus 1975). On sait que les neurones forment un réseau complexe. Chaque neurone communique avec un ou plusieurs autres au moyen de synapses ayant un effet excitant ou inhibant. Lorsqu’un neurone est activé, il transmet une stimulation positive ou négative aux neurones auxquels il est relié. À un niveau plus abstrait, on postule que les informations circulent d’une unité de traitement à une autre par transmission de l’activation.

Les chercheurs du projet pdp ont développé des modèles informatiques de réseaux neuronaux, ou réseaux connexionnistes (Rumelhart, McClelland et coll. 1986), constitués d’unités ou noeuds transmettant une activation positive ou négative (inhibition) aux noeuds auxquels ils sont reliés. Ces réseaux sont utilisés pour modéliser divers aspects du traitement cognitif (Elman et coll. 1998). Dans le domaine du langage, le connexionnisme a fait une entrée remarquée via le modèle d’apprentissage de la forme passée des verbes anglais proposé par Rumelhart, McClelland et coll. 1986 et par la critique qu’en ont faite Pinker et Prince 1988. La perspective connexionniste a suscité et suscite encore beaucoup de questionnements et de critiques. Fodor et Pylyshyn 1988 ont argumenté par exemple qu’un modèle connexionniste n’était pas apte à construire ou à manipuler les symboles du niveau cognitif (voir aussi Marcus 1998). Mais le connexionnisme est l’un des courants dominants de la psychologie moderne, et il est clair que cette approche a une influence considérable sur notre façon de concevoir les processus cognitifs et particulièrement le langage (voir en particulier les articles de Harley 1993, Plunkett 1995, 1998; Seidenberg 1994, Smolensky 1988, Stevenson 1994, et Waltz et Pollack 1985).

Pour résumer cette première partie, on peut dire que la recherche en psycholinguistique a été profondément modifiée par l’implication des neuropsychologues et des informaticiens cognitivistes, d’une part, et par l’émergence de technologies non intrusives permettant de «voir» le cerveau sain en action et de mesurer l’effet du traitement linguistique sans interférence d’autres tâches demandées aux sujets.

3. Évolution des connaissances en production et en compréhension du langage

Dans cette section, je résume brièvement les principales avancées des connaissances sur les opérations mentales impliquées dans la production du langage d’abord, puis dans la compréhension du langage.

3.1 Production du langage

Quant au nombre de travaux publiés, la production du langage a été le parent pauvre de la recherche en psycholinguistique, mais l’importance de ces recherches est cruciale, puisque les premiers modèles fonctionnels de traitement proviennent de ces travaux.

Au cours des années soixante-dix, les chercheurs se sont mis à porter un intérêt particulier aux phénomènes de performance observés dans la production linguistique : les lapsus (Fromkin 1971), les hésitations (Goldman-Eisler 1972) et le phénomène du mot sur le bout de la langue (Brown et McNeill 1966). Ces phénomènes ont été rapidement reconnus, d’abord comme démontrant la réalité psychologique des unités linguistiques (phonèmes, syllabes, morphèmes, mots, syntagmes), puis comme ouvrant des fenêtres sur les processus mis en jeu lors de la production du langage (Fromkin 1971, Fromkin et coll. 1973). Fromkin 1971 peut être considérée comme la première à avoir proposé un modèle des opérations cognitives impliquées dans la production du langage. Il s’agit d’un modèle de planification de la phrase comportant cinq étapes s’appliquant de façon séquentielle : 1° le contenu sémantique de la phrase est planifié; 2° la structure syntaxique est construite avec, sous les noeuds lexicaux, des ensembles de traits sémantiques; 3° l’intonation phrastique est déterminée; 4° les lexèmes ayant les traits sémantiques appropriés sont sélectionnés; 5° la forme phonologique résultante subit des règles morphophonémiques s’il y a lieu. Le résultat est envoyé aux organes d’articulation.

Le modèle élaboré par Garrett 1975, 1980 et développé par Levelt 1989 conçoit la production du langage comme formée d’un ensemble de modules de traitement fonctionnant en cascade, comme une chaîne de montage. Dès qu’un module a terminé de traiter une partie de l’information, il envoie cette information au module suivant pour traitement ultérieur, et entame immédiatement le traitement d’un nouvel ensemble de données. Ainsi, la phrase peut commencer à être articulée sans avoir été complètement planifiée. Les modules sont légèrement différents de ceux proposés par Fromkin : élaboration du contenu du message, sélection des concepts lexicaux (lemmes) et planification de la structure grammaticale, récupération de l’information phonologique correspondant aux unités lexicales choisies (lexèmes), plan articulatoire. Le modèle comporte également des boucles de contrôle qui comparent le signal auditif produit à l’intention de communication et initie des corrections s’il y a lieu.

S’opposant à un modèle fonctionnant purement en cascade «de haut en bas», divers auteurs (Dell 1986, Dell et Reich 1981, Stemberger 1985) favorisent une perspective connexionniste interactive dans laquelle les informations d’un niveau inférieur de traitement peuvent influencer en retour les niveaux supérieurs. Ils expliquent certains lapsus, comme le remplacement du mot anglais present ‘présenter’ par prevent ‘prévenir’, de la façon suivante : l’activation du mot present est transmise aux unités correspondant aux phonèmes de ce mot; ces dernières, en retour, transmettent leur activation aux mots auxquels elles sont associées; prevent se retrouve ainsi activé par le fait qu’il partage presque tous ses phonèmes avec present.

Le débat entre la perspective modulaire unidirectionnelle de Levelt 1989 et la perspective connexionniste interactive n’est pas terminé, mais, pour le moment, il semble que les faits favorisent les modèles modulaires plutôt qu’interactifs. Par exemple, Rossi et Peter-Defare 1998 argumentent en faveur d’un modèle modulaire sur la base d’une étude d’environ 3000 lapsus français, et Burke et coll. 1991 sur la base du phénomène du mot sur le bout de la langue.

3.2 Compréhension

La compréhension est-elle simplement le symétrique de la production? Autrement dit, peut-on prendre un modèle de production (de type : idées→grammaire+lemmes→lexique→sons), inverser la direction des flux d’information, et obtenir un modèle de compréhension (sons→lexique→ lemmes+grammaire→idées)? Pas nécessairement. Alors qu’on conçoit facilement un modèle de production comme purement sériel, il est souvent proposé que les attentes au niveau conceptuel guident le processus de compréhension du langage, ce qui suppose un processus de traitement interactif. Comme les recherches dans ce domaine ont été beaucoup plus nombreuses que celles qui ont porté sur la production, cette section se divise en sous-sections couvrant la parole, l’accès lexical et le décodage syntaxique. L’interprétation du texte et du discours ne sera pas traitée ici.

3.2.1 Parole

Liberman 1996 souligne à quel point ses premières recherches aux Laboratoires Haskins au milieu des années quarante étaient basées sur l’idée naïve que décoder la parole consistait simplement à identifier chacun des phonèmes les uns après les autres. On s’est très rapidement rendu compte qu’il est impossible d’identifier un phonème indépendamment de son contexte, à cause de l’importance des phénomènes de coarticulation. Cela a amené Liberman et ses collaborateurs à penser que seule une prédisposition innée pour le langage pouvait expliquer la facilité avec laquelle l’humain peut décoder la parole, et à proposer la théorie motrice de la perception de la parole (Liberman et coll. 1967, Liberman et Mattingly 1985, Liberman 1996). L’auditeur pourrait identifier les phonèmes en associant aux sons de la parole les gestes articulatoires ayant permis de les produire.

Une alternative à cette hypothèse est de supposer l’existence d’analyseurs du signal acoustique, réagissant de façon sélective à tel ou tel aspect du signal, avec intégration des informations à un niveau de traitement supérieur, à la manière d’un réseau connexionniste. Effectivement, quelques travaux connexionnistes ont démontré qu’il était possible d’entraîner des réseaux artificiels à reconnaître les phonèmes de la langue par simple exposition au signal sonore (Elman et Zipser 1988, Nakisa et Plunkett 1998), ce qui indique que, malgré la variabilité du signal sonore, les indices acoustiques qui y sont présents suffisent à faire discriminer les sons du langage.

L’importance des phénomènes de coarticulation a également amené à se questionner sur l’unité de perception de la parole, c’est-à-dire l’unité minimale à partir de laquelle les analyseurs du signal extraient l’information. Les hypothèses proposées vont du trait phonétique (Cole et coll. 1986) à la syllabe (Mehler et coll. 1981) en passant par le diphone (Klatt 1979). Récemment, Jusczyk 1997 : 217 a suggéré que la syllabe fonctionne comme fenêtre temporelle à l’intérieur de laquelle les traits phonétiques sont identifiés. La syllabe serait donc une unité temporelle élémentaire de décodage.

3.2.2 Lexique

Trois points seront discutés dans cette section : l’identification des frontières de mots, les théories de l’accès lexical pour les mots simples et la compréhension des mots complexes.

3.2.2.1 Identification des frontières de mots

Après l’identification des phonèmes, le premier problème auquel fait face un auditeur est celui de segmenter la parole continue en mots. L’identification des frontières de mots avait reçu relativement peu d’attention jusqu’à la fin des années 1980. Grosjean et Gee 1987 ont d’abord démontré l’importance des indices prosodiques dans la segmentation. Récemment, Christiansen et coll. 1998 ont présenté un modèle connexionniste de segmentation basé sur des indices prosodiques, et Banel et Bacri 1997 ont montré que la durée de la syllabe constitue un indice de segmentation lexicale pour les francophones.

En plus de la prosodie, il a été suggéré que les frontières de mots peuvent être identifiées par le fait que les possibilités de cooccurrences de phonèmes ne sont pas les mêmes à l’intérieur d’un mot qu’entre deux mots. Des travaux à partir de la langue naturelle ou de langages artificiels ont ainsi montré que les bébés peuvent identifier les frontières de mots sur la base d’indices statistiques (règles phonotactiques et probabilités de cooccurrence de phonèmes) (Gómez et Gerken 2000, Jusczyk 1997, 1998; Mattys et Jusczyk 2001).

3.2.2.2 Théories de l’accès lexical pour les mots simples

Comment se fait la reconnaissance des mots simples? On peut se demander si, sur le modèle de ce qu’a proposé Levelt 1989 pour la production, l’accès lexical se passe en deux temps : accès à la forme phonologique d’abord, puis accès au sens. Le modèle logogen de Morton 1969, 1970 n’établissait pas cette distinction, mais celui de Forster 1976, 1979 comportait déjà ces deux étapes. Pour Forster, l’auditeur localise d’abord l’entrée du mot dans un fichier périphérique phonologique. Cette entrée lui donne l’adresse du mot dans un fichier principal regroupant l’ensemble des informations connues sur le mot.

Dans les années quatre-vingt sont apparus des modèles de reconnaissance des mots tenant compte du fait que l’information acoustique arrive à l’oreille de façon séquentielle et peut commencer à être traitée avant que l’ensemble du mot ait été entendu. Le modèle cohorte (Marslen-Wilson 1984) propose que les premiers sons du mot activent l’ensemble des mots commençant par ces phonèmes, et que la cohorte ainsi constituée est graduellement réduite à mesure que les phonèmes sont identifiés, jusqu’à ce qu’il ne reste qu’un candidat dans la liste. On peut ainsi concevoir l’identification d’un mot comme un processus nécessitant trois phases : le contact initial, qui détermine la cohorte initiale; la sélection, qui élimine graduellement les candidats non retenus; et la reconnaissance proprement dite, qui identifie le candidat unique compatible avec la séquence phonologique entendue (Frauenfelder et Tyler 1987). Dans ce modèle, certains mots peuvent être identifiés avant que tous leurs phonèmes aient été entendus, du moment que tous les autres candidats ont été éliminés. Le point d’identification du candidat unique est appelé point d’unicité. Ce modèle est purement séquentiel, dans le sens où le traitement se fait uniquement depuis les niveaux inférieurs de traitement (traitement acoustique) vers les niveaux supérieurs (traitement sémantique). À la suite de la publication de ce modèle, de nombreuses recherches ont porté sur ses aspects essentiels, formation d’une cohorte initiale et point d’unicité. Zwitserlood 1989 par exemple, a démontré des effets de cohorte initiale, et Marslen-Wilson 1984, 1987 des effets de points d’unicité (de même, pour le français, Radeau, Mousty et Bertelson 1989). Mais plus récemment, Frauenfelder, Segui et Dijkstra 1990 ont produit des résultats qui n’appuient pas l’hypothèse du point d’unicité, et Radeau et coll. 2000, avec une tâche d’identification du genre, n’obtiennent aucun effet de point d’unicité à une vitesse d’articulation normale. Ces derniers suggèrent que les effets de point d’unicité obtenus dans diverses expériences sont le résultat de stratégies de décodage plutôt que de processus d’accès lexical et qu’en définitive, le point d’unicité est peu utile au décodage, très peu de mots ayant un point d’unicité avant le dernier phonème.

Dans le modèle connexionniste trace (McClelland et Elman 1986) les informations acoustiques activent les traits distinctifs correspondants, qui activent eux-mêmes les phonèmes comportant ces traits, et ceux-ci activent les mots formés des mêmes phonèmes dans l’ordre approprié. Ce traitement se fait de façon automatique et immédiate au fur et à mesure que les informations acoustiques sont traitées. Les différents niveaux de traitement (traits distinctifs, phonèmes, mots) sont reliés entre eux par des connections excitatrices, et les noeuds d’un même niveau sont mutuellement inhibiteurs. Le mot le plus actif est celui qui est le plus compatible avec les données acoustiques. La sélection est rendue possible par des liens d’inhibition entre unités concurrentes : l’unité la plus active inhibe les unités moins actives. Le modèle, qui tient compte de l’aspect temporel du traitement, reproduit certains aspects du modèle cohorte, mais il s’en distingue par divers aspects. Premièrement, les candidats actifs ne sont pas limités aux mots activés par les premiers phonèmes entendus, de sorte que le mot cigarette peut être reconnu suite à la présentation du stimulus chigarette même si le premier phonème est erroné. Ensuite, il y a interaction entre les niveaux de traitement : l’activation ne circule pas uniquement dans un sens ascendant, mais également dans un sens descendant. Ainsi, lorsqu’un mot a été activé, il transmet en retour son activation aux phonèmes qui le composent, ce qui peut expliquer le phénomène de restauration phonémique (Warren 1970) : si un des phonèmes est remplacé par un bruit, les sujets ne réalisent souvent pas que le phonème est manquant.

Ces deux modèles ont donné lieu à de nombreuses recherches visant à départager le point de vue modulaire séquentiel et le point de vue interactif. Ici encore, un certain nombre de travaux semblent favoriser une perpective modulaire (Frauenfelder, Segui et Dijkstra 1990), ce qui a amené Norris 1994 à développer un modèle connexionniste entièrement unidirectionnel, donc sans activation en retour du mot vers les phonèmes.

Mentionnons aussi que Dahan et coll. 2000 ont montré que, lorsqu’un mot est précédé d’un article marqué pour le genre, seuls les mots compatibles avec le genre de l’article sont activés. Cela montre que le contexte grammatical a une influence sur le nombre de mots avec lesquels le mot cible entre en concurrence.

Un des problèmes posés par l’accès lexical est celui de la levée des ambiguïtés lexicales. Est-ce que tous les sens d’un mot sont activés dès que ce mot commence à être reconnu, les sens non compatibles avec le contexte étant éliminés dans une deuxième étape, ou si seuls les sens compatibles avec le contexte sont sélectionnés dès le début du décodage? Seule la première hypothèse est compatible avec un modèle modulaire; la seconde suppose que des niveaux supérieurs de traitement interviennent dans des décisions prises à des niveaux inférieurs. Divers travaux utilisant une technique d’amorçage ont abordé la question. La technique d’amorçage consiste à faire apparaître un mot – l’amorce – sur un écran d’ordinateur pendant une fraction de seconde avant d’y présenter le stimulus, ce qui permet de déterminer si l’amorce facilite la reconnaissance du stimulus. Swinney 1979, et Tanenhaus, Leiman et Seidenberg 1979 présentent des résultats montrant que tous les sens sont sélectionnés dans une première étape du décodage; 200 millisecondes plus tard, seul le sens induit par le contexte est actif en mémoire (voir aussi Pynte 1989 pour le français). Ces résultats appuient la perspective modulaire. Mais Duffy, Morris et Rayner 1988, utilisant des mesures du mouvement des yeux, arrivent à la conclusion que l’activation d’un des sens dépend de sa fréquence et du contexte.

3.2.2.3 Décodage des mots morphologiquement complexes

Comment le système de traitement se comporte-t-il avec les mots plurimorphémiques? Pour les mots dérivés, divers facteurs doivent être pris en compte : la fréquence du mot et de la famille morphologique, le caractère transparent ou opaque du mot dérivé et le fait que la dérivation est préfixale ou suffixale. Ainsi, les mots construits de haute fréquence sont reconnus plus rapidement que ceux de basse fréquence (par exemple Colé, Beauvillain et Segui 1989, Meunier et Segui 1999). Dans des tâches d’amorçage, l’opacité sémantique (par exeple, le sens de lunette ne peut pas être calculé à partir de lune+ette ‘petite lune’) influence la reconnaissance des mots. Contrairement aux mots opaques, les mots affixés transparents facilitent la reconnaissance de leur base (Marlsen-Wilson et coll. 1994), avec des effets variables selon la durée de présentation du mot affixé (Feldman et Soltano 1999). L’opacité phonologique (le fait qu’à la suite de la dérivation, la base ait subi un changement phonologique) semble contribuer peu à la vitesse d’identification de mots (Marslen-Wilson et coll. 1994), bien que Meunier 1997 ait observé un effet d’opacité avec des mots français suffixés du type sourd/surdité. Vu le caractère séquentiel du traitement de la parole, des effets distincts sont aussi obtenus selon qu’un mot est préfixé ou suffixé. Ainsi, Colé, Beauvillain et Segui 1989, et Meunier et Segui 1999 montrent que la fréquence cumulée de l’ensemble des mots de la famille morphologique influence le traitement des mots suffixés, mais pas celui des mots préfixés (voir aussi Feldman et Soltano 1999).

Globalement, les recherches montrent que les mots construits sémantiquement opaques sont listés dans le lexique et ne donnent pas lieu à un découpage morphologique. En ce qui concerne les mots sémantiquement transparents, deux points de vue opposés sont en concurrence. Il peut y avoir listage exhaustif (tous les mots sont représentés dans le lexique mental : Bybee 1985, 1995) ou décomposition (les mots sont reconnus en accédant à chacun de leurs morphèmes : Marslen-Wilson et coll. 1994). Le modèle mixte dit «Augmented Adressed Morphology», proposé par Caramazza, Laudana et Romani 1988, comporte deux voies d’accès parallèles : l’accès global et l’accès par décomposition. Frauenfelder et Schreuder 1992, et Schreuder et Baayen 1995 proposent un autre modèle mixte, dans lequel les mots très fréquents ont leur propre représentation lexicale tandis que les mots rares sont décomposés. Dans le modèle d’activation proposé par Taft 1994, les morphèmes et les mots constituent des unités d’activation, mais à des niveaux différents (pour des introductions en français, voir Babin 1998 et Pillon 1993).

En ce qui concerne la morphologie flexionnelle, on admet généralement que les mots fléchis sont interprétés via leur racine, donc par décomposition. Mais certains auteurs estiment que, plutôt qu’une distinction entre dérivation et flexion, on peut envisager que toutes les formes sont listées et qu’on a simplement un continuum de formes allant de la plus opaque à la plus transparente (Bertram, Schreuder et Baayen 2000, Bybee 1985). Pinker 1991 et Ullman et coll. 1997 montrent toutefois que, pour le passé des verbes anglais, la flexion régulière (transparente) n’est pas traitée de la même façon que les formes irrégulières (opaques). Pour eux, la flexion régulière est calculée, tandis que les formes irrégulières sont mémorisées.

3.2.3 Syntaxe

Le décodage syntaxique a donné lieu à quantité de recherches dans le milieu anglophone. Ces recherches, basées en partie sur le traitement de phrases totalement ou localement ambiguës et en partie sur l’identification de la fonction d’un élément déplacé, sont relativement peu connues du milieu francophone. Les livres d’introduction récents en français (Caron 1992, Fayol 1997, Segui et Ferrand 2000) les discutent très peu ou pas du tout.

La question est évidemment de savoir comment l’analyseur syntaxique humain (le parseur) assigne une structure grammaticale à une phrase. Depuis Bever 1970, on suppose qu’il attribue dès que possible à chaque mot décodé une fonction dans une structure syntagmatique construite au fur et à mesure, de gauche à droite.

Les recherches sur le traitement des phrases ambiguës explorent la façon dont le parseur se comporte en présence d’un élément pour lequel plusieurs analyses sont possibles, par exemple les deux fonctions possibles du complément en gras dans la phrase Pierre a reçu un vase de Chine. Les possibilités sont les suivantes : 1° le parseur adopte une analyse par défaut et est forcé de réviser sa décision si la suite lui donne tort; 2° il construit deux analyses en parallèle jusqu’à ce qu’il soit à même d’éliminer l’une ou l’autre; 3° il reporte la décision et se contente d’un traitement superficiel en attendant. Mitchell 1994 montre que la première position, défendue par Frazier dans de nombreux travaux (de Frazier 1978 à Frazier et Clifton 1996), est la plus compatible avec les données. Admettant que le parseur privilégie une analyse donnée au risque de devoir revenir sur ses pas si cette analyse se révèle incorrecte, la question qui se pose est de savoir quelle analyse sera privilégiée au départ. Deux principes, discutés dans Frazier 1978, l’attachement minimal et la clôture tardive, ont pour effet que le parseur privilégie l’analyse la plus simple du point de vue syntaxique, en particulier celle qui évite de postuler un nouveau noeud syntaxique (pour des discussions récentes, voir Frazier 1995 et Fodor et Inoue 2000). Mais MacDonald, Pearlmutter et Seidenberg 1994 aussi bien que Trueswell et Tanenhaus 1994 proposent que la résolution de l’ambiguïté syntaxique est guidée – au moins en partie – par l’information lexicale, en particulier par le contexte lexical du mot charnière de l’ambiguïté (dans l’exemple ci-dessus, le mot de) et par la fréquence relative des cadres syntaxiques dans lesquels ce mot apparaît (pour le français, voir Zagar, Pynte et Rativeau 1997). Ces travaux soulèvent la question de l’aspect interactif du traitement. Si le traitement est purement modulaire et séquentiel, le contexte sémantique ne devrait pas intervenir dans les premières étapes de l’analyse syntaxique; il ne devrait intervenir que dans une deuxième étape pour filtrer les interprétations indésirables (Spivey-Knowlton et Sedivy 1995). Le rôle de la prosodie dans l’analyse syntaxique est pertinent dans ce contexte. Il a été peu étudié (par exemple Beach 1991, Cutler, Dahan et Donselaar 1997, Kjelgaard et Speer 1999), la plupart des travaux ayant utilisé des stimulus visuels.

Un autre sujet d’intenses recherches dans le domaine de la syntaxe est celui de l’interprétation des questions et des relatives, qui requièrent qu’un constituant apparaissant tôt dans une phrase soit gardé en mémoire en attendant que sa fonction puisse être identifiée. Dans la tradition générative, le constituant initial, par exemple à quel endroit dans la phrase (3), a été déplacé dans cette position depuis la position indiquée par un trait souligné.

La tâche du parseur rencontrant un constituant comme à quel endroit serait de mettre ce constituant en attente dans la mémoire à court terme, le temps de retrouver le «trou» laissé par le déplacement (Fodor 1978). Le constituant en attente hypothèque la mémoire de travail, et on suppose que le parseur cherche à lui attribuer une interprétation le plus tôt possible (Crain et Fodor 1985). Mais que veut dire «le plus tôt possible»? Pickering et coll. 1994 présentent des données suggérant que le constituant est déchargé de la mémoire de travail dès qu’un sélectionneur potentiel est rencontré pour l’élément déplacé, et non pas dès qu’un «trou» potentiel est rencontré. Dans l’exemple (3), le mot serait interprété immédiatement après rencontré, et non après propriétaire. Ici encore, on peut se demander dans quelle mesure le contexte et la fréquence des cadres syntaxiques jouent un rôle dans le traitement.

Pour conclure cette deuxième section, on peut dire que les trente dernières années ont été particulièrement riches en développements. Les modèles proposés pour le traitement du langage sont de plus en plus détaillés, et les questions de recherche de plus en plus précises.

4. Conclusion

Dans cet article, j’ai présenté les principaux développements en production et en compréhension du langage. J’ai cherché à donner une idée des progrès dans les connaissances au cours des trente dernières années et de la direction des recherches actuelles. Deux aspects me paraissent caractériser ces trente ans de psycholinguistique : 1° l’accroissement du caractère multidisciplinaire du domaine, auquel participent maintenant des psychologues, des linguistes, des neurologues et des informaticiens; ce caractère multidisciplinaire va de pair avec la grande variété des types de faits pouvant être avancés en faveur ou à l’encontre de telle ou telle théorie; 2° l’apparition de modèles théoriques de plus en plus précis des processus mis en jeu dans l’encodage et le décodage du langage.

Il est évident que je n’ai pas pu couvrir l’ensemble du domaine; j’ai dû laisser de côté tout ce qui touche la compréhension du texte et du discours, de même que tout ce qui touche à la lecture et à l’écriture en tant que processus de décodage ou d’encodage de signes graphiques. Dans les points que j’ai traités, j’ai voulu faire ressortir la richesse du domaine et son aspect stimulant. J’espère que ce survol aura donné le goût à plusieurs d’en savoir plus sur l’un ou l’autre des sujets traités.