Article body

1. Introduction

Depuis la parution en 1968 du Sound Pattern of English (en abrégé SPE), de Chomsky et Halle, la phonologie générative est devenue le modèle dominant en phonologie si on se réfère aux publications dans les principales revues de linguistique du monde[1]. Pourtant, les travaux récents dans le cadre générativiste sont parfois très éloignés de ce qui a pu caractériser les publications de l’époque SPE. En même temps, certains concepts, certaines idées, certains problèmes continuent à traverser les travaux des phonologues, et savoir s’il y a rupture ou continuité est une question difficile et controversée. Nous pensons quant à nous que la phonologie est une discipline cumulative (voir Durand et Laks 1996b, 2000, 2002b; Boë et Durand 2000). Si nous privilégions ici certaines recherches dans le cadre génératif au sens large, ce n’est pas dans un esprit d’exclusive mais afin de faire partager à d’autres chercheurs certaines idées qui nous semblent fécondes. À la section 2, nous resituons rapidement les travaux génératifs jusqu’en 1975 environ. Ce retour en arrière, outre le devoir de mémoire[2], nous permet d’introduire des concepts indispensables à une bonne compréhension des paragraphes qui suivent. Nous offrons ensuite en 3 une description des travaux plurilinéaires visant à remplacer l’approche minimaliste et transformationnelle de SPE par une recherche de représentations à caractère universel. En 4, nous examinons enfin la montée de la notion de contrainte en explorant deux cadres riches en perspective : la Théorie des contraintes et stratégies de réparation (TCSR) et la Théorie de l’optimalité (angl. OT). En 5, nous tirons quelques conclusions et fournissons quelques références supplémentaires à divers domaines de la théorie phonologique qui ne sont pas étudiés dans le corps de cet article. On notera que, pour faciliter la tâche des lecteurs, nous avons utilisé de nombreux exemples empruntés au français. Qu’il soit entendu que ce n’est que par commodité : la théorie phonologique ne peut se construire qu’en se confrontant à la diversité des langues naturelles[3].

2. La phonologie générative jusqu’en 1975

La phonologie générative est la sous-partie d’une grammaire générative qui traite de la structure phonique du langage. Développée vers la fin des années cinquante, elle trouve un exposé systématique dans l’ouvrage monumental de Chomsky et Halle, The Sound Pattern of English, publié en 1968. Cet ouvrage au titre habituellement abrégé en SPE définit ce qu’on appelle souvent la phonologie générative classique ou standard, par opposition à de nombreux modèles élaborés en réaction à diverses thèses avancées dans SPE. Nous distinguerons trois périodes dans le développement de la phonologie générative classique : les premiers travaux (1955-1967); le modèle standard (1968); la période post-SPE (1969-1975).

2.1 Les premiers travaux et la tradition structuraliste

La phonologie générative est née de la collaboration fructueuse entre Noam Chomsky et Morris Halle, collaboration qui a démarré au cours des années cinquante. Tous deux, par des chemins différents, s’étaient progressivement éloignés des modèles structuralistes en vigueur aux États-Unis au cours de la période post-bloomfieldienne. Nous essaierons de brosser à grands traits quelques-unes des caractéristiques de ces modèles.

La plupart des modèles structuralistes plaçaient au centre des représentations l’opposition entre phonèmes et allophones. Néanmoins, dès le début du vingtième siècle, les linguistes se sont rendu compte que les alternances déclenchées par la structure morphologique des mots pouvaient s’expliquer en postulant un autre niveau de représentation appelé morphophonémique ou morphophonologique. Les propositions dans ce domaine ont été nombreuses et souvent contradictoires. Nous prendrons comme point de départ la position de Bloomfield dans Language (1933). Dans cet ouvrage, Bloomfield observe que le choix d’un «alternant de base» ou «forme sous-jacente» peut alléger la description et permettre la formulation de règles plus simples et plus générales pour une langue donnée. L’exemple qu’il prend est précisément celui du pluriel en anglais. La plupart des présentations pédagogiques de la réalisation du morphème pluriel en anglais signalent (pour les cas réguliers) l’existence de trois marques (allomorphes) possibles /ɪ z/, /z/ et /s/ : rose-roses (/rəʊ z/ -/rəʊzɪz/, lad-lads /læd/- /lædz/, cat-cats /kæt/-/kæts/[4]. On peut faire des progrès dans l’analyse phonologique de ces formes en soulignant qu’elles partagent des traits distinctifs. /s/ et /z/ sont des consonnes coronales (alvéolaires) qui ne se distinguent que par le voisement, et en observant que la forme /ɪz/ contient aussi la consonne coronale /z/. Néanmoins, ce faisant, on continue à traiter ces trois réalisations comme des éléments irréductibles alors qu’elles sont intimement reliées les unes aux autres. Posons avec Bloomfield que la forme de base du pluriel est en fait l’un des alternants //ɪz//, que nous entourerons de doubles barres obliques pour marquer que nous opérons à un niveau différent du niveau phonémique. On peut alors obtenir les trois allomorphes du pluriel au moyen des deux instructions ou règles ci-dessous :

On postulera les dérivations suivantes pour les mots glasses, books et pens :

Les représentations phonémiques seraient à leur tour converties en représentations phonétiques.

Bien que ce mode de description adopté par Bloomfield puisse à première vue paraître arbitraire, on notera deux arguments en sa faveur. D’abord, la réduction de /ɪz/ en /z/ ou /s/ est indépendamment attestée en anglais oral dans le cas de la troisième personne de l’indicatif présent du verbe be, dont la forme pleine ou après sifflante est /ɪz/ mais qui est réduite à /z/ ou /s/ dans des contextes identiques à ceux du pluriel (cf. Bess’s away /besɪzəweɪ/, John’s away /dʒɒnzəweɪ/, Mark’s away /mɑːksəweɪ/). Deuxièmement, la transformation de /z/ en /s/ découle d’une contrainte générale en anglais. Aucun morphème ou mot ne peut se terminer par deux obstruantes différant sur le plan du voisement.

Des exemples du même type existent en français. Ainsi, le mot mauvais, habituellement transcrit /movε/ au niveau phonémique, pourrait s’analyser comme //movεz// au niveau morphophonémique avec un //z// sous-jacent visant à rendre compte de liaisons possibles en /z/ (par ex. mauvais [z] été) et du féminin également en /z/ (mauvaise /movεz/)[5]. Enfin, au niveau phonétique, indiqué par des crochets, on notera tous les traits phonétiques non distinctifs. Par exemple, chez certains locuteurs, dans la forme féminine accentuée mauvaise, le /z/ final (z#) allonge la voyelle qui précède. La forme phonétique attestée est [movεːz], où la longueur est purement allophonique.

Il faut cependant noter que, si les linguistes après Bloomfield se sont retrouvés autour de la notion de phonème, la spécification du niveau morpho-phonologique ne reçut aucune réponse universelle. Bloomfield lui-même, en dehors de son travail relativement tardif Menomini Morphophonemics (1939) ne fait pas dans tous ses écrits une distinction claire et nette entre phonème et morphophonème. On se souviendra, dans ce contexte, de la remarque acide du post-bloomfieldien Joos : «Lorsque nous réexaminons le travail de Bloomfield, nous sommes troublés par divers aspects de sa démarche, mais le plus inquiétant est la confusion qu’on trouve chez lui entre phonèmes et morphophonèmes» (1963 : 92)[6]. La méthode même de Menomini Morphophonemics, faisant appel à des chaînes de règles ordonnées entre le niveau morphophonémique et le niveau phonémique, comme en (2), était suspecte aux yeux de nombreux structuralistes. Cette technique appelée «item et processus» rappelait trop les règles de la linguistique historique et pouvait donc redonner vie à la confusion entre synchronie et diachronie. Par ailleurs, bon nombre de structuralistes rejetaient la notion de processus, aux implications psychologiques discutables, en faveur de formulations descriptives de type taxinomique. Bloomfield lui-même n’assignait aucune valeur ontologique à l’ordre des règles dans la formulation des processus morphophonémiques : «Les termes ‘avant’, ‘après’, ‘premièrement’, ‘ensuite’, indiquent un ordre descriptif. La séquence réelle des constituants et leur ordre structural (…) font intégralement partie d’une langue, mais l’ordre descriptif des traits grammaticaux est une fiction et résulte simplement de notre méthode de description des formes» (1933 : 213)[7]. De nombreux post-bloomfieldiens écartèrent donc l’approche «item et processus» en faveur d’une technique dite «item et arrangement» qui, à chaque étape, construisait inductivement les unités de niveau supérieur à partir des unités du niveau immédiatement inférieur en partant des représentations phonétiques. Dans ce type d’approche, le phonème se ramène à la simple abréviation ensembliste des allophones qui le définissent. Reprenons l’exemple français ci-dessus concernant /ε/ :

Il est difficile de ne pas citer Hockett 1942 : 20-21 dans ce contexte : «On doit éviter toute circularité. L’analyse phonologique est présupposée par l’analyse grammaticale et ne peut donc tenir pour acquis les résultats de cette dernière. La ligne de démarcation entre phonologie et grammaire doit être nette.» C’est précisément autour de telles questions que la phonologie générative va se séparer le plus radicalement de l’école post-bloomfieldienne.

La rupture entre les générativistes et les structuralistes se produisit sur de nombreux plans. Tout d’abord, du point de vue épistémologique et méthodologique, l’inductivisme est abandonné au profit d’une approche hypothético-déductive telle qu’elle est défendue chez le philosophe des sciences Popper. Il n’y a pas d’observations sans théorie qui les guide, et il ne saurait exister de procédures mécaniques permettant d’extraire les théories scientifiques des données : les théories scientifiques sont toujours sous-déterminées par les observations, et la manière dont les théories sont découvertes n’a fondamentalement pas d’importance. Ce travail de sape épistémologique et méthodologique est complété par l’affirmation des thèses suivantes : (a) l’information grammaticale est nécessaire en phonologie à moins d’accepter des analyses totalement contre-intuitives; (b) l’existence d’un niveau phonémique entre les représentations les plus abstraites et les représentations phonétiques conduit à des redondances; et pour pallier cette redondance, on passe à un modèle à deux niveaux : «phonologique» s’oppose à «phonétique» (voir Halle 1959); (c) l’entité ultime n’est pas le phonème mais le trait distinctif, ce en quoi la phonologie générative se situe dans la droite ligne du programme jakobsonien auquel Halle avait contribué (voir Jakobson, Fant et Halle 1952); (d) aux inventaires taxinomiques, on substitue des règles phonologiques qui sont généralement des transformations locales (du type X → Y / W — Z, «X se réécrit en Y dans un contexte W — Z», où W et Z peuvent être nuls). Le résultat est un modèle où les représentations de départ (ou représentations sous-jacentes) sont des matrices de traits distinctifs et des frontières grammaticales qu’on convertit en représentations phonétiques par un ensemble de règles. On abandonne donc les approches «item et arrangement» en faveur de la modélisation «item et processus» sous la forme défendue dans Chomsky 1955, 1957. Bien que ces représentations sous-jacentes soient de type morphophonémique, on préfère les qualifier de «phonologiques», car l’idée de morphophonème est trop liée à la notion de niveau phonémique intermédiaire qui est totalement rejeté.

Pour expliquer cette approche, nous reprendrons l’exemple des adjectifs prénominaux en français[8]. Soit le syntagme mauvais travail. On le représentera comme suit au niveau sous-jacent : /##movεz#travaj##/. Cette représentation indique à travers la présence de frontières de mots doubles ou simples qu’on a affaire à un syntagme composé de deux mots en relation étroite (en l’occurrence, adjectif + nom). Dans cette notation semi-formelle, chaque symbole, y compris les frontières grammaticales, abrège une matrice de traits distinctifs. /m/, par exemple, n’est qu’une étiquette commode pour l’ensemble de traits [+consonantique, -syllabique, +nasal, +voisé, +antérieur, -coronal] et # est [+frontière de mot, -frontière de morphème]. Posons qu’une règle efface la dernière consonne d’un mot si ce mot est en fin de syntagme ou précède un mot à initiale consonantique (comparer mauvais été [movεzete] à mauvais travail [movε travaj]). La règle peut être formulée comme suit :

Soit : une consonne C s’efface lorsqu’elle précède une frontière de syntagme forte __ ##) ou lorsque le mot suivant commence par une consonne (__ # C). Les accolades signifient que l’effacement de C se produit automatiquement lorsque # est suivie soit de C, soit de #. Une formulation plus précise opèrerait en termes de traits distinctifs, et indiquerait que les consonnes qui s’effacent dans ces contextes sont des obstruantes ([-sonantique]), soit (5) :

Le problème qui se pose dans un traitement du français qui adopte ce point de vue est de savoir pourquoi dans des mots comme le féminin mauvaise [movεz] la consonne finale n’est pas effacée par troncation. Traiter tous les mots féminins comme des exceptions ne semble guère attrayant. On préfèrera poser que les mots féminins ont un schwa morphologique /ə/ sous-jacent qui protège la consonne et que ce schwa est effacé par une règle tardive :

Cela signifie qu’il faut appliquer les règles dans un ordre donné. Donnons un simple exemple de dérivation pour fixer les idées :

L’idée d’appliquer des règles ordonnées à des formes sous-jacentes n’était certes pas nouvelle (voir 4), mais l’ordre des règles, loin d’être un artifice commode en phonologie générative, devient un élément fondamental de l’analyse. On notera, au passage, que les représentations de type phonétique s’arrêtent souvent dans les travaux génératifs classiques (et modernes) à des séquences ressemblant étrangement aux phonèmes. Le fait par exemple que dans [movεztruvaj], le [z] puisse être dévoisé (partiellement ou totalement) serait attribué à des règles dites tardives. Ces règles tardives ont toujours eu un statut ambigu dans la théorie dans la mesure où de nombreux chercheurs les concevaient comme relevant, non pas de la phonologie, mais d’une composante phonétique (en grande partie universelle) qui viendrait se greffer sur le module phonologique.

On se rappellera que les traits de nature proprement fonctionnelle (et non articulatoire) utilisés dans le SPE ont tous été éliminés depuis : [syllabique] par l’intégration de la théorie de la syllabe; de même [relâchement instantané] et [long], plus spécifiquement, par l’introduction du «squelette» (anglais skeleton, autrement appelé armature). Le seul trait non articulatoire restant est le trait acoustique [strident], qui sert éventuellement, de façon assez restreinte, à distinguer entre elles les fricatives de même zone articulatoire. Comme on le verra plus loin, les anciens traits prosodiques d’accent ou de ton ont reçu un traitement autosegmental plus approprié à leur fonctionnement.

2.2 Le modèle SPE

Il ne faudrait pas croire que la parution du Sound Pattern of English en 1968 ait provoqué une rupture radicale et immédiate à l’intérieur du champ de la phonologie générative. Diverses versions du manuscrit circulaient depuis longtemps chez les spécialistes. Les idées principales et les analyses proposées étaient connues et avaient déjà été mises à l’épreuve dans bon nombre d’articles et de thèses. Néanmoins, la parution de cet ouvrage est symbolique et marquante à divers égards. La matérialisation du manuscrit permit à la communauté scientifique de juger sur pièce. Chomsky et Halle offraient en 470 pages grand format une esquisse du modèle (ch. 1), un cadre phonétique (ch. 7), des principes de phonologie détaillés avec une formalisation en appendice (ch. 8), une analyse fouillée de la phonologie de l’anglais moderne (ch. 2, 3, 4 et 5), une perspective diachronique (ch. 6) et un épilogue et prologue sur le contenu intrinsèque des traits distinctifs qui contient en germe une dissolution possible du modèle présenté (ch. 9). Il faut signaler que la traduction française de 349 pages au Seuil (1973) contient seulement cinq des neuf chapitres de la version originale. Pratiquement en même temps que paraissait SPE étaient publiées un grand nombre de monographies illustrant les thèses de la phonologie générative. En ce qui concerne le français, on notera en particulier l’ouvrage de Schane (French Phonology and Morphology, 1968) et la thèse de Dell 1970 qui forme l’assise de plusieurs chapitres de son ouvrage introductif (Dell 1973). La phonologie générative était arrivée à maturité et devenait le modèle dominant au niveau de la recherche.

Nous résumerons ici les principales thèses du SPE. Tout d’abord, à un niveau général, rappelons que, pour Chomsky, le but de la théorie linguistique est de spécifier la «grammaire universelle» correspondant aux structures cognitives innées qui sous-tendent l’acquisition des langues particulières par les locuteurs natifs. Dans le modèle chomskyen du langage, la place de la phonologie est clairement définie : dans une vision où la syntaxe orchestre la relation mentale entre sens et son, la phonologie est un composant interprétatif permettant d’engendrer les représentations phonétiques à partir des représentations syntaxiques de surface. L’objectif principal de SPE est donc de déterminer quels sont les universaux substantifs et formels dont est constituée la composante phonologique. Les universaux substantifs sont fournis par les traits distinctifs. Le cadre phonétique (ch. 7) offre un ensemble universel de traits distinctifs binaires différents de ceux de Jakobson, Fant et Halle 1952. Bien qu’en droit, dans le cadre chomskyen, les primitives soient neutres entre production et perception, SPE adopte une définition articulatoire des corrélats physiques des traits distinctifs. La nouvelle liste de traits est la suivante : [+/-sonantique], [+/-vocalique], [+/-consonantique], [+/-coronal], [+/-antérieur], [+/-haut], [+/-bas], [+/-arrière], [+/-arrondi], [+/-réparti], [+/-couvert], [+/-nasal], [+/-latéral], [+/-continu], [+/-relâchement instantané], [+/-succion], [+/-pression], [+/-tendu], [+/-occlusion glottale], [+/-pression infra-glottale accrue], [+/-voisé], [+/-strident]. On notera cependant qu’au ch. 8, Chomsky et Halle suggèrent de remplacer [+/-vocalique] par [+/-syllabique]. Un exemple de classification en termes de traits est le suivant. Soit l’inventaire phonologique des voyelles de nombreux locuteurs francophones (hormis schwa et les voyelles nasales) : /i e ε ɑ o ɔ u y ø œ/. Si on laisse de côté les traits qui ne s’appliquent qu’aux consonnes, on peut classer ces dix segments comme suit :

Ces traits sont binaires au niveau sous-jacent puisque c’est le niveau où l’on code les oppositions lexicales. En revanche, au niveau phonétique, les traits peuvent fonctionner de manière non binaire. Ainsi, alors que l’anglais n’a aucune voyelle nasale sous-jacente, la voyelle de mots comme bank /bæŋk/, par assimilation à la consonne nasale qui suit, peut être plus ou moins nasalisée selon les locuteurs et la variété qu’on étudie. Au niveau phonologique, on dira que le /æ/ est [-nasal], alors qu’au niveau phonétique, on pourra le décrire comme [n nasal], où n est une valeur scalaire donnée.

La fonction de la composante phonologique, nous l’avons souligné, est de fournir une interprétation des structures de surface définies par la syntaxe. Néanmoins, ces structures ne sont accessibles que de manière indirecte puisque Chomsky et Halle posent l’existence d’une composante de réajustement qui transforme les parenthèses morphosyntaxiques étiquetées en séquences de frontières. La composante phonologique est elle-même un composant relationnel spécifiant la relation entre des formes sous-jacentes et des formes de surface. Au coeur de cette composante se trouvent les règles phonologiques présentées plus haut. L’objectif du SPE est de définir la nature formelle des règles et des relations entre règles. Étant donné que les faits permettent toujours plusieurs analyses plausibles en concurrence, la notation doit permettre une «mesure d’évaluation» des solutions envisageables. Toutes choses égales par ailleurs, la notation doit formaliser les régularités récurrentes dans les langues du monde de manière plus simple que les processus accidentels. Chomsky et Halle accordent donc beaucoup d’espace aux conventions notationnelles. Les conventions d’abréviation (divers types de parenthèses) ne sont pas présentées comme un simple moyen de compactage, mais comme définissant la nature formelle du langage. Comme dans les publications génératives d’avant SPE, la relation centrale entre les règles phonologiques est leur enchaînement dans un ordre linéaire extrinsèque (ordre donné par stipulation).

La mise à l’épreuve des concepts formels dans SPE est surtout réalisée sur la phonologie de l’anglais. Chomsky et Halle s’attaquent au domaine de l’accentuation lexicale et aux principales alternances morphophonologiques de l’anglais. Leur position dans le domaine de l’accentuation lexicale est que les accents qui frappent les diverses syllabes des mots de l’anglais sont largement prévisibles à partir de représentations sous-jacentes abstraites et de règles qui tiennent compte de la structure morphosyntaxique des mots et de la nature des séquences phonologiques en jeu. Ainsi pour relier les deux allomorphes du morphème divine (à savoir [dɪˈvaɪn] dans divine et [dɪˈvɪn] dans divinity [dɪˈvɪnɪti], on postule une forme sous-jacente du type /diviːn/ qui ressemble à la forme historique de ce morphème avant le grand changement vocalique (Great Vowel Shift). Pour ce faire, Chomsky et Halle ne s’appuient pas sur l’histoire, mais essaient de démontrer qu’un ensemble de processus synchroniques convergent vers ce résultat. Les formes de surface sont donc le résultat de l’application de nombreuses règles à des formes sous-jacentes très éloignées des représentations phonétiques. Les représentations sous-jacentes, pour SPE, sont stables dans la durée et unifient les nombreux dialectes de l’anglais à un niveau abstrait. On peut supposer que ce sont des systèmes abstraits de ce type qui sous-tendent la compréhension entre locuteurs de dialectes souvent très différents les uns des autres au niveau phonétique bien que Chomsky et Halle restent très circonspects quant à l’interprétation psycholinguistique de leurs analyses.

2.3 La période post-SPE (1969-1975)

La publication de SPE entraîne un bouleversement du champ de la phonologie. La phonologie générative est désormais positionnée comme un modèle central à l’échelle internationale. De nombreux chercheurs se réclamant du structuralisme (dans ses diverses variantes, par exemple le fonctionnalisme de l’école de Martinet) continuent à s’opposer à ce modèle, mais sans l’ébranler en profondeur. Plus significative à long terme est la contestation du modèle SPE par des linguistes qui travaillent dans le cadre de la grammaire générative ou en interaction avec elle. Le mouvement le plus connu de réaction contre l’approche SPE est sans doute la Phonologie générative naturelle (Natural Generative Phonology, NGP), un courant de pensée qui s’attaque au modèle standard comme trop puissant et oeuvre en faveur d’une phonologie dite concrète (cf. Vennemann 1972, 1973, Hooper 1973, 1976). Des réanalyses sont proposées où on bannit les règles extrinsèquement ordonnées et où on assigne à la morphologie des alternances traitées comme phonologiques dans le cadre SPE. On en revient à des modèles traditionnels à plusieurs niveaux – en gros, morphophonologique, phonologique, phonétique[9]. Même les phonologues qui ne se rallient pas aux thèses de la Phonologie générative naturelle reconnaissent que la formalisation de la «naturalité» des processus reste un enjeu considérable (ce que signalaient d’ailleurs Chomsky et Halle dans leur ch. 9 sur la marque phonologique sans faire l’unanimité autour des conventions qu’ils proposent, conventions qui restent externes à la notation binaire). Un exemple important de réanalyse du français dans le cadre générativiste, mais rejetant les positions abstraites de Schane 1968, est la thèse de Tranel 1974, qui forme le soubassement de son ouvrage de 1981, dont le titre est révélateur : Concreteness in Generative Phonology : Evidence from French. Un autre exemple marquant est le travail de Y.-C. Morin sur le schwa et la liaison (cf. Morin et Kaye 1982, Morin 1986, 1988). Il est intéressant de constater que la phonologie dite lexicale, qui se développera dans les années quatre-vingt autour de chercheurs liés au MIT (Kiparsky 1982a, b), s’est précisément rangée dans le camp d’une division des tâches phonologiques en plusieurs sous-modules, position défendue par la Phonologie générative naturelle au début des années soixante-dix.

On assiste également à une critique du modèle SPE d’un point de vue plus strictement phonologique. À de nombreux égards, SPE constitue une oeuvre semblable aux Principia Mathematica de Russell et Whitehead. En effet, Chomsky et Halle essayaient de reconstituer toute la phonologie à partir de quelques primitives simples comme les traits binaires, les positions segmentales, les frontières et les règles phonologiques. De nombreux chercheurs s’aperçurent que cette approche minimaliste échouait dans la formulation de généralisations récurrentes dans les langues du monde. Tout particulièrement, l’absence du concept de syllabe dans SPE (on a souvent fait remarquer qu’il n’y a pas d’entrée pour «syllabe» dans l’index de cet ouvrage) avait le fâcheux résultat que de nombreuses règles dont le conditionnement était syllabique devaient être formulées de façon peu économique dans la notation proposée. Si on adoptait la thèse de Chomsky et Halle selon laquelle la formalisation des règles devait être d’autant plus simple que les processus étaient généraux et naturels, il devenait nécessaire de réintroduire le concept de syllabe. Mais la réintroduction de la syllabe ne pouvait se faire sans poser tout le problème des unités suprasegmentales (par exemple, la nécessité d’une hiérarchie prosodique du type syllabe, pied, mot phonologique, etc). De nouvelles notations apparaissent pour représenter les relations entre constituants (par exemple, la phonologie de dépendance chez Anderson et Jones 1974), et les phonologues se mettent à contester la prééminence accordée dans SPE aux segments, même composés de traits distinctifs simultanés (cf., par exemple, Leben 1971 en relation aux tons). On pressent la naissance de modèles dits non linéaires ou plurilinéaires qui marqueront les années quatre-vingt. Le manuel de Hyman 1975 offre un excellent survol de l’état des recherches jusqu’à cette date; Durand 1990 compare en détail la période SPE et les modèles non-linéaires. Il semble important de souligner, dans une perspective plus historique, que si SPE a marqué un progrès incontestable dans la formalisation des systèmes phonologiques, l’approche volontairement réductionniste, la mise à l’écart de notions traditionnelles (comme celle de syllabe) et de concepts originaux (comme celui de composant long chez Zellig Harris, ou de prosodie dans l’école de Firth) ont peut-être entraîné avec le passé une rupture (sociologique) plus radicale qu’il était nécessaire.

3. Plurilinéarité, principes et paramètres

Alors que la période qui suivit immédiatement SPE s’explique en large partie par réaction aux thèses de cet ouvrage et qu’on y utilise souvent des modes de raisonnement et d’analyse empruntés à ce modèle, on assiste entre 1975 et 1990 à une recomposition de la phonologie. On peut décrire la phonologie générative classique comme un paradigme où les règles prennent le pas sur les représentations. Au contraire, dans la période allant approximativement de 1976 à 1990, ce sont les représentations qui dominent. L’espoir naît que, s’il existe plusieurs niveaux phonologiques, la relation entre eux est réglée par des mécanismes simples, voire que la grammaire phonologique tout entière se ramène à un ensemble limité de principes et de paramètres universels. Sur ce plan, la phonologie s’inspire des travaux de syntaxe comme ceux de Chomsky 1981. Nous ne chercherons pas à présenter tous les cadres qui apparaissent durant cette période (phonologie autosegmentale, Goldsmith 1976, 1990; phonologie lexicale, Kiparsky 1982a,b; phonologie métrique, Liberman et Prince 1977, Giegerich 1985; phonologie de dépendance, Anderson et Jones 1974, Durand et coll. 1986, Anderson et Durand 1987, Anderson et Ewen 1980; phonologie morique, Hyman 1985, etc.). Nous examinerons plutôt un ensemble de problèmes qui sont explorés pendant cette phase de recherche et qui font désormais partie de l’arsenal descriptif à la disposition des phonologues modernes.

3. 1 Syllabe, squelette et hiérachie prosodique

Si dans SPE la syllabe ne joue aucun rôle formel, elle fait un retour en force dès les années soixante-dix, d’abord sous le couvert de frontières de syllabe, puis en tant qu’unité syntagmatique à part entière (Anderson et Jones 1974, Kahn 1976). La réintégration de la syllabe a donné lieu à de nombreux débats entre «minimalistes» et «maximalistes». On peut, par exemple, opposer une conception dans laquelle les syllabes ont une structure interne plate avec des constituants du même ordre comme en (9a), à une autre dans laquelle on a une structuration interne plus forte, comme en (9b) :

Bien que le débat ne soit pas clos, il ne semble pas tout à fait correct de considérer la relation entre le noyau N d’une syllabe (l’élément syllabique) et l’attaque A comme parallèle (en dehors des relations d’ordre strict) à celle qui existe entre le noyau et sa coda. Bien qu’il existe d’autres méthodes de représentation que (b), cette dernière nous semble fondamentalement plus correcte que (a) et nous l’utiliserons dans ce qui suit[10].

La réintroduction de la syllabe a été accompagnée d’une autre hypothèse intéressante sur les représentations phonologiques. De nombreux chercheurs ont défendu l’idée que les éléments phonologiques n’étaient pas organisés directement en termes de constituants syllabiques. Ils seraient en fait réglés par des unités de temps représentées par des suites de symboles C ou V comme en (10a) ou bien par des x comme en (10b).

Les représentations en (10a) et (b) sont équivalentes. En (a), les étiquettes c et v désignent les positions en termes de valeur syllabique. En (b), les x dénotent des positions pures. C’est cette suite de positions qui est appelée squelette (ou armature). Le squelette joue un rôle central, car il est le point d’ancrage de tous les plans de représentation phonologique : par exemple, un plan pour les segments, un plan pour les structures syllabiques, un plan de structure intonative. À partir de telles représentations, la phonologie s’est orientée vers une approche beaucoup plus configurationnelle. De nombreux phonologues souscrivant à de telles descriptions n’autorisent désormais plus que deux opérations entre éléments d’une représentation donnée : (a) associer et (b) dissocier, comme en (11) ci-dessous. Chemin faisant, une insertion arbitraire de traits devient impossible puisque tout trait ajouté à une unité doit toujours provenir du contexte dans des conditions qu’on va chercher à ramener à un petit éventail d’options universelles.

3.2 Brève application au français : liaison et glissantes

Pour illustrer le fonctionnement d’un cadre multidimensionnel, nous prendrons comme exemple le traitement des glissantes (ou semi-voyelles) en français en interaction avec la liaison (Kaye et Lowenstamm 1984). On sait que les mots à initiale vocalique n’ont pas un comportement uniforme dans un contexte de liaison.

À première vue, la notion de mot étranger semble rendre compte de (12a), mais à bien réfléchir, elle n’est guère explicative. Pourquoi les formes de (12a) que l’enfant entend régulièrement dans son entourage et à partir desquelles il construit sa grammaire phonologique seraient-elles marginales et anomales en synchronie? Milner 1973 notait déjà que des mots comme input, même prononcé [input] face à une prononciation plus autochtone [ε̃put] n’empêchaient pas la liaison de se produire : [lεzinput]. Par ailleurs, les mots du type week-end forment une classe en expansion par rapport à des mots fréquents mais peu nombreux comme oies ou oiseaux. Existe-t-il une autre manière de rendre compte de la différence entre ces deux classes de mots en dehors d’une étiquette [+/-étranger]?

On posera que les glissantes sont ambiguës en français, non dans leur caractérisation phonétique interne, mais dans leur appartenance syllabique. Du point de vue de leur contenu phonétique, nous traiterons toutes les glissantes [j, ɥ, w] comme ayant la même caractérisation que les voyelles hautes leur correspondant /i, y, u/, mais jouant un rôle marginal dans la syllabe. Un [w] est donc un /u/ qui n’est pas syllabique. La différence entre, par exemple, un [w] qui bloque la liaison et un [w] qui l’autorise est que le premier remplit la position A (Attaque) dans sa syllabe, alors que le second constitue la première partie d’un noyau complexe /ua/ où l’élément dominant (ou gouverneur) est le /a/. En termes traditionnels, on traite ces seconds [wa] comme des diphtongues ouvrantes. Les deux structures syllabiques sont illustrées ci-dessous.

La structure de la syllabe en attaque et rime est identique pour toutes les langues (principe de la grammaire phonologique), mais seules certaines langues autorisent des attaques vides (paramètre qui permet de différencier les langues), alors que d’autres exigent qu’il y ait toujours un élément dans l’attaque (consonne, glissante, consonne «postiche» comme le coup de glotte). Supposons maintenant que la consonne de liaison est une consonne latente comme dans l’analyse générative classique, mais à la différence de cette dernière, que sa particularité (par rapport aux consonnes fixes et non effacables comme celle de mat ou de sec par exemple) est de n’avoir aucun ancrage au niveau du squelette. Cette consonne latente ne survivra donc que si elle peut se raccrocher à une attaque vide. L’opposition entre les watts et les oies n’est plus problématique[11].

Supposons donc qu’il existe une convention générale qui dise :

La convention appliquée à (14) donne (16a) et (b) :

En (16a), la consonne de liaison qui n’a pas reçu de position x dans le squelette disparaîtra par convention générale, alors qu’en (16b), par un principe universel, la consonne de liaison se rattachera à l’attaque vide, ce qui nous donne (17) :

Si on accepte qu’il existe en français une distinction entre glissante qui remplit la position d’attaque et glissante qui fonctionne dans le noyau, on peut également rendre compte de la distribution des suites obstruante + liquide + glissante (olg). Une telle suite n’est en effet possible que si la glissante fait partie du noyau.

Il existe en français dit standard une règle de synérèse, très souvent appelée semi-voc(alisation) qui permet de rendre compte des alternances en (18) :

Une voyelle haute peut alterner avec la glissante correspondante, mais cette semi-vocalisation est bloquée dans le cas où une obstruante est suivie d’une liquide comme le montrent (19a) et (b).

Une restriction sur les attaques syllabiques s’impose donc : le français standard n’autorise pas les attaques olg. Pourtant, la séquence olg est bien présente dans des mots comme croire [krwar], exploit [εksplwa], pluie [plɥi] ou truite [trɥit]. Cette contradiction apparente s’explique si les glissantes de ces derniers exemples appartiennent à un noyau complexe comme l’illustre (20a), qui se différencie de (20b) sur ce plan-là :

Nous avons vu à l’aide de deux types de phénomènes que la classe des glissantes n’était pas uniforme en français, et que pour rendre compte des différences observées, il fallait faire appel à la structure de la syllabe, donnant ainsi une justification supplémentaire à ce constituant.

Cependant, comme nous l’avons déjà noté, la réintroduction de la syllabe ne peut s’opérer sans soulever la question des unités suprasegmentales et de leur relations. La nécessité d’une hiérarchie prosodique (du type syllabe, pied, mot phonologique, groupe intonatif) a été progressivement acceptée par la plupart des phonologues. En parallèle, la représentation de l’accentuation ne s’est plus faite à partir de traits binaires ou scalaires (comme [+/-accent] ou [n accent]), mais soit en mettant à profit les constructions suprasegmentales (annotées ou non d’étiquettes relationnelles), soit en construisant de nouveaux formalismes (par exemple, les grilles accentuelles). Le lecteur qui approfondira cette question à partir d’ouvrages comme Durand 1990: ch. 6, Lyche et coll. 1994 ou Laks 1997 constatera la distance qui a séparé de tels travaux des thèses du SPE.

3.3 Géométrie des traits et unarité

La remise en question du SPE ne s’est pas simplement située sur le plan des unités suprasegmentales. La nature et l’organisation des traits distinctifs tels qu’ils fonctionnent dans SPE ont également été au coeur des débats. On s’est aperçu que des processus très généraux sont difficiles à formaliser si on s’en tient à l’idée que les traits phonologiques sont organisés en ensembles non structurés. Soit, par exemple, le phénomène d’assimilation des consonnes nasales au point d’articulation de la consonne qui suit – processus largement attesté dans les langues du monde à la fois à l’intérieur des mots et entre mots adjacents. Dans divers accents conservateurs du français du Midi, on observe les prononciations suivantes (avec nasalisation possible de la voyelle qui précède la nasale) :

Il y a de fortes raisons de penser que, dans ce type d’accent, la consonne nasale qui apparaît devant consonne à l’intérieur des mots est sous-jacente et non épenthétique (Durand 1988) : elle devient donc labiale, dentale ou vélaire par assimilation. Dans le formalisme de SPE, on doit exprimer ce processus par le biais d’une règle comme (22), qui fait s’accorder tous les traits entre une nasale et la consonne qui suit.

Cependant, une telle règle n’exprime pas vraiment l’intuition que c’est le lieu d’articulation in toto qui est assimilé et non telle ou telle combinaison arbitraire de traits. Si on admet que les traits distinctifs sont organisés de façon à refléter des groupements naturels, il paraît raisonnable de dire (à la suite de la phonologie de dépendance, Anderson et Ewen 1987, Durand 1990 : ch. 8) que chaque segment est caractérisé au minimum par deux faisceaux de traits : 1o d’une part, les traits qui définissent la catégorie de son à laquelle on a affaire (par ex., fricative voisée, occlusive sourde, nasale), ce que nous appellerons geste catégoriel; 2o de l’autre, les traits qui définissent le lieu d’articulation (par exemple, labial ou coronal, ce que nous appellerons geste articulatoire[12]. Au lieu de formuler le processus d’assimilation comme en (22), on adoptera un type de notation emprunté à la phonologie autosegmentale comme en (23) ci-dessous – où les gestes sont reliés par des lignes d’association (Goldsmith 1976, 1990). L’assimilation peut alors se formuler comme la perte du lieu d’articulation de la consonne nasale (voir la ligne brisée par une double barre horizontale) et l’acquisition du lieu d’articulation de la consonne qui suit (voir la ligne pointillée) :

En fait, dans la mesure où il ne saurait y avoir d’opposition entre diverses consonnes nasales dans les mots du type (21), on peut penser que les consonnes nasales dans ce contexte sont des exemples de l’archiphonème /N/ (une consonne qui a seulement le trait [+nasal] et n’est pas spécifiée pour le lieu d’articulation). La représentation phonologique abrégée du mot anglais serait donc /aNgle/. On peut alors symboliser le processus d’assimilation comme en (24), où un segment sous-spécifié acquiert le lieu d’articulation de la consonne qui suit :

Un tel système de notation est évidemment intéressant dans la mesure où il est généralisable. On ne considèrera qu’un seul exemple supplémentaire ici. On sait que, dans de nombreuses langues, les fricatives sourdes comme [s] disparaissent dans certains contextes en passant par un stade intermédiaire [h]. On songera ici à l’histoire du français (cf. testa > teste > tehte > tête) ou aux nombreux dialectes de l’espagnol où España est prononcé [ehpaɲa]. On peut de façon convaincante traiter le passage de [s] à [h] comme une perte du geste articulatoire. Un [h], du point de vue phonologique, peut être analysé comme une fricative sourde minimale (dont le lieu d’articulation est vide) et provient d’un [s] par dissociation du faisceau de traits qui forme le geste articulatoire de ce dernier[13] :

En parallèle à ces arguments en faveur d’une structuration interne plus forte des segments phonologiques, d’autres secteurs de représentation se sont révélés problématiques pour le cadre SPE. Les phonologues se sont aperçus que certains domaines – en particulier, les tons, les phénomènes d’harmonie vocalique, et le traitement de langues à morphologie non concaténative comme l’arabe – étaient mieux compris si on s’autorisait à extraire certains traits phonologiques de la chaîne phonématique pour les placer sur des plans autonomes, parfois appelés paliers (traduction de l’anglais tiers) malgré les connotations facilement hiérarchiques de ce terme. C’est ce qui fait l’essence des approches autosegmentales (Goldsmith 1976, 1990), que nous illustrerons brièvement ci-dessous.

En français québécois, il existe un processus de relâchement des voyelles hautes (cf. Dumas 1981 : 21-35, Walker 1984 : ch. 3). Soit les exemples suivants :

La description la plus simple de ce relâchement est de poser qu’il est déclenché par la nature de la syllabe. Si la syllabe est ouverte, la réalisation est tendue [i y u]. Si la syllabe est fermée (ou entravée), la réalisation est lâche [ɪ, ʏ, ʊ]. Or, le relâchement des voyelles hautes lorsqu’elles sont en position accentuée[14] peut se propager de droite à gauche vers les autres voyelles hautes à l’intérieur du mot. Dumas 1981 note par exemple que le mot difficile peut facultativement se prononcer [dzɪfɪsɪl] à côté de [dzifɪsɪl] ou de [dzifisɪl]. Une description autosegmentale exprimerait ce processus en plaçant le trait [-tendu] sur un plan indépendant des unités phonématiques et traiterait la propagation comme une association optionnelle du trait [-tendu] à toutes les voyelles hautes à sa gauche. C’est ce que nous illustrons en (27) ci-dessous :

Mais ne sommes-nous pas devant une contradiction? Comment peut-on défendre une structuration plus forte des segments comme nous l’avons fait plus haut et, simultanément, dissoudre les phonèmes en extrayant divers traits de cette même structure interne pour les placer sur des plans autonomes? Il existe heureusement une solution à ce problème. Elle consiste à poser la notion de représentation géométrique. De nombreux chercheurs (Clements 1985, 1993, Sagey 1986, Pulleyblank 1995), retrouvant des idées défendues en phonologie de dépendance (Anderson et Ewen 1980, 1987), ont soutenu l’idée que les segments sont composés de divers plans organisés hiérarchiquement comme dans la Fig. 1 ci-dessous :

Fig. 1

Représentation géométrique interne des segments

Représentation géométrique interne des segments
Adapté de Durand et Katamba 1995 : 14 d’après Pulleyblank

-> See the list of figures

Dans la Figure1, les sous-parties d’un segment (appelés «gestes» en phonologie de dépendance) sont rattachées à un noeud appelé «noeud racine». De la racine dépendent trois noeuds correspondant à trois groupements principaux : le lieu d’articulation, le composant nasal (+/-nasal), le composant laryngal (+/-voisé). Du lieu d’articulation pendent des sous-articulateurs correspondant à des traits du type [+/-labial], [+/-coronal], [+/-haut], [+/-arl]. (Le trait arl, [atr] en anglais, désigne l’avancement de la racine de la langue et remplace souvent [+/-tendu] dans des travaux récents.) La perte du lieu d’articulation, invoquée plus haut pour expliquer le passage de [s] à [h], sera ici aussi formalisée par la dissociation de tous les éléments qui dépendent du noeud lieu. L’assimilation du lieu d’articulation (par exemple dans le cas des nasales en français du Midi conservateur) s’explique aisément : si la nasale est non spécifiée pour son noeud d’articulation, on peut rattacher à son noeud racine le noeud lieu de la consonne qui la suit (ce qui lui permet d’hériter tous les traits qui s’y rattachent). On constate donc qu’il est possible de concilier l’idée de structuration plus forte avec l’idée d’autonomie des traits phonologiques.

Nous en viendrons finalement à la nature des atomes phonologiques. Jusqu’ici, nous avons supposé que les éléments primitifs de la théorie phonologique étaient des traits binaires. Nous avons à l’occasion utilisé des représentations partiellement sous-spécifiées sans chercher à approfondir ce point particulier. Le binarisme généralisé de SPE n’a pas connu à partir des années quatre-vingt le même succès qu’auparavant. On notera, au passage, que les représentations géométriques comme celle de la figure 1 ne conservent des traits binaires que pour les catégories terminales et qu’une bonne partie des opérations qu’on leur applique ne fait pas du tout appel à la binarité. Par ailleurs, un courant important s’est dessiné en faveur d’une binarité restreinte dans les cadres dits de sous-spécification (cf. Archangeli 1988). D’autres phonologues ont défendu l’hypothèse que les traits phonologiques ne sont pas des traits binaires mais des composants unaires ou monovalents que nous appellerons éléments. Cette idée a surtout été défendue en phonologie de dépendance (Anderson et Jones 1974, 1977, Anderson, Durand et coll. 1987, Anderson et Ewen 1987, Durand 1990, van der Hulst 1993, Humbert 1995), en phonologie du gouvernement (Kaye, Lowenstamm et Vergnaud 1985, 1990, Harris et Lindsey 1995, Carvalho 1997), et en phonologie des particules (Schane 1984a,b). Nous n’approfondirons pas ici les avantages et les inconvénients possibles d’une théorie unaire des atomes phonologiques. Signalons néanmoins qu’une telle théorie est plus restrictive en ce sens qu’on ne manipule qu’une seule valeur au lieu de faire la prédiction que, pour chaque trait phonologique (voisé, nasal, rond, arrière, etc.), deux valeurs sont en principe accessibles aux processus phonologiques. D’autre part, alors que dans SPE les transformations de valeurs de traits étaient au coeur des règles phonologiques (avec les inconvénients que signalaient Chomsky et Halle dans leur chapitre 9), de telles opérations deviennent difficiles, voire impossibles à formaliser dans un cadre unaire. On notera cependant que les éléments qu’on postule dans les cadres unaires ne sont que partiellement identiques aux traits phonologiques de la tradition SPE. Nous présenterons ici quelques éléments utilisés pour représenter les voyelles.

Les composants primitifs de la description des voyelles dans divers cadres unaires sont les éléments étiquetés I, A, U, auxquels on ajoute parfois un élément d’avancement de la langue ARL et/ou un élément neutre @. Ces étiquettes sont purement conventionnelles, car chaque élément a une interprétation phonétique générale. Pour les besoins de l’exposé, on peut décrire |I| comme palatal/aigu, |A| comme bas/compact et |U| comme arrondi/grave. Dans les langues qui n’ont que les trois phonèmes vocaliques /i, a, u/, chaque voyelle sera directement caractérisée par un élément : /i/ = |I|, /a/ = |A|, /u/ = |U|. En revanche, dans les accents où on a un système du type /i e y ø a o u/ (comme dans le français du Midi), on adoptera des représentations comme en (28), où la virgule relie des éléments qui sont simultanément présents et où l’ordre dans lequel les éléments sont écrits n’a aucune importance :

Finalement, dans les accents où interviennent des oppositions entre voyelles mi-hautes et mi-basses, soit /i e ε y ø oe a u o ɔ̃/, on peut soit utiliser un élément comme ARL (ou @), soit invoquer une différence de gouvernement. Nous donnerons ici un exemple de représentation s’appuyant sur la notion de gouvernement. Soit le système en (29) ci-dessous. Les voyelles moyennes sont représentées comme des éléments mixtes où l’élément qui domine est soit |A|, soit |I| ou |U|. Le gouverneur est placé au sommet de chaque graphe, mais d’autres symbolisations équivalentes sont possibles.

La structure interne des segments transparaît dans des processus synchroniques ou diachroniques où les éléments se décomposent et se recomposent de manière relativement transparente. On prétend, par exemple, qu’au cours de l’histoire du français, on a pu observer des changements comme les suivants :

Formulés en termes de traits binaires classiques, de tels changements sont tout à fait arbitraires. Par contre, en opérant à partir d’éléments comme I, A, U, on peut rendre compte de telles évolutions de manière naturelle. Le point de départ du changement de (30) est une diphtongue (un noyau complexe) où le premier élément régit le second : soit (31a) ci-dessous (où la ligne reliant A et I symbolise ici une relation de gouvernement ou de rection entre deux éléments). Le changement historique en question consiste en une fusion de deux éléments qui étaient simultanés, mais où A reste le gouverneur; soit (31b).

Pour employer une analogie lexicale, soit les deux concepts opposés «chaud» et «froid» qu’on prendra comme primitives sémantiques : chaud et froid. On définira un terme intermédiaire tiède, comme étant un simple mélange de chaud et de froid (soit chaud, froid). Si on voulait représenter le mot frais, on pourrait alors dire qu’il est le résultat de la combinaison de chaud et froid, mais avec froid comme élément dominant. Ce que les atomes du type I, A, U permettent, c’est soit une combinaison linéaire (31a), soit une coïncidence (31b), avec ou sans domination d’un des éléments.

Bien sûr, un tel traitement est d’autant plus plausible qu’il est récurrent dans les langues du monde. Or, il s’avère que les alternances synchroniques et diachroniques comme celle de (30) sont attestées dans de nombreuses familles de langues. Contentons-nous de rappeler ici qu’en vieil anglais tardif, on observe également des changements du type / ai̯/ → /εː/ day et / au̯/ → /ɔː/ law. Le type de représentation infrasegmentale esquissé ici devrait permettre au lecteur de comprendre l’hypothèse selon laquelle les processus synchroniques et diachroniques sont le résultat de combinaisons d’atomes par association et dissociation dans des conditions que de nombreux chercheurs s’efforcent de ramener à un petit choix d’options universelles.

4. La montée des contraintes

À la section 3, nous avons présenté quelques idées qui ont marqué la période plurilinéaire entre 1975 et 1990 environ. Une des idées fortes de cette période était qu’une redéfinition représentationnelle pouvait contourner les grands problèmes auxquels était confrontée l’approche transformationnelle de SPE. Certains modèles révélaient même l’espoir qu’on pouvait se passer complètement de règles. Tel est, par exemple, le point de vue de la phonologie dite du gouvernement «Government Phonology» prônée par Kaye, Lowenstamm et Vergnaud, qui déclarent :

Ce programme adopte le point de vue selon lequel la phonologie doit être considérée comme un système de principes universels définissant la classe des systèmes phonologiques humains. Ces principes sous-déterminent les phonologies particulières dans certains domaines spécifiques. Dès lors, un système phonologique complet comprend à la fois ces principes et des ensembles de valeurs paramétriques. Pris ensemble, les principes et les ensembles de paramètres particuliers à une langue donnent une caractérisation complète du système phonologique de cette langue. Dans ce modèle, un système phonologique ne contient aucune composante de règles.

1985 : 109

Il est important de comprendre ici que par «règle», il ne faut plus entendre «condition de bonne formation» (comme la composante syntagmatique du modèle d’Aspects of the Theory of Syntax, Chomsky 1965), mais «règle transformationnelle». Le terme «dérivation» lui-même ne prend plus le sens que de «dérivation transformationnelle». La difficulté est que la construction d’une phonologie à deux (ou plusieurs) niveaux sans règles, si elle représente un idéal, n’en reste pas moins difficile à articuler (voir le débat entre Coleman et Kaye dans Durand, Katamba et coll. 1995). Les années quatre-vingt-dix ont donc vu une remontée de la question de la nature et de l’interaction des généralisations phonologiques. Certaines approches ont essayé de mettre en avant des phonologies monostratales où les seuls mécanismes licites sont des conditions (ou contraintes) de bonne formation (phonologies dites déclaratives, par exemple, Scobbie, Coleman et Bird 1996, Angoujard 1997). D’autres approches ont essayé de combiner la présence centrale de contraintes de surface avec le fait que, entre autres, les combinaisons morphologiques ou morphosyntaxiques peuvent produire des assemblages mal formés qui exigent des transformations thérapeutiques de portée limitée. La Théorie des contraintes et des stratégies de réparation (ou TCSR) de Carole Paradis et ses collaborateurs fournit un exemple bien articulé de ce type d’approche et sera examinée en 4.1. Enfin, un autre type d’approche est la Théorie de l’optimalité (abrégée en anglais OT), modèle qui a pris une telle importance dans le champ théorique qu’il n’est pas possible de présenter la phonologie générative moderne sans lui accorder une bonne place (voir 4.2).

4.1 La Théorie des contraintes et des stratégies de réparation (TCSR)

La Théorie des contraintes et stratégies de réparation ou TCSR (anglais «Theory of constraints and repair strategies», ou TCRS) a été élaborée par Carole Paradis, de l’Université Laval, à Québec, et un groupe de collaborateurs dont Renée Béland, Fatima El Fenne, Darlene La Charité et Jean-François Prunet[15]. La TCSR, nous venons de le souligner, fait partie d’un ensemble de modèles développés au cours des années quatre-vingt et quatre-vingt-dix dans le cadre générativiste en réaction à l’approche transformationnelle (explicite ou implicite) héritée de SPE. Toutes les théories de contraintes ne se réclament pas de la grammaire générative chomskyenne, et certaines tendances sont même opposées (partiellement ou totalement) aux théories phonologiques développées dans ce cadre (par exemple, Bird 1995, Scobbie, Coleman et Bird 1996, Coleman 1995, 1998). Ce n’est pas le cas de la TCSR. Elle appartient sans ambiguïté au courant de la phonologie générative dans la mesure où elle adhère à la fois au souci de précision formelle de cette dernière et au cadre méthodologique et épistémologique : la TCSR se veut une contribution à la définition des principes et des paramètres qui forment l’armature de la grammaire universelle (GU).

Le modèle SPE, nous l’avons vu en détail en 2, est un modèle transformationnel : à partir de représentations sous-jacentes (l’input), les règles produisent des formes de surface (l’output) en effaçant ou en introduisant des éléments. On notera que ce modèle contient cependant des conditions de bonne formation (conditions sur les structures de morphèmes, qui correspondent aux règles phonotactiques de la tradition structuraliste). Les conditions de bonne formation peuvent, en principe, s’appliquer à deux niveaux : sous-jacent et de surface. Dans l’architecture SPE, les bonnes formations de surface ne jouent cependant aucun rôle formel. Pourtant, il a souvent été observé que les structures de surface semblaient contraindre l’application des règles phonologiques. Le travail désormais classique de Kisseberth 1970 a, b souligne que, dans un certain nombre de langues amérindiennes, des règles d’effacement et d’épenthèse (donc à effets contradictoires) conspirent pour s’assurer qu’on ne crée jamais des groupes de trois consonnes (autrement dit, des groupes qui ne pourraient être analysables en syllabes bien formées). Dans la droite ligne de ces observations, de nombreuses propositions ont été faites pour intégrer les contraintes à des systèmes de règles, donnant lieu à des systèmes mixtes et peu satisfaisants. Un des problèmes non résolus a été le fait que lorsqu’une contrainte est transgressée, la résolution de cette transgression reste indéterminée en l’absence d’une théorie précise des opérations permises. Il peut sembler curieux d’introduire la notion de contrainte pour immédiatement souligner que les contraintes peuvent être violées. Les tenants de la TCSR expliquent cependant que les contraintes peuvent être transgressées par des mécanismes internes (opérations morphologiques et morphosyntaxiques, par exemple)[16] et externes (les emprunts ou les déficiences cérébrales, par exemple). Donnons un exemple concret. En français standard, où /ɔ/ et /o/ sont des phonèmes (cf. cotte/côte), on sait que le segment [ɔ] est interdit à la finale de mot. On peut donc poser une contrainte, s’appuyant sur les traits présentés en 2.2, exemple (8), qui interdit cette réalisation :

On constate cependant que diverses opérations morphologiques peuvent créer des séquences où un /ɔ/ sous-jacent se retrouve en finale de mot. On constate chaque fois que ce /ɔ/ est ajusté en [o] :

La TCSR dirait ici qu’on a une stratégie de réparation qu’on peut formuler en deux étapes qui s’enchaînent de façon intrinsèque (autrement dit, sans besoin de stipulation) :

Une réparation est une forme de transformation (ajout ou effacement), mais à la différence des règles phonologiques classiques, les stratégies de réparation dans le cadre de la TCSR obéissent à des conditions précises que nous allons explorer.

Une bonne façon d’entrer dans le système de la TCSR est de considérer le domaine des emprunts phonologiques, qui constitue le champ privilégié d’application de cette théorie dans le cadre du projet COPHO de Carole Paradis et Darlene LaCharité à l’Université Laval. Lorsqu’un emprunt lexical est fait à une langue source et que cette dernière contient des éléments (traits, phonèmes, structures) qui ne sont pas tolérés dans la langue emprunteuse (la langue cible) diverses adaptations phonologiques peuvent être observées. Considérons quelques exemples d’adaptation de sons du français dans des emprunts faits à cette langue en peul (Afrique de l’Ouest), en kinyarwanda (Rwanda) et en lingala (Congo) :

Dans l’exemple en peul, un [s] a été substitué à la fricative coronale non antérieure [/]. En kinyarwanda, un [e] a été substitué au phonème [ε]. Enfin, en lingala, un [z] est substitué au [ʒ] de magie. Dans le cadre de la TCSR, ces adaptations sont provoquées par des violations de contraintes qui, en l’occurrence, interdisent les voyelles non tendues comme [ε] en kinyarwanda et les fricatives coronales non antérieures [ʃ] et [ʒ] en peul et en lingala. En TCSR, les contraintes ne sont cependant pas de simples interdictions locales, mais des réponses négatives aux options offertes par la grammaire universelle, les paramètres. Pour nos exemples, les réglages paramétriques auraient la forme suivante :

Les violations de contraintes sont corrigées par des «stratégies de réparation» qu’on peut définir de la façon suivante :

On constate donc que seulement deux opérations sont autorisées : 1o insérer : ∅ → Z, et 2o effacer : Z → ∅, où Z représente n’importe quel matériel phonologique (y compris un lien entre deux éléments). De plus, selon (37), ces opérations sont liées à la grammaire universelle et ne font pas formellement appel au contexte. Cette approche est donc très forte puisque, a priori, si nous continuons à nous pencher sur les emprunts, les adaptations attestées sont très variées. Comment le locuteur natif d’une langue (à un niveau inconscient, il s’entend) peut-il savoir s’il doit ajouter ou supprimer du matériel phonologique, si oui lequel, et à quel niveau doivent se situer ces réparations?

La réponse que donne la TCSR à ces questions consiste à invoquer un ensemble de principes universels qui guident les réparations possibles. Premièrement, quoique les effacements de matériel phonologique constituent une stratégie attestée pour réparer les violations de contraintes, on constate que cette solution ne s’applique normalement que lorsque les solutions de rechange sont inapplicables. C’est ce qui a conduit les tenants de la TCSR à proposer un Principe de préservation qui limite les pertes d’information segmentale. On peut le formuler de la façon suivante :

Ce principe de préservation est justifié par le faible pourcentage de malformations dans les emprunts qui sont réparées par effacement. Pour prendre un exemple concret, lorsqu’une langue qui n’a pas de coda branchante adapte des mots provenant d’une langue source qui autorise de telles codas, on pourrait s’attendre à une proportion semblable d’élisions et d’insertions. En peul, langue qui interdit les codas branchantes, on constate bien l’existence de ces deux stratégies :

Il y a cependant une disproportion notable entre la solution (a) et la solution (b). Sur 327 cas de codas mal formées (parce que branchantes) dans la base COPHO, 302 exemples (soit 92,4 %) sont du type (a) et seulement 25 (soit 7,2 %) du type (b)[17]. Cette disproportion est générale puisque sur l’ensemble des corpus d’emprunts du projet COPHO, les élisions de segments ne représentent qu’un pourcentage infime des cas. La base d’emprunts du projet, au 20/09/01, fournissait les chiffres globaux suivants pour 12 corpus : sur 43 041 malformations segmentales ou syllabiques, 32 777 (76,2 %) sont adaptées par l’insertion de matériel, et 1 121 seulement par élision (soit 2,6 %). Les 9 143 autres exemples du total cité (soit 21,2 %) correspondent à des non-adaptations (importations).

On peut néanmoins s’interroger sur l’existence de cas d’élision. Si les langues favorisent le maintien des structures, pourquoi n’est-ce pas la seule stratégie attestée? La réponse que fournit la TCSR est qu’il y a un seuil de tolérance qui pose des limites à la préservation segmentale :

L’introduction d’étapes (ou opérations) est apparemment semblable à une dérivation SPE. Il y a, cependant, une différence fondamentale entre une approche SPE et la TCSR. En effet, il n’y a aucune limite supérieure sur le nombre de règles (transformationnelles) qu’autorise théoriquement une approche SPE. En revanche, dans la TCSR, on constate que l’enchaînement d’opérations pour répondre à une violation de contraintes donnée est limité à deux, plus rarement trois réparations dans les langues étudiées. L’introduction d’un «nombre» d’opérations pose néanmoins un problème. Une des idées fortes de l’approche chomskyenne est que la notion de nombre ne joue aucun rôle dans le patron structurel des langues du monde[18]. Noam Chomsky a souvent insisté sur le fait que, a priori, il n’y aurait rien de surprenant à ce que les langues naturelles présentent des règles s’appuyant sur de simples régularités numériques. Par exemple, on pourrait très bien s’attendre à ce qu’une langue forme les questions en plaçant le deuxième mot d’une phrase déclarative en tête de phrase. Si l’anglais se comportait de cette façon, cela donnerait par exemple : Mary will like itWill Mary like it? John has been workingHas John been working? mais aussi Mary left it → *Left Mary it?, The postman is working now → *Postman the is working now?, qui ne sont pas grammaticaux. Mais ce genre de stratégie n’est pas attesté. En revanche, ce qui est largement attesté est le recours à des inversions basées sur la notion de constituant : par exemple en anglais, pour former une question fermée (de type oui/non), on prend le temps morphosyntaxique abstrait (présent/passé) et le premier élément du groupe auxiliaire modal ou have ou be, et on le place avant le syntagme nominal sujet. En l’absence d’un modal, de have ou de be, on observe la forme do (Mary left itDid Mary leave it?). En termes de simplicité, le système s’appuyant sur un décompte semble préférable. Les langues ne semblent pourtant jamais intégrer la notion de nombre dans la description structurale des opérations qui sont autorisées. La TCSR ne pose néanmoins pas un recours au décompte sériel en tant que tel. L’argument est que, d’un point de vue cognitif, la reconnaissance de certains patrons canoniques se fait par une saisie globale de la quantité. Ce processus, appelé «subitization» en anglais, est disponible chez les enfants et, semble-t-il aussi, dans d’autres espèces animales[19]. D’après Wynn 1990 : 191, «Infants may have an innate concept of numerosity, or at least of the numerosities one, two, and three, which they must map onto the correct number words.» Quant aux adultes, il leur serait possible d’appréhender globalement et instantanément des patrons canoniques allant jusqu’à quatre ou cinq.

Mis à part le seuil de tolérance, une question qui se pose est celle de savoir comment les modifications de structures qu’effectue une stratégie de réparation sont réglées. En effet, si on introduit ou efface du matériel phonologique, comment choisir ce matériel? Intuitivement, la réponse est qu’on doit effectuer le changement thérapeutique le plus simple possible. En effet, et heureusement pour les linguistes, les systèmes phonologiques ne se comportent pas comme les êtres humains, qui semblent souvent obéir à la maxime «Pourquoi faire simple, quand on peut faire compliqué?» La TCSR essaie donc d’articuler les mécanismes qui régissent les réparations tolérées et démontre que des conventions générales règlent les cas de conflit. Une première thèse est que si un conflit survient entre deux contraintes structurales ou une contrainte structurale et une contrainte segmentale, ce conflit est réglé par la Convention de préséance :

Ce qu’établit donc (41) est qu’on accorde toujours la priorité à la contrainte qui affecte le niveau le plus haut de la hiérarchie phonologique. Cette notion de hiérarchie phonologique n’est pas créée pour les besoins de la cause par la TCSR, mais a été défendue dans de nombreux cadres phonologiques dans le développement des théories métriques. L’échelle classique que présuppose la TCSR est la suivante :

La syllabe utilisée par la TCSR est une syllabe hiérarchique du type S = Attaque + Rime, R = Noyau + Coda, telle qu’elle a été définie en 3, section qui présente la plupart des concepts nécessaires à l’application illustrative offerte en 4.1.1.

Évidemment, ce n’est pas toujours le cas que deux contraintes ou plus sont simultanément violées. Nous avons vu plus haut des exemples relativement simples où un segment a été substitué à un autre (cf. français chauffeur [ʃofœr] → peul [sofeer]). Dans de tels cas, qu’est-ce qui a pu orienter les locuteurs du peul vers un changement qui implique des combinaisons de traits distinctifs plutôt que de modifier, par exemple, la structure syllabique du mot? Ici aussi la TCSR invoque un principe relativement intuitif qui est le Principe de Minimalité, défini en (43) :

Le peul nous permettra encore une fois d’illustrer les mécanismes de la théorie[20]. Nous partirons ici d’une liste des phonèmes consonantiques du peul et du français. Le peul présente l’inventaire suivant : /p b t d c ɟ k g ʃ ɗ ɠ f s m n ɲ ŋ r l w j/. En revanche, de nombreuses variétés du français présentent les consonnes suivantes : /p b t d k g f v s z ʃ ʒ m n ɲ r l j ɥ w/. Alors que le français autorise des oppositions de voisement dans les fricatives (f/v, s/z, ʃ/ ʒ), on notera que les deux fricatives du peul sont non voisées : /f/ et /s/. Nous avons signalé que, dans la TCSR, l’absence de segments dans un inventaire donné est attribuable à des réponses négatives aux paramètres qu’offre la GU en ce qui concerne des combinaisons de traits, ce qui produit des contraintes. Ainsi, en comparant le peul et le français, on posera les généralisations suivantes :

On peut donc se demander comment le peul va pouvoir intégrer des mots français qui comportent le phonème /v/. Nous supposerons, avec Paradis, LaCharité et Lebel 1994, que le segment /v/ au niveau sous-jacent est radicalement sous-spécifié. Nous lui attribuerons la représentation suivante dans une représentation de type géométrique (voir Fig. 1 supra) :

À priori, ce segment illicite en peul peut être adapté par le biais d’un ajout ou d’un effacement de matériel phonologique. Les données montrent que la solution qui est nettement majoritaire (76,5 % des cas) est du type suivant :

Autrement dit, le [v] de la langue source est remplacé par un [w] qui est l’une des deux glissantes du peul, avec [j]. En termes représentationnels, on peut traiter cette adaptation comme fournissant le trait [+sonant] au *v. Nous exprimerons cet ajout comme suit :

La question qui se pose immédiatement est de savoir pourquoi cette adaptation est de loin préférée aux deux solutions suivantes qui sont certes attestées, mais relativement rares en dépit de leur simplicité apparente : [*v → b] ou [*v → f]. La réponse est que ces solutions minoritaires exigent deux opérations, à savoir l’effacement d’un trait et l’ajout d’un autre trait. Ainsi, l’adaptation [v → f] exige l’effacement du trait [+voisé] et l’ajout du trait [-voisé]. Le Principe de préservation (38) donne la préférence à la solution qui préserve la forme de départ et l’étoffe en lui adjoignant [+sonantique], autrement dit à la solution [v → w]. Par ailleurs, on constate que cette adaptation est conforme au Principe de minimalité et à la Hiérarchie des niveaux phonologiques. En effet, l’ajout du trait [+sonantique] s’applique en une seule étape et au niveau le plus bas à laquelle fait référence la contrainte (40), qui interdit la combinaison [+continu, + voisé].

Nous nous tournerons enfin vers un cas apparemment plus problématique, celui où le peul, en empruntant au français, a recours à des effacements. Soit les exemples suivants :

En adaptant des mots comme voyou, le peul est confronté à deux problèmes : (a) le son [v] ne fait pas partie de l’inventaire de cette langue, comme l’avons déjà signalé; (b) les séquences CG (Consonne+Glissante) y sont interdites. D’après la Convention de préséance, dans une situation impliquant deux ou plusieurs contraintes violées, la priorité est accordée à la contrainte faisant référence au niveau le plus élevé de la Hiérarchie des niveaux phonologiques. Cela signifie que la violation syllabique doit être traitée en premier. Ce que démontrent les auteurs, c’est que les solutions corrigeant les séquences interdites en préservant les segments de départ exigent plus de deux étapes. Or le peul, comme la plupart des langues examinées par la TCSR, ne permet pas des réparations en plus de deux étapes. C’est ce qu’exprime la généralisation (49) :

Soit, par exemple, l’adaptation non retenue de voyou [vwaju] en *[wuwaju]. On constate que cette adaptation exigerait les trois opérations suivantes (cf. 50 a, b, c), à savoir la création d’un noyau vide jouant le rôle de réceptacle pour le [u] à venir; la propagation de la mélodie [u] dans ce noyau vide (on se souviendra qu’un [w] est un [u] non syllabique), et enfin l’adaptation de *v en [w] déjà expliquée :

La solution choisie par le peul est donc l’effacement, à savoir la solution la plus simple possible en conformité au Principe de minimalité : elle s’applique au niveau le plus bas auquel fait référence une contrainte violée (à savoir au niveau segmental) et en une seule étape.

Une présentation plus complète de la TCSR permettrait de montrer que de nombreux exemples qui résistent à l’analyse dans d’autres modèles y trouvent une explication simple, élégante et généralisable. En conclusion, nous offrirons le résumé suivant de la TCSR (Paradis 2001) :

4.2 La Théorie de l’optimalité (TO)

La TO[21], dont nous esquisserons quelques grands principes (Prince et Smolensky 1993, Archangeli, Langendoen et coll. 1997, Kager 1999), s’est rapidement imposé comme un modèle incontournable en phonologie[22]. Toute notion de dérivation et d’opération se voit éliminée au profit d’un ensemble de contraintes qui font partie de la grammaire universelle et qui permettent la définition des représentations (Laks et coll. 1997). La phonologie d’une langue est alors réduite à une hiérarchie spécifique de ces contraintes, et les alternances observées sont le résultat de l’interaction conflictuelle des contraintes. La différence majeure avec la TCSR est que les contraintes de la TO sont transgressables sans déclencher de stratégies de réparation (même si certains tenants de la TO parlent informellement en de tels termes).

Nous proposons de débuter notre présentation par une comparaison avec SPE. Soit deux réalisations de surface d’un même morphème dans une langue W: (1) [xy] et (2) [xtz]. Sur la base de ces formes et d’autres données, imaginons qu’un linguiste postule pour (1) la forme sous-jacente /xt/. Dans le cadre SPE, pour rendre compte de la forme de surface (1), on proposera alors une règle comme, t → y / __ # et le résultat sera par exemple la dérivation en (52) :

La TO postule de la même manière une forme sous-jacente, mais envisage à partir de celle-ci (ici /xt/) un vaste ensemble de réalisations possibles, comme [xa], [xt], [abc], etc. Toutes ces réalisations sont engendrées par une fonction gen(générateur). Il importe alors d’éliminer toutes les formes indésirables et de ne maintenir que la réalisation souhaitée de notre forme sous-jacente /xt/. Pour ce faire, le modèle fait appel à un ensemble de contraintes universelles dont la transgression va permettre d’exclure les formes «fautives». Le processus d’évaluation s’effectue à l’aide d’une autre fonction, eval(évaluation), qui en hiérarchisant les contraintes, sélectionne le candidat optimal. Le tableau ci-dessous a pour but d’illustrer de façon très simplifiée le fonctionnement du modèle. Les réalisations (ou candidats) engendrées par la fonction gen sont les suivantes : [xa], [xt], [xy], [abc], et nous supposons que trois contraintes sont à l’oeuvre : C1, C2, C3. Une transgression est indiquée par * et le candidat optimal par ☞.

Dans notre exemple, trois candidats transgressent chacun l’une des contraintes, ce qui entraîne leur exclusion immédiate, et le candidat gagnant est celui qui ne transgresse aucune contrainte. Ceci n’est pas toujours le cas, et l’une des grandes originalités de la TO est de poser que toute contrainte universelle peut en principe être transgressée et qu’une transgression n’est pas d’emblée rédhibitoire. Les contraintes n’ont pas cependant le même poids, elles sont rangées selon leur importance dans une langue donnée, et leur hiérarchie varie de langue à langue. De cette façon, le candidat gagnant est celui qui transgresse les contraintes situées le plus bas dans la hiérarchie proposée. Reprenons notre exemple hypothétique, mais en supposant maintenant la hiérarchie suivante : C1 >> C2 >> C3. Le symbole >> indique une relation de dominance, C1 domine C2, et C2 domine C3. Nous postulons une contrainte encore plus basse dans la hiérarchie, C4, que transgressent plusieurs candidats dont notre candidat gagnant, sans que cela ne l’élimine. Le symbole ! indique une transgression rédhibitoire.

Même s’il transgresse la contrainte C4, [xy] est toujours ici le candidat optimal, celui qui sort vainqueur du processus d’évaluation. C’est l’ordre des contraintes universelles, leur hiérarchie dans une langue donnée qui fait la spécificité de cette langue. Les divergences observées entre les langues sont alors attribuées à des hiérarchies différentes des contraintes, et comparer deux langues revient à comparer deux ordres distincts.

Les contraintes universelles, actives à divers degrés dans toutes les langues, n’ont pas toutes le même effet, et nous distinguerons entre les contraintes de fidélité (autrement appelée de façon plus descriptive, sans connotation morale, conformité, ou encore correspondance) et les contraintes de marque (ou contraintes d’harmonie) définies ci-dessous de façon informelle :

Le rôle des contraintes de fidélité, dont nous donnons quelques exemples, est d’assurer que la forme de base est identique à la sortie de la fonction gen.

Si les contraintes de fidélité sont dominantes, la forme de sortie ne se distingue pas de la base. Si au contraire, elles sont dominées, la forme de surface diverge de la base. Les contraintes de marque exercent une autre fonction, elles se penchent sur la bonne formation et sur le côté non marqué des éléments et des constituants. Les quatre contraintes suivantes, par exemple, concourent à poser CV comme la syllabe canonique : une syllabe doit posséder une attaque et un noyau mais pas de coda, et aucun de ses constituants ne peut être complexe.

Le symbole * indique tout comme en syntaxe l’inacceptabilité, et nous avons vu que le même symbole est utilisé dans les tableaux pour indiquer une transgression de contrainte.

Le jeu de ces deux séries de contraintes est à l’origine de la variation observée dans les langues, des phénomènes de la parole rapide qui étaient jusqu’alors relégués à la périphérie de la phonologie. La TO permet d’embrasser à l’intérieur d’un même cadre et selon une et une seule procédure aussi bien des alternances phonologiques «traditionnelles» (étudie /etydi/, étudiez /etydje/[23]) que des lois phonétiques ou encore des divergences dues au registre utilisé. Toutes les variations observées sont le résultat d’un conflit entre des forces conservatrices, ici les contraintes de fidélité, qui stipulent simplement «Ne touchez à rien», et les contraintes de marque, qui tendent vers la minimisation de l’effort articulatoire. Ces deux séries de contraintes sont foncièrement distinctes dans leurs domaines d’application ainsi que dans leurs effets. Les contraintes de fidélité concernent des éléments simples : «Ne changez pas le trait, ne changez pas le segment», alors que les contraintes de marque portent sur des unités plus larges que le segment, imposant des restrictions sur les séquences de sons. Une autre façon d’envisager ce conflit est d’opposer l’économie articulatoire au besoin d’être compris sans aucune ambiguïté. Dans la parole rapide, l’économie articulatoire l’emporte sur la précision de la perception alors que c’est le contraire dans un registre plus lent.

Comme les contraintes ont des exigences contradictoires, il en résulte des conflits que chaque langue résout en imposant à ces contraintes une hiérarchie qui lui est propre, d’où la vaste diversité linguistique observée dans les langues du monde. La variation à l’intérieur d’une langue, la variation stylistique (Morris, 1998) et la variation chez un même locuteur résultent de la même façon de la résolution de conflits. Dans une même langue, certaines contraintes ne possèdent pas de rang fixe, elles entretiennent entre elles des relations de dominance différentes. Si pour une langue X, A domine B qui domine C (A>>B>>C), certaines réalisations de surface témoignent de la relation de dominance A>>C>>B, et d’autres réalisations de C>>B>>A[24].

4.2.1 Application

Nous illustrerons le modèle à l’aide d’un exemple très simplifié. La chute de la liquide dans un groupe obstruante+liquide (en abrégé ol) en finale de mot est généralisée dans le registre informel dans la plupart des variétés de français (Laks 1977, Wachs 1997, Lyche 1997).

Cet effacement, sans nul doute provoqué par une tendance au moindre effort, entraîne la création de syllabes moins marquées. Si les langues autorisent les codas, elles préfèrent les codas simples aux codas complexes (Venneman, 1988). Cette préférence est traduisible sous forme de contrainte de marque.

La contrainte *complexe doit être spécifiée pour chaque constituant, car les attaques complexes sont généralement moins marquées que les codas complexes. Nous distinguerons alors entre *compl-c (les codas complexes ne sont pas licites) et *compl-a (les attaques complexes ne sont pas licites). Reprenons le premier de nos exemples, il est pauvre, dont la forme de base est /povrə/. Cette forme de base semble a priori être aussi le candidat optimal puisqu’elle se syllabe en deux syllabes ouvertes. Elle est pourtant exclue par une contrainte d’alignement (McCarthy et Prince 1993) :

align est motivée par la règle d’accentuation en français, qui place l’accent sur la dernière syllabe d’un mot à condition que cette syllabe ne contienne pas de schwa. align seule est insuffisante, car parmi les candidats possibles, il faut envisager [por], où le groupe ol est simplifié, mais en faveur de la liquide et non de l’obstruante. L’exclusion de ce candidat est provoquée par la transgression d’une contrainte de fidélité, contiguïté, dont l’un des effets est d’éliminer en priorité les éléments situés à la périphérie.

Nous avons maintenant défini trois contraintes nécessaires au choix du meilleur candidat dans une variété de français qui favorise la chute de la liquide. Deux contraintes de marque (*compl-c et align) s’opposent à une contrainte de fidélité (contiguïté) à laquelle s’ajoute maxio, la contrainte conservatrice par excellence. Suivant le rang de ces diverses contraintes dans la hiérarchie, les forces conservatrices ou les forces innovatrices vont l’emporter. Dans notre exemple, seule maxio, définie en (56), doit être impérativement dominée, et à ce stade de l’analyse la relation de dominance entre les autres contraintes est indifférente : contiguïté, compl-c, align>> maxio

Le candidat optimal est [pov], bien qu’en éliminant deux segments, il transgresse deux fois maxio. Pour rendre compte d’une variété de français qui choisirait le premier ou le deuxième candidat, il suffit d’imposer aux contraintes un ordre de dominance différent.

Le français déploie de nombreuses stratégies pour multiplier les syllabes non marquées. La liaison, sur laquelle nous revenons plus bas, est l’une de ces stratégies en faveur de la syllabe canonique CV (Tranel 1996, 2000, Oostendorp 1997). Dans beaux étés sans liaison (soit *[boete]), on a la suite de syllabes suivante (le point indiquant la frontière syllabique) : [bo.e.te] ou CV.V.CV. La présence de la liaison (soit [bozete]) permet d’éviter des syllabes à attaque vide et cela aux dépens d’une contrainte d’alignement qui exige que la borne droite du radical coïncide avec une frontière de syllabes. Lorsqu’il y a liaison, c’est exactement le contraire qui se produit, la borne gauche du morphème (ici #é dans étés) ne correspond plus à une frontière syllabique [bo.ze.te], CV.CV.CV. Comme le montre Tranel, la liaison joue le même rôle que l’élision de la voyelle de l’article défini devant une initiale vocalique[25].

Tout modèle phonologique est confronté à plusieurs questions cruciales pour en montrer la fécondité. Le rapport au lexique et à la morphologie en est un; le rapport à la syntaxe et à la structuration des énoncés en est un autre; le rapport à la phonétique en est un troisième. Enfin, la variation phonologique est un des grands enjeux de la phonologie contemporaine. Dans notre discussion et étant donné notre propre intérêt pour la variation dans le cadre du projet «La phonologie du français contemporain» (Durand, Laks et Lyche 2002), nous nous pencherons sur la question de la variation phonologique.

4.2.2 La TO et la variation

Dans ce modèle, une première observation est que la variation qui pourra déboucher sur un changement linguistique peut être traitée comme le fruit d’un conflit entre les contraintes de fidélité et les contraintes de marque (Borowsky et Horvath 1997). Une fois cette observation faite, force nous est de reconnaître qu’a priori, la TO n’est pas plus apte qu’une autre théorie à rendre compte de la variation intralinguistique, les contraintes étant soumises à un ordre fixe et un seul candidat sortant vainqueur de cet ordre. Pourtant, Archangeli, Langendoen et coll. 1997 : 22 soulignent dans leur ouvrage d’introduction la nécessité de rendre compte des phénomènes de la parole rapide.

In fast and/or casual speech, people may omit the t in the cluster...ftn... and say so[fn]ness instead of so[ftn]ness. How best to account for this has yet to be resolved satisfactorily. One possibility within OT is variable ranking of constraints, or variable values in constraints depending on speech rate/style. Another possibility [...] is the use of correspondence constraints between careful and casual speech representations.

Deux solutions ont été proposées : soit l’utilisation d’un ordre variable, soit de postuler des contraintes de correspondance (autrement dit, de fidélité) crucialement ordonnées. Cette dernière possibilité est illustrée par Hammond 1997 : 48-50 dans son traitement de la syncope des voyelles non accentuées en anglais rapide. Ces deux propositions posent le problème du nombre de grammaires envisagées pour chaque locuteur. À chaque ordre établi s’associe-t-il une grammaire différente? Autrement dit, de combien de grammaires chaque locuteur dispose-t-il? Un tour d’horizon rapide de la documentation montre que la réponse est loin d’être claire, et deux tendances se dégagent : 1o le nombre de grammaires dont dispose le locuteur n’est pas fixe; 2o un locuteur possède une et une seule grammaire.

4.2.2.1 Grammaires multiples

L’analyse de la liaison en français présentée par Oostendorp 1997 nous fournira une illustration du premier modèle. Oostendorp distingue entre trois styles, et à chaque style correspondrait une hiérarchie différente des contraintes. La variation serait ainsi le résultat de la compétition entre plusieurs grammaires. Pour reprendre la distinction traditionnelle, ces trois styles représentent la conversation familière (I), la conversation soignée (II), et le discours et la lecture (III). C’est la position dans la hiérarchie d’une contrainte de fidélité, surface c, qui va les distinguer.

(63) est satisfaite lorsque la consonne de liaison présente dans la forme de base est prononcée dans la forme de surface. Plus le style est élevé, plus les liaisons sont nombreuses, plus la contrainte de fidélité est dominante dans la hiérarchie, et le candidat gagnant est celui qui la respecte. Il est bien connu que la présence de la liaison est une fonction de la dépendance syntaxique des éléments, et tout naturellement, les contraintes à ranger par rapport à surface c précisent ces relations.

Ces trois contraintes interdisent en fait la violation de relations syntaxiques de plus en plus étroites.

Dans cette analyse, une frontière entre un mot fonctionnel et la tête qui suit est faible ([l), alors qu’elle est plus forte entre un mot non fonctionnel et la tête du syntagme (]f). La frontière la plus forte ([f ) est celle qui sépare deux projections fonctionnelles (deux syntagmes de différente nature). Dans le cas de la liaison obligatoire (65), seule *T [l est transgressée, alors que si la liaison est faite dans (66), les deux premières contraintes (*T [l et *T ]f ) le sont. Dans le dernier exemple (67), où les frontières syntaxiques sont les plus fortes, les trois contraintes sont transgressées en cas de liaison. La hiérarchie suivante reflète la force des frontières syntaxiques..

Comme nous l’avons mentionné plus haut, la place de surface c dans la hiérarchie détermine le style : plus surface c est dominante, plus le style est élevé, mais l’ordre défini en 68 demeure inchangé.

Les trois tableaux ci-dessous illustrent le fonctionnement des trois grammaires. Les candidats possibles sont identiques : 1a. son amant avec liaison, 1b. son amant sans liaison; 2a. naïvement exprimé avec liaison, 2b. naïvement exprimé sans liaison; 3a. vins à cuire avec liaison, 3b. vins à cuire sans liaison. Rappelons que dans chaque tableau, ☞ indique le candidat optimal, * la violation d’une contrainte et ! une violation rédhibitoire[26].

surface c est dominée par deux contraintes et la consonne de liaison peut uniquement traverser une frontière faible : c’est le cas de la liaison obligatoire.

Dans le style II, surface c n’est plus dominée que par une seule contrainte, et la liaison est faite à l’intérieur d’un syntagme. Ceci recouvre un ensemble de liaisons facultatives.

Dans le style le plus élevé, surface c domine les autres contraintes, ce qui étend le domaine d’application de la liaison.

Afin d’exclure un style sans aucune liaison tout comme un style où tout serait loisible, Oostendorp impose une limite à la variation possible : la contrainte de fidélité. surface c domine toujours *T[l et est toujours dominée par une contrainte interdisant les liaisons entre les phrases.

Cette approche soulève plus de problèmes qu’elle n’en résout. Sans trop approfondir l’analyse, on objectera la pauvreté de la différenciation stylistique et la simplification à outrance d’un cas typique de variation fort complexe (cf. Encrevé 1988). Chaque registre défini présuppose l’existence d’une hiérachie déterminée. Ici, par exemple, le style III assimile discours et lecture, mais une distinction entre les deux mènerait à la construction d’une grammaire supplémentaire. Imaginons un instant d’appliquer la même méthode à un phénomène aussi complexe que le schwa en français. Combien de grammaires faudrait-il postuler, et comment imaginer que le même locuteur alterne constamment entre toutes ces grammaires? La réalité psychologique du modèle est sans nul doute contestable, ce qui a poussé certains linguistes à ne poser qu’une seule grammaire par locuteur. À l’intérieur de ce cadre, nous considèrerons maintenant deux approches, l’une qui propose des contraintes flottantes (Reynolds 1994, Reynolds et Nagy 1994, Nagy et Reynolds 1996), l’autre qui introduit la généralisation d’un ordre partiel pour toutes les contraintes (Anttila 1997, Anttila et Cho 1997).

4.2.2.2 Contraintes flottantes

Dans ce modèle, chaque langue est définie par une hiérarchie stricte des contraintes universelles, mais certaines contraintes sont autorisées à flotter par rapport à d’autres dont le rang est fixe. Une contrainte flottante n’est soumise à aucune restriction particulière, c’est-à-dire que toute contrainte peut flotter par rapport à un bloc de contraintes. Nous avons vu plus haut que la variation synchronique était souvent l’indication d’un changement en cours, et le modèle indique la direction du changement à l’aide d’une flèche directionnelle qui précise si la contrainte flottante a tendance à s’élever ou à s’abaisser dans la hiérarchie. Les valeurs quantitatives n’ont pas été oubliées, et les candidats vainqueurs dans le plus grand nombre de tableaux sont présumés être les plus fréquents. Pour illustrer le modèle, nous reprendrons l’analyse de la liaison et les contraintes proposées par Oostendorp. Alors que (69)-(72) représentaient trois hiérarchies distinctes, (73) n’en propose qu’une seule.

Selon le schéma, la contrainte flottante est surface c, dont l’importance aurait tendance à diminuer. La flèche pointée à droite signale que le rang de la contrainte descend dans la hiérarchie et qu’une violation a moins de chances d’entraîner l’exclusion d’un candidat, ce qui implique un changement linguistique vers une réduction du nombre de liaisons. surface c flotte par rapport aux contraintes sur la transgression des bornes de la projection fonctionnelle dont le rang respectif reste inchangé, mais pas par rapport à *T [l. En allant de gauche à droite, les ordres suivants sont alors prédits, le dernier étant celui qui devrait s’imposer dans un avenir plus ou moins lointain.

Ces trois ordres distincts permettent de postuler trois tableaux qui sont strictement identiques à ceux proposés par Oostendorp, et les candidats qui l’emportent dans le plus grand nombre de tableaux sont les plus fréquents. Les tableaux sont repris ci-dessous.

Au niveau des résultats, cette analyse ne se distingue pas de la précédente puisque les mêmes tableaux sont dérivés. Les deux analyses divergent cependant au niveau des implications théoriques. Le modèle avec contraintes flottantes ne propose qu’une seule grammaire par locuteur et fait de meilleures prédictions pour la réalisation des variantes. Le modèle qui postule plusieurs grammaires pour chaque locuteur devra préciser ultérieurement les fréquences des réalisations et comment le locuteur effectue son choix, alors qu’une analyse avec contraintes flottantes incorpore les prédictions statistiques. Il se peut néanmoins que le modèle demande à être révisé pour obtenir des résultats plus fiables (Reynolds et Nagy 1994). Dans notre exemple sur la liaison, intuitivement, le style I, où seules sont réalisées les liaisons dites obligatoires, est le plus fréquent, ce qui devrait se refléter dans les statistiques. La forme son amant avec liaison est prédite dans les trois tableaux et son occurrence est en effet de 100 %. La forme vins à cuire avec liaison n’est prédite que par un seul tableau, et cela semble aussi intuitivement correct. La forme naïvement exprimé avec liaison est par contre prédite par deux tableaux, soit 63 % des occurrences, ce qui ne semble pas correspondre à la réalité. Toutefois, il n’est absolument pas exclu que l’incorporation de facteurs autres que syntaxiques puisse affiner l’analyse de façon à ce que les formes du style I soient prédites pour la grande majorité des cas. Nous envisagerons maintenant un dernier modèle, celui d’Anttila 1997, qui semble a priori plus robuste.

4.2.2.3 Ordre partiel généralisé

Cette approche est essentiellement développée par Anttila 1997, qui rappelle dans un premier temps que la relation entre les contraintes dans la TO est caractérisée par les propriétés suivantes qui définissent un ordre total (Anttila et Cho 1997).

Anttila ne met en cause que la dernière propriété de cette relation et, en la rendant inopérative, il définit un ordre partiel. La variation dans un ordre total se rencontre uniquement dans le cas où deux candidats respectent et transgressent les mêmes contraintes. Par contre, une grammaire partiellement ordonnée engendre plusieurs hiérarchies, plusieurs tableaux. On prédit ainsi l’existence de candidats égaux, et les contraintes dont le rang est inférieur dans la hiérarchie ne peuvent influer sur le résultat.

Soit une grammaire avec trois contraintes A, B et C non ordonnées, un candidat 1 qui viole les contraintes A et B, et un candidat 2 qui viole la contrainte C. À partir de trois contraintes, six ordres différents sont dégagés et un candidat sort gagnant de chaque ordre.

Si un candidat est vainqueur dans n tableaux et que t est le nombre total de tableaux, la probabilité d’occurrence du candidat est n/t. Le candidat 2 gagne dans les (4/6) 2/3 des tableaux. Un candidat est prédit par une grammaire si et seulement s’il est vainqueur dans un des tableaux.

Le modèle fait aussi certaines hypothèses pour l’acquisition du langage. Anttila prétend que lors de son apprentissage langagier, l’enfant acquiert petit à petit la hiérarchie des contraintes et que sa grammaire devient ainsi de plus en plus complexe. Pour lui, la variation inhérente fait partie intégrante de la grammaire du locuteur, et son élimination signifierait une complication de la grammaire qui exigerait d’ordonner des contraintes dont le rang n’est pas à présent fixé. On expliquerait ainsi la variation stable, variation qui se maintient au fil des âges. Son travail porte sur la variation observée dans le génitif pluriel en finnois, les prédictions sont testées et vérifiées sur un corpus de 1 300 000 mots. Nous illustrerons le modèle à l’aide de la liaison déjà étudiée plus haut et aussi à l’aide de la simplification des groupes consonantiques.

Nous reprenons les mêmes contraintes que celles données plus haut et nous posons un bloc de trois contraintes non ordonnées indiquées entre crochets [ ], ce qui nous donne six possibilités développées en (79).

Comme nous l’avons indiqué, les ordres a), c), d) correspondent respectivement aux styles III, II, I, et ces ordres sont déjà prédits dans les analyses exposées plus haut, aussi bien dans le cadre de grammaires multiples (Oostendorp 1997) que par un modèle avec contraintes flottantes (Reynolds 1994). Une grammaire partiellement ordonnée engendre trois nouveaux tableaux (b, e, f) qui correspondent respectivement aux styles III, I, I.

L’ordre partiel fait les prédictions suivantes, prédictions satisfaisantes surtout au niveau du style I.

Il ne fait aucun doute que sur les mêmes données, ce modèle l’emporte sur les deux précédents. Étant donné les résultats impressionnants obtenus par Anttila 1997 sur le finnois, on serait tenté de conclure que cette approche allie la fiabilité des prédictions à la notion de variation incorporée dans le système. Remarquons cependant que, d’un point de vue purement formel, il ne se distingue guère du modèle à contraintes flottantes et ne postule lui aussi qu’une grammaire par locuteur. Morris 1998, qui adopte le modèle à contraintes flottantes, compare brièvement les deux modèles, mais conclut que les données dont il dispose sur la variation en espagnol ne lui permettent pas de trancher en faveur de l’un ou de l’autre. Il semble donc que seule une comparaison des prédictions quantitatives qu’ils font sur de très grands corpus pourra les départager. C’est avec ce genre d’exemple que le retour à l’empirie que nous prônons dans notre projet «Phonologie du Français Contemporain (PFC) : Usages, Variétés et Structure» (Durand, Laks et Lyche 2002) prend tout son sens[27].

La route a été longue et fructueuse depuis SPE, et le locuteur idéal tant décrié dans la documentation n’est plus l’objet d’étude privilégié de tous les générativistes. La TO sait marier fort élégamment les grands principes de la grammaire générative et les exigences sur les données. Sur la base de contraintes universelles, elle offre un modèle théorique robuste qui rend compte de façon adéquate de la variation observée, que celle-ci soit inter- ou intradialectale, et qui va plus loin que la simple quantification. Il est vrai que d’autres méthodes offrent des solutions interlangue et interdialectale, et nous avons vu que la TCSR, par exemple, dans un cadre de principes et de paramètres, permettait elle aussi de traiter des faits linguistiques complexes à la fois d’un point de vue interne et externe. Nous pensons néanmoins que la TO est une des rares théories à aborder la variation dans le cadre d’une théorie linguistique globale, tout en essayant de faire des prédictions, ce qui, évidemment, rend la théorie vérifiable.

5. Conclusion

En adoptant une démarche quasi-historique, nous avons essayé de présenter quelques-unes des idées centrales de la phonologie moderne sans pouvoir donner à tous les modèles la place qu’ils méritent[28]. Pour ne citer qu’un seul exemple, nous aurions pu nous attarder sur l’articulation phonologie-phonétique, domaine pour lequel la théorie de l’optimalité a fait des propositions intéressantes. Cet interface (à supposer que ce soit le terme correct) reste un point crucial qui continue de diviser phonologues et phonéticiens, et certains chercheurs comme les tenants de la Phonologie articulatoire (Browman et Goldstein 1992) ont tenté de mettre en avant une approche novatrice, à la fois plus dynamique et plus proche des réalisations physiques. Plus généralement, la phonologie dite de laboratoire a tenté avec plus ou moins de succès (voir Durand et Laks 2002) de concilier expérimentation phonétique et théorisation phonologique. Non seulement nous avons fait preuve d’une certaine partialité dans le choix des modèles, mais les quelques modèles que nous avons présentés ne sont illustrés que bien trop succinctement et le plus souvent à l’aide de phénomènes segmentaux. Domaines prosodiques (Hayes 1989, Nespor et Vogel 1986), accentuation (Hammond 1984, Halle et Vergnaud 1987, Hayes 1995, Di Cristo 1999), tons (Goldsmith 1976, Pulleyblank 1986, Gomez-Imbert 1997a,b, Kaji 2001), intonation (Hirst et Di Cristo 1999, Ladd 1996, Morel et Danon-Boileau 1998, Pierrehumbert 1980), interface phonologie-syntaxe (Inkelas et Zec 1990, Kaisse 1985, Selkirk 1984, 1986), représentent quelques-uns des domaines que nous avons délaissés.

Cela dit, nous avons voulu problématiser l’évolution de la pensée, l’évolution des concepts à partir de SPE et plus précisément dans la période écoulée depuis 1975. S’il est vrai que SPE marque le grand tournant de la phonologie dans la deuxième partie du vingtième siècle, que reste-t-il du modèle aujourd’hui? Si la période pré-SPE s’articule autour du phonème, la période post-SPE a été beaucoup plus turbulente. Le cadre dérivationnel de SPE a été supplanté par un cadre représentationnel puis avec des modèles comme la TCSR et la TO par des théories de contraintes. Tous ces bouleversements théoriques ont su porter leurs fruits, ils ont permis à chaque étape de progresser vers une meilleure compréhension des mécanismes qui régissent la matière brute. En effet, une hypothèse qui nous semble définitoire de la phonologie moderne est qu’on ne peut décrire les systèmes phoniques en termes seulement mécaniques, en se contentant d’explorer les contraintes articulatoires, acoustiques ou auditives qui pèsent sur la production et la perception des énoncés. Les langues naturelles ne permettent l’expression du sens qu’en coulant ce dernier dans divers moules plus ou moins rigides, plus ou moins déformables mais néanmoins contraignants. Ces moules contraignants, même s’ils ne se limitent pas à ces aspects, sont profondément liés aux structures lexicales, syntaxiques, sémantiques et pragmatiques des langues du monde. Ce lien différencie la phonologie d’une approche phonétique qui se fonderait uniquement sur la substance sonore.