Article body

1. Introduction

Il y a autant de types de dialogues de films qu’il y a de genres de films ou de variétés de langues, mais ils ont en commun, pour la plupart, de représenter, comme les dialogues de romans, des formes stylisées, « conventionnalisées » d’interactions verbales, modulées, entre autres, par les contraintes du mode – contraintes de temps par exemple, mais celles aussi régissant pour les acteurs la production et la réception des messages, et pour l’auditoire leur réception sans participation –, qui affectent de façon significative la forme et les caractéristiques des messages, et les démarquent de celles de l’expression spontanée en temps réel. En ce sens, et comme les dialogues de romans, les dialogues de films ne sont pas « de l’oral », ils créent l’illusion de l’oral. Ils ont, à ces fins, latitude d’exploiter la multimodalité – au sens, appliqué au texte seul, où l’entend Fowler (2000) et de fournir à l’auditoire les indices qui, toujours selon Fowler, lui permettront d’activer un modèle mental correspondant à un mode ou registre approprié : l’expérience de l’oralité se fait dans l’esprit. C’est sans doute ce qui explique qu’ils puissent être perçus comme « naturels », un qualificatif moins couramment associé aux sous-titres, dont on note souvent, dans les commentaires sur la traduction, la perte « d’oralité » par rapport aux dialogues projetés oralement. Compte tenu des contraintes propres qui s’imposent au sous-titrage, il n’est pas surprenant que les sous-titres reflètent des adaptations par rapport au texte source, ne serait-ce que par la transposition à l’écrit. Mais si, comme l’avance Fowler, l’expérience de l’oralité ne relève en fait pas uniquement de la projection par le canal oral, les -contraintes propres au sous-titrage en limitent-elles la capacité à promouvoir cette expérience ? C’est à ces questions que s’intéressera cet article. Il s’appuiera sur la comparaison de sous-titres du film de Beineix 37°2 le matin (1986) et des dialogues correspondant du film et du roman de Djian (1985) dont le film est adapté, et sur la théorie du mode de Roger Fowler (1991, 2000). Quelques rappels relatifs au sous-titrage, suivis d’un résumé des principes de la théorie du mode et de leur application aux dialogues du film, serviront de préambule à la discussion des sous-titres. L’analyse, guidée par les résultats d’une enquête sur les facteurs activant la perception de l’oralité, suggérera que, paradoxalement, certains aspects du sous-titrage renforcent le potentiel du texte source à produire l’expérience de l’oral.

2. Aspects du sous-titrage et oralité

Il n’est pas rare que les articles consacrés au sous-titrage de dialogues de films ne fassent référence à tout ce qui fait défaut dans les sous-titres. De même, lorsqu’on y parle d’oralité, c’est souvent en termes de perte :

Most subtitles [in Portuguese] either do not present features of the oral register or reduce them to a hardly perceptible minimum (la plupart des sous-titres [en Portugais] soit ne présentent pas de traits du registre oral, soit les réduisent à un minimum à peine perceptible).

Assis Rosa 2001 : 215

Par leur statut de texte écrit, les sous-titres présentent un changement de mode de communication vis-à-vis du dialogue oral et, dans la mesure du possible, doivent donc chercher à compenser la perte de l’oralité du dialogue original.

Card 1998 : 3

De fait, le passage des dialogues aux sous-titres s’accompagne de changements fondamentaux, comme le rappelle cette deuxième remarque et le souligne également Assis Rossa. Leur sous-titrage est une forme de traduction intersémiotique transférant à l’écrit un texte source relevant de la communication en face à face, qui fait donc intervenir plusieurs canaux et plusieurs codes, et intègre verbal et non-verbal. Il se prête ainsi à différents types de transpositions :

  • d’un médium à un autre, de la parole et du gestuel (visible ou audible) à l’écrit ;

  • d’un canal à un autre, du vocal-auditif au visuel ;

  • d’un type de signes à un autre, du phonique au graphique ;

  • d’un code à un autre, du verbal et non-verbal oral au verbal écrit.

Assis Rosa 2001 : 214

Il est en outre soumis à des contraintes pratiques déterminantes :

  • d’espace : les sous-titres ne peuvent en général occuper que deux lignes maximum, avec un nombre de caractères qui varie suivant les pays, mais qui est toujours inférieur à 40, pour rendre compte d’un volume de parole qui peut être bien supérieur à cela ;

  • de temps : les sous-titres n’apparaissent sur l’écran que pour un laps de temps très limité (en général à peu près trois secondes par ligne), calculé en fonction de la vitesse de lecture de spectateurs soumis à des signaux multiples (150 à 180 mots par minute en moyenne, selon Luyken et al., 1991), d’où l’importance également de leur lisibilité ;

  • de synchronisation images/sous-titres, dont l’importance est par exemple mise en relief dans les situations humoristiques où le comique dépend étroitement du rapport expression linguistique/éléments visuels.

de Linde et Kay 1999 : 5-7

En conséquence, assurer l’« équivalence », principe maître traditionnel de la traduction, pose toute une série de défis d’ordre différent, relevant, dans les limites imposées par ces contraintes, de la transposition des registres (accents, dialectes, idiosyncrasies linguistiques, etc.) d’un point de vue socioculturel par exemple, de celle d’éléments phonostylistiques révélant l’attitude et l’affectivité des personnages ([changements de] débit, hauteur de voix, intonation, prosodie, etc.), de la prise en compte d’éléments non verbaux dans leur rapport avec le texte, notamment lorsqu’ils lui servent de contrepoint, comme dans le cas de l’ironie, ou de connotations et divers éléments culturels, le tout dans le cadre du transfert intersémiotique oral/écrit qui nous intéresse ici (voir Gambier [2001 et 2003] pour un tour d’horizon plus général des questions relatives à la traduction audiovisuelle).

Compte tenu de tous ces facteurs, il n’est guère surprenant que les sous-titres ne puissent émuler totalement les dialogues de départ. En ce sens, la question qui se pose n’est pas tant celle de ce qu’ils ne peuvent pas faire, que celle de ce qu’ils peuvent faire au vu des spécificités de leur médium, ici du point de vue de l’oralisation.

Deux autres remarques s’imposent par ailleurs à cet égard :

  • la perte d’« oralité », pour les dialogues de films, se définit en général par rapport à des échanges verbaux dont l’oralité n’est pas mise en question ;

  • ce qu’on entend par « oralité » semble souvent associé essentiellement à des facteurs dépendant de la projection par le canal oral, et relevant du paralinguistique dans ce qu’il révèle de l’affectivité ou de l’attitude des personnages (voir plus haut), plutôt que d’aspects linguistiques et structurels conditionnés par les conditions de production et de réception des énoncés.

C’est pourquoi la discussion s’appliquera dans un premier temps aux dialogues eux-mêmes par rapport à la langue orale spontanée en temps réel, considérée par le biais de la théorie du mode de Fowler présentée en préambule. S’il s’agit pour eux de produire, comme on le verra, une « illusion » d’oral, quel rapport y a-t-il entre cette illusion d’oral et celle que peuvent promouvoir les sous-titres ?

3. La théorie du mode

L’interprétation des sous-titres de dialogues de films est multimodale[1]. Outre le texte des productions verbales des protagonistes, elle fait intervenir leur voix et comportement facial et gestuel, et tous les autres éléments sonores et visuels du médium. Ce qui nous intéresse ici, c’est en fait une multimodalité plus localisée, relative au texte lui-même, celle en particulier qui permet à un texte écrit, comme le texte des sous-titres de film, ou hybride, comme celui des dialogues de film, d’être encodé et interprété comme un texte authentiquement oral. C’est à cette multimodalité assujettie au texte que s’applique ce que Fowler appelle « the theory of mode », la théorie du mode, ébauchée dans son ouvrage relatif au discours dans la presse (Fowler 1991), et qu’il applique plus tard au cas particulier du texte publicitaire écrit, à partir de l’observation de base que l’illusion d’oralité est un caractère distinctif de certains textes de ce type (Fowler 2000). La théorie, reprise ici comme outil d’analyse, se fonde sur trois éléments :

  • elle prend pour principe de considérer l’oral et l’écrit comme des modes différents (puisque le canal oral et le canal visuel sont des canaux physiquement et phénoménalement très discrets[2]), et rejette en ce sens le concept de continuum oral/écrit ;

  • elle préconise de traiter le mélange des modes par le biais des concepts de multimodalité et d’intertextualité, et également d’hétéroglossie (Bakhtin 1973, 1981) ;

  • elle intègre une dimension cognitive : ne sont pas considérées uniquement les caractéristiques objectives des textes, mais l’interaction de ces caractéristiques objectives et de ce que perçoivent lecteurs et auditeurs dans les activités de lecture et d’écoute. (Fowler 2000 : 30-1)

Par multimodalité, Fowler n’entend pas la juxtaposition de messages produits par différents canaux (voix synthétisée des ordinateurs + message sur écran par exemple), mais un concept à qui il revient selon lui d’être plus intéressant que cela. Il propose, d’une part, que la multimodalité soit considérée non pas en termes de canaux de production, mais en termes de codes, et, d’autre part, qu’elle suppose que les codes multiples qui entrent en jeu le fassent de manière structurée et fonctionnelle, et constitue ainsi un acte de communication intégré, et non pas simplement multiple. Il s’inspire en cela de Barthes et de sa notion de « texte pluriel » (Barthes 1984 : 75) ou simplement de texte comme tissu de citations, de références, d’échos (i.e. de « citations sans guillemets »), donc issu de nombreux codes (1984 : 76).

L’application de sa théorie à des textes publicitaires écrits (comme d’ailleurs aux articles de presse) invite Fowler à proposer que ceux-ci puissent être multimodaux dans le sens où l’oral peut se manifester dans l’écrit et l’écrit avoir une présence dans l’oral. Autrement dit, il s’agit de multimodalité au sein même d’un texte, et non pas de deux modes séparés occupant le même espace « multicanal », comme le font par exemple les dialogues de films et leurs sous-titres. Cependant, l’application de cette théorie aux sous-titres eux-même, c’est-à-dire à leur texte seul, semble, compte tenu de ce que l’on attend des sous-titres de dialogues, un mode écrit visant à « reproduire » l’oral, un outil d’analyse approprié.

Comme le rappelle Fowler, la co-présence oral/écrit au sein même d’un texte n’est à proprement parler pas possible, puisque les modes utilisent des canaux différent. Pourtant tout le monde sait reconnaître l’oral dans l’écrit, et l’écrit dans l’oral. La solution de Fowler à ce problème, qui nous amène à la dimension cognitive de sa théorie, est de théoriser l’oral et l’écrit non pas en tant que types de textes ou de structures mais en tant que types ou catégories d’expériences. La compétence communicative (au sens où l’entend Hymes [1972]) intègre pour tous les individus un sens des modes et registres de la communication réelle, ne serait-ce que de façon passive, activé dans les textes par des indices ou des déclics (mots, expressions, détails syntactiques ou morphologiques, par exemple). Il suffit que le lecteur ou l’auditeur ait suffisamment d’indices, dont Fowler fournit un inventaire d’exemples pour l’anglais, langue cible ici, mais qui valent aussi pour le français (voir en Table 1 ; voir aussi Fowler [1991 : 62-65]), pour que soit activé le modèle mental du mode ou registre approprié. Ainsi un texte écrit ne contenant que quelques indices d’oralité pourra- t-il être perçu suivant le modèle oral. L’expérience de l’oralité, nous dit Fowler, se fait dans l’esprit (Fowler 2000 : 32).

Comment donc ces observations s’appliquent-elles aux sous-titres de dialogues de films, textes écrits auxquels il revient cependant de produire le sens de l’oralité ? La question s’applique également, bien que de manière différente, aux dialogues de films eux-mêmes, textes projetés, eux, par le biais du canal oral mais à l’origine écrits, qui seront considérés, dans un premier temps, dans leur rapport avec l’oral spontané, en toile de fond à la discussion des sous-titres. Les analyses s’appliqueront à un exemple du début du film de Beineix 37°2 le matin, avec quelques références au passage correspondant du roman de Djian dont le film est tiré (voir la transcription du dialogue et l’extrait du roman en Table 3).

Le passage en question fait intervenir Zorg, l’un des personnages principaux du film, qui travaille à ce moment-là à l’entretien de maisons de vacance sur une plage du sud de la France, et le propriétaire de ces résidences qui le surprend au lit tard le matin avec Betty, autre personnage principal qui vient d’entrer dans la vie de Zorg, et dont le rapport avec lui est le thème principal de film. Le propriétaire tire avantage de la situation pour exercer un chantage sur Zorg et lui imposer des tâches supplémentaires sans rémunération, condition à laquelle il acceptera de fermer les yeux sur la présence de Betty. L’extrait de dialogue considéré correspond à la mise en place du chantage, ponctuée dans le film par la préparation d’un café par le propriétaire pendant que Zorg s’habille, dans la même pièce. Les sous-titres qui seront analysés principalement sont les sous-titres de la version abrégée du film diffusée sur bande vidéo, avec quelques références aux sous-titres de la version intégrale diffusée sur DVD (voir en Table 4).

4. Dialogues de films et oralité

Dans la plupart des commentaires relatifs à la perte d’oralité dans les sous-titres, l’oralité du dialogue original, par rapport à laquelle sont définies l’oralité ou l’absence d’oralité des sous-titres, ne semble pas mise en question. Son rapport avec l’oralité manifeste dans l’expression spontanée ne va pourtant pas de soi.

Les dialogues de films sont projetés oralement, et, de ce fait, automatiquement marqués d’oralité, mais en général à partir d’un support écrit. Ils sont appris, répétés, et même s’ils intègrent une part d’improvisation, c’est dans le cadre d’une interaction dont la direction dramatique et les éléments topicaux principaux sont prédéterminés. Ils sont donc produits dans des conditions particulières, dont l’incidence sur leur « oralité », tant du point de vue de l’encodage que du décodage, mérite d’être rappelée :

  • Ils ne soumettent les acteurs/locuteurs à aucune des contraintes caractéristiques de l’oral spontané résultant de la construction, co-construction et négociation en temps réel des messages, et donc aux pressions cognitives associées à ces contraintes.

  • Ils sont par ailleurs produits pour un auditoire qui, s’il est appelé à réagir à des signaux multiples, n’est cependant engagé que réceptivement, sans donc, là encore, être appelé à s’investir directement dans la construction et la co-construction des messages, et dont il s’agit de maintenir l’attention.

L’impact sur la forme des messages est flagrant. Il suffit, comme on le fait toujours pour le souligner, de placer côte à côte un exemple de transcription d’expression spontanée en temps réel (Table 2) et un exemple de dialogue de film, ici 37°2 le matin (Table 3), pour en mettre en relief les contrastes. Le dialogue de film est pour une grande part épuré de tous ces traits de la langue parlée qui, dans l’expression spontanée, révèlent l’activité cognitive des locuteurs soumis aux pressions de la production sur le vif ; ce que Dechert qualifie de « task stress » (1984 : 224), et dont il utilise d’ailleurs les manifestations, dans un contexte psycholinguistique, comme une fenêtre sur les activités mentales des locuteurs : pauses remplies et non remplies, allongements de syllabe, faux départs, ellipses, élisions, répétitions, reprises, chevauchements, interruptions. À ces traits s’en ajoutent d’autres d’ordre formel : relative simplicité lexicale et recours aux éléments passe-partout ; relative simplicité syntaxique et recours à la parataxe, même si l’hypotaxe est loin d’être rare à l’oral (voir sur ce point Blanche-Benveniste [1997] ; également Halliday [1987] pour l’anglais) ; cohésion et cohérence plus limitées, ou établies de façon différente ; moindre densité transactionnelle, etc., le tout assujetti à une organisation distincte de l’information (Blanche-Benveniste [1997], Halliday [1985, 1987]).

Il ne s’agit pas ici de faire un inventaire exhaustif des traits de l’oral spontané en temps réel, mais d’être en mesure de rappeler que la plupart d’entre eux ne se justifient vraiment dans les dialogues de films, du moins d’un point de vue de vue cognitif, puisqu’ils peuvent avoir d’autres fonctions (expressives, par exemple), ni pour les acteurs/locuteurs, ni pour l’auditoire. Il n’ont pas de réelle raison d’être dans des messages déjà construits, revus et corrigés, que les acteurs qui les projettent à l’oral connaissent bien et qu’ils n’ont donc guère de raison de produire avec des hésitations, par exemple autrement qu’à des fins expressives, ou à reprendre, revoir ou nuancer, et dans des échanges dans lesquels la structure interactionnelle est prédéterminée, ce qui rend ces traits également redondants dans leurs fonctions interactionnelles (recours aux pauses remplies, allongements de syllabe pour conserver la parole, par exemple, ou la passer). Ils peuvent de même être redondants dans certaines des fonctions syntactiques qu’ils peuvent remplir par ailleurs (recours aux pauses remplies, allongements de syllabe, en rapport souvent avec des changements de vitesse de parole et de hauteur de voix pour souligner le statut de segments de messages, incidentes ou subordination enchassée, par exemple), là où les éléments textuels de cohésion sont explicites. Aides au décodage comme à l’encodage, ces marqueurs d’oralité n’ont pas plus de raison d’être pour l’auditoire, pour qui l’effort cognitif est également moindre du fait du caractère « épuré »/planifié de messages en conséquence plus linéaires dans leur construction, cohérents et cohésifs, comme le suggère la reconstruction orale plus aisée à partir des transcriptions du dialogue de 37°2 le matin, que celle de l’exemple d’expression spontanée, et puisqu’il n’est pas appelé à se projeter dans les échanges pour participer.

Si oralité il y a dans les dialogues de 37°2 le matin, exemple de dialogues qualifiés de très naturels, c’est, à en juger par la transcription qui les apparente plus à l’écrit qu’à l’oral, une oralité au moins autant perçue qu’effective, une expérience de l’esprit, dans le sens où l’entend Fowler, activée par différents facteurs.

  1. Des facteurs liés à leur production par le canal oral, qui leur confère automatiquement des marques de toute évidence très significatives, mais également relatives, d’oralité :

    • débit, intonation, rythme, hauteur de voix – marques de l’affectivité des locuteurs, mais dont les fonctions expressives dans les dialogues prennent en fait le pas sur les fonctions évoquées plus haut, et qui, en ce sens, n’agissent donc bien que comme des indices d’oralité, puisqu’ils n’en exhibent pas toutes les fonctions ;

    • quelques pauses remplies et non remplies, allongement de syllables, mais très peu, et qui attirent les mêmes remarques, puisque leur fonction est essentiellement et très fortement expressive : les pauses (vides) servent ainsi à renforcer le caractère menaçant du discours du propriétaire et n’ont rien à voir avec un effort de production (voir ll. 2, 9, 10, 12, 13, 15, 28 en Table 3, par exemple, et discussion dans la section suivante) ;

    • élisions phonologiques, liaisons, élisions de particules négatives, avec là encore des contrastes qui mettent en relief l’utilisation de ces traits à des fins expressives (maintien / élision de la particule négative ne par exemple (l. 11 vs l.12 par exemple, et discussion dans la section suivante).

  2. Des facteurs liés à leur structure interactionnelle, à leur organisation séquentielle en séries de tours de parole suivant les principes d’alternance dialogique des locuteurs, et en paires adjacentes (question/réponse par exemple) ;

  3. Des facteurs manifestes dans la forme et les traits des messages, et les concessions qu’ils font à celle de l’oral, mais également mis à profit à des fins expressives, qui se retrouvent dans l’inventaire de Fowler (Table 1) : interpellations phatiques, forme orale des questions, registre familier ou nature vague d’éléments lexicaux ; syntaxe relativement simple dont le contraste avec le dialogue du roman souligne le passage à la parataxe (cf. par exemple ll. 13-21 de l’extrait du roman vs ll. 7-14 en Table 3) ; densité transactionnelle plus grande par rapport à l’oral spontané.

Compte tenu des contraintes de temps, économie et efficacité sont des priorités pour les dialogues de films, plus encore que pour les dialogues de romans, comme le confirment les omissions, réductions, substitutions, etc. qui s’observent dans le passage du roman au film (voir en Table 3), et dans leur densité transactionnelle plus grande par rapport à l’oral spontané. Ils ont l’avantage par rapport au roman de pouvoir exploiter à ces fins d’autres éléments, visuels par exemple, ou encore phonostylistiques et paralinguistiques, dont l’impact est dans le roman ménagé par le support narratif (par les actes de parole comme ‘il a fait’ [l.1] ‘il m’a coupé’ [l.13], par exemple, ou le cadre descriptif [cf. ll. 4-7 ou 24-5] ; on reviendra plus loin sur l’absence de référence à la préparation du café dans le roman) (voir aussi Guillot 1999 : 122-5). Mais le code écrit est à cet égard un atout, et les concessions effectives faites à l’oral dans le texte peuvent paraître limitées. L’expérience des dialogues comme « naturels » suggère cependant que les indices d’oralité sont suffisants pour produire le déclic et activer le mode mental qui en conditionne la perception comme de la langue parlée, y compris lorsqu’ils sont reconstruits à partir de la transcription. Cette dernière remarque rappelle, s’il le fallait, que la projection d’un texte par le canal oral, elle-même stylisée comme on vient de le voir, n’est pas le seul élément à jouer un rôle dans la perception de l’oralité, ni d’ailleurs un élément suffisant (un texte projeté oralement peut être perçu comme écrit). On en retrouve également la preuve dans le dialogue du roman, lui aussi perçu comme oral, sur la base d’indices variés et complémen-taires relevant par exemple de iii) ci-dessus, mais dans l’ensemble peu nombreux. Ces observations nous ramènent à la théorie du mode de Fowler et à sa notion de multimodalité, -définie en termes de code, et non de canaux de production, donc relevant du texte lui-même, et correspondant à un acte de communication intégré et non pas tout simplement multiple. Ce point sera repris dans la discussion des sous-titres.

Même si, donc, la projection des dialogues de films par le canal oral est un facteur saillant qui les différencie de leurs sous-titres, et qui reste sans doute vital comme ressort de l’expérience de l’oralité, la mesure de celle-ci dans les sous-titres, comme d’ailleurs dans les dialogues eux-même, n’est pas fonction uniquement de cette -présence ou absence de projection, et de la nécessité de compenser l’absence de projection, comme pourraient porter à le croire certaines remarques évoquées plus haut. Il s’agit également de voir ce qui en active la perception dans le texte de ces textes à lire, transposés de textes déjà hybrides, puisque ancrés dans l’écrit, mais exploitant la multimodalité au sens où l’entend Fowler, compte tenu des contraintes propres auxquelles ils sont soumis.

5. Oralité dans les sous-titres

5.1. Aspects et ressorts

Certains attributs généraux restent décisifs pour l’activation d’un mode mental de la langue parlée dans l’interprétation des sous-titres de l’extrait. C’est ce qu’indique une enquête informelle auprès de dix personnes invitées à identifier, sans autre indice que le texte des sous-titres, ce qui leur était présenté (le terme « texte » et ses associations avec l’écrit avaient été délibérément évités), et pourquoi[3]. Les répondants invoquent deux facteurs principaux qui leur ont permis de reconnaître le texte comme un texte « oral », ce qui n’était d’ailleurs en général pas immédiat, pour des raisons, reprises plus loin, liées en partie à la multimodalité du texte (voir aussi la note 3) :

  1. dimension interpersonnelle, dont la première manifestation est relevée dans le ‘you’ d’adresse du second sous-titre ;

  2. organisation séquentielle en paires adjacentes, dont la perception est activée également au second sous-titre par le point d’interrogation, interprété en conjonction avec le ‘you’ d’adresse, puis renforcée dans les sous-titres suivants par d’autres éléments de ponctuation – point d’interrogation puis points d’exclamation ; cette perception est aussi guidée par la présentation en lignes séparées, dont presque toutes correspondent au début à un tour de parole.

Ces deux aspects sont également présentés comme déterminants lorsque le texte n’est montré qu’à partir du sous-titre 14, c’est-à-dire dans un passage où la structure question/réponse n’est manifeste qu’à partir du sous-titre 19.

Mais les répondants citent également d’autres facteurs :

  1. le caractère fragmenté, syncopé, elliptique des séquences, et l’effort de reconstruction nécessaire pour le comprendre.

Ces traits sont en général difficiles à verbaliser (‘it’s like speech’, ‘it’s like fragments, parts of sentences’, ‘it’s not connected’, ‘there are gaps’, ‘it’s bits of conversation’, ‘it’s like it’s missing something’), mais explicitement associés à la langue parlée. Ils n’ont rien à voir, eux, avec la structure en dialogue ou la compensation par différents moyens (notamment la ponctuation, à laquelle on reviendra plus loin) des éléments phonostylistiques de la projection par le canal oral (intonation en particulier), mais relèvent de la forme des messages. Même si elles jouent un rôle dans l’expérience de l’oralité, les élisions du type ‘you’re’ pour ‘you are’, ou les expressions plus typiques de l’oral comme ‘you’re’ ok’ ne sont mentionnées qu’une fois explicitement, et une fois de manière ambiguë (‘it feels like speech … because of the sort of language they use’) ;

  1. des « choses » « qu’on ne dirait pas », « qui ne vont pas avec le reste », qui donnent l’impression qu’il y a plusieurs textes différents en présence, le sous-titre 5 (Always moisten the grounds first [‘toujours humecter la mouture / toujours’ dans le dialogue]) étant l’exemple signalé à chaque fois comme le plus frappant.

Hormis les derniers (d), ces différents éléments correspondent à des facteurs identifiés pour les dialogues comme « déclics » d’oralité, notamment en ii) – structure interactionnelle. Il n’est pas surprenant que celle-ci joue, avec la dimension interpersonnelle, un rôle significatif dans le déclenchement de la perception de l’oralité du texte des sous-titres, en rapport également avec des traits relevant de i), c’est-à-dire activant par le biais de la ponctuation le sens de schémas intonatifs (questions, exclamations). C’est l’hypothèse qui avait motivé l’enquête. Ils le sont de toute évidence d’autant plus lorsque le texte est abordé dans son contexte, en rapport avec la performance sur l’écran d’acteurs engagés dans des échanges verbaux et le support résiduel de la projection orale dans la langue source. Les références, explicites et implicites, comme déclics de l’expérience d’oralité, à des traits, caractéristiques de la langue parlée, relevant de la forme des messages (caractère paratactique, elliptique, manque relatif de cohérence/cohésion) sont plus inattendues et révélatrices. Ceci s’applique également à leur rapport avec « ces choses qu’on ne dirait pas » et qui déroutent. Ces traits relèvent dans une certaine mesure des contraintes qui s’exercent dans le sous-titrage (spatiales, temporelles, de synchronisation texte/image, lisibilité). Mais l’inter-action des facteurs qui les expliquent, si on les compare au dialogue de départ (i.e. omissions, transpositions, présentation) mettent en relief l’exercice de la multimodalité, au sens où l’entend Fowler comme faisant intervenir des indices d’oralité dans un acte communicatif intégré, et les spécificités des sous-titres à cet égard. Elle souligne notamment les correspondances entre conditions de production/réception des enoncés dans la langue parlée et les contraintes qui s’appliquent aux sous-titres, et leur rapport avec la forme des messages dans les deux cas.

5.2. Multimodalité oral/écrit : spécificités des sous-titres

5.2.1. Facteurs de mise en relief

Comme le texte du dialogue de départ, dont il reste proche de ce point de vue, le texte des sous-titres présente un grand nombre d’indices d’oralité détaillés par Fowler : éléments relevant des actes locutoires, de la déictique, du lexis, mais aussi de la syntaxe : propositions et unités d’information courtes, parataxe, structure de phrase additive (voir en Table 1). La mise en relief du caractère fragmenté des messages, qui ressort de la verbalisation de l’expérience mentale des participants à l’enquête, peut s’expliquer par certaines différences par rapport au dialogue de départ observables dans les textes :a) des omissions, contribuant à la compression des messages et reflétant les contraintes du sous-titrage : de pauses remplies et marqueurs de discours, interpellations phatiques (voir exemple [1] ci-dessous), répétitions et autres éléments non essentiels d’un point de vue transactionnel (voir [2] ci-dessous) ou syntactique (comme le clivage « c’est … qui », possible en anglais, en [3] ci-dessous) (voir les Tables 4 et 5 pour un inventaire complet), qui, dans le dialogue du film, assurent continuité et fluidité, en même temps que des fonctions expressives et interactionnelles, et fonctionnent aussi comme indices d’oralité. Presque paradoxalement donc, l’absence de ces marques de la langue parlée dans les sous-titres contribue, semble-t-il, à en renforcer le sens d’oralité en accentuant d’autres propriétés, notamment leur caractère dépouillé et heurté, comme dans ces quelques exemples :

L’exemple (1) permet de noter en passant la multifonctionnalité extrême des éléments « performatifs » dans le dialogue de départ et son impact sur les choix linguistiques, ici lexicaux, souligné par le contraste avec le sous-titre, qui met cependant lui aussi en relief l’interaction intégrée des codes en présence. Le terme « jeune femme » dans le dialogue de départ est loin d’être neutre, et le questionnement implicite qu’il entraîne tient à l’interaction de différents éléments : l’interpellation phatique accompagnée d’une pause remplie avec allongement de syllabe « dites euh : », qui installe une certaine attente chargée de ce qui va suivre ; la liaison dans « c’est_à », qui donne à l’énoncé un caractère formel, introduisant l’option du jeu sur les registres, qui ponctue le chantage du propriétaire tout au long de l’extrait ; la pause remplie avec allongement de syllabe entre « cette » et « jeune femme », qui suggère une difficulté à trouver le mot juste, ou acceptable, et met en outre le terme en relief en l’isolant dans un groupe tonal séparé, accentué par la pause non remplie qui suit. Dans le sous-titre, c’est le terme ‘girl’ lui-même, par rapport à ‘young woman’, la traduction littérale de ‘jeune femme’, qui est dévalorisant, en particulier dans son association au déictique de distance ‘that’, et sa valeur est renforcée par différents éléments : la forme tendant vers l’écrit de la question (‘Is it’ vs ‘It is ’ or ‘It’s’ [forme élidée présente ailleurs, au sous-titre 4] qui contraste avec la forme sans inversion SV ‘c’est’ du dialogue) ; le caractère lapidaire du message, l’un des facteurs identifiés plus haut comme ressort de l’expérience du texte comme un texte oral ; le suspense d’avoir à attendre un nouveau sous-titre pour découvrir le motif de la question, ce qui introduit inévitablement un temps de pause et de réflexion inquisitoire malgré l’absence de ponctuation, et accentue le caractère fragmenté de l’énoncé. La vulgarité de l’expression ‘in the sack’ dans le sous-titre suivant, qui confirme le jugement de valeur que le propriétaire veut porter, contraste avec le registre de ce qui précède ; « emmêlé » dans le dialogue est moins marqué à cet égard, mais la métaphore fonctionne elle aussi comme indice d’oralité. L’équivalence énoncé du dialogue/sous-titre correspondant est donc ménagée par l’interaction d’éléments différents, mais qui révèlent dans les deux cas l’intégration fonctionnelle des codes qui entrent en jeu, conformément au principe de Fowler, et à laquelle on reviendra plus bas.

b) des transpositions, liées elles aussi aux contraintes espace/temps de lecture et lisibilité des titres :

  • passage de la coordination à la simple juxtaposition, en rapport avec l’omission d’éléments interactionaux, comme en (2) ci-dessus, qui intensifie le caractère paratactique des messages ;

  • à l’inverse, passage de la juxtaposition à la subordination ou à la coordination, et introduction d’éléments explicites de cohésion et de cohérence (‘to’ et ‘but’ en [4] ci-dessous, par exemple), stratégie typique pour accroître la lisibilité des sous-titres (de Linde et Kay 1999 : 30-1), permettant cependant de conserver des unités d’information autonomes et sans artifice :

La transposition s’exerce donc dans le sens de l’écrit, et marque ici encore la complémentarité des indices de codes différents dans l’exercice de la multimodalité.

c) la présentation – en courtes unités d’information et lignes séparées, dont le rapport avec le sens de l’oralité est pluriel :

  • là où chaque sous-titre correspond à un tour de parole, la présentation souligne la structure séquentielle, interactionnelle et temporelle du discours, a fortiori à l’écran où chaque sous-titre disparaît pour faire place à un autre, ce qui en affecte la forme pour d’autres raisons :

  • sur l’écran, chaque sous-titre apparaît seul, dans un espace et pour une période de temps limitée, sans référence possible à ce qui précède ni à ce qui suit. Il est donc tenu d’être réduit à des unités d’information non seulement courtes, puisque confinées à un nombre maximum de caractères, mais encore sémantiquement et syntactiquement autonomes dans la mesure du possible : compte tenu des limites de la mémoire à court terme, qui ne s’accommode guère que de sept mots ou unités d’information (Miller 1956), il est important que chaque sous-titre puisse dans la mesure du possible être traité indépendamment. Cerón note ainsi que chaque sous-titre est un monde en soi (‘a world of its own’), une île isolée du reste (‘an island isolated by huge gaps’) (Cerón 2001 : 174). Les sous-titres chevauchant plusieurs plans demandent un effort supplémentaire, qui affecte le temps de lecture et la lisibilité du texte. La forme qui s’impose ainsi aux sous-titres du fait des contraintes auxquelles ils sont soumis fait écho à la forme des énoncés de la langue parlée, linéaires, segmentés en unités courtes évitant l’hypotaxe par exemple, résultant de facteurs comparables, puisqu’il y a un rapport entre la forme des énoncés et les contraintes de production et réception (voir Halliday [1985] par exemple, et Fowler [1991] : 62).

L’écrit des sous-titres, assujetti à des contraintes qui rappellent celles de la langue parlée, est donc en fait astreint à une forme qui l’assimile nécessairement de plus près à la langue parlée, là où les dialogues peuvent se contenter de l’émuler, et sont ainsi soumis à une intégration de facto écrit/oral pour ce qui est de la forme : que les traducteurs soient ou non guidés par le souci de préserver l’oralité dans les sous-titres, les contraintes du sous-titrage leur imposent dans une certaine mesure de le faire.

5.2.2. Intégration fonctionnelle écrit/oral et multimodalité

L’intégration fonctionnelle de traits du code écrit et du code oral, aspect critique de la théorie du mode de Fowler, a déjà été évoquée à plusieurs reprises en rapport avec différents aspects de la forme des sous-titres. D’autres manifestations se dégagent de l’analyse de la dernière catégorie d’éléments signalés dans l’enquête, à savoir ces « choses qu’on ne dirait pas », « qui ne vont pas avec le reste » et mettent sur une fausse piste, qui montreront en particulier comment la valeur comme indice d’oralité de certains traits, notamment la ponctuation, souvent considérée comme un pauvre substitut des éléments phonostylistiques de l’oral, est renforcée par la multimodalité du texte.

Le sous-titre cité en exemple comme déroutant dans tous les cas, et qui servira de support à l’analyse, i.e. [5] Always moisten the grounds first [‘toujours humecter la mouture / - / toujours / - /’ dans le dialogue]), l’est sans doute pour plusieurs raisons. Son caractère « écrit » n’est en fait guère saillant. C’est le verbe ‘moisten’ qui paraît marqué à cet égard et qui est d’ailleurs mentionné spécifiquement comme ressort de l’expérience de l’écrit (ce qui confirme la théorie du mode, ici dans le sens de l’écrit), y compris probablement du fait de la collocation inhabituelle, et étrange hors contexte, avec le terme ‘grounds’, qui a de nombreux sens plus courants que ‘mouture’ en anglais (terrain de sport par exemple). La forme impérative du verbe maintient cependant la dimension interpersonnelle et les autres éléments lexicaux n’ont rien, individuellement, qui puisse les assimiler à l’un ou l’autre des codes. Mais ce sous-titre a d’autres caractéristiques qui le démarquent des autres :

  • il ne peut, dans ce contexte limité, s’interpréter sans support visuel : comme le sous-titre 12 plus loin (‘see how it swells up’ [regardez comme ça gonfle]), il fait référence à la préparation du café (comme l’indique en français le terme « mouture » du dialogue), mentionnée dans les sous-titres et le dialogue un peu plus tôt. Même si la dépendance n’est totale qu’à ce point, elle sert à accentuer le sens de la différence également introduit par « moisten » comme on vient de le voir, qui, en rapport avec les éléments présentés ci-dessous, souligne la structure dramatique de la scène, et renforce en ce sens l’exercice de la multimodalité dans le texte lui-même.

  • il sort du cadre des paires adjacentes questions/réponses qui précèdent, dont il se démarque par la ponctuation (point final vs points d’interrogation et points d’exclamation pour les sous-titres 1 à 4), et marque ainsi une rupture avec l’échange ostensiblement badin et faussement anodin du début, avec lequel il n’a sémantiquement rien à faire non plus. Avec la deuxième référence à la préparation du café au sous-titre 12, il encadre une série monologique d’assertions du personnage du propriétaire servant à la mise en place du chantage, auquel le badinage apparent du début sert en fait de plateforme. Le prétendu badinage est repris ensuite, sur la défensive pour le personnage de Zorg, après le sous-titre 11 qui marque par une question le retour au dialogue (‘know what I mean ?’ [voyez c’que j’veux dire]), et le sous-titre 12 (référence à la préparation du café) qui sert d’élément de démarcation. La ponctuation se diversifie alors de nouveau, et fait intervenir points d’interrogation et points d’exclamation, absents du discours du propriétaire.

La structure dramatique du passage est ainsi soulignée par la ponctuation, dont -l’impact, dans son rapport avec l’oralité et la représentation des traits phonostylistiques du dialogue est accentué par le contraste engendré par l’interaction des éléments ci-dessus. Le jeu intégré de ces caractéristiques dans le sous-titre en question, y compris l’activation d’un code qui le démarque de celui de la langue parlée, par le biais de ‘moisten’, donne le ton du passage qui suit, menaçant, formel, et confère à cet égard à la ponctuation par le point une valeur qui suffit pratiquement à le maintenir à lui seul. Ce jeu est renforcé par des éléments déjà mentionnés, les éléments syntactiques de cohésion relevant de l’écrit (‘to’ et ‘but’ au sous titre 7) par exemple, qui contribuent à l’entretenir, et le recours aux points de suspension aux sous-titres 9 et 10 qui -l’amplifient de façon significative et auxquels on reviendra plus bas. Mais ce qui est frappant dans les sous-titres, c’est la valeur ajoutée que la multimodalité du texte lui-même confère à des éléments, comme la ponctuation, qui, bien que ressorts de l’activation du mode mental de l’oralité, sont souvent considérés comme relativement peu expressifs par rapport aux traits qu’ils sont censés représenter.

Ceci se confirme par la comparaison avec la transcription du dialogue de départ, où le texte correspondant au sous-titre 5 joue le même rôle, et où la structure dramatique est de toute évidence la même, mais où ce qui se trace dans la ponctuation dans les sous-titres est projeté par d’autres moyens : la manipulation des indices des codes oral et écrit (élision/non-élision de la particule négative « ne » [voir les énoncés correspondant aux sous-titres 7 et 9 vs 8 par exemple) qui se poursuit tout au long du monologue du propriétaire, l’exploitation des pauses non remplies, par exemple, ou le recours au subjonctif là où il aurait été concevable qu’il n’apparaisse pas à l’oral (voir [9] ‘je n’pense pas que vous puissiez . garder cette fille’ ici . [et faire convenablement votre travail]’)[4].

On pourrait également confirmer ces remarques par référence aux sous-titres du DVD, qui font une utilisation différente de la ponctuation, mais où les mêmes principes de renforcement mutuel de différents traits se retrouvent néanmoins. Ce qu’on peut y noter, ce sont des conventions standard de présentation des sous-titres (voir Cerón 2001) qui sont absentes dans la bande vidéo, à savoir le recours au tiret pour noter le début des tours de parole lorsque plusieurs tours apparaissent simultanément sur l’écran, et aux points de suspension pour signaler qu’un sous-titre chevauche plusieurs plans (voir le sous-titre 14 et les sous-titres 1 et 2, 6 et 7, 9 et 10, 17 et 18 en Table 4). Ces derniers, disponibles comme signes de ponctuation dans les sous-titres de la bande vidéo, y sont utilisés de façon stratégique comme un ressort d’oralité supplémentaire : ils servent ainsi aux sous-titres 9 et 10 à renforcer la pause non remplie déjà présente de facto du fait du passage d’un sous-titre à l’autre, avec en sus une fonction expressive dont la force se mesure à la neutralisation relative de ce signe dans les sous-titres du DVD. Ils y apparaissent sur le même plan, par leur fonction, pour lier les sous-titres 1 et 2, 6 et 7, 9 et 10, et 17 et 18 (voir en Table 4), ce qui a pour effet de les neutraliser, mais aussi de supprimer l’effet de pause qui accompagne nécessairement le passage d’un sous-titre à l’autre, et donc ainsi de limiter l’effet de fragmentation dont on a montré qu’il peut être l’un des ressorts d’oralité dans l’écrit des sous-titres. Mais ces effets de neutralisation sont relatifs, car le jeu de ces conventions de présentation, de la valeur qui est donnée, et que prennent, les signes de ponctuation dans les sous-titres du DVD en rapport avec les aspects de la multimodalité du texte discutés pour ceux de la bande vidéo produit son propre réseau de signes et de ressorts d’oralité – différent, mais non moins effectif. On pourrait encore à cet égard noter le rôle de la segmentation en lignes séparées de certains sous-titres, comme par exemple le sous-titre 2 du DVD, dont on peut observer l’impact et l’interaction avec ces autres éléments au début de l’extrait. Il y renforce l’effet de fragmentation minimisé par la présence des points de suspension de liaison avec le sous-titre 1, en rapport avec l’omission de ‘o’clock’ en 3 et la ponctuation par le point en 4 (vs point d’exclamation en 4 vidéo), qui, par le caractère tranché qu’elle confère aux messages, en affecte à la fois l’expérience de la forme et le ton :

  • Vidéo

    1. Is it because of that girl

    2. that you’re still in the sack at 10 a.m. ?

    3. 10 o’clock already ?

    4. You’re fantastic ! It’s 11 !

  • DVD

    1. Is it because of that girl…

    2. …that you’re still in the sack at 10 :00a.m. ?

    3. 10 :00 already ?

    4. Funny guy. It’s 11 :00.

6. Conclusion

Déjà limitée au texte seul sans référence aux autres systèmes sémiotiques en présence, l’analyse a également laissé de côté des aspects, relatifs entre autres aux transpositions lexicales et grammaticales mises en évidence dans l’inventaire des différences entre le dialogue de départ et ses sous-titres en Table 6, qui auraient eux aussi pu être abordés du point de vue de la multimodalité plutôt que simplement du point de vue traditionnel de l’équivalence. Ils n’auraient pu que renforcer les conclusions qui se dégagent de ce qui précède : la ‘perte’ d’oralité évoquée dans les discussions des sous-titres de dialogues de films est relative. Elle est relative dans le sens où elle se mesure à celle de textes, les dialogues de départ, dont l’oralité ne va elle-même pas de soi, du moins si on les compare à de l’oral spontané en temps réel, et qui dépend de ressorts d’oralité pour être activée. Elle est relative encore parce que les contraintes de temps, d’espace et de lisibilité qui s’exercent sur les sous-titres et rappellent des contraintes de l’oral spontané en temps réel en modulent la forme d’une manière qui, paradoxalement, peut contribuer à en renforcer les ressorts d’oralité. Elle est relative enfin parce que, comme le rappelle l’analyse du dialogue de départ par rapport à l’oral spontané, l’oralité d’un texte ne se mesure pas au degré d’intégration de traits de la langue parlée, un non-sens compte tenu du rapport entre les conditions de production et de réception des textes et leur forme et traits distinctifs. Selon la théorie du mode de Fowler, adaptée ici à l’exemple particulier du texte des sous-titres de dialogues de films, elle résulte, si l’on s’en tient au texte seul, d’une expérience cognitive, relevant d’une multimodalité définie en termes de codes, et non de canaux de production, activée par des signaux discrets, mais incorporés dans un acte de communication intégré et non pas tout simplement multiple. Suivant ces termes, ce qui ressort de l’analyse du texte des sous-titres, c’est en fait leur richesse potentielle à promouvoir l’expérience de l’oralité, avec une économie de moyens remarquable.

Cette efficacité est une arme à double tranchant. Comme le montre par exemple Remael, l’économie des sous-titres, qui accentue encore le caractère téléologique des dialogues des films à grand spectacle, peut avoir pour effet de renforcer un message ou thème central, au point d’en obscurcir d’autres totalement, les voix de dissentiment par exemple, ou de produire une structure séquentielle presque sans rapport avec le développement interactionnel des dialogues de départ (Remael 2003 : 226 ; voir aussi les remarques de de Linde et Kay sur la valeur d’éléments de type performatif apparemment superflus, comme par exemple well ou you know en anglais, ou d’ailleurs aussi les répétitions par exemple, mais qui contribuent souvent à définir la personnalité ou l’attitude des personnages [1999 : 4]). Remael remet ainsi en question Gottlieb, selon qui les redondances intersémiotiques rendent rarement souhaitable la traduction « maximale » des dialogues de films, et pour qui une légère compression peut renforcer plutôt qu’amoindrir l’efficacité des messages (a … ‘slight condensation will enhance rather than impair the effectiveness of the intended message’) (Gottlieb 1998 : 247). Mais, pour ce qui est de produire l’expérience de l’oralité en soi, le moins ne paraît pas nécessairement l’ennemi du bien.