Corps de l’article

Le récit a subi deux importantes transformations au siècle dernier. La première a été d’ordre esthétique. En littérature, du Nouveau Roman au postmodernisme américain, le récit a cessé d’être une structure opérationnelle et sous-jacente pour devenir l’enjeu d’un questionnement ontologique, l’objet d’une déconstruction. Ce passage, il faut le souligner, s’est effectué parallèlement à l’examen du récit sous le microscope structuraliste. La deuxième transformation a été d’ordre médiatique. Le récit a quitté partiellement son ancrage linguistique et discursif pour migrer vers des formes iconographiques et audiovisuelles comme la bande dessinée et le cinéma.

En ce début de millénaire, le récit connaît une autre mutation avec l’émergence des « formes interactives » – terme générique qui décrit aussi bien des oeuvres expérimentales, comme les hypertextes de fiction et les productions multimédias, que les jeux vidéo, qui sont en passe de devenir le plus grand divertissement mondial (l’industrie du jeu vidéo génère actuellement des revenus annuels de 10 milliards de dollars, ce qui la place devant le cinéma commercial). On peut poser que cette transformation est d’ordre à la fois esthétique et médiatique. L’interactivité affecte les structures fondamentales du récit et participe du passage à un nouveau support : le numérique. Pour certains, cette mutation est si profonde qu’elle représente la frontière au-delà de laquelle on ne peut plus guère parler de récit. Sans accorder tout de suite trop d’attention à cette fin annoncée du narratif, nous devons reconnaître que les liens entre narrativité et interactivité posent des problèmes à plusieurs niveaux, que nous voulons étudier ici, afin peut-être de dénouer certaines des impasses rencontrées.

Il y a, d’une part, la définition même du concept de récit. Qu’est-ce qu’un récit ? Est-ce une suite d’événements ? Une séquence de fonctions ? Un ensemble structuré ? Quelle part y tient l’action ? De trop nombreuses propositions, ces quarante dernières années, ont maintenu une subordination entre structures narratives et actions représentées – à la source peut-être de la méfiance des théoriciens des nouveaux médias et des ludologues envers la catégorie du narratif – et il convient d’offrir une définition du récit qui rende compte de ses modalités de saisie, plutôt que de ses structures régissantes.

La notion d’interactivité revêt, d’autre part, un caractère problématique : plusieurs théoriciens des nouveaux médias ont mis en doute sa validité et souligné son indétermination conceptuelle. Espen J. Aarseth a choisi d’employer le terme « ergodique », plutôt qu’« interactif », pour décrire des oeuvres qui, en s’incarnant dans un dispositif quelconque, modifient leur contenu ou leur parcours de lecture à chaque utilisation, exigeant ainsi « un effort non trivial afin d’être traversées » (Aarseth, 1997 : 1. Notre traduction : nt). Lev Manovich a préféré, quant à lui, fragmenter et subdiviser la notion afin d’aborder isolément les diverses réalités qu’elle recouvre, soulignant d’ailleurs que le « terme surexploité » d’interactivité va souvent de pair avec le syntagme inclusif de narrativité, leur union douteuse « servant à masquer le fait qu’aucun vocabulaire n’a encore été développé afin de décrire adéquatement [les] étranges nouveaux objets » (Manovich, 2001 : 228. nt) de la révolution numérique.

C’est surtout l’une dans l’autre que les notions d’interactivité et de narrativité apparaissent suspectes aux yeux de certains, pour qui l’expression « récit interactif » est un concept poreux, voire une contradiction dans les termes (Talin, 1994 ; Cameron, 1995 ; Juul, 2001 ; Aarseth, 1997 ; Manovich, 2001). À cet antagonisme conceptuel répond un conflit bien documenté, dans l’étude des jeux vidéo, entre narratologues et ludologues, les uns croyant que les jeux vidéo peuvent être analysés et interprétés en tant que textes ou récits, les autres affirmant que les jeux vidéo comportent avant tout des éléments dynamiques et interactifs, beaucoup plus fondamentaux que leurs éléments narratifs résiduels, auxquels les narratologues portent selon eux une attention démesurée par réflexe d’impérialisme théorique[1].

Nous serons soucieux ici de prendre acte de ces différents scepticismes, tout en conservant le terme d’ « interactivité » qui, s’il est effectivement vague, a le mérite d’être universellement connu et de nous éviter d’introduire un autre néologisme – l’étude des nouvelles formes textuelles électroniques n’en ayant déjà connu que trop.

Empire, pour une définition médiatique du récit minimal

La position la plus englobante et la moins polémique que l’on peut adopter face au récit est de le considérer comme une « représentation d’actions » (Gervais, 1990). On peut remettre en question, dans cette formulation, le choix du terme « action » au détriment de celui d’ « événement », que plusieurs ont inclus dans leur définition du récit (Bremond, 1966 ; Genette, 1966 ; Prince, 1987 ; Bal, 1980 ; Onega et García Landa, 1996 ; Everaert-Desmedt, 2000), mais la notion d’agentivité reste prépondérante dans toute idée de récit et rien n’empêche de considérer l’action dans son acception la plus vaste. Une telle définition incite tout de même à se demander combien d’actions, d’agents et d’enchaînements doivent minimalement être représentés avant qu’il y ait, officiellement, récit. La question devient dès lors : quand n’y a-t-il pas récit ? Pour Claude Bremond :

Tout récit consiste en un discours intégrant une succession d’événements d’intérêt humain dans l’unité d’une même action. Où il n’y a pas succession, il n’y a pas récit mais, par exemple, description (si les objets du discours sont associés par une contiguïté spatiale), déduction (s’ils s’impliquent l’un l’autre), effusion lyrique (s’ils s’évoquent par métaphore ou métonymie), etc. Où il n’y a pas intégration dans l’unité de l’action, il n’y a pas non plus récit, mais seulement chronologie, énonciation d’une succession de faits incoordonnés. Où enfin, il n’y a pas implication d’intérêt humain (où les événements rapportés ne sont ni produits par des agents ni subis par des patients anthropomorphes), il ne peut y avoir de récit, parce que c’est seulement par rapport à un projet humain que les événements prennent sens et s’organisent en une série temporelle structurée.

1981 : 68

Bien que Bremond fournisse une définition particulièrement restrictive du récit, il est remarquable que sa logique des possibles narratifs permette d’envisager un récit où il ne se passerait strictement rien. Puisque chaque moment de la triade « virtualité/actualisation (ou absence d’actualisation)/succès (ou échec) » peut en quelque sorte être la fin de la séquence (ibid. : 66), on peut imaginer une foule de récits s’arrêtant à la virtualité. Or, toute description présente une action à l’état de virtualité : en tout lieu et en tout temps, il peut, à tout moment, arriver quelque chose.

On en trouve un exemple dans le film Empire d’Andy Warhol, interminable plan fixe de l’Empire State Building tourné de nuit, en 1964, depuis le 44e étage du Time-Life Building. Si on oublie les fluctuations dans l’exposition de la lumière sur la pellicule, les variations dans cette lumière elle-même (le nombre d’étages et de bureaux allumés diminuant à mesure que la nuit avance) et quelques secondes, à la fin de la septième bobine, où l’on peut apercevoir, sur le verre de la fenêtre, le reflet des cinéastes (ces derniers ayant oublié d’éteindre la lumière après le changement de pellicule), il n’y a rien d’autre à voir, dans ce film en noir et blanc de huit heures, que la structure monolithique de l’immeuble se détachant à peine de la nuit new-yorkaise anthracite. Pourtant, il aurait pu, à tout moment, arriver quelque chose : des amoureux transis auraient pu se donner rendez-vous au dernier étage et y échanger leur premier baiser ; des soucoupes volantes auraient pu traverser le ciel et attaquer la ville ; un gorille géant aurait pu escalader le gratte-ciel en tenant dans sa main calleuse une demoiselle en détresse. Derrière son apparence statique, Empire ne cache-t-il pas un récit filmique protéiforme, tissé de toutes les choses qui n’y arrivent pas ?

On nous répliquera que, chez Bremond comme chez beaucoup d’autres, le récit implique la participation, ou du moins la présence, « d’agents ou de patients anthropomorphes » (1981 : 66) ; mais cette présence est beaucoup plus facile à isoler et à quantifier en termes linguistiques. Si l’on écrit : « En 1883, le Krakatoa fit éruption, provoquant plusieurs tsunamis et tuant près de quarante mille personnes », on fait le récit d’un événement historique dont l’agent anthropomorphe est un volcan. C’est un peu comme si l’on affirmait : « Dans la nuit du 24 juin, l’Empire State Building ne fut pas le théâtre d’une rencontre amoureuse, ni la victime d’une attaque extraterrestre, ni l’arène d’un combat opposant King Kong et l’armée américaine » ; à cette différence près que le premier énoncé décrit une série d’événements actualisés et le second, une série d’événements virtuels. L’exemple préféré des linguistes, la pluie, est encore plus parlant : la langue est incapable de faire tomber la pluie sans en faire un sujet – « la pluie tombe » –, ou lui apposer un sujet (et donc, un agent) – « il pleut ». Sous cet angle, le critère anthropomorphique de Bremond n’est pas aussi discriminant qu’on pourrait le croire. Il est cependant plus difficile à sortir de son ancrage discursif. On ne saurait en rien envisager le film Empire dans un rapport de traduction simple avec la phrase ci-dessus ; l’image ne sait pas nommer ses virtualités et les huit heures d’Empire ne montrent rien d’autre qu’un immeuble dans la nuit. Pourquoi, alors, intuitivement, nous semble-t-il légitime d’y voir une sorte de récit filmique minimal ? Probablement parce que, pour paraphraser Warhol, le temps, au moins, y passe, et que quelqu’un, pour une raison quelconque, a décidé de le filmer en train de passer, y plaçant ainsi une détermination humaine. Il est révélateur, à cet égard, que Warhol ait tourné le film à 24 images par seconde, mais l’ait fait projeter à 16 images par seconde : ainsi médiatisé, le temps, dans Empire, devient protodiégétique.

En ce sens, il semble plus important pour l’intégration d’Empire à la catégorie du récit qu’on ait décidé de le filmer qu’il y advienne ou non quelque chose. Ainsi, lorsqu’on essaie d’identifier le récit minimal à un ensemble déterminé et articulé d’actions, d’événements, de fonctions, d’actants et de successions temporelles, on fonde une hygiène plutôt qu’une théorie du récit. Le récit est représentation d’actions, mais de combien d’actions ? Effectuées par qui ? Subies par combien et de quelle manière ? Tout cela est affaire de goût. En opérant de telles sélections, on néglige de considérer un autre seuil important de la narrativité : sa médiatisation.

Ricoeur a déjà posé, dans le deuxième tome de Temps et Récit, la médiatisation comme fait fondamental en critiquant le modèle narratif de Propp : « le proto-conte construit par Propp n’est pas un conte ; comme tel, il n’est raconté par personne à personne » (1991 : 76). Pour qu’un récit soit récit, il faut au moins qu’un individu se le raconte à lui-même ; pour qu’un récit soit récit, il faut qu’une représentation d’actions soit fixée sur un support quelconque (fût-il mental) et que quelqu’un soit capable d’appréhender et de comprendre les actions représentées. Cela signifie qu’une théorie du récit, si elle implique une réflexion sur l’articulation et le déploiement temporel de l’action (comme l’ont posé tour à tour la narratologie de Bremond et la phénoménologie de Ricoeur), exige également une réflexion sur les moyens qui permettent sa compréhension et son inscription.

À l’examen d’une superstructure abstraite, la narration, nous préférons l’observation du récit en tant que structure souple, se déployant à partir, d’une part, de sa dimension endo-narrative, qui suppose la représentation de l’action et sa compréhension graduelle par un lecteur[2] , et, d’autre part, de sa dimension exo-narrative, liée quant à elle aux supports langagiers et médiatiques impliqués par la représentation de l’action et à leur manipulation par le lecteur. Cela équivaut à définir le récit comme une représentation médiatisée d’actions. Cette représentation comprend trois dimensions emboîtées : les dimensions exo-narrative, endo-narrative et narrative proprement dite.

Les formes de l’interactivité

Reprenons maintenant la question de l’interactivité. Au prix d’un usage de plus en plus éloigné de ses définitions initiales, le terme désigne, dans le discours sur les nouveaux médias, un certain type d’opérations permis par les technologies numériques. Comme le souligne Aarseth, le terme a été employé à tort et à travers au cours des dernières années :

La rhétorique industrielle a produit des concepts tels, que les journaux interactifs, les vidéos interactives, la télévision interactive et même les maisons interactives, tout cela dans le but de faire comprendre que le rôle du consommateur avait changé (ou changerait bientôt) pour le mieux.

1997 : 48. nt

Le terme recouvre en fait un phénomène si vaste qu’il est en train de devenir, avant toute chose, un champ contextuel.

L’alternative que propose Aarseth, l’« ergodisme », souffre aussi, malheureusement, d’un vice caché. En décrivant les textes ergodiques comme des formes à géométrie variable exigeant « un effort non trivial afin d’être traversées » (1997 : 1. nt), Aarseth inclut dans sa définition les nouvelles formes électroniques que sont l’hypertexte de fiction et le jeu vidéo, aussi bien que d’autres formes plus anciennes, telles que le I Ching, les Calligrammes d’Apollinaire et les diverses expérimentations de l’Oulipo. L’ergodique finit ainsi par être presque aussi vague et englobant que l’interactif et par décrire des types fort différents d’interactions entretenues avec des oeuvres très variées. Cela peut être viable si l’on place le tout sous l’égide d’une taxonomie cohérente, ce que Aarseth accomplit jusqu’à un certain point. Là où le bât blesse, c’est dans l’idée d’« effort non trivial ».

Selon Aarseth,

[...] pour que la littérature ergodique soit signifiante en tant que concept, il faut qu’il existe une littérature non ergodique, où les efforts requis par la traversée du texte sont triviaux et n’exigent aucune autre activité extranoématique de la part du lecteur que celle, par exemple, de bouger les yeux ou tourner périodiquement ou arbitrairement les pages.

1997 : 1-2. nt

L’idée de trivialité place de façon irréparable la notion d’ergodisme sous le signe d’un certain relativisme : quand une activité « extranoématique » (c’est-à-dire la manipulation du support textuel à la fois nécessaire et extérieure à la compréhension du texte[3]) cesse-t-elle d’être triviale ? Selon Aarseth, c’est à partir du moment où la manipulation modifie physiquement le texte ; ou encore, par les choix impliqués, quand elle singularise le parcours lectural. La distinction est parfaitement opératoire sur le plan méthodologique et permet de bien séparer les formes ergodiques et non ergodiques. Si, au niveau interprétatif, on ne se baigne jamais deux fois dans le même texte, il est vrai que ni les efforts interprétatifs (aussi importants soient-ils) ni les efforts manipulatoires exigés par la lecture « traditionnelle » ne modifient physiquement la « suite linguistique empirique attestée » (Rastier, 2001 : 21) qu’est le texte non ergodique.

Sur le plan théorique toutefois, le choix du « non trivial » est symptomatique d’une séparation courante, dans les études médiatiques contemporaines, entre opération technologique et opération sémiotique : l’une l’emporte mystérieusement sur l’autre. Même après avoir compris la distinction que fait Aarseth entre forme ergodique et forme non ergodique, il demeure difficile d’accepter que, sur la base de cette distinction, battre les pages comme un jeu de cartes du roman Composition no 1 de Marc Saporta ou cliquer distraitement sur les liens d’une base de données hypertextuelle représentent des efforts moins « triviaux » que de se frayer un chemin interprétatif à travers le Finnegans Wake de Joyce. Bien entendu, ce genre d’exemple est démagogique, mais il permet de contrer la dévaluation arbitraire de la praxis lecturale et de déboulonner les conceptions manichéennes de la participation médiatique. Conceptions selon lesquelles l’usager, tant qu’il n’a pas touché un bouton, cliqué sur quelque chose ou agité plus ou moins furieusement son joystick, n’a rien fait.

Si l’on replace la notion d’ergodisme à l’intérieur d’une théorie de la lecture plutôt que dans une sorte d’ontologie des formes textuelles, on constate qu’il existe finalement des activités ergodiques et non ergodiques, certains gestes manipulatoires modifiant l’identité physique du texte ou individualisant les parcours lecturaux, alors que d’autres n’y changent rien. Tout cela est fort simple, certes, mais invite à formuler quelques remarques. Premièrement, les mécaniques combinatoires que sont Composition no 1, Cent mille milliards de poèmes et tout autre générateur de textes sont en quelque sorte des dispositifs ergodiques servant à produire des textes non ergodiques : une fois qu’on a actionné le mécanisme, tout ce qui s’offre à la lecture est un texte classique nécessitant les habituelles et triviales opérations interprétatives. Ainsi, le surplus d’activité extranoématique qui rend un dispositif ergodique aux yeux d’Aarseth peut servir à saboter sa propre ergodicité. Deuxièmement, il faut reconnaître que, sur le plan lectural, les opérations ergodiques peuvent s’effectuer a contrario de la forme qu’elles utilisent : quiconque décide de lire un roman dans le désordre, de le segmenter en lexies comme le faisait Barthes dans S/Z (1970) ou de le découper dans une pratique de collage à la Burroughs est en train de modifier physiquement une forme non ergodique ou de singulariser son parcours à l’intérieur de celle-ci. Troisièmement, en acceptant l’existence d’activités ergodiques (et on voit mal au nom de quoi on la nierait), on transforme la définition du texte ergodique en tautologie : un texte ergodique est un texte qui nécessite un effort non trivial afin d’être traversé, et l’effort non trivial est celui qui suppose une activité ergodique.

Nous en arrivons à la conclusion, fort décevante il est vrai, que la substitution de l’interactif par l’ergodique ne nous est pas d’un grand secours ou, pour être exact, qu’elle est incompatible avec la position de théoriciens de la lecture pour qui l’acte de lecture n’est ni une métaphore, ni une allégorie, mais une réalité, où la manipulation, la compréhension et l’interprétation s’imbriquent et se complètent. Nous croyons donc préférable d’en revenir à l’interactivité, tout en étant conscients que cette notion, afin de devenir opérationnelle, exige quelques aménagements.

Il faut commencer par instituer des frontières raisonnables à ce concept fourre-tout. Nous pouvons être aidés en cela par le théoricien des médias, Walter Ong, qui a introduit la notion d’ « oralité seconde » afin de décrire l’oralité modulée et médiatisée par l’utilisation de l’écriture, de l’imprimerie, puis du téléphone, de la radio et de la télévision. De même, s’il doit être question d’interactivité ici, c’est d’une interactivité seconde, d’une interactivité médiatisée. Cette interactivité entretient le même genre de relation avec l’interactivité phénoménologique, qui fonde notre rapport au monde, que l’oralité seconde, chez Ong, avec l’oralité première : elle est une possibilité médiatisée et programmée de choix et d’actions, là où l’oralité seconde est conditionnée « de façon permanente par l’usage de l’écriture et de l’imprimé » (Ong, 1982 : 136. nt). Pour que l’interactivité soit seconde, il faut qu’elle soit prise en charge par un système : il faut que l’on puisse agir sur le média, et que cette action affecte soit directement le contenu du média, soit sa disposition (cette réaction du média équivalant à une réponse).

Marie-Laure Ryan a tenté de formuler une classification des types d’interactions médiatisées, articulée selon la relation entretenue par l’usager, par le biais du média, avec un monde fictionnel. Pour Ryan, l’interactivité avec le monde fictionnel peut d’abord être « interne » ou « externe » :

Dans le mode interne, l’usager se projette en tant que membre de l’univers fictionnel, soit en s’identifiant à un avatar, soit en appréhendant le monde fictionnel par une perspective subjective (à la première personne). Dans le mode externe, le lecteur se situe à l’extérieur du monde virtuel. Il peut jouer le rôle d’un dieu contrôlant le monde fictionnel ou conceptualiser son activité comme une navigation dans une base de données.

2001b. nt

Cette interactivité interne ou externe est aussi exploratoire ou ontologique :

Dans le mode exploratoire, l’usager est libre de se déplacer dans la base de données, mais cette activité ne construit pas l’histoire, pas plus qu’elle n’affecte l’intrigue ; l’usager n’a aucun effet sur la destinée du monde virtuel. Dans le mode ontologique par contre, les décisions de l’usager font bifurquer l’histoire du monde virtuel sur des sentiers différents. Ces décisions sont ontologiques au sens où elles déterminent quel monde possible et, conséquemment, quelle histoire se développeront à partir d’une situation où se présente un choix.

2001b. nt

Cette distinction permet à Ryan d’isoler quatre types d’interactivité, combinant deux à deux ces modes. L’interactivité externe/exploratoire est celle des hypertextes de fiction classiques, où le lecteur se fraye un chemin dans un dédale d’hyperliens qui n’est pas celui du monde fictionnel représenté dans le texte, mais celui de la configuration médiatique fragmentée de l’hypertexte. L’interactivité interne/exploratoire, moins souvent explorée dans la création contemporaine, permet au lecteur d’occuper un corps virtuel, sans affecter cependant « le déroulement des événements narratifs » (2001b. nt). Ryan donne, entre autres exemples, le jeu vidéo Myst (Broderbund Software, 1993) où le joueur erre dans un environnement interactif, cherche des indices et résout des énigmes afin de découvrir des événements appartenant au passé, qu’il peut comprendre mais non modifier[4].

On peut se demander à quel point le mode « exploratoire » décrit vraiment un type d’interactivité seconde. Le problème que soulève notre propre distinction entre interactivité première (ou phénoménologique) et interactivité seconde (ou médiatisée) est que, à partir du moment où la réponse du média n’affecte pas directement le contenu, la frontière entre interactivité première et seconde devient affaire de degré. Comme les médias sont des objets du monde, il est possible d’interagir avec eux sur la base d’une interactivité première, et c’est sans doute en exagérant l’importance de ces interactions premières qu’on en arrive à surinvestir le concept et à le rendre suspect aux yeux de théoriciens comme Aarseth et Manovich. À la rigueur, le fait que nous puissions faire un arrêt sur image pendant l’écoute d’un DVD, monter le volume du téléviseur ou, à la limite, être imprégnés des traces d’encre d’un journal sont autant de formes d’interactivité primaires, mais, théoriquement, peu intéressantes en définitive. Tant que nos actions n’affectent le média qu’en tant que support et que ce dernier n’y répond qu’en tant qu’objet, la pertinence de recourir au terme d’« interactivité » est ouverte au débat.

Heureusement, cette ambiguïté n’a plus cours dès que l’interaction participe du mode ontologique proposé par Ryan. Le média est non plus simplement support, mais interface et outil, servant à traduire nos actions premières en actions secondes. Dans le cas des jeux vidéo, par exemple, c’est en manipulant une croix directionnelle, des « sticks », des gâchettes et des boutons que le joueur permet à son alter ego numérique d’abattre ses ennemis, de grimper un escalier ou de décocher une passe à un ailier éloigné ; autant d’actions qui auront un impact immédiat sur le monde fictionnel mis en forme par le jeu.

La distinction entre interne et externe, dans le mode ontologique, est plus négligeable : que le joueur adopte une posture externe (jouant le rôle d’un dieu présidant aux destinées dans des jeux vidéo de simulation comme SimCity [Maxis, 1989] ou Sid Meier’s Civilization [MicroProse Software, 1991]) ou interne (y faisant évoluer un avatar), l’important est surtout que toutes les actions qu’il effectue sur ou dans le monde virtuel transforment celui-ci de façon observable.

La logique de l’épiphanie

Pour expliquer l’une des dynamiques présentes dans l’interactivité ontologique, Aarseth a introduit les notions d’aporie et d’épiphanie. L’aporie peut être vue comme une impasse dans l’ « espace événementiel » (1999 : 36. nt) du jeu vidéo, et l’épiphanie, comme sa résolution, laquelle ouvre généralement la voie à de nouveaux pans de l’espace. Aarseth donne un exemple précis d’aporie et d’épiphanie dans le jeu vidéo Doom (Id Software, 1993). Ce jeu est ce que l’on nomme un « first-person shooter » : le joueur assume l’identité de son avatar en caméra subjective (par opposition à un « third-person shooter » où l’avatar est montré et contrôlé de l’extérieur). « Shooter » dit le reste : l’enjeu est de progresser à travers divers types d’espaces en envoyant ponctuellement ad patres différents opposants avec une multitude d’armes.

Dans le cas de Doom, l’espace événementiel est une série de labyrinthes lugubres ; les opposants rassemblent une grande variété de créatures maléfiques et les armes vont de la main nue au fusil-mitrailleur. À un moment dans le jeu, le joueur doit accéder à un nouveau palier en passant par une trappe dans le plafond. Cette trappe s’ouvre sur une pièce très vaste pourvue, au fond, d’un corridor de sortie. L’endroit est malheureusement surpeuplé de petits êtres monstrueux. Ces créatures sont habituellement faciles à éliminer, mais elles n’ont jamais été nombreuses avant ce niveau. Le joueur ne peut hésiter qu’un bref instant avant que les monstres ne remarquent sa présence et passent à l’attaque. Il dispose de peu d’options. Il peut fermer la trappe et tenter de trouver une autre issue ; malheureusement, et il s’en rendra compte après avoir erré un certain temps, c’est la seule. Il peut essayer d’atteindre le couloir en contournant les créatures par la droite ; un seul essai suffira à le convaincre qu’il ne peut échapper à la confrontation. Il peut affronter les créatures, mais elles sont trop nombreuses ; au fil de ses essais, il s’apercevra qu’il est impossible de se sortir de ce pétrin par la manière forte, peu importe l’arme utilisée. C’est ce genre d’impasse qu’Aarseth nomme une aporie. Si elle n’est pas résolue, le joueur abandonnera la partie, voire le jeu.

Pourtant, la solution est relativement simple. Plusieurs bidons de matière radioactive s’empilent le long du mur de gauche, derrière les créatures. Ces bidons, comme tout joueur chevronné de Doom le sait, ont tendance à exploser lorsqu’ils sont atteints par des projectiles. Faire exploser un bidon dans cet espace entraîne une réaction en chaîne qui tue toutes les créatures et déblaie le passage pour le joueur, lui ouvrant une plus grande partie de l’espace événementiel. C’est ce qu’Aarseth nomme une épiphanie :

Dans les récits, les apories consistent habituellement en des structures informelles, en des flous sémantiques qui nuisent à l’interprétation de l’oeuvre. Dans des oeuvres ergodiques comme Doom, les apories sont des figures formelles, des barrières repérables qui doivent être surmontées par une combinaison inconnue d’actions.

Quand l’aporie est surmontée, elle est remplacée par une épiphanie : une solution soudaine, souvent inattendue, à l’impasse dans l’espace événementiel. Comparées aux épiphanies des textes narratifs, les épiphanies ergodiques ne sont pas des opérations optionnelles visant à bonifier l’expérience esthétique, mais des opérations essentielles à l’exploration de l’espace événementiel. Sans elles, le reste de l’oeuvre ne peut être réalisé.

1999 : 38. nt

On pourrait très bien contredire l’idée selon laquelle les apories et épiphanies des textes narratifs sont optionnelles et purement esthétiques ; il arrive que la résolution d’une aporie soit tout aussi essentielle à la compréhension d’un texte qu’elle l’est à la progression dans l’espace événementiel du jeu vidéo. Ce qui ne peut être débattu cependant, c’est que la distinction opérée par Aarseth entre les apories et épiphanies des textes narratifs et celles des textes ergodiques n’est basée que sur des effets de surface, sur des propriétés textuelles (où structures informelles et figures formelles sont distinguées [1999 : 38]). D’un point de vue sémiotique, ce sont des opérations rigoureusement identiques. Peu importe la forme qui l’occasionne, le rapport dialectique aporie/épiphanie décrit une seule et même chose : une crise pouvant être résolue par une inférence interprétative. Nous avons décrit ailleurs ce type d’inférences comme un coup de force, une opération qui vise à résoudre une situation d’illisibilité par « l’irruption d’une hypothèse, qui vient modifier le cours de la sémiose, qui vient en fait la relancer » (Gervais, 1999 : 106).

Ce type d’inférences, le plus souvent abductives, représente ainsi moins une rupture qu’un point de rencontre entre la lecture et le jeu. En fin de compte, le théoricien de la lecture comme le ludologue peuvent s’y retrouver, dans la mesure où, en assimilant les notions d’aporie et d’épiphanie à la notion de coup de force, nous affirmons du même geste que l’acte de lecture n’est pas une réception passive, mais un jeu, et que le jeu lui-même n’est pas une activité frénétique et décérébrée, mais une forme de lecture (Picard, 1986). Toutefois, cela ne saurait constituer une véritable trêve, car, pour paraphraser Aarseth, la ludologie ne s’oppose pas tant à l’idée que les jeux vidéo sont des textes qu’à l’idée qu’ils sont des récits (1999 : 38).

Aarseth reconnaît que des apories et des épiphanies se produisent à la lecture d’un texte narratif, mais il se fait évasif sur leur existence à l’intérieur d’une diégèse. Tout au plus mentionne-t-il qu’elles sont « les figures prénarratives de l’expérience, dont sont issus les récits » (ibid.nt). Qu’elles soient prénarratives ou protonarratives, on pourrait en débattre, mais un fait demeure : le couple « aporie-épiphanie » serait parfaitement à sa place chez Propp, Bremond et Greimas. Aporie et épiphanie sont des fonctions (énoncé d’un manque et résolution) et les récits folkloriques et mythologiques qui ont fait l’objet des premières descriptions formalistes et structuralistes sont remplis de situations aporétiques. En identifiant « les termes-clés à partir desquels on peut analyser plusieurs problèmes de l’esthétique ergodique » (ibid. : 41. nt), Aarseth formule des concepts qui seraient parfaitement à leur place dans une sémiotique du récit et qui renvoient à une dynamique observable par les théories de la lecture. En ce sens, la dialectique aporie-épiphanie nous apprend pourquoi la querelle narratologie-ludologie ne saurait être, au mieux, qu’une invention de commentateur. En se distanciant de l’analyse des éléments thématiques des jeux vidéo et de leur narrativité secondaire (parcours de jeu parfois linéaires, paratextes explicatifs, animations cinématiques, etc.), la ludologie essaye de cerner l’ « essence » des jeux vidéo, leur jouabilité. Chemin faisant, elle est en train de devenir une sorte de logique formelle de l’action et de sa modélisation, ce qui est l’exact parcours de la narratologie.

Bien sûr, les ludologues peuvent affirmer que les jeux vidéo ne constituent pas des narrations au sens propre du terme, et que les considérer sous cet angle ne sera jamais, en définitive, d’une grande utilité. Les jeux vidéo possèdent néanmoins une dimension endo-narrative et supposent la représentation de l’action et sa compréhension par le joueur qui est toujours, en ce sens, un lecteur.

Nous l’avons vu, l’interactivité seconde est une médiatisation de l’action : elle transforme les gestes effectués sur un support en actions sur sa forme ou son contenu. Cela signifie qu’un jeu vidéo est le lieu d’une double médiatisation : médiatisation de la représentation, d’une part, qui donne au jeu son caractère perceptible, et médiatisation de l’action, d’autre part, qui fournit au jeu son caractère interactif, « jouable ». C’est dans l’expérience de cette double médiatisation que se joue la différence entre les deux formes. Lire un récit, c’est comprendre l’action qui y est représentée. S’engager dans un jeu vidéo, c’est non seulement comprendre l’action représentée, mais participer à son développement. Sur le plan ontologique cependant, la frontière entre les formes demeure mince et elle unit autant qu’elle sépare : le récit est représentation médiatisée d’actions, là où le jeu vidéo est représentation d’actions médiatisées.

Représentation et simulation

Un tel constat pourrait être réduit à un rapprochement de principe, qui renverrait dos à dos récit et jeu comme des formes parallèles, mais fondamentalement différentes, de configuration et de médiatisation de l’action. C’est d’ailleurs ce que plusieurs proposent aujourd’hui, en distinguant représentation et simulation (Manovich, 2001 ; Frasca, 2003c ; Aarseth, 2004).

Dans cette distinction, le terme de « représentation » recouvre l’ensemble de la mimesis, c’est-à-dire autant la mimesis directe (le théâtre et le cinéma) que la diegesis, imitation indirecte à partir du langage (la littérature orale et écrite, etc.). La simulation, telle que l’envisagent les théoriciens des médias et les ludologues, est une nouvelle catégorie de la mimesis.

[Elle s’emploie] à modeler d’autres aspects de la réalité en dehors de son apparence visuelle – le mouvement d’objets physiques, les changements de forme se produisant au fil du temps à l’intérieur des phénomènes naturels […], les motivations, les comportements, et la compréhension de la langue et de la parole par les êtres humains.

Manovich, 2001 : 17. nt

Pour Gonzalo Frasca, simuler consiste à « modeler un système source à travers un système différent qui maintient pour quelqu’un certains des comportements du système original » (2003c : 224. nt). Si une telle pratique a été développée dans les sciences, les jeux vidéo représentent, pour Frasca, le premier média complexe de simulation pour les masses ; ils succèdent aux jouets et aux jeux de société, qui étaient des médias de simulation simples.

Sur la base de telles définitions, on instaure une séparation fondée autant sur les caractéristiques propres de ces formes que sur le rôle qu’elles attribuent à leur usager. Derrière l’opposition entre représentation et simulation, s’en cache une autre entre spectateur et participant, qui nous ramène à une sorte d’impasse : comment faire, de deux opérations inséparables de l’expérience phénoménale, des pôles opposés de l’expérience médiatique ?

Sous n’importe quel angle, la représentation et la simulation sont des provinces l’une de l’autre : on ne peut pas représenter sans simuler, et vice versa. Les représentations théâtrale et cinématographique exigent que des gens simulent des comportements, des paroles, des gestes, des objets, des événements, etc. En termes de lecture, parce que « le langage ne peut imiter parfaitement que du langage » (Genette, 1981 : 161), il ne peut exister quelque chose comme une diegesis que si le lecteur déploie, en fonction du texte lu, un « monde » où les propositions du texte peuvent être considérées comme vraies. Ce phénomène a été décrit précisément en tant que « simulation » par John Searle (1972), et, de façon connexe, en tant qu’« immersion » par Marie-Laure Ryan (2001a) et en tant que jeu de « faire semblant » par Kendall Walton (1993). Selon cet argument, la simulation est une conséquence de la représentation et non une modalité opposée. Il ne peut y avoir de simulation sans représentation, la seconde servant de seuil à la première. C’est bien ce que dit Manovich, quand il explique que les jeux vidéo sont composés à parts variables de « séquences non interactives et de séquences de jouabilité [gameplay] interactives » (2001 :210. nt). Les niveaux de complexité atteints dans la simulation peuvent dépasser, et de loin, les formes traditionnelles de la représentation, mais la simulation demeure toujours une forme représentationnelle.

Si l’on reconnaît la coexistence de la représentation et de la simulation dans toute médiatisation, on ne peut plus nier la présence d’une narrativité dans les jeux vidéo. À partir de là, les postures se valent. Ou bien on choisit de considérer la narrativité comme un phénomène englobant toutes les formes de représentation et de médiatisation de l’action (recouvrant ainsi autant la représentation que la simulation) et on accepte que les jeux vidéo sont bel et bien des récits interactifs. Ou bien on adopte une définition restrictive du récit, le limitant à la représentation stricte d’actions fixées en une séquence déterminée, et on l’oppose au jeu vidéo. Mais une telle opposition néglige une part essentielle de tout récit et de tout jeu vidéo : les modalités de leur saisie, c’est-à-dire leur ancrage dans des situations et des pratiques de lecture ou de jeu, par lesquelles ils deviennent l’occasion d’expériences.

Le meilleur des deux mondes

L’une des conséquences des derniers arguments est la définition d’un monde fictionnel, qui sert de cadre de référence à la compréhension du texte. Mais les liens que ce monde tisse avec le récit et le jeu vidéo sont-ils identiques ? Comment les distinguer ?

Marie-Laure Ryan propose, dans Narrative as Virtual Reality, d’opposer la métaphore du texte-monde (2001a : 90-93) à celle du texte-jeu (2001a : 176-199), le premier étant lisible et le second, scriptible (Barthes, 1973). Le texte-monde, c’est le texte en tant qu’il ouvre une fenêtre sur une réalité simulée, que nous désignons comme le monde du texte, rejoignant en cela le postulat énoncé par Ricoeur :

[...] ce qui est en effet à interpréter dans un texte, c’est une proposition du monde, d’un monde tel que je puisse l’habiter pour y projeter un de mes possibles les plus propres. C’est ce que j’appelle le monde du texte, le monde propre à ce texte unique.

1998 : 128

Ryan propose quatre caractéristiques pouvant décrire un tel monde : le monde est un environnement habitable, un ensemble d’objets et d’individus interreliés, une totalité « raisonnablement intelligible » pour un observateur externe et un champ d’activité pour ses membres (2001a : 91. nt). Cela équivaut à dire qu’un monde est la somme d’organisations et d’interactions qu’il permet entre ses éléments, qu’il est un ensemble de règles. En fait, pour reprendre les distinctions de Roman Jakobson, un monde est un paradigme (un répertoire d’éléments) sur lequel pèse une pression syntagmatique (un ensemble de règles). Une telle définition exige de déterminer exactement les relations qu’un lecteur ou un joueur entretient avec ce monde et ses règles. Sont-ils à découvrir ou déjà posés, l’occasion d’un travail inductif ou le prétexte à des opérations déductives ? Comment s’y organisent les relations entre les dimensions narrative et endo-narrative des récits et des jeux, la première représentant le monde comme totalité structurée et la seconde, le pas à pas de la progression à travers le récit ou le jeu ?

Afin de répondre à ces questions, commençons par opposer les récits aux ancêtres des jeux vidéo, les jeux de société. Ceux-ci sont formés de ce que Searle appelle des règles constitutives, qui « fondent (et régissent également) une activité dont l’existence dépend logiquement de ces règles » (1972 : 73). Les échecs, par exemple, sont composés d’une surface de jeu, de pièces et, surtout, d’un ensemble de règles qui y jouent un rôle fondateur. Sans elles, il n’y a pas de jeu. Leur rôle est nécessaire, tandis que celui des pièces et de l’échiquier est accessoire. Ainsi, on peut très bien jouer aux échecs avec des pièces de monnaie et une nappe à carreaux, en autant que l’on puisse délimiter sur la nappe le nombre adéquat de cases et distinguer suffisamment de pièces pour pouvoir leur apposer certaines règles de déplacement.

Les règles constitutives s’opposent aux règles normatives qui, elles, viennent régir un comportement existant au préalable. Les règles de courtoisie en sont l’exemple canonique : elles ne fondent pas les relations entre les sujets, mais viennent les policer. Elles sont, au sens strict, des conventions.

Si elles s’opposent a priori, les règles et les conventions se complètent dans le développement de toute situation ou pratique complexes. Toute situation particulière apparaît ainsi comme un équilibre entre un ensemble plus ou moins important de règles constitutives et des conventions plus ou moins stables qui en balisent le déroulement. Les règles constitutives permettent à l’activité de démarrer et les conventions, de se poursuivre. Dans cette perspective, le monde du texte se comprend comme un équilibre singulier entre des règles constitutives, qui en déterminent les formes et limites, et des conventions (narratives, énonciatives, etc.) qui en assurent le déploiement.

Dans les jeux de société, le monde est posé d’emblée : il comprend les règles requises pour y progresser. On ne peut jouer aux échecs si on ne possède pas une connaissance préalable des règles du jeu. Ces règles sont prépondérantes et essentielles à la poursuite de l’activité. Il faut déjà connaître le monde des échecs pour y avoir accès. En comparaison, dans un récit, c’est l’activité elle-même, le pas à pas de la lecture à travers le texte et les conventions, qui assure cette progression qui permet d’inférer graduellement un monde. Le monde de La Défense Loujine, roman de Vladimir Nabokov, ne peut être appréhendé qu’à travers la lecture du roman : les conventions qui sous-tendent le récit ne se devinent qu’à travers l’indice qu’est le récit lui-même. Les règles préalables pour assurer la progression à travers le texte y sont génériques et ne jouent qu’un rôle secondaire. Elles valent d’ailleurs pour tout roman, comparativement aux règles de jeu qui se renouvellent d’une fois à l’autre.

La différence entre un jeu de société et un récit repose donc sur le fait que, dans le premier, le monde est posé et, dans le second, il est à inférer. Les jeux vidéo, dans ce contexte, proposent une situation intermédiaire : comme avec les récits, c’est la progression à travers le jeu qui permet d’inférer petit à petit le monde. En revanche, comme avec les jeux de société, ce monde inféré est porteur de règles nécessaires à la poursuite de l’activité.

Avec le récit, la connaissance du monde et de ses conventions est un résultat de la progression et nullement une condition : on peut très bien commettre des erreurs, se méprendre sur le sens à donner à une scène ou à une description et poursuivre sa lecture. Une bonne compréhension du monde y est simple contingence, les difficultés locales ne bloquent pas la progression de façon péremptoire. Le monde du texte se dévoile par strates, lesquelles se laissent désirer avant de se révéler. Par contre, avec le jeu vidéo, la compréhension du monde et de ses règles est une condition essentielle de la progression. Si le monde place le joueur dans l’obligation d’inférer, les hypothèses émises doivent être justes afin que l’activité puisse se poursuivre. Sinon, l’impasse est vite atteinte, et l’aporie, comme l’a souligné Aarseth, devient source d’abandon. Le monde du jeu vidéo impose des seuils que le joueur doit atteindre s’il veut être en mesure de poursuivre sa route.

Le jeu vidéo est ainsi à mi-chemin entre le récit et le jeu : il permet une grande activité systémique, comme tout jeu, mais il encourage un rapport inductif au monde représenté, comme tout récit. Comme le monde d’un texte ne se construit qu’à partir d’un procès unique qu’est la lecture du récit, le monde d’un jeu vidéo ne se dévoile qu’à travers ses séances de jeux, qui sont autant de procès et d’indices. Le joueur qui interagit avec les objets et les personnages d’un monde virtuel induit chemin faisant un monde fictionnel avec lequel il interagit sur une base interprétative. C’est ce qui lui permet de progresser dans l’« espace événementiel » et qui permet aux jeux vidéo d’être des productions sémiotiques et culturelles, autant qu’informatiques.

Conclusion

Le prisme de la lecture permet de réconcilier les soeurs ennemies que sont l’interactivité et la narrativité. Elles ne s’opposent pas, mais se complètent selon des modalités, il est vrai, toujours plus complexes. Si la lecture est un jeu, comme l’a fort bien documenté Michel Picard (1986), le jeu est aussi une lecture, si par lecture on entend manipulation, compréhension et interprétation d’un texte. Que ces gestes soient réalisés dans un contexte ludique plutôt que littéraire importe peu. Ce sont leurs emboîtements qui donnent à ces pratiques un air de famille, même si chaque fois sont renégociés, de l’un à l’autre, les relations entre les dimensions endo-narrative et narrative, les rapports particuliers entretenus avec le monde du texte, l’immersion plus ou moins grande dans la représentation.

La question se pose maintenant de savoir combien de temps les jeux vidéo demeureront des récits interactifs. Le ludologue Gonzalo Frasca explique à ce propos que :

Les concepteurs de jeux vidéo ne devraient pas jouer à être les nouveaux Spielberg et Coppola parce que la création de jeux ne consiste pas à organiser des séquences d’événements, mais à modeler des mondes avec des règles.

2003b. nt

Pour lui, l’abandon progressif des trames linéaires et du recours aux segments narratifs figés que sont les cinématiques est en train de sonner le glas de la narrativité dans les jeux vidéo. Ceux-ci cesseront bientôt d’être des récits interactifs, des trames linéaires où l’on progresse en traversant des enclaves interactives. La tendance, sans doute irréversible, est aux MMORPG et aux jeux de style « sandbox »[5], aux vastes mondes virtuels permettant une liberté d’action sans cesse plus grande aux joueurs et à leurs avatars.

Les jeux vidéo sont en train de cesser d’être des films interactifs, comme le cinéma a cessé un jour d’être du théâtre filmé. C’est là une belle et grande nouvelle, mais elle pourrait bien annoncer la venue au monde, plutôt que la mort, d’une véritable narrativité interactive. Elle naîtra de la capacité des concepteurs à créer des mondes et du désir des joueurs d’habiter ces mondes activement et sémiotiquement.