Les images de synthèse peuvent-elles avoir une âme ? La performance capture ou le « ghost in the shell » de l’animation numérique

Massuet, Jean-Baptiste

doi:https://doi.org/10.7202/1024121ar

Lorsque l’on regarde le making-of d’Avatar de James Cameron (2009), on ne peut qu’être frappé par l’importance conférée, aussi bien par les techniciens que par les acteurs, au processus d’incarnation sous-tendu par l’usage de la technologie dite de la performance capture. Que ce soient Joe Letteri et Stephen Rosenbaum – superviseurs des effets visuels – ou encore Sam Worthington, Sigourney Weaver et Zoe Saldana, tous insistent sans détour sur la singularité de cette technique qui n’a « rien à voir avec l’animation », et qui consiste à « capturer la performance d’un acteur et à la transférer dans un personnage numérique généré par ordinateur[1] ». De fait, tous les acteurs du film évoquent leur investissement physique ainsi que leur relation à une technique censée retranscrire aussi fidèlement que possible leur interprétation. « C’est ma performance, cette chose marche, parle et agit comme moi : c’est mon interprétation[2] », explique par exemple Sam Worthington en parlant du Na’vi qu’il interprète dans le film. Nous n’examinerons pas ici sur cette question de la spécificité de la technique par rapport au jeu d’acteur, que nous avons déjà abordée par ailleurs au coeur d’un autre article[3]. Néanmoins, cette question de l’incarnation d’une figure numérique par un acteur réel sous-tend à nos yeux une autre interrogation, largement inexplorée jusqu’à présent, dont cet article souhaiterait rendre compte. Sam Worthington ne se contente pas, en effet, de percevoir dans Jakesully – le personnage numérique qu’il incarne – sa performance ou encore son interprétation, mais également et surtout « son âme[4] ».

Notons que cette saillie de l’acteur apparaît à la fin du making-of, comme pour insister sur la prouesse technologique du procédé, capable de littéralement extraire l’âme d’un comédien pour l’insuffler directement dans la figure de synthèse. Cette idée n’est pas sans poser de questions, ce qu’a par exemple illustré, en avril 2010, un débat houleux sur le plateau de l’émission « D@ns le film » sur le site « Arrêt sur Images », entre la présentatrice Judith Bernard et le critique de cinéma Rafik Djoumi : peu convaincue par la technique à l’oeuvre sur le film, Judith Bernard appuie en l’occurrence son argumentaire sur le making-of et la phrase conclusive de Worthington afin de soulever l’absurdité d’une quelconque analogie entre l’âme de l’acteur et le dispositif technique dont son visage – tout comme son corps – se trouve équipé : « Qu’est-ce que c’est alors, son âme ? C’est le nombre de muscles du visage que peuvent enregistrer les capteurs numériques qui le recouvrent ? » Précisons en effet que l’acteur, en sus des nombreux capteurs photosensibles placés sur l’intégralité de son corps, est muni d’une petite caméra numérique située au niveau de son visage, permettant de capturer chacune de ses expressions. L’interprétation du comédien est donc directement transposée dans le personnage graphique, comme si l’un et l’autre composaient une même entité. Cependant, comme Judith Bernard le soulève, peut-on aller jusqu’à envisager une équivalence entre la performance d’un acteur et l’âme du personnage qu’il interprète, a fortiori dans le cadre d’un film en images de synthèse ?

On le constate, notre point de départ laisse à penser que la réflexion que nous souhaitons développer ici s’articule principalement autour de questions de réception. Force est en effet de constater que ce lien de l’âme à la performance capture n’est quasiment jamais invoqué dans les textes de référence consacrés à la technique, de l’ouvrage d’Edilson de Aguiar, Animation and Performance Capture Using Digitized Models[5], en passant par de nombreux articles tels ceux d’Adam De Beer[6], Scott Balcerzak[7], Jessica Aldred[8], ou encore Vivian Sobchack[9]. Si nous ne pouvons donc envisager de partir de bases théoriques – au sens où cette question n’a pas encore vraiment été théorisée par les spécialistes reconnus du procédé –, cela ne signifie pas pour autant que cette interrogation soit dénuée d’intérêt.

On connaît plus précisément à présent la différence entre les techniques de motion capture et de performance capture, la première ne numérisant que les mouvements du corps et la seconde ajoutant une nouvelle zone de captation : le visage de l’acteur. Que cet ajout puisse justifier à lui seul le fait que la performance capture ait été, à la différence de la motion capture, envisagée comme une véritable révolution par un certain nombre de critiques dès 2004 et la sortie du Polar Express de Robert Zemeckis[10], rien n’est moins sûr[11]. Il n’en reste pas moins que cette zone de captation supplémentaire a de quoi interroger, lorsqu’on la met théoriquement en perspective. Le visage a en effet fait l’objet de nombreuses études aussi philosophiques que théoriques le liant profondément à la question de l’âme. De Diderot, affirmant que « chacun des mouvements de l’âme [de l’homme] vient se peindre sur son visage[12] » à Jean Spinetta titrant l’un de ses ouvrages Le Visage, reflet de l’âme[13], en passant évidemment par Emmanuel Levinas, pour lequel « dans l’accès au visage, il y a certainement aussi un accès à l’idée de Dieu[14] » ou encore par les théories de Johann Kaspar Lavater, estimant que « chaque état de l’âme, chaque perception ou sensation s’exprime sur le visage d’une manière particulière[15] », le lien du visage à l’âme paraît évident. Il n’est à ce titre guère étonnant qu’Edgar Morin soulève, à la suite des écrits de Béla Balázs, le même type de lien dans le domaine cinématographique lorsqu’il écrit que « le visage, sur l’écran, devient paysage et le paysage devient visage, c’est-à-dire âme[16] ».

Il serait dès lors intéressant de s’interroger, dans le cadre d’un procédé qui met le visage au centre des implications techniques, sur le surplus d’animisme que la performance capture est censée allouer aux images de synthèse dont elle détermine le mouvement. Par ailleurs, ce surplus d’animisme dépend-il uniquement de la captation numérique des expressions d’un acteur, ou est-il déjà l’un des enjeux de la motion capture ? Si les images de synthèse ne sont plus mises en mouvement par un animateur, mais directement mues par un acteur, il est en effet possible de percevoir une différence fondamentale entre les procédés de capture de mouvement et les images de synthèse qui les précèdent, à savoir la présence d’un « ghost » au coeur du modèle numérique. Peut-être pourrions-nous même aller jusqu’à affirmer qu’à l’occasion de l’émergence des dispositifs de capture de mouvement, la relation des images de synthèse à la notion d’anima pourrait faire l’objet d’une réévaluation théorique. C’est ce qui nous amène à nous demander en quoi la performance capture, tout en paraissant injecter de l’âme aux images de synthèse qu’elle détermine, ne fait paradoxalement que soulever la relation trouble qu’entretiennent les concepteurs d’images numériques avec les notions d’anima et d’animation, qui jusqu’ici sous-tendaient leur identité et leur rattachement « institutionnel ».

Une première étape de la réflexion consistera à opérer un léger détour par les images de synthèse pré-capture de mouvement afin de mieux comprendre dans quelle mesure les nouveaux dispositifs de captation contribuent à une mise en crise de la notion d’animation – d’ores et déjà entamée par le biais des premiers usages de l’imagerie de synthèse – tout en soulevant la question « inédite » de l’âme. Nous comprendrons alors que les dispositifs de capture de mouvement sont pour la plupart présentés comme un moyen de parfaire, par un surplus d’animisme lié à la performance des acteurs, le mouvement de modèles dès lors considérés comme archaïques. C’est toute l’ambiguïté de cette technologie qui, de la motion à la performance capture, aurait été mise en scène de manière relativement évolutionniste, au point de reconfigurer la relation entre les images de synthèse et le domaine de l’animation dont elles dépendent. C’est ce qui nous amènera à un dernier point consistant à nous interroger sur la dimension « animation » de l’image de synthèse sous l’angle de la performance capture et de son lien à l’anima, afin de comprendre pour quelle raison la notion d’animation se doit d’être radicalement mise en question à l’ère du numérique, et en quoi la notion d’âme pourrait bien constituer une fausse piste dans le cadre d’une réflexion sur la performance capture.

« Des images sans âme » ?

Un tel titre aura tôt fait de mettre en garde le lecteur contre une potentielle dérive téléologique du propos. On lit assez souvent, à propos des images de synthèse, cette idée selon laquelle leur dimension calculée et mathématique contribue à une certaine forme de froideur visuelle. Ondine Bréaud explique par exemple dans son ouvrage sur Le Réalisme dans l’image informatique que :

Du simple spectateur au théoricien de l’image, en passant par le vidéaste et l’artiste peintre, tous ont directement ou indirectement partagé un même point de vue. Les images informatiques sont des images lisses et froides, glaciales et condamnées à demeurer sans âme, des images, en définitive, incapables d’exprimer ce que Alechinsky appelle « la part émouvante du visible »[17].

Ondine Bréaud se réfère ici à un certain nombre de discours dont elle résume clairement l’essentiel, décrivant chacun des « univers aseptisés et froids[18] », « trop plastiques pour être acceptés par tous[19] ». Nous pourrions pour notre part prendre l’exemple de Michel Pasquier, écrivant en 1990 que « passée au filtre de l’informatique, l’image semble perdre toute saveur […], elle présente toujours le même aspect : lisse et froid[20] », ce que Michel Larouche appuie lorsqu’il explique que « les premières images étaient trop parfaites, géométriques, froides[21] ». Il y a cependant une précision dans le discours de Larouche, lequel se réfère aux « premières images », signe d’une dimension évolutive dont Philippe Lemieux témoigne encore plus clairement en 2012 lorsqu’il décrit pour sa part « l’aspect géométrique et froid propre aux images de synthèse de l’époque [l’auteur parle des années 1980][22] ». Ce qui change, d’une époque à l’autre, ce serait, selon Michel Larouche, la « mobilisation de tous les efforts vers le réalisme de la représentation et la simulation de l’être humain[23] ». Or, cette simulation n’a rien d’une évidence : elle confronte les informaticiens au défi de la représentation, non seulement du corps, mais également du visage, source de l’émotion cinématographique comme le souligne encore Michel Larouche à propos de « Tony de Peltrie (1985), premier personnage synthétique ayant des expressions faciales qui dégagent de l'émotion et auquel les spectateurs peuvent s'identifier[24] ».

Il est dès lors sans doute ici utile de mieux donner à entendre ce que tous ces discours mettent en jeu par le biais de cette notion de froideur. Est froid dans le domaine artistique, selon Le Petit Robert, « ce qui ne suscite aucune émotion, par défaut de sensibilité, vie[25] », ou, pour reprendre une définition plus ancienne, celle du Dictionnaire universel de la langue française de Pierre Claude Victoire Boiste, ce qui est « sans feu, sans âme[26] ». Or, comme l’écrit Jacques Lafon en 2000 à propos du défi de la simulation d’un corps humain en images de synthèse :

Les objets manufacturés et les éléments d’architecture déjà soumis à l’austérité géométrique […] se prêtent facilement à la projection perspective. Toutefois les étoffes et les corps de chair et de peau malgré les tentatives […] des infographistes de les réduire à une composition de polygones, lui résistent au nom de leur âme. L’âme du tissu est ce qui l’anime en lui donnant un mouvement. L’âme du corps est ce qui l’anime en lui donnant la vie[27].

Deux notions essentielles sont ici invoquées comme autant d’obstacles au plein aboutissement de l’image de synthèse comme décrit par les auteurs précédemment cités : l’âme et l’animation. On ne saurait trop souligner l’impasse d’un tel constat, eu égard à la polysémie de ces deux notions qui ont connu un nombre considérable de définitions et d’acceptions : en sus de leur évolution historique, elles ont en effet également acquis des sens différents en fonction du champ de réflexion à partir duquel elles ont pu être appréhendées. L’âme est ainsi un principe organisateur du vivant en biologie, mais elle est également un principe de la pensée en psychologie, tout autant qu’un principe spirituel et immatériel dans le domaine religieux. L’animation, de son côté, a également connu de nombreuses acceptions, animer signifiant à la fois le fait de donner vie à quelque chose – dans le sens théologique du terme – mais également de prodiguer le mouvement, ou encore, selon Le Petit Robert, de « donner de l’éclat, de la vivacité à quelque chose[28] ». Dans le domaine cinématographique, néanmoins, la notion d’animation recouvre un sens bien particulier à partir des années 1950, première décennie d’institutionnalisation du cinéma d’animation par le biais des premières Journées internationales du cinéma d’animation organisées en France par le critique André Martin[29]. L’ASIFA (Association Internationale du Film d’Animation) créée pour l’occasion élabore alors l’une des premières définitions canoniques du film d’animation en 1960, ce dernier renvoyant alors à « [t]oute création cinématographique réalisée image par image[30] ».

La chose est désormais connue, l’avènement de l’image de synthèse a clairement chamboulé cette première définition et s’avère sans nul doute l’une des principales raisons de sa révision en 1980 à Zagreb, établissant dorénavant que « par art de l’animation, il faut entendre la création d’images animées par l’utilisation de toutes sortes de techniques à l’exception de la prise de vue directe[31] ». Le principe d’image par image est en effet radicalement remis en cause par les calculs algorithmiques propres à la machine informatique permettant de simuler automatiquement le mouvement. En revanche, nous ne pouvons qu’être frappés, au sein de cette réflexion, par le fait que les théoriciens de l’image de synthèse n’aient jamais vraiment abordé la question de l’âme dans leur propos, quand bien même la notion serait profondément liée à l’animation. Ne serait-ce qu’en termes de racine latine, le verbe animare signifie bien « animer, donner la vie », tandis que les termes animus et anima renvoient tous deux à l’âme, au souffle, à l’esprit.

Il conviendrait pourtant, avant d’interroger cette notion dans le cadre de l’animation, d’opérer un détour par les théoriciens de la prise de vue réelle qui ont majoritairement abordé la question dans le cadre de leurs réflexions sur le cinématographe et qui nous permettent d’en donner une définition plus précise. Henri Agel par exemple, se demandant si « le cinéma a une âme », en vient ainsi à décrire :

[…] les moyens exceptionnels dont dispose le septième art […] [pour] pouvoir conférer à tous les êtres, à tous les objets, à tous les paysages de la création, à toutes les données psychologiques, à toutes les valeurs morales, une sorte de « surréalité » par laquelle tous les caractères du créé sont portés à leur plus haut point de signification. […] Interprétés par le génie d’un metteur en scène, les objets les plus familiers, l’air même que nous respirons, se chargent d’une densité qui nous étreint[32].

Plus directement encore, trente ans auparavant, Béla Balázs analyse la capacité du gros plan à faire surgir l’âme des acteurs et la donner à percevoir au spectateur : « le gros plan sur les yeux, écrit-il par exemple, fait rayonner l’âme plus que la vue du corps tout entier[33] ». Selon cette acception esthétique, il semble que nous puissions déceler une spécificité de l’âme dans le domaine cinématographique : il s’agirait de l’esprit qui anime quelque chose – être humain ou objet – au point de lui donner le pouvoir d’exprimer une pensée, des expressions, un ressenti, une émotion, etc., et donc – dans le cadre de la représentation de formes inertes – de le faire ressembler à un être vivant.

Le cinéma d’animation image par image repose en grande partie sur cette dimension proprement animiste, ne serait-ce que parce qu’il présente des objets, des dessins, des êtres à la base inanimés qui bougent, parlent, suscitent des émotions, mais également parce que l’esprit qui anime ces êtres au départ inertes est perceptible « entre les images ». Nous distinguons en effet dans l’intermittence de celles-ci le geste créateur, visible, qui dévoile de manière souterraine le travail qui sous-tend le mouvement, et donc le geste humain, vital, qui le détermine. Or, faut-il y voir une coïncidence ? Hervé Joubert-Laurencin explique que certains animateurs – il prend l’exemple de Pierre Hébert – « oppose[nt leur] travail aux “images justes” de la simulation et de la synthèse […], s’en [prennent] au discours pauvre de l’idéologie récente des “Nouvelles Images”, qui se laisse emporter par une téléologie de la “meilleure solution” ou de la “meilleure image”, et qui confond “fonction aléatoire” et aléas du mouvement vivant[34] ». Il y a en effet dans l’image de synthèse une élimination du geste créateur, sa pleine simulation par la machine, et donc, une perte de « l’élan vital », pour reprendre le terme de Vivian Sobchack[35], de l’âme à proprement parler des êtres filmés. D’où cette froideur de l’image numérique remarquée par la plupart de ses théoriciens. Là où le constat devient intéressant, c’est que l’on s’aperçoit que cette froideur n’est à l’origine nullement liée à la question de l’âme : si nous choisissons de mettre en évidence ce lien, c’est en vertu du sujet de notre réflexion, à savoir la capture de mouvement.

La chose s’explique par le fait que la capture de mouvement a souvent été envisagée comme une manière de mettre à mal cette dimension mécanique du mouvement, et de conférer aux personnages de synthèse un principe moteur qui émanerait, non plus de la machine, mais d’un être humain. Cette perspective va dans le sens des propos de Michel Larouche cités plus haut et paraîtrait expliquer le recours contemporain de plus en plus fréquent à ces dispositifs de capture de mouvement. De ce point de vue, ces derniers apparaissent comme la raison première d’une approche animiste de l’image de synthèse qui n’aurait été que peu adéquate avant leur développement. Ce sont en effet ces dispositifs qui incitent à envisager la « froideur » des images de synthèse pré-capture de mouvement comme un « manque d’âme », c’est-à-dire comme un « défaut ». Afin d’éviter de tomber dans ce piège d’ordre téléologique, il convient d’ores et déjà de souligner que cette technique n’avait nullement pour but, au départ, « d’améliorer » les images de synthèse préexistantes : il s’agissait – comme pour beaucoup de nouvelles technologies dans le domaine du cinéma – d’amoindrir les coûts de production. Comme l’écrit Maureen Furniss, « la motion capture a souvent été vendue comme étant économique en termes de temps et d’argent[36] ». Le soi-disant surplus de « réalisme » engagé par la technique reposerait ainsi, c’est notre hypothèse, sur une vision idéologiquement construite, envisageant l’image de synthèse comme une forme évoluant nécessairement vers une ressemblance de plus en plus affirmée avec le monde sensible qu’elle est censée reproduire – au point de retranscrire l’âme des êtres qui s’y déploient, cette force invisible qui guide les corps en mouvement. À ce titre, ne serait-ce pas également le dispositif de capture de mouvement lui-même qui inciterait à penser le réel comme référent de l’image ?

Comme l’écrit Jacques Aumont en évoquant les images numériques, « on a pu dire […] que le critère de la ressemblance qui fonde l’idée d’analogie le cède désormais à celui de similitude, lequel s’en distingue en ce qu’il ne suppose pas un original[37] ». Ici se joue sans doute une différence fondamentale entre les images informatiques conçues par un animateur et celles s’adaptant à un mouvement réellement effectué par un acteur. Dans ce dernier cas, un renversement s’opère : l’idée de similitude se trouve remise en question au profit d’un retour à l’idée d’analogie – ergo, à l’idée d’un lien avec un original dont on cherche à reproduire les caractéristiques. On comprend dès lors que seule une vision évolutionniste – qui ne prend pas en compte ce renversement – peut dépeindre la capture de mouvement comme un palliatif technique, permettant de parfaire l’illusion d’une image de synthèse pensée sur le modèle du monde sensible. Il s’agit, suivant cette logique, « pour éviter au spectateur ce sentiment de lassitude, voire de malaise, face aux images de synthèse, […] [de] rendre aux mouvements une part de spontanéité et de cohérence […], [c]e que l’on réalise en “clonant” des acteurs réels[38] », comme l’explique Ondine Bréaud. On parviendrait ainsi à saisir « la complexité du monde réel dans toute sa richesse de l’imprévu[39] ». Ce que la motion et la performance capture seraient donc censées conférer à l’image de synthèse, envisagées sous cet angle, serait ce hasard qui soudainement prend le pas sur la représentation et émeut le spectateur – ce qui pourrait s’apparenter à l’âme de l’image, déliée de sa supposée froideur informatique. Or, cette idée d’une image synthétique qui ne serait pas pleinement précalculée n’a rien d’ontologique : il s’agirait avant tout d’une construction culturelle et sociologique, clairement véhiculée, selon nous, par l’usage de la capture de mouvement dans plusieurs films à effets spéciaux, en particulier à partir des années 2000.

« Ghostcatching »

Cette idée selon laquelle la capture de mouvement conférerait une âme aux images de synthèse ne vient pas de nulle part. L’une de ses illustrations les plus évidentes serait celle de la performance Ghostcatching de Paul Kaiser et Shelley Eshkar, capturant la prestation scénique du danseur Bill T. Jones afin de la retranscrire sous la forme d’un être de synthèse aussi squelettique que vaporeux. Le titre de l’oeuvre se passe de commentaire, renvoyant au terme que les Amérindiens utilisaient pour qualifier la photographie, dont certains pensaient qu’elle volait leur âme[40]. Le « ghost » renvoie donc bien ici à cette dernière, exactement comme dans le titre du célèbre film de Mamoru Oshii Ghost in the Shell, sorti en 1995, dépeignant des personnages de cyborgs dotés d’un « esprit » indépendant[41]. Le film repose en partie sur les états d’âme du personnage féminin principal, Motoko Kusanagi, habitant un corps qui ne lui appartient pas, tel un être double, à la fois réel (corporel) et irréel (spirituel).

Cette relation de l’esprit et du corps peut en l’occurrence trouver une résonance dans les films faisant usage des dispositifs de capture de mouvement, un acteur se projetant bien mentalement au sein d’un corps qui ne lui appartient pas en propre. C’est d’ailleurs ce qui amène par exemple une chercheuse comme Anaïs Kompf à écrire, en citant Sigmund Freud :

À chaque fois, même si l’on sait que ce que l’on regarde n’est pas réel, puisque la performance capture donne à l’image une apparence synthétique, il nous est toujours possible de douter et de nous demander si, à l’écran, l’être « non vivant n’aurait pas par hasard une âme », et ce à cause de la similarité de traits et mimiques de plusieurs visages[42].

Or, là encore, ce questionnement ne vient sans doute pas de nulle part. Nullement inhérent au procédé de capture de mouvement, nous pouvons en déceler les origines au coeur même de la médiatisation de la technique, croisée avec le contenu diégétique des films eux-mêmes, dont la réception témoigne parfois de cette interrogation sur la présence d’une âme au sein même des personnages de synthèse.

Comme le critique Jean-Marc Lalanne le remarque à propos d’Avatar :

La force conceptuelle d’Avatar, qui est aussi sa limite, est d’inaugurer un cinéma posthumain où l’enregistrement cinématographique de corps humains est relégué à pas grand-chose, au profit de la toute-puissance des machines et du virtuel. Des acteurs, les machines retiennent quelque chose qui n’est pas l’apparence physique (les avatars ne ressemblent pas vraiment à leurs modèles humains), mais des expressions, des attitudes. C’est un peu l’âme des comédiens qu’essaie d’extirper la performance capture pour l’injecter dans les corps du numérique. Cette animation d’un nouveau genre n’a peut-être pas encore fait le deuil de ce dont elle veut se défaire (l’illusion réaliste de la prise de vue) pour déjà trouver sa pleine puissance expressive[43].

Lalanne établit bien ici un lien direct entre la performance capture et la question de l’âme, mais s’il le fait aussi clairement, c’est aussi parce que le contenu diégétique du film l’y incite. Avatar présente, rappelons-le, un personnage d’ancien marine paraplégique, interprété par Sam Worthington, dont l’esprit se voit transféré dans le corps d’un extraterrestre, Na’vi, lui permettant de recouvrer ses fonctions motrices, comme un double de son propre corps, doté de son esprit. De fait, la fusion entre l’esprit du personnage et le corps de son avatar se trouve mise en scène par une projection en vue subjective dans un tunnel de lumière, signe de l’expérience transcendantale vécue par le personnage, la migration de son âme dans un autre corps. Comme l’écrit Renée Bourassa :

Transcendance du corps propre par le biais de l’avatar, lui permettant d’échapper à l’infirmité ou à la mort, le récit du film double sur le plan diégétique le procédé même qui en détermine la mise en forme. Dans ce film, le corps de synthèse est traversé de références culturelles venant l’informer, par les nombreux mythes de transmigration de l’âme ancrés dans les cultures les plus diverses. Par exemple, le mystère chrétien de l’incarnation propre aux sociétés occidentales est celui d’un corps habité par un dieu puis ressuscité d’entre les morts, d’un corps christique porteur de souffrance que l’on mange afin de l’absorber dans son corps propre et atteindre la transcendance de sa propre finitude. Ce récit de la tradition chrétienne est celui de l’incarnation d’un dieu dans un corps mortel, capable de résurrection. Autrement dit, c’est le pouvoir de transformation de l’enveloppe corporelle qui est en cause. Le cadavre est un corps dont l’anima s’est absenté et que plusieurs mythes ou postures religieuses ont cherché à transcender[44].

On le voit, le discours de Renée Bourassa se trouve clairement informé par le film sur lequel elle s’appuie, et ne se constitue pas a priori : la performance capture n’est pas en soi un procédé qui permet la transmigration de l’âme de l’acteur, mais certains films permettent d’aller dans cette direction interprétative. Il n’est pas surprenant, à ce titre, que cette question de la captation numérique de la prestation actoriale envisagée comme captation de son âme ne se retrouve guère au sein d’analyses de films comme The Polar Express (2004), Beowulf (2007) ou encore A Christmas Carol (2009), tous trois réalisés par Robert Zemeckis, qui ne mettent en l’occurrence nullement en jeu ce motif de l’âme, ni dans la mise en scène ni dans la narration.

En revanche, c’est sans doute l’héritage d’Avatar qui se fait jour dans un film comme The Congress d’Ari Folman (2013), introduisant l’actrice Robin Wright (dans son propre rôle), qui se voit proposer par son agent, selon les termes du critique Jean-Philippe Tessé, « un pacte faustien : vendre l’image de Robin Wright à un studio; l’électronique saura conserver sa blonde jeunesse tandis qu’elle, par contrat, devra vieillir à l’ombre pendant vingt ans et ne plus jamais montrer ce visage qui pleure, là, en silence[45] ». Il est étonnant que le critique ne fasse en l’occurrence jamais référence au procédé de performance capture qui paraît pourtant clairement convoqué par Folman en termes techniques, en particulier lors de la séquence clôturant la première partie du film, et voyant Robin Wright intégralement numérisée dans un scanning room[46]. Passant par toutes les expressions, l’actrice se voit littéralement privée de son âme, cette dernière étant comme dérobée par la technique, chaque flash la destituant d’une de ses émotions. L’idée d’un pacte faustien s’avère d’ailleurs suffisamment parlante, l’actrice vendant ici clairement son âme au diable, c’est-à-dire aux studios hollywoodiens.

Or, ce motif de l’âme et de l’incarnation transcendantale n’est pas sans impact sur les productions que nous décrivons ici. Ce qu’interroge clairement ce motif, selon nous, c’est l’appartenance des films en performance capture au domaine du cinéma d’animation. Si ces films sont pris du point de vue de la captation du jeu d’acteur, ils ne paraissent par exemple pas pouvoir être rattachés à un territoire institutionnel qui a pu être défini comme « la création d’images animées par l’utilisation de toutes sortes de techniques, à l’exception de la prise de vue directe ». En revanche, si ces films sont pris du point de vue de l’attribution d’une âme aux images de synthèse, et, partant, du point de vue d’un surplus d’animisme, la question peut décemment être posée. L’un des premiers sens écrits attribués au terme d’animation, selon Donald Crafton, renverrait en l’occurrence, au 16^e siècle, à « l’acte de doter d’un esprit ou d’une âme ». L’auteur ajoute par ailleurs que « [d]ans la Bible, c’est l’anima que Dieu insuffle en Adam pour lui donner le souffle, c’est-à-dire pour amener l’argile à la vie[47] ». Or, le terme anima ici utilisé par Crafton renvoie bien, nous l’avons vu, à l’idée de « souffle » ou encore « d’âme », preuve encore une fois du lien très fort entre animation et animisme. Sergei Eisenstein le met très clairement en évidence dès 1941 lorsqu’il écrit que :

[…] si l’on veut, l’idée même d’animated cartoon est comme l’incarnation de la méthode de l’animisme. Ce laps de temps où un objet inanimé est doté d’une vie et d’une âme, que nous conservons comme une séquelle lorsque, ayant heurté une chaise, nous l’apostrophons comme un être vivant, ou cette durable période où l’homme primitif nantit de vie la nature inanimée[48].

Edgar Morin ne dit pas autre chose une dizaine d’années plus tard lorsqu’il écrit dans Le Cinéma ou l’homme imaginaire, sous le titre de chapitre « Objets inanimés, vous avez donc une âme », que dans le dessin animé, « les objets rayonnent d’une étonnante présence, d’une sorte de “mana” qui est simultanément ou alternativement richesse subjective, puissance émotive, vie autonome, âme particulière[49] ». Et il n’est pas inutile de rappeler, à cet égard, le travail d’Alan Cholodenko qui assimile pour sa part la dimension mécanique propre au mouvement cinématographique et la dimension animiste qui préside au don de « vie » de l’animation, par le biais d’un concept unificateur : « the animatic ». Comme l’auteur l’écrit, ce concept « marque la (con)fusion disséminatrice de la tradition mécaniste de l’automate avec la tradition animiste […] qui confère la vie, offrant une étrange simulation des deux, une simulation de l’animisme et du mécanisme à la fois, vie et mouvement, animation et cinéma, etc., ce qui suggère […] que nos machines ont une vie qui leur est propre […][50] ». La performance capture, jouant sur cette double acception mécaniste – l’automatisation de la captation numérique, les calculs algorithmiques permettant la création des figures de synthèse – et animiste – la vie de l’acteur directement injectée dans ces avatars numériques –, pourrait-elle dès lors, en ce sens, être perçue comme une forme d’animation ?

Performance capture et crise de l’anima

La métaphorisation de l’âme par le biais de la capture de performance n’est pas sans poser de problème en termes de rattachement institutionnel du procédé. Les principaux représentants de la performance capture paraissent en l’occurrence entretenir une relation assez trouble avec le concept d’animisme : l’anima des personnages de synthèse conçus par le biais de cette technique ne leur est pas vraiment conférée, ils en sont d’emblée dotés puisque les êtres graphiques ne se meuvent que sous l’impulsion des acteurs couverts de capteurs photosensibles. Ce n’est ainsi pas Dieu qui insuffle la vie dans un être inanimé, c’est un être inanimé qui s’anime de son propre chef. « Je ne suis pas animée, mais je m’anime », semblent nous dire ces figures virtuelles. Cette destitution de la figure divine pourrait en un sens priver la performance capture de tout lien avec la notion d’animation. Là où les choses se compliquent, c’est à l’évidence en raison de la polysémie du terme « animation » lui-même qui, comme Crafton le met en évidence, possède de multiples autres sens, dont celui qui lui est attribué au 18^e siècle, l’apparentant à « l’union de l’âme avec le corps[51] ». En ce sens, il serait tout à fait possible de lui rattacher la technique de la performance capture, jouant justement sur cette union, en particulier à l’aune de la séparation originelle entre l’âme de l’acteur et le corps de la figurine de synthèse qu’il s’agit de faire coïncider l’un avec l’autre. Sur ce point, la performance capture pourrait apparaître comme un procédé spécifiquement animiste, à la différence par exemple de la motion capture qui se passe pour sa part de la capture des expressions de l’acteur, c’est-à-dire de son visage et de ses yeux, fenêtres de l’âme, selon le proverbe. C’est par exemple ce qui incite Anaïs Kompf à écrire que « les yeux [des acteurs du Polar Express] ouvrent sur des béances virtuelles, sur une absence[52] ». On devine néanmoins l’impasse à laquelle peut mener un tel traitement de la notion d’animation : en jouant sur la polysémie du terme, ne risque-t-on pas de perdre un concept théorique au profit d’un signifiant purement sémantique ?

Il convient d’ailleurs ici de mettre à mal un autre a priori évolutionniste concernant la capture de mouvement, à l’aune de la supposée transition entre la motion et la performance capture. Le fait même de parler de transition incite à envisager un passage de relais entre deux étapes d’une même technique sur la voie du perfectionnement technologique. Or, encore une fois, il n’en est rien. La motion et la performance capture renvoient en fait plus ou moins à la même technique, puisqu’il existe, avant même l’institutionnalisation de l’expression performance capture, des procédés de capture faciale, que l’on peut tout à fait adjoindre à ceux de capture du corps, en deux opérations séparées. La supposée « révolution » de la performance capture – par rapport à la motion capture – ne consiste en fait qu’à procéder simultanément à la numérisation du corps et du visage, permettant aux acteurs d’intégralement jouer la scène plutôt que de séparer leur prestation en deux temps. Il ne s’agit nullement d’une amélioration visant à conférer une âme à des corps qui jusqu’ici en étaient dénués, car privés de toute référentialité faciale en termes de captation. De fait, la fortune critique de la performance capture doit sans aucun doute être entendue comme la réponse au dédain qu’a pu rencontrer la motion capture en son temps[53] – partant, sa dimension animiste apparaît bien vite comme le symbole de cette supposée évolution technique, ce que la mise en scène et la réception d’Avatar, en particulier, ont pu mettre en jeu.

Nous serions ainsi enclins à affirmer que cette dimension animiste de la performance capture n’a rien d’ontologique et se doit dès lors d’être interrogée pour ce qu’elle est : un motif esthétique régulièrement réinvesti, et non pas une spécificité technique. L’exemple de Final Fantasy: The Spirits Within de Hironobu Sakaguchi (2001), premier film intégralement constitué d’images de synthèse photoréalistes, est à lui seul révélateur du problème. Le titre The Spirits Within pourrait être traduit littéralement par « les esprits à l’intérieur » – métaphorisation possible, comme Avatar, du procédé technique à l’oeuvre dans le film. Le récit repose par ailleurs sur l’existence d’une planète peuplée de fantômes extraterrestres qui dévorent l’âme des êtres humains qui s’y aventurent. On le voit, le motif de l’âme se trouve bien inscrit dans le film, d’autant plus que le personnage féminin principal, Aki Ross, infectée au début du film par les fameux esprits, se trouve perçue par les autres personnages comme un être dorénavant double, portant en lui la signature spirituelle d’un autre être, influant sur ses décisions et ses actes. L’on pourrait aisément y percevoir, comme pour Avatar, la métaphorisation de la technique au sein de la narration, et, du même coup, la preuve que la notion d’âme est essentielle dans le cadre de la capture de mouvement. Sauf que le film de Sakaguchi ne fait nullement usage de la capture faciale, mais uniquement de la motion capture, limitée aux corps des acteurs. En d’autres termes, cette idée de métaphorisation s’avère ici surinterprétative puisque le film ne se fait pas le miroir d’une quelconque spécificité technique.

Que cette dimension métaphorique de l’esprit dans un corps, d’un « ghost in the shell », soit une coïncidence ou non dans le cadre d’un film en motion capture, peu importe. Ce qui est à prendre en compte, en revanche, c’est que ce motif de l’âme entre en porte-à-faux avec une partie de la réception du film, comme en témoigne la critique d’Alain Vézina, décrivant dans l’imagerie du film une « absence de charme, de poésie et, en extrapolant, [une] absence de personnalité et de vie[54] ». « La manière de se mouvoir », ajoute-t-il, serait d’ailleurs pour beaucoup dans l’excès de « réalisme photographique » qui « empêche le spectateur de se reconnaître [dans les personnages], condition essentielle à l’instauration de tout rapport émotif[55] ». Il est en l’occurrence intéressant que le critique écrive que « la stylisation du mouvement fait place à son uniformisation, ce qui sans conteste déroge à l’esprit même du cinéma d’animation[56] ». Le discours est ici sans concession, preuve de l’ambiguïté instaurée par l’usage de la capture de mouvement dans le cadre de l’animation numérique. Les techniciens du film évoquent pourtant pour leur part dans le making-of un « nouveau genre d’animation ». De fait, ce que ces films en motion et en performance capture sous-tendraient, ce serait une crise généralisée de l’anima à l’ère du numérique. Ce souffle de vie, que l’on cherche ici à directement injecter au coeur de la figure virtuelle sans passer par un médiateur – à savoir l’animateur – ne s’avère être autre chose, dans le cadre de la capture de mouvement, qu’une illusion. Ce souffle de vie ne s’entend qu’au travers de sa propre figuration esthétique au sein des films, comme pour pallier son absence au coeur de la technique, qui n’a finalement jamais réellement reposé sur ce principe. Ce n’est que par le biais d’une mythologisation a posteriori que l’anima a pu être pensée en lien avec la performance capture. À notre question inaugurale, « les images de synthèse peuvent-elles avoir une âme ? », seule une réponse décevante peut être apportée, pour la bonne et simple raison que sa formulation s’avère lourde de sous-entendus. Largement véhiculée par les techniciens de la performance capture et les critiques depuis Avatar, la notion d’âme s’avère peut-être constituer une fausse piste dans le cadre de la réflexion sur l’évolution des images de synthèse. Elle a en revanche le privilège de nous mettre en garde contre de potentielles dérives téléologiques et évolutionnistes de l’histoire des techniques, ce que cette réflexion se donnait comme modeste objectif de mettre en évidence.

Il serait possible, pour conclure, de proposer une solution de rechange à la notion d’âme pour interroger les tenants et aboutissants technologiques de la performance capture. Pour ce faire, il est intéressant de se référer à un film réalisé en 2004 par Alex Proyas : I, Robot. L’idée de conscience de soi qui émane du titre – « Moi, robot » – renvoie sans détour à certaines des interrogations scénaristiques du film, présentant un personnage de policier incarné par Will Smith incapable de croire que le robot qu’il soupçonne de meurtre puisse être doté d’émotions, et partant, d’une âme. Rappelons que, selon la définition donnée par le dictionnaire, l’âme peut tout à fait renvoyer à un « principe de sensibilité et de pensée composant l’homme[57] ». Il serait peut-être à ce titre intéressant de déplacer la réflexion, et de creuser le lien entre les notions d’émotion et d’anima, renvoyant toutes deux, par leurs racines, à l’idée de mouvement, d’un côté d’ordre psychologique et physiologique et de l’autre d’ordre théologique, renvoyant au principe de vie, de souffle vital. De fait, Alex Proyas aurait régulièrement insisté auprès des techniciens du film pour que les expressions faciales de l’acteur Alan Tudyk, « incarnant » le robot Sonny, soient toujours intégralement respectées, là où le mouvement de son corps, capturé numériquement, pouvait pour sa part être retouché[58]. Les émotions de Sonny étaient donc un point essentiel, la plupart des échanges entre le robot et le personnage incarné par Will Smith tournant autour de questionnements sur la capacité des robots à être dotés d’une humanité et à ressentir des émotions – question propre à la robotique, par ailleurs. Ce que soulève selon nous I, Robot, c’est qu’au-delà de la question de l’anima, c’est peut-être autour de la question de l’émotion qu’il serait intéressant de creuser pour comprendre les spécificités d’un procédé comme celui de la performance capture, envisagée comme une technique spécifique, et non pas comme une amélioration de procédés préexistants. Ces personnages de synthèse ne seraient, en définitive, pas vraiment animés, mais plutôt mus de l’intérieur, par l’é-motion qui guide le jeu des acteurs; et partant, de leurs avatars graphiques, véhicules de leur performance.

Les images de synthèse peuvent-elles avoir une âme ?La performance capture ou le « ghost in the shell » de l’animation numérique

Résumé

Abstract

« Des images sans âme » ?

« Ghostcatching »

Performance capture et crise de l’anima

Note biographique

Notes

List of figures

Abstracts

Résumé

Abstract

Article body

« Des images sans âme » ?

« Ghostcatching »

Performance capture et crise de l’anima

Appendices

Note biographique

Notes

List of figures

Citation Tools

Cite this article

Export the record for this article