Corps de l’article

Introduction

« Peut-on parler de narrativité en musique ? », demandait Jean-Jacques Nattiez dans son article du même titre paru en 1990. Cette question, par ailleurs fort complexe, demande à ce que l’on commence par définir ce que l’on entend par « musique ». En effet, la très vaste majorité des écrits traitant de narrativité musicale se concentre sur la musique de tradition « classique » et savante, le plus souvent instrumentale, d’une part, et ne tient compte que des paramètres musicaux que j’appellerai « abstraits », puisque facilement notables (comme la mélodie, l’harmonie, la forme et, dans une certaine mesure, le rythme), d’autre part[2]. C’est d’ailleurs, à mon avis, l’une des raisons qui conduisent Nattiez à conclure « qu’en elle-même, et à la différence de bien des énoncés linguistiques, la musique n’est pas un récit et que toute description de ses structures formelles [les paramètres abstraits] en termes de narrativité n’est qu’une métaphore superflue » (1990 : 88)[3]. Je suis donc d’accord avec Nattiez, dans la mesure où l’on restreint ses conclusions au corpus de la musique instrumentale savante, ou, plus généralement, lorsqu’on l’applique à une conception idéale de la musique. Comme on le verra bientôt, la musique populaire enregistrée constitue un tout autre objet envers lequel il faudra adopter une attitude radicalement différente.

Depuis la parution de l’article de Nattiez, qui faisait le bilan des efforts musicologiques depuis les années 1970 jusqu’au début des années 1990 en matière de narrativité musicale[4], plusieurs auteurs ont poursuivi l’exercice[5]. Dans ce corpus, et même lorsqu’on fait référence à la musique vocale, la musique populaire est presque systématiquement exclue. On trouve un exemple éloquent de cette attitude dans la toute récente Routledge Encyclopedia of Narrative Theory. L’auteur de l’entrée « Music and Narrative », Werner Wolf (2005), définit la narrativité musicale selon trois classes de pratiques intermédiatiques, dont les combinaisons plurimédiatiques de musique avec d’autres médias narratifs non musicaux (par exemple, le cinéma ou l’opéra)[6]. C’est évidemment dans cette catégorie que l’on classerait la chanson populaire. Pourtant, non seulement l’auteur ne consacre qu’à peine dix-sept lignes à cette catégorie (alors que les deux autres classes se voient attribuer de deux à trois pages chacune), mais il n’y est de plus aucunement mention de chanson populaire[7] ; plus encore, l’auteur masque à peine ce qui semble constituer un jugement de valeur à propos de ces formes hybrides apparemment plus « simples » (Wolf, 2005 : 325). En plus de ne mentionner que des genres plus ou moins issus de la tradition « savante », cette définition (comme à peu près partout ailleurs) ne tient compte ni de l’aspect performanciel lié à la pratique musicale, ni des développements technologiques qui sont pourtant aujourd’hui partie intégrante de la vaste majorité des productions musicales. Cette façon de concevoir la musique est malheureusement représentative de la vaste majorité des écrits traitant de narrativité musicale[8]. De reconnaître la nature singulière de la chanson nous permettrait pourtant de l’aborder comme une pratique avec un fort potentiel narratif.

Outre la combinaison musique-paroles, la nature multimédiatique, ou plus précisément multi-artistique de la chanson enregistrée, est tout aussi caractérisée par la présence d’une performance multipliée (vocale et instrumentale), elle-même fixée et médiatisée au moyen des techniques d’enregistrement. De ce point de vue, la chanson enregistrée partage un ensemble de caractéristiques avec d’autres pratiques artistiques : d’abord, analogies avec des pratiques déjà relevées par Wolf, dont la littérature, et plus particulièrement la poésie, tant par sa forme brève que par le recours à certaines stratégies textuelles communes (formes répétitives, correspondances sonores, etc.) ; analogies aussi avec certaines formes vocales de musique savante (comme le lied ou l’opéra). Mais la chanson enregistrée présente d’autres analogies également importantes avec d’autres formes d’expression ; par exemple, avec le théâtre, de par l’importance de l’interprétation, de la performance ; ou encore avec le cinéma ou la dramatique radiophonique, de par le recours, entre autres, à diverses techniques de montage. C’est en fait l’exploration de certaines de ces analogies, dans l’analyse qui va suivre, qui devrait faire ressortir, je l’espère, la singularité de la chanson populaire enregistrée, singularité qui émerge justement de son mode d’existence particulier qui a plus à voir avec ces pratiques multimédiatiques qu’avec une conception plus traditionnelle de la musique « pure ».

D’autres auteurs, pourtant tout à fait conscients du rôle crucial de la médiation de la technologie dans certaines formes d’expression, omettent ou méjugent les possibilités offertes par l’enregistrement sonore. Par exemple, dans son effort pourtant tout à fait louable de proposer une narratologie transversale des médias, Marie-Laure Ryan suggère que les technologies de l’enregistrement sonore n’ont pas été exploitées du point de vue narratif :

Bien qu’il aurait pu devenir le support d’un nouveau genre narratif, on a d’abord et avant tout utilisé le gramophone pour enregistrer la musique ou l’opéra. Autrement dit, on s’en est servi comme outil de transmission et de reproduction plutôt que d’exploiter son potentiel créatif.

2005 : 290-291. Notre traduction : nt[9]

Bien que, pour des raisons d’ordre essentiellement technique, il soit vrai en partie qu’on exploitait assez peu le potentiel créatif des techniques d’enregistrement avant l’avènement de l’enregistrement « électrique » (dans les années 1920), il est clair que, dès les années 1930, pour ce qui est de la poésie sonore du moins (Lacasse, 2000 : 79-81), de même que dès les années 1940 et 1950 pour la musique concrète (ibid. : 81-82) ou même la musique populaire, on commence à mettre à profit les nouvelles possibilités offertes par le média (techniques de prise de son ; effets d’écho et de réverbération ; enregistrement multipiste ; etc.), et ce, à des fins résolument expressives[10].

Aussi, dans ce qui suit, je propose d’illustrer, par l’analyse d’une chanson enregistrée, quelques stratégies narratives mises à l’oeuvre en montrant comment la technologie contribue à mettre en forme, à actualiser le récit. Je montrerai aussi comment la performance vocale (et sa « mise en scène ») participe aussi étroitement à l’articulation de ce récit que je qualifierai de « phonographique ». Pour l’analyse, j’ai porté mon choix sur une chanson fort controversée du rappeur Eminem : « Stan », figurant sur l’album The Marshall Mathers LP (2000)[11]. Pourquoi cette chanson plutôt qu’une autre ? Principalement parce « Stan » constitue un exemple frappant d’un récit exploitant les possibilités offertes par la technologie et qui met en scène des personnages en situation dramatique dans une sorte de film acousmatique[12]. Évidemment, ce n’est pas le cas de toutes les chansons (bien que…)[13]. Toutefois, en me concentrant sur un exemple à ce point représentatif, j’espère ouvrir la voie à une réflexion qui permettra d’aborder différemment le répertoire. Mais avant de plonger dans l’analyse proprement dite, il convient de nous entendre sur un certain nombre de notions qui permettront d’aborder la chanson enregistrée en tenant compte de ses particularités.

Définitions

Récit phonographique

Dans Performing Rites, Simon Frith propose d’aborder toute chanson comme un récit :

De façon implicite, toutes les chansons sont des récits : elles comportent un personnage principal, l’interprète, soit un personnage adoptant une attitude, faisant face à une situation, s’entretenant avec quelqu’un (si ce n’est qu’avec lui-même). C’est là une des raisons qui font dire à Leon Russelson que les chansons ne sont pas des poèmes : de ce point de vue, « la chanson est théâtre ».

1996 : 169-170. nt[14]

À mon avis, et comme je l’ai déjà suggéré, bien que la chanson enregistrée soit en plusieurs points comparables au théâtre, elle me semble plus proche du cinéma, notamment à cause du rôle central joué par la technologie.

J’ai soumis ailleurs ma vision tripartite de ce que constitue une chanson enregistrée (Lacasse, 2005a-b). En bref, il s’agit d’un ensemble de performances vocales et instrumentales (paramètres performanciels) exécutant un texte, des lignes mélodiques, des rythmes, des accords, etc. (paramètres abstraits), le tout médiatisé par les techniques d’enregistrement (paramètres technologiques). En fait, lorsqu’on écoute une chanson enregistrée, on a accès à une sorte de scène acousmatique virtuelle sur laquelle évoluent différents éléments. J’appelle « mise en scène phonographique » le résultat de ce processus de médiation. Par exemple, par le truchement des techniques d’enregistrement, et un peu à la manière du montage ou des prises de vue en cinéma, on peut entendre très clairement une voix pourtant chuchotée (sorte de gros plan acoustique) superposée à un son de guitare électrique presque imperceptible (bien que produit à un niveau sonore très élevé au moment de la prise de son). Outre ces effets de dynamique, ces techniques de prise de son et de mixage permettent également d’effectuer toutes sortes de manipulations d’ordres temporel (superposition d’événements sonores), spatial (ajout de réverbération pour créer l’impression d’un espace) ou « timbral » (transformation du timbre d’une voix qui paraît soudainement provenir du combiné d’un téléphone par exemple)[15].

Dans ce contexte, je propose d’aborder la chanson enregistrée comme un « récit phonographique », c’est-à-dire un récit dont l’articulation n’est pas restreinte au seul texte chanté et à son contenu sémantique, mais bien à l’ensemble des paramètres (abstraits, performanciels et technologiques). Comme c’est le cas dans la chanson à l’étude, tous ces paramètres contribuent à suggérer l’espace où survient l’action (à l’aide d’effets comme la réverbération, ou par le recours à des effets sonores, comme le son de la pluie), le déroulement du temps, ou les émotions ressenties par les personnages (par exemple, par le biais d’éléments paralinguistiques). Cette structure de médiation, proche de celle de la dramatique radiophonique ou du film cinématographique, nous conduit à pousser notre analogie un peu plus loin en abordant la notion de « personnage ».

Personne, persona, personnage

Frith propose d’aborder les artistes de musique populaire un peu comme des acteurs de cinéma : dans les films, le personnage incarné par l’acteur est toujours contaminé, en quelque sorte, par l’aura médiatique de l’acteur lui-même ; il appelle ce phénomène « double enactment »[16]. Ainsi, dans le contexte d’une performance vocale, Frith en vient à « diviser » l’artiste pop en trois strates qui interagissent :

En premier lieu, on retrouve le personnage présenté comme le protagoniste de la chanson, son interprète et son narrateur : l’être implicite qui contrôle l’action en adoptant une attitude et un ton spécifiques. Mais il peut y avoir aussi un personnage «   cité  », celui dont il est question dans la chanson […]. Superposé à ces personnages, on trouve la personnalité de l’interprète comme star, avec tout ce que l’on connaît à son sujet, ou plutôt, tout ce que l’on a bien voulu nous laisser croire à son sujet par le biais de la publicité et de la mise en marché. Finalement, s’ajoute notre représentation de l’interprète en tant que personne, telle que nous aimons bien nous l’imaginer, et qui nous est révélée, en fin de compte, par sa voix.

1996 : 198-199. nt

En conséquence :

L’acte de chanter, conçu comme agencement de manifestations vocales, c’est à la fois incarner le protagoniste de la chanson (avec les émotions appropriées pour ce rôle), incarner la star (en adéquation avec l’image à projeter), le tout en laissant transparaître une partie de l’être véritable : un corps physique produisant des sons physiques ; […] une présence physique qui déborde les contraintes formelles de la performance.

Ibid. : 212. nt

Philip Auslander propose de systématiser cette tripartition, notamment en renommant chacune des strates (que je traduis à mon tour) : la véritable personne, la persona de l’artiste et le(s) personnage(s) incarné(s) dans les chansons (Auslander, 2004 : 6).

Lorsque appliqué à un artiste tel qu’Eminem, ce modèle simple est particulièrement révélateur. En effet, non seulement Eminem subdivise-t-il lui-même de façon explicite son « être public » en ces trois strates, mais tout son jeu consiste précisément à rendre floues les frontières entre les trois. Cohabitent ainsi la personne Marshall Mathers (né le 17 octobre 1972 à St. Joseph, MO), la persona Eminem (dont le nom dérive d’un jeu de sonorités avec les initiales de Marshall Mathers, M&M) et les différents personnages incarnés dans les chansons, en particulier celui de Slim Shady. Ce dernier donne d’ailleurs l’occasion à Mathers de laisser s’exprimer son côté sombre (qui découle apparemment de ses expériences personnelles, souvent difficiles), stratégie à l’origine de la plupart des controverses entourant le travail du rappeur[17].

Notre analyse de la chanson « Stan » nous permettra à la fois d’identifier les différents personnages mis en scène dans la chanson (notamment le personnage central de Stan, qui correspond au « personnage cité » identifié par Frith), et de relever les diverses stratégies mises de l’avant (performancielles et technologiques) pour articuler leurs discours. L’un des aspects qui seront abordés concerne le traitement spatiotemporel du récit. À cet égard, la notion de son supradiégétique s’avérera fort utile.

Le son supradiégétique

Que nous abordions le discours chansonnier d’un point de vue strictement verbal (le texte) ou davantage dramatique (en tenant compte de la performance et de la « mise en scène phonographique »), nous sommes toujours confrontés à une particularité du genre : l’assujettissement du discours et de son énonciation au rythme et, plus généralement, au cadre musical de la chanson. Comment traiter, d’un point de vue narratologique, la présence d’un accompagnement musical dans une chanson ? Comment justifier, par exemple, le fait que le texte énoncé par un personnage soit soumis à la fois aux règles de la prosodie, à une courbe mélodique et à la pulsation imposée par le rythme ? Comment aborder les instruments que l’on entend en même temps que le discours chanté (ou rappé) ? De façon plus précise, dans la mesure où ces paramètres agissent sur notre perception de la temporalité d’une chanson et de l’environnement immédiat des protagonistes qui l’habitent, comment s’intègrent-ils (ou non) à la diégèse ?

Un genre cinématographique bien connu présente un problème analogue : la comédie musicale. Au cinéma, on distingue traditionnellement le son et la musique intradiégétiques (accessibles aux personnages, comme un orchestre jouant au cours d’une soirée à laquelle ces personnages participent) de la musique extradiégétique (non accessible aux personnages, responsable de l’« atmosphère émotive » du film). Mais qu’advient-il lorsqu’un personnage, par exemple, se met à chanter en gambadant dans la forêt, et qu’un accompagnement musical nous fait soudainement entendre un ensemble d’instruments manifestement absents du strict espace diégétique ? Le théoricien du cinéma Rick Altman aborde le problème en ces termes :

Mais peut-on dire que la chanson fait partie de la bande diégétique ? Elle semble être le fait du personnage dont les mouvements des lèvres correspondent aux paroles, elle a l'air de constituer un son diégétique. [...]Du point de vue de la source et de la motivation, elle relève de la piste diégétique, mais si l'on considère son type de production et l'effet général, elle appartient à la piste musicale [extradiégétique].

1992a : 78

À ce problème, Altman propose la solution d’ajouter un nouvel espace qui chevaucherait l’intra- et l’extradiégétique : le supradiégétique. Selon ce schéma, ce n’est plus la musique qui accompagne l’action, mais plutôt les éléments de l’action qui deviennent subordonnés au rythme musical :

À ce moment, les événements de la diégèse répondent à un nouveau type de motivation. Les sons diégétiques disparaissent, les seuls qui sont maintenus à un volume normal sont ceux qui marquent la mesure, c'est-à-dire ceux qui sont soumis à la musique (claquettes, battements de mains, sons rythmiques naturels).

Ibid. : 84

Ce rapprochement avec la comédie musicale n’est pas fortuit, comme le suggère d’ailleurs Simon Frith, qui considère la chanson comme « une mini-comédie musicale » (1996 : 211). D’une façon générale, on pourrait postuler que les chansons enregistrées se conforment à ce jeu supradiégétique : on pourrait ainsi aborder toute chanson comme un récit, avec une diégèse à l’intérieur de laquelle chacun des éléments du discours narratif ou dramatique est assujetti aux règles musicales. C’est entre autres afin de mieux faire voir l’intérêt analytique de cette approche que j’ai choisi de me pencher sur une chanson qui exploite de façon explicite ce jeu supradiégétique, établissant ainsi une analogie plus marquée entre le cinéma et la chanson enregistrée. Comme nous le verrons maintenant, dans « Stan », même les éléments naturels, aussi déchaînés soient-ils, se soumettent à la loi musicale, le tout au service du récit.

Analyse

Intrigue et structure générale du récit

« Stan » raconte l’histoire tragique d’un admirateur (fictif) d’Eminem devenu pathologiquement fanatique ; à tel point qu’il en vient à confondre (à l’instar de plusieurs détracteurs du rappeur…) le personnage de Slim Shady avec la persona d’Eminem. Il écrit ainsi plusieurs lettres à Slim Shady, lettres auxquelles Eminem voudra répondre, mais trop tard : ne recevant pas assez rapidement de réponses à ses missives, et croyant que Shady l’ignore complètement, Stan décide de commettre un crime en s’inspirant de gestes semblables posés par Slim Shady (gestes racontés dans « Kim » et « 97’ Bonnie and Clyde »)[18]. Il enferme ainsi sa femme (par ailleurs enceinte) dans le coffre arrière de sa voiture et se jette avec elle dans un cours d’eau au moment de passer un pont. Il enregistre la scène sur son dictaphone, qui sera d’ailleurs retrouvé une fois la voiture et les corps repêchés.

L’histoire de Stan est racontée sous la forme d’un récit épistolaire divisé en quatre couplets. Dans les deux premiers, on entend le personnage de Stan écrire ses lettres à Shady sur un ton de plus en plus réprobateur. Le troisième couplet nous fait entendre l’enregistrement qu’a fait Stan dans sa voiture au moment de l’accident volontaire, sorte de lettre sonore dans laquelle Stan exprime tout son dégoût et sa rage envers Shady qui l’a profondément déçu et, selon lui, trahi. Après l’accident, la chanson se clôt sur le quatrième couplet dans lequel Eminem, ignorant que Stan n’est plus de ce monde, répond finalement à ce dernier : ce n’est qu’au moment d’achever la rédaction de sa lettre qu’Eminem réalise que l’individu manifestement perturbé à qui il est en train d’écrire est en fait ce fanatique assassin dont il a entendu parler deux semaines plus tôt dans les médias : « Damn ! », s’exclame-t-il à la toute fin de la chanson[19].

Schéma formel

Le schéma formel de « Stan » est donné à la page suivante[20]. Au bas de chacun des systèmes, dont les éléments sont groupés par des accolades, se trouve un axe de repère formel où sont identifiées les sections de la chanson (couplets, refrains, pont, etc.), les mesures (chaque petite ligne verticale descendante représentant une barre de mesure de quatre temps[21]), de même que le minutage (la chanson s’étendant de 0:00 à 6:44). Pour faciliter le repérage, les indications de minutage coïncident avec des moments significatifs de la structure formelle, moments par ailleurs soulignés par la présence de barres de mesure verticalement plus longues. Par exemple, dans le premier système, l’indication « 0:24 » correspond au moment où l’instrumentation complète de la chanson fait son entrée. Comme bien souvent en musique populaire, ces sous-divisions correspondent à des groupes hypermétriques de quatre ou huit mesures.

Figure 1

Schéma formel de « Stan » (2000)

Schéma formel de « Stan » (2000)

Figure 1 (suite)

Schéma formel de « Stan » (2000)

-> Voir la liste des figures

Les différents segments étiquetés |——Sample——|, qui sont placés au-dessus de cet axe de repère formel, renvoient à des événements sonores bien précis entendus au cours de l’enregistrement. Pour faciliter la lecture (en évitant, par exemple, la superposition d’événements simultanés), j’ai choisi de répartir ces événements sonores sur deux strates principales : une strate « vocale » d’abord, et une seconde, où sont regroupés des effets sonores sans manifestations vocales. Ainsi, les segments étiquetés « Stan » et « Eminem » représentent les lignes vocales exécutées par les deux personnages centraux de la chanson (tous deux interprétés par Eminem ou, si l’on préfère, par Marshall Mathers). Le segment « Sample » renvoie, quant à lui, à l’extrait de la chanson « Thank You » (1999) de l’artiste britannique Dido, extrait qui a été inséré dans « Stan » et qui tient lieu de refrain[22]. Cette strate vocale inclut également les cris poussés par la femme enfermée dans le coffre arrière (4:30-4:55). Sous cette strate vocale, j’ai placé différents effets sonores entendus au fil de la chanson : le tonnerre (T), le son d’un crayon glissant sur le papier, celui des essuie-glaces, de même que les bruits liés à l’accident (« Crash » et « Eau » survenant entre 4:48 et 5:00)[23].

Temps et espace

Relations supradiégétiques : le tonnerre

Comme l’illustre bien notre schéma formel, le temps d’une chanson enregistrée est littéralement mesuré : il est divisé et subdivisé en mesures et en temps musicaux (noires, croches, etc.), selon une pulsation rythmique qui régule l’ensemble des événements sonores. Ainsi, les sections formelles débutent et se terminent généralement à des moments précis ; c’est aussi en fonction de cette division rythmique que s’articulent et s’agencent les exécutions vocales et musicales, et même la plupart des effets sonores. Comme on l’a vu, c’est précisément cette dimension rythmique mesurée qui donne lieu à un univers où peuvent s’établir des rapports d’ordre supradiégétique entre les aspects musicaux et les autres éléments de la diégèse, un univers dans lequel tout (ou presque) s’échafaude et se combine au gré d’une pulsation maîtresse.

Selon Altman, dans la comédie musicale, c’est en partie cette étrange interaction qui permet d’explorer des rapports souvent inédits entre l’imaginaire et le réel :

Dans les oeuvres relevant d’autres genres [que la comédie musicale] , les pistes musicale et diégétique restent totalement séparées ; dans la comédie musicale elles se livrent à un chassé-croisé permanent. La musique s’infiltre dans la bande diégétique, des bruits diégétiques se transforment en musique. [...]En abattant la barrière entre les deux pistes, la comédie musicale brouille la frontière entre la réalité et l’idéal.

1992a : 77

Ce rapport particulier qu’entretient la comédie musicale avec la réalité et l’idéal m’apparaît tout aussi caractéristique de l’enregistrement qui nous intéresse. En effet, et comme le montre le schéma formel de « Stan », même les coups de tonnerre sont soumis à l’emprise du rythme musical et semblent tenir lieu de ponctuation structurante. En plus des coups de tonnerre qui ouvrent et closent la chanson, on retrouve tous ceux qui surviennent lors du passage d’une section formelle à une autre[24]. Ce rôle de ponctuation est même observable à l’intérieur de la plupart des couplets, comme pour marquer les groupes hypermétriques de huit mesures évoqués plus haut. De plus, à certains endroits dans les refrains, la batterie s’arrête momentanément, comme pour laisser une place au tonnerre, autre indice des rapports intimes qui s’établissent entre effets sonores et musique : les sons diégétiques sont maintenant absorbés, en quelque sorte, par le cadre musical supradiégétique. Mais à quel moment ce passage du diégétique au supradiégétique s’opère-t-il ?

C’est le coup de tonnerre le plus intense qui joue peut-être le rôle de transition le plus important, soit celui soulignant la division de l’introduction en deux parties (0:24), et, du même coup, le passage du son (et de la musique) diégétique au supradiégétique[25]. En effet, les 24 premières secondes de la chanson s’ouvrent, comme je l’ai dit, sur un coup de tonnerre, immédiatement suivi par l’extrait de la chanson de Dido, le tout superposé au son de la pluie. Or, l’extrait de « Thank You » est manipulé (d’où la mention « filtré » en indice dans le schéma), de telle sorte qu’on a l’impression qu’il provient d’un endroit spécifique dans la diégèse, du moins autant que faire se peut en situation acousmatique : peut-être d’un poste de radio ou de télévision, ou encore d’une chaîne stéréo éloignée de nous. Plus encore, et comme le montre l’épingle croissante du signe de crescendo sur le schéma, le niveau sonore de l’extrait augmente, passant approximativement de la nuance piano à mezzo forte, comme si on s’en approchait. Cette mise en scène nous suggère donc une musique qui semble d’abord intégrée à la diégèse, au même titre que le tonnerre et la pluie. Puis, lorsque survient le grand coup de tonnerre (0:24), l’extrait se trouve soudainement accompagné d’une section rythmique supplémentaire (batterie et basse) et de guitares, prenant ainsi l’avant-scène. C’est à partir de ce moment qu’on observe que tous les éléments de la diégèse sonore sont soumis au rythme qui impose l’extrait soutenu par cette nouvelle instrumentation[26].

Cette façon d’opérer la transition entre une musique intra- puis supradiégétique est d’ailleurs très semblable à ce qu’Altman a observé dans les comédies musicales. Altman montre bien que le passage du diégétique au supradiégétique s’opère le plus souvent par le biais de ce qu’il appelle un « fondu sonore » :

Les événements qui semblent se dérouler selon un processus entièrement causal glissent [...],grâce au fondu sonore, vers la réduction du son diégétique et l'introduction d'une musique supra-diégétique transcendante.

1992a : 84

Dans notre chanson, le tonnerre contribue manifestement à la transition (plus soudaine, j’en conviens, mais tout de même présente), tout en annonçant, d’une façon plus métaphorique cette fois, que l’histoire que l’on s’apprête à raconter n’est pas nécessairement joyeuse.

En effet, en plus de ce rôle formel structurant, le tonnerre semble aussi avoir une fonction connotative. Un peu à la manière d’anciens films gothiques ou d’épouvante, ou de leurs caricatures, l’orage qui gronde et les coups de tonnerre bien placés agissent comme un commentaire sur l’action, ou en enrichissent la portée émotive. Tout d’abord, il me semble important de souligner le rapprochement, d’une part, entre l’orage qui gronde à l’extérieur et, d’autre part, la musique, au tout début, qui semble provenir d’un endroit spécifique à l’intérieur[27] . Fait intéressant, les paroles de l’extrait de « Thank You » font référence à une fenêtre (window), lieu de transition par excellence, justement, entre le monde extérieur et l’intérieur[28]. D’ailleurs, lorsqu’on compare l’enregistrement original de la chanson de Dido avec l’extrait inséré dans « Stan », on se rend compte qu’un effet d’écho a été ajouté au mot window dans l’extrait figurant dans « Stan », effet qui fait ressortir le mot (et donc l’allusion) encore davantage. Un autre coup de tonnerre bien placé survient vers 1:12 sur le mot « Bonnie », soit au moment où Stan annonce à Slim Shady que sa femme est enceinte et que, si c’est une fille, elle s’appellera Bonnie, en l’honneur de la fille de Slim Shady[29]. Le coup de tonnerre sur le mot « Bonnie » suggère ainsi un malaise, et annonce, par le truchement d’un lien intertextuel et transfictionnel, le malheur à venir, lui aussi inspiré par l’acte criminel raconté dans « 97’ Bonnie and Clyde ».

Ordre et durée

Contrairement au récit littéraire, qui « n’a pas d’autre temporalité que celle qu’il emprunte, métonymiquement, à sa propre lecture » (Genette, 1972 : 78), la durée d’une chanson enregistrée, à l’instar d’autres manifestations qui se déroulent « dans le temps » (film, concert, pièce de théâtre, etc.), est fixe[30]. Dans le cas qui nous occupe, le récit « dure » exactement 6 minutes et 44 secondes. Bien entendu, cette durée ne correspond pas au « temps » de l’histoire racontée, laquelle, selon les indices fournis par l’enregistrement et le texte, semble s’étendre sur une période d’au moins six mois, soit entre le moment où Stan écrit sa première lettre au début de la chanson et celui où Eminem achève la sienne à la toute fin[31].

Comme je l’ai rapidement évoqué plus haut, le récit est structuré en quatre couplets entrecoupés par le retour du refrain. D’un point de vue dramatique, l’action de chacun des couplets se déroule à des moments différents ayant leur durée propre. Le récit phonographique découpe donc l’histoire en segments, que j’appellerai, par analogie avec le cinéma, des « séquences ». Ce fractionnement elliptique ne présente toutefois pas d’anachronies : il s’agit simplement de quatre séquences isolées qui sont ordonnées de façon chronologique et qui sont séparées par d’importantes ellipses[32]. Tous les refrains qui suivent les couplets (et le pont) jouent donc un rôle de transition entre les différentes séquences dramatiques (j’y reviendrai). En même temps, et comme pour donner une unité thématique (bien qu’idéale) à cet ensemble par ailleurs segmenté, la pluie et le tonnerre sont présents tout au long de la chanson, donnant ainsi l’impression que l’orage gronde sans relâche depuis six mois, ou encore que Stan a subi un mauvais sort et que son personnage est irrémédiablement lié au mauvais temps (un trope tout à fait conforme aux genres fictionnels dont semble relever la chanson).

Toutes ces séquences ont lieu à des moments et en des endroits spécifiques relativement identifiables : nous nous trouvons vraisemblablement chez Stan, dans les deux premiers couplets ; dans sa voiture, dans le troisième ; et finalement chez Eminem, dans le quatrième (bien que ce dernier puisse se trouver n’importe où, considérant qu’il effectue tournée après tournée). De plus, l’intervalle de temps plus ou moins mesurable qui s’écoule entre chacun de ces moments permet de justifier la colère grandissante de Stan vis-à-vis d’Eminem, une colère qui s’entend de plusieurs façons, comme notre analyse des modes de représentation et des voix l’illustrera.

Modes et voix

Comme au théâtre, au cinéma ou à la radio, la chanson enregistrée permet de « montrer » (de façon acousmatique) l’action. Bien que plusieurs chansons mettent en scène un narrateur racontant, en partie ou en totalité, une histoire, la chanson à l’étude est construite sur le mode de la représentation dramatique : on nous y présente des « tranches » d’action – chacune, comme on l’a vu, se déroulant en temps réel à des moments et en des lieux différents –, durant lesquelles interviennent des personnages dont on entend le discours. Ce discours « direct » est cependant de deux types : discours intérieur, lorsque Stan ou Eminem écrivent leurs lettres (indiqué par la mention « écrit » en indice dans le schéma formel) ; et discours prononcé, lorsque Stan s’enregistre au moment de l’accident dans le troisième couplet (incluant les cris de sa femme), ou lorsque Eminem prononce « Damn ! » (indiqué par la mention « parle » dans le schéma).

Ici encore, le recours aux techniques d’enregistrement permet de mettre phonographiquement en scène ces différentes formes de discours, en plus de rendre audibles les émotions ressenties et exprimées par les personnages. Bien que la chanson enregistrée soit une forme d’expression acousmatique, il est tout à fait possible de manipuler les voix de façon à ce qu’elles semblent présentes ou non dans le cadre de la scène sonore virtuelle (par exemple, en jouant avec des effets stéréophoniques ou en altérant le timbre de façon significative), ou afin de suggérer que le discours soit effectivement prononcé, ou énoncé intérieurement. Ce sont ces différentes configurations que nous allons maintenant aborder, selon que les voix sont intérieures ou prononcées à voix haute[33].

Voix intérieures

Lorsque les personnages de Stan et d’Eminem rédigent leurs lettres, nous entendons leur voix respective. Or, il est plus que probable que le discours entendu ne soit pas prononcé à voix haute ; plutôt, il s’agit simplement d’une représentation sonore du texte en train d’être rédigé par l’auteur de chacune des lettres. Parmi les indices qui nous indiquent que ces voix sont intérieures, mentionnons la présence de réverbération dans la voix, de même que le son du crayon glissant sur le papier. En effet, la réverbération qui affecte les voix de Stan et d’Eminem, lorsqu’ils écrivent, fait en sorte de situer leurs voix dans un environnement sonore détaché de celui où ils se trouvent physiquement. Dans les deux cas, le son du crayon n’est affecté d’aucune réverbération, suggérant qu’un énoncé à voix haute dans le même environnement n’en serait pas affecté non plus, ce qui n’est pas le cas. De plus, le niveau sonore élevé du crayon suggère que le point d’écoute est tout près du personnage : une telle proximité ne donnerait pas lieu à une voix réverbérée. En fait, tout se passe comme si ce que l’on entend correspondait à ce que le sujet entend lui-même au moment d’écrire sa lettre : les sons de son environnement physique immédiat (le crayon tout proche, l’orage, la musique de Dido – par ailleurs devenue supradiégétique), de même que son propre discours, qu’il objective, en quelque sorte, comme le suggère la réverbération qui détache cette voix de l’environnement physique du sujet. Cet effet de mise en scène vocale est différent des cas où le discours est prononcé à voix haute.

Voix prononcées

Pour Jean Châteauvert,

[...] le dialogue correspond à la forme canonique de discours [filmique], prononcé à voix haute dans la diégèse visualisée, et qui est potentiellement accessible à tout personnage se trouvant dans le même environnement.

1996 : 142

Comme l’indique le mot « potentiellement » de cette définition, et en dépit de ce que suggère son appellation, le dialogue n’exige pas la présence effective de deux ou de plusieurs personnes : il s’agit plutôt d’un énoncé « qui peut prendre la forme d’un dialogue effectif ou d’un monologue à voix haute, susceptibles, l’un comme l’autre, d’être entendus par tout personnage figurant dans cet environnement » (ibid.). Ici, le mot « environnement » est crucial : en effet (et contrairement à la voix intérieure dont on vient de parler), puisque le dialogue a lieu dans un environnement, le son de la voix devient automatiquement « teinté » par cet environnement, conférant à la voix ce que Rick Altman appelle une « signature spatiale »[34].

Dans le troisième couplet, Stan s’enregistre lui-même à voix haute alors qu’il conduit sa voiture. Sa voix est alors potentiellement accessible aux autres personnages partageant son espace diégétique. Aussi entreprend-il une sorte de double dialogue : d’abord, un dialogue indirect avec Slim Shady à travers le dictaphone ; ensuite avec sa femme (« Shut up bitch ! », 4:31-4:32), qui est enfermée dans le coffre arrière et qui pousse des cris pendant l’enregistrement. Dans ce contexte, la voix de Stan résonne tout à fait comme si elle émanait de l’habitacle d’une voiture, tout comme la voix de sa femme, dont le timbre a été altéré de façon à donner l’impression qu’elle provient du coffre, et donc qu’elle est située à une certaine distance du dictaphone. On pourrait même aller jusqu’à considérer la voix de Stan comme étant in et celle de sa femme comme étant hors champ (off), comme le suggère leur signature spatiale respective. De plus, le son des essuie-glaces, superposé à celui de la pluie, contribue au réalisme de la séquence, qui débouche sur l’accident (4:48-5:00), lui aussi représenté de façon réaliste avec les bruits de pneus qui crissent avant l’impact et la plongée dans le cours d’eau. Toutefois, et comme le montre le schéma formel, ce réalisme est constamment fragilisé, puisque tous ces sons demeurent assujettis à la musique supradiégétique qui rythme l’ensemble (par exemple, les pneus commencent à crisser sur le premier temps de la mesure, tout comme le son de la voiture qui plonge dans l’eau). Cette dernière remarque au sujet de la musique nous amène à traiter de la performance vocale.

Performances vocales

L’une des caractéristiques de la chanson enregistrée qui la rapproche de pratiques comme le théâtre ou le cinéma, en même temps qu’elle l’éloigne de la littérature, concerne la présence de performances vocales, fixées et médiatisées par les techniques d’enregistrement sonore. Ainsi, « les particularités de l’élocution » (Genette, 1983 : 34), comme le timbre de la voix, les intonations, les accents, etc., deviennent partie intégrante de la chanson. Ce sont ces aspects paralinguistiques qui permettent à la fois d’identifier les personnages et de véhiculer leurs états émotifs (Poyatos, 1993). Or, comme on l’a vu, l’interaction entre les trois niveaux identitaires que sont la personne, la persona et le personnage ajoute à l’ensemble : ici, c’est évidemment Marshall Mathers qui incarne les personnages de Stan et d’Eminem dans notre chanson. Le mot « incarne » devient important, dans la mesure où c’est dans la voix enregistrée que subsistent les seules traces concrètes et physiques de la personne de Mathers, qui les contrôle de façon à jouer ces rôles. En même temps, la persona publique d’Eminem fait en sorte que c’est ce niveau d’identité qui, peut-être, domine tous les autres : lorsqu’on entend Stan, et bien que l’on comprenne qu’il s’agisse de Stan (le personnage), on entend néanmoins toujours Eminem (la persona), par l’entremise de Mathers (la personne). Voyons de plus près comment se manifestent ces différentes relations.

Mathers personnifie vocalement les personnages de Stan et d’Eminem en donnant à chacun un timbre relativement spécifique. La voix de Stan est ainsi plus aiguë et nasillarde que celle d’Eminem qui, dans le dernier couplet, présente plus de basses fréquences[35]. Par ailleurs, le ressentiment croissant de Stan est évidemment aussi reflété dans la performance vocale de Mathers. Ainsi, bien que l’on sente une pointe de déception dans le premier couplet, le deuxième couplet est généralement énoncé avec plus d’intensité, et certains mots plus particulièrement, comme « fucked up » (2:04-2:05) ou « pain » (2:51-2:52). Toutefois, c’est dans le troisième couplet que Stan éclate véritablement, alors qu’il s’enregistre sur son dictaphone. Déjà, la performance de Mathers dans les sections A et B du couplet 3 illustre l’état d’esprit du personnage, qui s’apprête à commettre son geste. Mais c’est au moment de passer à la section C que culmine l’action ; Stan crie alors à Shady, à qui il souhaite de faire des cauchemars à son sujet :

You ruined it now, I hope you can’t sleep and you dream about it

And when you dream I hope you can’t sleep and you SCREAM about it

I hope your CONscience EATS at you and you can’t BREATHE without me (4:21-4:31)

Dans cet extrait de dix secondes, l’accentuation (représentée par le souligné) joue un rôle central dans l’expression des sentiments exprimés par Stan. Non seulement fait-elle ressortir les mots importants, mais elle échange magistralement avec le rythme imposé par le cadre musical de la chanson, un trait d’ailleurs caractéristique du rap (Béthune, 2004 : 79-81). Quant aux majuscules, elles indiquent les syllabes qui sont prononcées avec une voix rauque, illustrant ainsi clairement la colère du personnage[36]. On le voit, l’élocution constitue un élément capital d’une chanson enregistrée. J’en conviens, « Stan » est avant tout rappée, et donc différente d’une chanson avec une mélodie chantée. Pourtant, une voix chantante intervient à chaque refrain : celle de Dido.

Dido : narratrice supradiégétique ?

Jusqu’à maintenant, nous n’avons abordé le refrain de la chanson, et donc l’extrait de « Thank You » de Dido, que selon une perspective formelle : l’extrait joue un rôle de transition spatiotemporel, nous permettant de sauter d’une séquence dramatique à une autre. Toutefois, la nature singulière de la chanson nous oblige à considérer les rapports que peut entretenir ce refrain avec notre récit. En d’autres termes : quelle serait la fonction de cet extrait, d’un point de vue narratologique[37] ? Dido pourrait être considérée comme une sorte de narratrice supradiégétique (donc présente à la fois dans l’espace intradiégétique et extradiégétique) commentant, d’une certaine façon, le récit. Pour nous permettre d’explorer cette avenue, je reproduis le texte de l’extrait en question :

My tea’s gone cold I’m wondering why

I got out of bed at all

The morning rain clouds up my window

and I can’t see at all

And even if I could it’d all be gray,

but your picture on my wall

It reminds me, that it’s not so bad,

it’s not so bad

Ce texte entretient des rapports évidents avec notre histoire. D’abord, la présence de la pluie et de l’ambiance « grise » correspond tout à fait à l’atmosphère sombre dépeinte dans « Stan ». Ensuite, la ligne « but your picture on my wall » renvoie à deux extraits tirés des lettres de Stan à Slim Shady. Dans le premier couplet, un Stan toujours admiratif écrit : « I got a room full of your posters and your pictures man », alors qu’une fois désillusionné et en colère (dans le troisième couplet), on l’entend vociférer : « I hope you know I ripped all of your pictures off the wall ». En plus de ces correspondances, le contenu musical de l’extrait (la mélodie et l’harmonie, entre autres) ajoute une touche presque sentimentale à l’ensemble.

Dans le contexte de l’attitude de Stan qui passe d’une admiration fanatique à une haine (auto)destructrice, le refrain ajoute au récit en éclairant l’action différemment à chacun de ses passages : au tout début, et comme on l’a vu, la manipulation « timbrale » de l’extrait et l’environnement sonore dans lequel il est plongé installent déjà l’auditeur dans une ambiance plutôt sombre :

Le premier élément accrocheur, cet index qui nous fait signe, est carrément génial. La voix de Dido est étouffée sous les sons de l’orage et une couche de bruits parasites électroniques (comme si sa voix venait du casque d’écoute d’un étranger assis tout près de nous). Obligé d’écouter, on est déjà attiré vers une nouvelle vie, vers le monde de quelqu’un d’autre; et pour ce seul instant, on s’expose, sans protection.

McKinney, 2005 : 315. nt[38]

Puis, dans le contexte des deux premiers couplets (avant l’accident), le refrain contribue à véhiculer une partie des sentiments ressentis par Stan qui oscillent entre une tristesse profonde et une sorte de répit que lui accorde sa « relation » avec son idole, Slim Shady. Après l’accident, l’extrait devient plutôt rétrospectivement nostalgique et se juxtapose, en quelque sorte, à notre propre consternation devant les événements racontés. Comme c’est le cas dans la plupart des chansons, la répétition structurelle du refrain ne coïncide donc pas avec un discours réitéré : à chaque passage, sa signification s’enrichit plutôt du contexte dans lequel il s’insère. De plus, dans le cas qui nous occupe, le fait que l’extrait provienne d’une autre chanson contribue à lui conférer ce statut potentiel de commentateur. Il s’agit d’un corps étranger qui, en s’intégrant à l’ensemble, n’en demeure pas moins toujours détaché. C’est là, je pense, l’un des atouts du statut supradiégétique, l’une des façons de rendre palpable ce jeu entre l’idéal et le réel dont parle Altman.

Conclusion

Dans son article à propos de « moments magiques » en musique populaire, Devin McKinney fait un parallèle entre « Stan » et d’autres chansons du même genre des années 1960. En particulier, il entend dans « Stan » une claire évocation des chansons réalisées par ce personnage mystérieux au nom emblématique, George « Shadow » Morton :

Eminem réactive un scénario des plus élémentaires, un scénario dans lequel la route n’est pas une métaphore existentielle, mais plutôt le théâtre de l’expression des émotions : un lieu où se jouent l’effroi, le désastre, l’autodestruction. Remontez cette route jusqu’à son point de départ, et qui trouvez-vous en train d’appeler Eminem à travers les décennies? Les Shangi-Las! On entend le début de «   Remember (Walking in the Sand)   ». On entend les orages, et des adolescents de la ville pleurant sur des autoroutes abandonnées. On perçoit l’impression cinématographique d’un espace enregistré, de même que des récits d’amours obsessifs, de séparations irréconciliables, de morts violentes (causées le plus souvent par des accidents de la route). […] «   Stan  » n’est plus ce récit ultraviolent que j’ai d’abord cru entendre, aussi incisif et vide d’émotion qu’un film de Tarantino ; plutôt, il s’agit d’un pur opéra-pop mélodramatique, mais plus riche et plus engagé.

McKinney, 2005 : 315-316. nt

Dans cet article, j’ai voulu montrer comment la chanson enregistrée, conçue comme une forme d’expression multimédiatique (proche du cinéma), permettait de structurer un récit à l’aide de paramètres autres que son seul texte. J’ai d’ailleurs volontairement écarté le plus possible l’analyse narratologique du texte de « Stan », de façon à me concentrer sur le rôle de la voix et de la technologie. Une analyse du texte dévoilerait une structure narrative riche et complexe, remplie de liens intertextuels et transfictionnels divers, mais en même temps fort différente de celle décrite dans cet article consacré au rôle de la voix et de la technologie. Je laisse donc le soin à d’autres de procéder à une telle analyse, de façon à montrer les rapports que cette structure entretient avec celle du récit phonographique. La chanson enregistrée, abordée comme objet multimédiatique, exige que l’on tienne compte du texte, bien sûr, mais pas au détriment des autres paramètres.

Comme je l’ai suggéré au début de cet article, je suis d’avis que le terme « musique » est fréquemment restreint à une certaine conception qui exclut, le plus souvent, le type de chanson dont il a été question ici. En fait, et comme je l’ai à plusieurs reprises signalé ailleurs, la musique populaire enregistrée consiste en une forme d’expression relativement éloignée de notre conception traditionnelle de la musique (au même titre que, par exemple, la musique électroacoustique). Il s’agit toutefois toujours d’un art de la « combinaison des sons », mais de sons concrets, audibles, matériels, charnels même. C’est dans cet agencement de lignes mélodiques, de rythmes et de sons physiques que se trouve la richesse d’une telle pratique.

Un tel plaidoyer ne vise toutefois pas à justifier la valeur ni l’ensemble de la production musicale populaire, ni du travail d’un artiste en particulier comme Eminem. J’ai choisi Eminem notamment à cause de sa très grande popularité ; j’ai également choisi de ne pas me prononcer sur la valeur (esthétique ou morale) de son travail[39]. Mon objectif était plutôt de suggérer quelques pistes qui pourraient aider à mieux comprendre le mécanisme au coeur de ce type d’objet ; à mieux comprendre comment une telle construction parvenait à véhiculer un ensemble de significations, lesquelles, une fois lancées, peuvent alors donner lieu à une série d’interprétations et de jugements. Il me semble toutefois clair que, du point de vue d’une construction destinée à raconter une histoire, la structure narrative de cette chanson, à l’instar d’innombrables autres, est particulièrement efficace.