Corps de l’article

Dans ses premiers articles sur la télévision, André Bazin (1953, p. 35) insiste sur le fait que « la télévision n’est pas le cinéma [1] ». Plus que d’autres critiques des années 1950, il est d’une constante vigilance sur les risques, selon lui jamais définitivement écartés, du recours aux critères du cinéma pour évaluer les réalisations télévisuelles. Il n’hésite pas à réfuter vigoureusement les jugements de ses confrères lorsqu’il y décèle un préjugé qui « implique inconsciemment une analogie désastreuse avec le film » (p. 35). Pour le spectateur d’aujourd’hui, mais aussi pour le professionnel des médias ou même pour l’analyste, le recours au vocabulaire du cinéma pour parler de la télévision semble le plus souvent aller de soi : comment pourrait-on se passer des notions de « plan », de « montage » ou de « hors-champ » pour décrire les réalisations télévisuelles ? Je voudrais interroger cette évidence et esquisser des éléments de réponse en m’appuyant principalement sur le témoignage de certains observateurs de la télévision des débuts ainsi que sur les réflexions et la pratique de quelques-uns de ses premiers réalisateurs. Ceux-ci, surtout quand ils venaient du milieu du cinéma, ont en effet été particulièrement soucieux d’identifier les ressources expressives du nouveau média et de montrer pourquoi et comment les productions de la télévision devaient se libérer du modèle du film, y compris dans les émissions filmées [2]. Des productions plus récentes, enregistrées puis diffusées en différé, montrent que les questionnements des débuts conservent leur validité.

Le continu et le discontinu

À la vision d’un film, le sentiment de continuité qui s’impose ordinairement au spectateur est le résultat de deux opérations corrélatives et complémentaires. La première est celle du filmage : au fil des prises de vues successives, l’action à représenter est découpée en petites unités (les « prises ») qui constituent chacune un fragment homogène d’espace et de temps. La seconde opération est celle du montage, qui consiste à sélectionner les prises, à en déterminer la durée, puis à assembler et à articuler les nouveaux fragments ainsi obtenus (les « plans ») de manière à recréer ou à restaurer la continuité visée. On appelle « découpage classique » ce mode d’organisation des fragments filmés qui tend à effacer au maximum les découpes du filmage et les coupes du montage. C’est notamment le rôle des raccords de masquer la discontinuité constitutive du film au profit de la plus grande continuité perceptive.

La télévision est étrangère à cette dialectique du continu et du discontinu. En télévision directe, l’émission est continue (pas de seconde prise possible) et, sauf accident, rien ne saurait l’arrêter. À la différence du film, dont la continuité spatio-temporelle est à construire, la réalisation télévisuelle ne vise pas, à proprement parler, à construire mais à transmettre. C’est en effet sur la base d’un espace et d’un temps déjà donnés que le réalisateur de direct enchaîne les images et ordonne le déroulement visuel.

Les pionniers de la télévision ont ressenti de manière aiguë cette obligation de continuité : à la fois comme une contrainte technique et comme une exigence esthétique. À la fin des années 1930, à la suite d’une visite à la BBC, Marie Seton (1938, p. 885) compare quatre émissions dramatiques dont elle a pu observer la réalisation dans les studios de l’Alexandra Palace. Elle est particulièrement frappée par l’ingéniosité de la retransmission d’une pièce d’Eugene O’Neill (The Emperor Jones) composée de courtes scènes, mais dont la mise en scène avait été entièrement pensée pour assurer une parfaite continuité de l’action : un décor de forêt, en demi-cercle, occupait trois des quatre côtés du plateau ; à partir du moment où le protagoniste entrait dans la forêt, il ne cessait plus d’avancer dans le décor semi-circulaire, suivi dans son déplacement par deux caméras, de sorte qu’à aucun moment rien ne venait rompre la courbe ascendante de l’émotion. À la fin des années 1940 et au début des années 1950, alors qu’à la télévision britannique l’usage était d’utiliser trois ou quatre caméras, un réalisateur venu du théâtre, Fred O’Donovan, s’est rendu célèbre par sa technique de la caméra unique — « one-scene/one-camera » (Jacobs 2000, p. 61-63). En 1952, dans le cadre d’échanges artistiques franco-britanniques, ce même réalisateur vient mettre en scène dans les studios de la télévision française Rebecca, la pièce de Daphné du Maurier adaptée de son propre roman. L’action, écrit la critique Janick Arbois (1952, p. 9),

[…] se déroulait dans un décor qui comprenait trois pièces en enfilade dans lesquelles la caméra se mouvait avec une surprenante souplesse […]. Au lieu du sautillement souvent capricieux d’un plan à l’autre, au lieu également du choix parfois arbitraire ou naïf de tel personnage (généralement celui qui parle. Pourquoi ?), nous suivions pas à pas, avec une sorte d’intensité jamais troublée et jamais défaillante, le drame qui se préparait.

La critique de Radio-Cinéma-Télévision voit dans le parti pris du réalisateur d’assumer pleinement la contrainte technique de continuité « une véritable invention esthétique » et un pas décisif « dans la voie d’une élaboration d’un art original de la télévision » ; au point qu’elle ne craint pas d’intituler son article « La caméra unique est-elle l’avenir du théâtre télévisé ? » (p. 9).

Paradoxalement, aux yeux des premiers réalisateurs, la pièce de théâtre, matériau privilégié des émissions dramatiques jusqu’au milieu des années 1950, n’est pas sans opposer, par sa nature même, une certaine résistance à l’exigence de continuité qu’impose le nouveau média. Comment, se demande-t-on, obtenir un déroulement visuel parfaitement continu à partir d’une oeuvre fondamentalement discontinue ? Comment résoudre le problème du passage d’un acte à l’autre ? Et que faire de l’interruption de l’entracte ? Si l’on rejette la solution de facilité qui consiste à utiliser des cartons portant les mentions « Acte I », « Acte II », « Acte III », quelles sont les solutions de rechange ? Faut-il, comme au cinéma, ponctuer le déroulement dramatique par des fondus ? Ou bien s’arrêter sur un accessoire quelconque présent dans le décor et le cadrer quelques secondes en plan fixe ? Ou encore laisser un moment le champ vide ? Ou même, si l’intrigue le permet, insérer une courte séquence filmée pour combler l’ellipse entre deux actes (par exemple en accompagnant un personnage dans son trajet d’un lieu à un autre) ? Toutes ces questions, le responsable des émissions dramatiques de la télévision française, Bernard Hecht, les évoque, en 1957, devant un auditoire de réalisateurs stagiaires dans le but de les sensibiliser à la spécificité de la dramatique télévisée. Il se demande comment nommer

[…] cette chose qui n’est pas du théâtre, qui n’est pas du cinéma, mais qui veut être une forme particulière d’expression seulement valable pour la télévision […]. De la même façon qu’on dit « pièce » quand on parle de théâtre, « long métrage » quand il s’agit de cinéma, j’appelle « continuité », à défaut d’expression plus heureuse, la forme dramatique particulière à la télévision.

Hecht 1957, p. 2-3

Pour Hecht, le terme de « continuité », emprunté au vocabulaire cinématographique pour désigner l’oeuvre télévisuelle, a le mérite de mettre en évidence ce qui lui semble une difficulté majeure du travail de réalisation : la télévision exige « une progression dramatique continue qui, à l’inverse du théâtre, ne doit pas être arbitrairement fragmentée en actes, en scènes ou en tableaux ; […] une action dramatique qui se déroule ou semble se dérouler aux yeux du spectateur comme le temps lui-même » (p. 2-3).

Qui se déroule ou semble se dérouler : faut-il comprendre que « le temps lui-même » — la transmission du spectacle en temps réel — pourrait n’être que du semblant ? Dès la fin des années 1930, en Grande-Bretagne et en Allemagne, puis après la guerre aux États-Unis, le souci d’affirmer l’originalité du spectacle télévisé par rapport au spectacle théâtral ouvre la voie à la pratique de l’insert. En cours d’émission, une caméra de télécinéma prend le relais des caméras de plateau pour y insérer, sans en interrompre le déroulement, une scène préalablement filmée (images d’extérieurs, scène de foule, retour en arrière…). Au début des années 1950, devant certaines réalisations de la télévision française, Marcel L’Herbier (1954, p. 34-35) s’émerveille de la possibilité qu’offre l’alternance de scènes en studio et de scènes filmées de « jongler […] avec les notions irréductibles et sans doute ennemies de théâtre et de cinéma » ; il y voit la promesse d’un « art télécinématographique » qui ne soit « pas plus à la remorque du théâtre que du cinéma », mais qui conjugue « les vertus de la pièce et les vertus du film ».

Le procédé de l’insert, qui a l’avantage d’ajouter au réalisme tout en permettant de résoudre certains problèmes matériels (ne serait-ce que celui du temps nécessaire aux cameramen pour se déplacer sur le plateau d’un décor à un autre, ou aux acteurs pour changer de costume), comporte toutefois un inconvénient : dans le passage d’un décor de studio à un décor réel, c’est-à-dire filmé, le risque est grand que l’hétérogénéité des images, au moment du changement de plan, vienne rompre la continuité recherchée. André Bazin (1957) se montre particulièrement attentif aux efforts des réalisateurs pour maintenir une continuité visuelle homogène. Il ne manque jamais, dans ses critiques, de les féliciter lorsque leurs inserts passent inaperçus. S’il lui arrive, en regardant une émission dramatique, de ne plus réussir à distinguer les scènes filmées des scènes en direct — ou même de se méprendre en prenant une émission en direct pour une émission filmée —, loin de se reprocher son manque de discernement, il y voit plutôt la preuve de l’habileté du réalisateur qui a su articuler une continuité qui fasse illusion. Autrement dit, pour que l’exigence esthétique de continuité soit satisfaite, il suffit qu’on puisse y croire.

La télévision imite-t-elle le cinéma ?

Mais la recherche d’une continuité fluide, sans heurt, ne conduit-elle pas inévitablement à adopter, qu’on le veuille ou non, les procédés éprouvés du découpage classique ; et au lieu de se démarquer du cinéma, comme le voulaient Hecht et L’Herbier, à en reconduire au contraire les conventions les mieux établies ? Si l’on considère, par exemple, la première grande série policière de la télévision française, Les cinq dernières minutes [3] (1958), n’a-t-on pas le sentiment que — en dehors des quelques brefs moments d’adresse directe du protagoniste au spectateur qui ponctuent rituellement le déroulement de l’enquête — la réalisation est en tout point conforme à ce que peut attendre un spectateur de film ? En réalité, dans cette série comme dans d’autres des années 1950, le respect des conventions cinématographiques est plus apparent que réel. La variété des cadres y est trompeuse : le plus souvent, le changement de « plan » correspond à un changement de lieu. Autrement dit, le découpage consiste moins à articuler des cadres à l’intérieur d’un lieu qu’à articuler des lieux. Si bien que, dans le passage d’un lieu à un autre, au moment du raccord, on n’a pas tant le sentiment d’une caméra qui s’efface que celui d’une caméra qui, au contraire, s’impose : quand un personnage quitte un lieu pour entrer dans un autre, nous demeurons conscients qu’il sort du champ d’une caméra pour entrer dans le champ d’une autre caméra, où nous l’attendons. D’où un effet d’ubiquité qui n’est plus celui auquel le cinéma nous a habitués, mais qui résulte de la multiplicité des points de vue simultanés, c’est-à-dire d’un dispositif conçu pour couvrir à la fois tous les lieux de l’action. « La » caméra, loin de s’absenter, se fait omniprésente ; au régime de la transparence se substitue un régime d’hypervisibilité : le passage d’un lieu à un autre, d’un champ à un autre, n’est pas de l’ordre du raccord mais de la commutation. Commuter n’est pas couper : on commute pour ne pas couper. Et le sentiment de continuité que l’on en retire n’est plus, comme au cinéma, l’effet d’une illusion : quel que soit l’éclatement des lieux de l’action, le spectateur sait que les décors, pour être disjoints, n’en appartiennent pas moins à un même espace placé sous surveillance [4]. Si, dans ce contexte, une commutation maladroite ou erronée vient désorienter le spectateur, lui faire perdre ses repères, cela peut sans doute créer une gêne passagère, ou attirer inutilement l’attention sur les conditions techniques de réalisation, mais cela ne saurait mettre en péril l’unité supposée de l’espace représenté.

On voit, grâce à cet exemple, comment la télévision directe redéfinit la fonction du découpage : non pas construire l’espace mais le rendre lisible, non pas effacer la médiation visuelle mais, dans une certaine mesure, rendre perceptible — car, même si les caméras se dérobent, cela fait aussi partie du spectacle — la performance de la transmission. On ne dira pas qu’une telle réalisation emprunte au cinéma son langage, mais plutôt qu’elle mime la production d’une continuité et d’une temporalité qui sont en réalité déterminées par le réglage spatial du dispositif.

Il s’ensuit que le rôle de ce que l’on hésite à appeler « montage » se trouve singulièrement restreint. Carl Beier [5] (1946, p. 6-7) insistait sur cet aspect dès le milieu des années 1940 :

On ne peut comprimer le temps en coupant une action qui commence pour aller directement à l’action terminée […]. Deux scènes successives ne peuvent se chevaucher. C’est seulement en répétant réellement une action en studio devant les caméras, ou en faisant l’impasse sur une partie de l’action, que l’on peut « tricher » avec le temps que cette action nécessite. C’est seulement en laissant une action hors du champ de la caméra qui est à l’antenne que l’on peut éviter de la montrer […]. On ne peut monter que par omission ou accentuation.

Dans ces conditions, et si on laisse de côté la possibilité d’intégrer des inserts filmés dans la continuité de la transmission, le rôle du montage semble se limiter essentiellement à trois fonctions : guider le regard du spectateur, régler les relations entre le son et l’image, rythmer la continuité audio-visuelle.

Guider le regard du spectateur, cela revient essentiellement à déterminer l’ordre suivant lequel l’action qui se déploie sous le regard des caméras va être montrée. Remarquons cependant que si l’on considère qu’ordonner la continuité visuelle relève du montage, la tâche de guider le regard du spectateur peut aussi être accomplie sans montage : Fred O’Donovan, à la fin des années 1940, s’en était fait une spécialité avec la technique de la caméra unique (ses prises, de la durée d’un acte, pouvant aller jusqu’à vingt ou trente minutes), et Hitchcock, à la même époque, l’avait expérimentée au cinéma en tournant La corde (1948) « en un seul plan ». Ce qui faisait dire à Irving Pichel [6] (1947-1948, p. 419), à propos de ce film : « Le centre de notre attention est déterminé d’avance par le metteur en scène. À chaque instant, il nous montre ce que nous devons voir […]. Surtout, à chaque instant, il exclut tout ce que nous ne devons pas voir. »

C’est surtout à travers le réglage des relations entre le son et l’image que le réalisateur de télévision dispose d’un moyen efficace de contrôler l’attention du spectateur. La première série fictionnelle de la télévision française, En votre âme et conscience (1954), en offre des exemples remarquables. Les fictions judiciaires de cette série, comme les fictions policières des Cinq dernières minutes, semblent à première vue tout à fait conformes aux codes cinématographiques du découpage classique. Chaque émission est la reconstitution condensée d’un procès criminel. L’action, qui se déroule à huis clos dans l’enceinte du tribunal, est essentiellement constituée d’échanges dialogués (interrogatoire des accusés par le président, questionnement des témoins, interventions et plaidoiries des avocats). La confrontation des points de vue est, sans surprise, traitée en champ-contrechamp. Pourtant, à y regarder de plus près, on constate deux importantes dissymétries. Au cours des interrogatoires, l’image privilégie systématiquement les personnages qui sont interrogés (accusés et témoins) au détriment de ceux qui posent les questions. Ainsi, au début de L’affaire Lacenaire (1957) [7], le président soumet le principal accusé, interprété par Michel Piccoli, à un interrogatoire intensif pendant une longue séquence de douze minutes — soit à peu près une question toutes les quinze secondes. Mais pendant le même temps, l’alternance champ-contrechamp demeure indifférente au rythme de l’échange : sur douze minutes, les sept plans de l’accusé totalisent onze minutes et les sept plans du président, seulement une minute. Loin qu’image et dialogue avancent du même pas et se relaient l’un l’autre avec un minimum de régularité, tout se passe comme si l’image, assurée du caractère irréversible du déroulement de la continuité dialoguée, pouvait d’autant mieux s’en détacher et s’autoriser la plus grande discontinuité visuelle. Au fil d’un dialogue tendu, tandis que se précisent les circonstances d’un crime et que s’éclaire la personnalité de l’accusé, « la » caméra s’emploie presque exclusivement à scruter le visage de ce dernier. Si bien que le spectateur, au lieu d’être emporté dans le mouvement de l’action (la joute verbale entre les protagonistes), au lieu de se sentir partie prenante de l’interaction, se trouve mis en position d’observateur. La seconde dissymétrie concerne la différence de statut des figurants de la scène. Au cours de l’interrogatoire des accusés, chaque fois que le président se tourne vers les membres du jury pour attirer leur attention sur telle ou telle déclaration dont ils devront se souvenir, ceux-ci sont systématiquement maintenus hors champ. Lorsque, au bout d’une heure, le procureur s’adresse à son tour au jury pour prononcer son réquisitoire, il est d’abord montré de profil, cadrage qui laisse attendre le contrechamp qui nous a été jusqu’alors refusé. Mais au lieu du raccord sur les jurés qu’appelait la direction de son regard, nous retrouvons le procureur de face, regard caméra : il va nous parler pendant sept minutes sans nous quitter un seul instant des yeux. Le téléspectateur a été purement et simplement substitué au jury ; d’observateur qu’il était, il se trouve désormais placé en position de quasi-interlocuteur. Ainsi, après en avoir fait un usage non classique, la réalisation renonce à tout découpage comme elle renonce à séparer le vu de l’entendu. La notion de plan — la valeur relative du plan — se dissout au profit de la continuité et de l’intensité d’une prise qui ne souffre pas de réplique.

La troisième fonction du montage consiste à ponctuer le déroulement audio-visuel et à lui imprimer un rythme. Au cinéma, la production d’effets rythmiques est un travail délicat et de haute précision. Fixer la durée des plans dans leur succession, accorder (ou non) le rythme des changements de plan avec le rythme du dialogue ou de la musique, accélérer ou ralentir le rythme général d’une séquence : autant d’opérations qui demandent souvent de longs tâtonnements. C’est pourquoi, pour Carl Beier (1946, p. 1), au lieu de comparer le travail du réalisateur de télévision à celui du cinéaste, qui consiste à composer « une mosaïque de centaines de petites pièces minutieusement assemblées à partir d’une idée préconçue », il convient plutôt de le rapprocher de celui du peintre qui « exécute une esquisse sous les yeux de spectateurs » ou, mieux encore, de l’activité du chef d’orchestre qui dirige un spectacle musical. Comme ce dernier, en effet, le réalisateur de télévision doit avoir une vision globale du spectacle, diriger et contrôler à chaque instant son « orchestre télévisuel » (directeur de la photographie, ingénieur du son, cameramen, assistants, techniciens de plateau, opérateurs de banc-titre) et tenir compte de ce qui se déroule sur scène. Beier (p. 1) insiste sur la pertinence de cette analogie avec la musique :

Autant qu’un art de l’espace et un art sonore, la télévision est, comme la musique, un art du temps. Le rythme et la continuité auxquels le cinéma parvient laborieusement au terme du tournage, du montage et des effets spéciaux de laboratoire, la télévision doit y parvenir au fur et à mesure. Au cinéma, la texture de la bande sonore et le tempo nécessitent enregistrement, montage, arrangement et mixage ; à la télévision, tout cela il faut le « jouer » […]. Le réalisateur doit avoir une qualité de pensée, de sensibilité et de jugement à la fois régulière, continue et rapide. Il doit être aussi net et précis dans ses gestes que le chef d’orchestre avec sa baguette. Il ne lui suffit pas de concevoir l’action de ceux qu’il dirige : il lui faut encore les diriger tout au long du spectacle.

C’est la même idée qu’exprime, en 1948, le critique du New York Times Jack Gould (2001, p. 37), quand il écrit qu’au cinéma comme au théâtre, le travail du metteur en scène est terminé quand le spectacle commence, et qu’à la télévision, au contraire, pendant toute la durée du spectacle, le metteur en scène est en quelque sorte « lui aussi sur scène ». De là, selon le réalisateur George Freedland (1949, p. 124), l’une des spécificités du langage télévisuel par rapport au langage cinématographique : « Toute recherche de syntaxe est subordonnée, sinon sacrifiée, au souci de rapidité du technicien qui opère ; et la qualité de ce mode d’expression demeure dans l’habileté de l’improvisation [8]. »

Dans ces conditions, le risque est grand, comme l’ont souvent noté les critiques, que le réalisateur cède à l’arbitraire. Mary Hunter le déplorait en 1949 (p. 47) : trop souvent, le passage d’une caméra à une autre n’est pas motivé, ce qui entraîne une double rupture — dans la communication du récit au spectateur et dans la dynamique de jeu des acteurs. Pour se prémunir contre ce danger, mais aussi sans doute, comme le soulignait Gilbert Seldes en 1950 (p. 51), pour s’attirer les faveurs de la critique, le réalisateur est tenté de s’en remettre à des recettes éprouvées et d’adopter, en matière de rythme, les standards hollywoodiens :

[Au cinéma,] le tempo presque imperceptible […] qui fait palpiter d’émotion le spectateur, tandis que ses yeux et ses oreilles sont accaparés par l’image et le son, est créé par le montage, les changements d’angle, l’insertion d’un gros plan, la durée d’un plan par rapport à celle des plans précédents et des suivants. Cette houle de fond est tellement devenue la norme à Hollywood que le rythme est désormais pratiquement identique dans presque tous les films, qu’ils soient comiques, mélodramatiques ou tragiques [9]. Le public s’est accoutumé à un montage haché et trouve un film bizarre si un plan dure plus de trente secondes ; les longs métrages étrangers, qui ont un rythme de montage différent, paraissent lents. Mais rien ne prouve que le rythme de montage hollywoodien soit adapté à la narration télévisée.

Dès 1947, Jean Thévenot (p. 64) [10] avait pressenti que la télévision, née après un demi-siècle de cinéma, trouverait difficilement son rythme propre : « Le cinéma nous a habitués à des spectacles présentés sous des angles constamment renouvelés, et cette habitude est devenue notre seconde nature de spectateurs. » Quelques années plus tard, ses craintes s’étaient confirmées :

Pour n’avoir pensé qu’à l’image cinématographique, les premiers réalisateurs de télévision se sont crus obligés d’adopter des découpages de cinéma, alors que le rythme du petit écran doit être tout différent. Ah ! Combien de visages de pianistes réfléchis dans le couvercle ouvert du piano ! Combien de doigts courant sur le clavier en tous sens ! Combien de valses inutiles et épuisantes pour l’oeil, parce que c’eût été déchoir de ne pas changer de plan toutes les vingt secondes !

Thévenot, dans Quéval et Thévenot 1957, p. 276

L’écoute et la vision

Pour se libérer du poids des conventions cinématographiques de découpage et de montage, et pour inventer des rythmes appropriés au nouveau média, il semble que le réalisateur de télévision n’ait guère d’autre choix que de se fonder sur le fait que, quels que soient les enchaînements d’images qu’il exécute, fût-ce les plus arbitraires ou les plus heurtés, ceux-ci ne sauraient affecter la continuité sonore de la transmission. Ce qui, comme on le constate dans de très nombreux cas, revient à jouer résolument la carte de ce que j’appellerai l’asynchronisme du son et de l’image.

L’émission littéraire Lectures pour tous (1953) est à cet égard exemplaire. Il est frappant que dans le face-à-face du journaliste et de l’écrivain, de l’interviewer et de l’interviewé, la figure du champ-contrechamp, avec l’alternance plus ou moins régulière qu’elle suppose, soit rarement dominante. Dans une séquence d’interview de Paul Claudel, en 1954, le même cadrage de l’écrivain, de trois-quarts face, est tenu continûment pendant onze minutes ; pendant tout ce temps, le journaliste Pierre Desgraupes, resté en retrait, n’est présent que par la voix. En 1955, l’interview de Jean Cayrol par Pierre Dumayet, d’une durée de sept minutes, s’en tient également à un cadrage unique : l’écrivain de face, le journaliste en amorce de dos. En 1960, l’interview de Roger Vailland par Pierre Dumayet [11] comporte plusieurs valeurs de cadre, mais sans que le passage d’un cadre à l’autre, à aucun moment, ne cherche à épouser le rythme de l’échange dialogué. Tandis que le journaliste, une question après l’autre, s’efforce d’amener progressivement son interlocuteur à se dévoiler, le réalisateur, de son côté, avec les moyens qui sont les siens et à son rythme, s’emploie à la même tâche : cerner la personnalité de l’écrivain, composer visuellement son portrait. Le journaliste est toujours cadré de la même manière : brièvement, de profil et en gros plan. L’écrivain est également toujours cadré en gros plan, mais beaucoup plus longuement, et alternativement de trois-quarts face ou de profil. Lorsque l’on passe de l’écrivain au journaliste (et inversement), le changement de cadre se fait toujours cut ; lorsque l’on passe du visage de l’écrivain vu de face à son visage vu de profil, le changement est au contraire souligné par un fondu enchaîné : pendant une ou deux secondes, face et profil glissent l’un sur l’autre, se superposent ou se juxtaposent, accusant tel ou tel trait du visage (la ligne du front, la courbe du nez, l’éclat du regard…). C’est surtout avec les gros plans de profil, lorsque le regard et la bouche cessent de fixer notre attention, que l’image affirme son autonomie. Dans le passage du visage de l’écrivain à celui du journaliste — dans le croisement de leurs regards — quelque chose s’échange, se transmet (une complicité, l’écoute réciproque de deux hommes en intelligence l’un avec l’autre) ; en revanche, dans les moments de recadrage du visage de l’écrivain, dans l’enchaînement direct (le « montage ») de la face et du profil, l’image cesse soudain d’être seulement le support ou l’accompagnement visuel des paroles : elle se soustrait à l’échange, court-circuite la communication, devient intransitive. Ainsi, dans ce long entretien d’une douzaine de minutes, deux rythmes distincts se conjuguent. Celui de l’interaction verbale qui, de questions en réponses, progresse à une vitesse égale jusqu’à son terme. Et celui des enchaînements d’images, indifférent à l’évolution de la conversation et à l’écoulement du temps, dégagé de l’ordre de la succession, attaché exclusivement à la pure présence d’un visage que les variations d’angle et de proximité nous donnent avec insistance comme regardé.

Plus près de nous, en 2000, une autre émission littéraire, Texto [12], a poussé cette logique de déliaison du son et de l’image à sa limite. Bien que les interviews soient réalisées hors studio et enregistrées, l’émission recrée habilement l’effet de direct et en tire un parti inédit. Que le journaliste et l’écrivain déambulent côte à côte dans un quartier de Paris, ou qu’ils se tiennent debout dans une librairie parmi les tables surchargées de livres, dans tous les cas l’entretien se déroule sous les regards croisés de trois caméras mobiles qui tournent en continu, les passages incessants d’une caméra à l’autre étant aléatoires. Les deux interlocuteurs sont cadrés alternativement de près ou de loin, de face ou de dos, à l’horizontale ou en contre-plongée, sans que jamais ces variations d’angle, inattendues et parfois insolites, ne soient justifiées par la situation montrée. Toutes les cinq secondes en moyenne intervient un changement de point de vue que rien ne motive, sinon le souci de rythmer le déroulement uniforme de la conversation, de l’agrémenter d’images, de broder sur la trame continue du flux sonore, pour le plaisir, une pure discontinuité visuelle qui n’entame jamais l’unité de la scène — dont chaque nouveau cadrage ne fait qu’offrir une version à peine différente. À l’alternance ordinaire du champ et du contrechamp, qui donne le sentiment que parole et image sont synchrones, c’est-à-dire avancent du même pas (preuve que le réalisateur « suit » attentivement la conversation), se substitue cette alternance plus irrégulière, indifférente au développement de l’échange comme au temps qui s’écoule, de multiples points de vue concurrents et simultanés. Contrairement au découpage-montage de l’interview de Lectures pour tous, où la caméra se détachait de la conversation pour s’attacher à un visage (et nous l’offrir comme visage regardé), le pseudo-découpage de Texto, avec les points de vue récurrents des trois caméras, leur détachement ostensible vis-à-vis des interlocuteurs, se contente de manifester le fonctionnement ludique du dispositif.

À la fin des années 1970, la série France tour détour deux enfants (J.-L. Godard et A.-M. Miéville [13]) exploitait méthodiquement, tout au long de ses douze épisodes, les ressources de cette sorte d’asynchronisme son-image. De nombreux passages s’y offrent comme autant de modèles possibles de découpage-montage télévisuel. Soit, pour ne prendre qu’un exemple, à la fin du dernier épisode, la séquence intitulée « Richard », entièrement construite sur une chanson de Léo Ferré. Nous sommes dans un café, à la tombée du jour. L’atmosphère est bruyante, le cadre est large et fixe : à gauche, au premier plan, deux ou trois clients devant le comptoir ; au centre, un homme seul, debout, son verre posé sur le zinc ; derrière lui, au fond de l’image, une jeune femme est accoudée au bar ; à droite, une autre jeune femme, attablée, lit un journal ; un peu plus loin, trois hommes s’agitent autour d’un flipper. Soudain, tandis que les premiers accords de la chanson de Léo Ferré recouvrent les bruits d’ambiance, commence une longue série de recadrages dans l’axe : zoom avant sur l’homme seul, au centre de l’image (« Les gens, il conviendrait de ne les connaître que disponibles/À certaines heures pâles de la nuit… ») ; puis, après un temps d’arrêt, zoom arrière jusqu’au cadrage initial ; puis, de nouveau, zoom avant, puis zoom arrière… Parfois, le zoom s’arrête à mi-course, continue, s’arrête à nouveau. S’enchaînent ainsi, pendant plus de cinq minutes et sans la moindre coupe, une douzaine de recadrages, ponctués par des moments de stases de durée inégale.

Que doit-on ici appeler montage ? Sans doute la décision de substituer d’un coup, au bout d’une dizaine de secondes, la chanson de Léo Ferré au son d’ambiance de la scène. Le montage consiste alors en la juxtaposition de deux continuités, l’une sonore et l’autre visuelle, l’une enregistrée (ou plus exactement préenregistrée), l’autre que l’on dirait en cours d’enregistrement, tant on a l’impression que la prise de vue, avec ses recadrages successifs, parfois hésitants, s’effectue au présent sous nos yeux. Si, en conséquence, nous ne pouvons faire autrement que de percevoir l’image et le son en fonction l’un de l’autre — le personnage de la chanson trouvant soudain à s’incarner dans ce figurant de hasard qu’est l’homme debout au centre de l’image —, nous sommes conscients que le déroulement des deux continuités demeure strictement parallèle, chacune avançant à son rythme dans l’ignorance de l’autre. Et lorsque, par hasard, image et son se nouent en un point de synchronisation (au moment où la voix interpelle « Richard ! Eh, Richard ! », l’homme se retourne), le sentiment d’un écart irréductible entre le son et l’image n’en est paradoxalement que plus net.

Mais c’est en faisant jouer une autre sorte d’écart, qui ne relève pas du montage, que la séquence trouve à se structurer : celui que la caméra ne cesse de creuser entre la scène qui s’offre à elle et le regard qu’elle porte sur cette scène. Au lieu que la scène soit enregistrée en continu par plusieurs caméras de manière à varier cadres et angles, c’est à une caméra unique, opérant depuis un point de vue unique, que revient la tâche d’imprimer au déroulement visuel une série de variations. À la continuité spatio-temporelle d’une situation donnée (la présence simultanée de plusieurs personnes cohabitant provisoirement dans un même lieu) se superpose, en s’en distinguant, l’irréversible continuité d’une prise que les manipulations réitérées du zoom rendent constamment perceptible comme telle. Si les effets de rythme, habituellement obtenus par commutation, sont ici pris en charge par le seul jeu des recadrages, il reste que le fonctionnement de la séquence n’est pas fondamentalement différent de celui de l’émission Texto évoquée plus haut (comme, finalement, de celui de beaucoup d’émissions de plateau réalisées en direct ou dans les conditions du direct). Il ne s’agit pas, comme au cinéma, d’élaborer des plans qui demanderaient ensuite à être raccordés pour faire exister la scène, mais simplement de scander, d’une manière ou d’une autre, la continuité de l’enregistrement ou de la transmission. Que cette scansion soit produite par commutation entre caméras multiples ou par manipulation d’une caméra unique est secondaire : dans les deux cas, la structuration de la continuité n’est pas affaire de découpage-montage mais de cadrage — l’opération de cadrage consistant non pas tant à découper l’espace qu’à canaliser et moduler le temps. C’est ici l’axe qui « fait » la vue, non le cadre. Les constantes variations de focale ont plutôt pour effet d’émousser les bords du cadre, presque de l’abolir au profit d’une présence insistante : celle de l’écran. À chaque instant, ce qui s’y trouve figuré est susceptible soit de s’agrandir, soit de se réduire, soit de perdurer tel quel encore un moment. Le zoom y tient le rôle que joue ordinairement le changement de caméra : « À l’instant de la transition [d’une caméra à l’autre], le même espace d’image est sollicité par deux images différentes, c’est-à-dire l’une fuyant, l’autre arrivant » (Engell 1997, p. 485), mais sans qu’on puisse dire exactement qu’une image s’efface au bénéfice de l’autre : la première image reste latente, présente sous la seconde, toujours prête à resurgir.

Cependant, alors que la scansion de la continuité, dans beaucoup d’émissions, ne vise le plus souvent qu’à détacher de la scène de purs moments visuels, à la « feuilleter » pour en multiplier les images à bon compte, la séquence de France tour détour deux enfants, au contraire, s’en tient fermement à une conception de la télévision comme télé-vision [14], c’est-à-dire avant tout — les longs entretiens, dans la série, de Godard avec les deux enfants en sont la démonstration parfaite — comme dispositif d’observation [15]. L’accentuation de l’axe de prise de vue donne consistance à l’espace situé en deçà de l’image, dans cet avant-champ où se tiennent l’opérateur et le téléspectateur, nous rendant particulièrement sensibles à ce que Bazin avait identifié comme l’« espace spécifique de la télévision » et qu’il définissait ainsi : « […] espace déterminé d’une part par l’objectif de la caméra et de l’autre par la section du petit écran » (Bazin 1957a, p. 7). La conception de la télévision qu’illustre cette séquence, le réalisateur en avait d’ailleurs donné la formule dans une note d’intention où il déclarait : « Rien à juger, rien à prouver, rien qu’à organiser l’écoute et la vision » (Godard 1983, p. 64-65). Organiser l’écoute et la vision, à la télévision, ce n’est pas « faire des plans », c’est assurer une médiation. D’où l’importance primordiale du geste de cadrer, de déterminer un axe, d’instaurer une distance ; et surtout, même dans une émission en différé, de donner forme au déroulement « au fur et à mesure » (Beier 1946, p. 1), puisque le dispositif de « télé-vision » implique que le réalisateur soit « lui aussi sur scène » (Gould 2001, p. 37).

« La télévision n’est pas le cinéma »

À la télévision, on ne fait pas des « plans ». Alors que le cinéaste construit et enchaîne des plans, le réalisateur de télévision compose et mélange des prises — c’est-à-dire des flux d’images simultanées : il y a autant de flux que de caméras. En télévision directe, l’enchaînement ponctuel de deux images successives, articulées à la manière de deux plans filmiques, n’est qu’une figure de composition (de mélange) parmi d’autres : le cas particulier, même si l’imitation du cinéma en fait le cas de loin le plus fréquent, où un flux d’images masque momentanément tous les autres. Réaliser, c’est mélanger [16]. Il s’ensuit que, bien qu’absolument soumise à la contrainte de continuité, la télévision n’est pas dépourvue de ressources expressives. Comme l’explique Carl Beier (1946, p. 3) :

Toute action située au premier plan, et télévisée en studio devant un écran blanc, peut être superposée à n’importe quel arrière-plan télévisé par une autre caméra (que cet arrière-plan soit un film, une maquette, des dessins, des formes abstraites ou des prises de vues directes d’extérieurs).

Les émissions filmées ne bénéficient pas des mêmes possibilités de création d’images composites, mais elles ne relèvent pas pour autant de l’esthétique du film. Lorsque, en 1950, Irving Pichel (1951, p. 363) découvre les méthodes de la télévision à l’occasion de la réalisation de son premier téléfilm, il observe que « le film de télévision est beaucoup plus proche d’une émission en direct que du film de cinéma ». Plus précisément, il constate que « les producteurs de téléfilms, dans l’usage qu’ils font de la caméra, des décors, de la lumière, de la réalisation et des acteurs, imitent les procédures de la télévision de studio, et non pas celles du cinéma de studio » (p. 363). En procédant ainsi, fait-il d’ailleurs remarquer, le téléfilm retrouve le tournage en caméras multiples abandonné depuis longtemps au cinéma, mais auquel on a encore recours — comme Hitchcock utilisant jusqu’à six caméras dans certaines scènes du Procès Paradine (1947) — pour préserver la continuité de l’interprétation et l’intensité du jeu.

En 1955, s’étant avisé que l’effet de direct — et le sentiment de présence qui lui est lié — pouvait s’imposer avec force dans certaines émissions filmées, André Bazin (1955, p. 35) n’hésite pas à préconiser l’enregistrement des émissions dramatiques sur film, en filmant « avec deux caméras et en continuité de temps » : il s’agit de concevoir la dramatique filmée « non comme du cinéma au rabais mais comme du direct amélioré ». C’est dans cet esprit que Jean Renoir réalise en 1959 Le testament du docteur Cordelier, renouant avec le tournage en multicaméra qu’il avait expérimenté et pratiqué au début du parlant. Son projet initial était de réaliser une émission en direct. S’il opte finalement pour le film, son intention est bien de s’en tenir aux méthodes de travail de la télévision :

Je voudrais tourner ce film dans l’esprit de la télévision directe […]. Je voudrais qu’on ne tourne qu’une fois et que les acteurs se figurent que chaque fois qu’ils tournent, le public enregistre directement leurs dialogues et leurs gestes. Les acteurs, comme les techniciens, sauront qu’on ne tourne qu’une fois, et que, réussi ou pas, on ne recommencera jamais.

Renoir, dans Bazin 1984, p. 103

Quand Bazin (1953a, p. 34) commence à s’intéresser à la télévision au tout début des années 1950, il comprend aussitôt que le cinéma doit retrouver le secret oublié « d’une semi-improvisation, du travail à chaud », convaincu que « la télévision peut infuser au cinéma une sève nouvelle ». Lorsqu’il insiste ensuite sur le fait qu’« il ne faut pas avoir l’obsession formaliste du direct » (Bazin 1957a, p. 8), que ce qui importe ce n’est pas le direct pur, mais « l’esprit, le style, le ton du direct » (Bazin 1957b, p. 8), c’est aussi au cinéma qu’il pense.

Tout se passe au fond comme si l’on avait désormais besoin, en ce milieu des années 1950, de la notion de direct pour parler du cinéma. C’est ainsi qu’à la sortie de Voyage en Italie, Jacques Rivette (1955, p. 19) s’emploie à montrer que les films de Rossellini relèvent de cette « esthétique du direct [17] » dont la télévision offre le modèle ; raison pour laquelle, ajoute Bazin (1956, p. 14) à la suite de Rivette, ils sont en avance sur leur temps. Rivette (1955, p. 19) fait référence, sur le plan de la prise de vue, au caractère incertain, hasardeux, « périlleux » de la saisie de l’instant ; et, sur le plan du montage, à une sorte de suspense lié au caractère imprévisible, risqué, du changement de plan. Plus tard, dans sa critique des Quatre cents coups, Rivette (1959, p. 38) donnera toute sa portée à la notion de direct quand il écrira, à propos de la scène de l’entretien avec la psychologue : « Dialogue et mise en scène, au terme d’une ascèse discrète, débouchent enfin sur le vrai du direct : le cinéma y réinvente la télévision. » Cette scène fameuse est en effet un aboutissement : d’une part, la mise en scène y cède la place à un pur dispositif d’observation ; d’autre part, à partir de cette scène le film change de régime : l’enchaînement rapide des fragments de l’entretien semi-improvisé donne d’abord le sentiment d’un temps réel condensé, avant que n’advienne dans la course finale, comme le note Rivette (1959, p. 38), une « durée pure [18] ».

C’est à la condition de reconnaître que « la télévision n’est pas le cinéma » qu’il devient possible, comme le voulait Bazin, de penser le cinéma avec la télévision.