Le corps autant que la pensée…

Claude Bailblé

Penser et ressentir, s’émouvoir et comprendre : le spectateur du documentaire est implicitement invité à partager avec le cinéaste une réalité filmique construite par assemblage de séquences et effacement des rushes inutilisés. Un chemin de réalité – déjà tracé pendant l’enquête et délimité par le tournage – est ainsi proposé, selon un ordre et une intensité que le montage a réussi à installer. C’est précisément cette “installation” que j’aimerais questionner, en évoquant les interactions entre la pensée en images (préconsciente et corporelle) et la pensée verbale (consciente et réflexive), toutes deux mobilisées par le déroulement d’un film.

Des scénarisations interdépendantes

Avant tout, se rappeler qu’un documentaire fait nécessairement interférer la date et le lieu de tournage avec la date et le lieu de diffusion : un film sur l’avortement et le droit des femmes, diffusé en France n’a pas le même écho, la même résonance avant ou après la loi Weil ; un film sur la répression militaire après le coup d’État de 1973 n’a pas le même impact à Paris ou à Santiago en 1988 ou en 2010, étant différemment reçu selon les âges, les milieux et même les familles ; un film sur les marchés financiers est différemment reçu en Grèce, en Espagne ou en Islande, pour ne citer que ces pays, avant ou après la crise de 2008. Sans doute le corps des personnages et le corps du spectateur se font face par la médiation d’un écran (de projection et d’introjection), mais c’est l’histoire de chacun qui vient surdéterminer la rencontre intime avec l’œuvre, en raison des dix (voire davantage) scénarisations qui lui donnent sens.

  1. le réel (illimité, inconnaissable…) est la matière première dans laquelle il a fallu trouver un chemin — creuser un scénario — parmi l’infinité des possibles.
  2. le vécu — mémoire heureuse ou traumatique, souffrances et espérances, imaginaire et conscience des enjeux — est un “réel concret”, plus accessible, dans lequel chacun peut puiser sans fin.
  3. le scénario (outil de travail pré-écrit : enchaînements et déroulement des scènes, dialogues, dramaturgie) se constitue à partir d’une double tension – objective et subjective – vers le monde réel. Se construit ainsi un récit mettant en jeu personnages, situations et conflits, avec la perspective d’un dénouement heureux ou tragique.
  4. le casting des situations et des personnages – lieux et acteurs, contexte et circonstances – vaut autant pour la fiction que pour le documentaire. Si la fiction prépare le jeu d’acteur par des répétitions hors caméra (mode réaliste ? épique ? parodique ?) le documentaire recherche fraîcheur et spontanéité dans la saisie directe ou la reconstitution : chacun y joue ou rejoue son propre rôle.
  5. le découpage comme direction de spectateur : cadrer, c’est choisir et exclure, mais pas seulement. Le choix de l’instant, de l’axe, de la distance, de la durée de chaque plan est décisif tant au niveau du contenu (actions, paroles, inférences) qu’au niveau de la mise en forme (taille de plan, mise en perspective, frontalité, mouvements…).
  6. le montage — hiérarchisation des durées, rythme et continuité, inférences de plan à plan, fil conducteur, flux émotionnel et identification aux personnages — parachève la construction narrative ou discursive du film.
  7. le mixage (homogénéisation des sons, montage horizontal inoff, imagerie auditive, musique) donne de l’énergie – ppp à fff – et instaure une continuité, séquence après séquence.
  8. le “scénario intérieur” durant le visionnement : la pensée en images — visuelle et auditive – étant pré-consciente par nature, le spectateur construit le sens “pour lui”, sans remarquer forcément les mécanismes qu’il met en jeu : affordances (capacités d’un objet à suggérer sa propre utilisation) et inférences, neurones miroirs, résonance motrice, pragmatique du langage (cf. infra). Le résultat s’impose : émotions, remous mental, reconsidérations, esquisses et construction d’un horizon d’attente … Il est vrai qu’à tout instant, les représentations internes déjà constituées rencontrent les représentations issues de l’écran. Le je personnel (avec sa part d’inconscient) et le nous culturel (l’être social dans ses multiples appartenances) se projettent sur les personnages et les situations 1 C’est véritablement dans cette rencontre que le film existe, avec toute la diversité de sa réception. Sans spectateurs, il n’y aurait que vibrations et photons dans la salle.
  9. le commentaire après-coup, à la sortie de la séance : évaluation du style et des contenus, de la pertinence du propos. La mise en parole du film (avec réduction / simplification cristallisée autour de quelques scènes et personnages) est souvent très partisane et très tranchée : rejet massif ou adhésion totale … Le film est “refait” par une discussion / évaluation souvent très affective et peu raisonnée. Le film plait ou déplait, selon l’accroche et la résonance personnelles, avec — c’est à noter — plusieurs sortes de commentaires : le spontané (tous publics), le cinéphile (l’amateur éclairé), le critique (le spécialiste), l’universitaire (le spectateur théoricien), le cinéaste (le spectateur praticien). C’est dire à quel point la position sociale spécifie aussi bien réception et commentaires…
  10. revoir le film quelques années plus tard : autre ressenti, autre évaluation. On n’est plus le même… La rencontre entre l’œuvre et le sujet construit un “nouveau” film.

Résumons-nous : 1, 2, 8, 9 et 10 appartiennent en commun (mais différemment) aux spectateurs, acteurs et cinéastes.

8, 9 et 10 sont particulièrement appréciés des cinéphiles, critiques et universitaires, car ils ajoutent un supplément théorique et réfléchi au discours spontané.

3, 4, 5, 6, 7 appartiennent aux cinéastes et à leurs collaborateurs techniques et artistiques. Chaque film est de fait une construction collective — narrative, discursive, poétique — qui propose une place active ou passive — parfois aveuglante — au spectateur. Mais personne ne sait trop à l’avance comment le film sera reçu.

Sans nul doute, le réel et le vécu ne sont pas les mêmes pour tous. Le désir de cinéma est programmé différemment d’un milieu social à un autre, d’une personne à l’autre. Rêve ou confrontation ? Divertissement ou transformation de l’existant ? Le film est reçu et évalué à partir d’une réalité non cinématographique, qui se nourrit des pratiques sociales ou des aspirations individuelles, de l’engagement ou de la résignation, et aussi probablement d’une capacité critique accumulée hors cinéma.

La rencontre

S’agissant du documentaire (lequel emprunte souvent ses figures narratives à la fiction) les trois étapes du processus de création sont bien connues : investigation, tournage, exposition. Le réel n’est pas donné d’avance : comment trouver les scènes ad hoc, approcher les conflits, susciter les “flagrants délits” de sincérité ? Et surtout ne pas se tromper de lieux, de circonstances, de personnes. Si l’enquête et le casting préparent au tournage, le tournage à son tour prévoit déjà un montage, sans certitudes néanmoins, car la matière des rushes se découvrira petit à petit, livrant à ses auteurs le film qu’elle contient.

On tourne dans le temps réel, mais on montera dans un temps elliptique (intensifié, recomposé, réarticulé), un temps à la fois discursif (par le point de vue) et narratif (par le contenu)… Il faut donc réinventer un ordre d’exposition, loin de la progression de l’enquête ou de la chronologie du tournage : équilibrer la balance entre les choses montrées (par la caméra), les choses faites (par les personnages), les choses dites (paroles), soulignées (par les sons ou la musique) ou suggérées (par le montage et ses inférences) 2.

Il y a donc lieu d’écourter ou même d’écarter certains plans pour éclaircir le propos, et atteindre de cette façon une expression plus forte, à la faveur des rapprochements ou des mises en relations qu’organise un récit dans la mémoire à court terme. De nombreuses connexions invisibles unissent en effet les plans en réseau, de proche en proche ou de loin en loin, tandis qu’une sorte de continuité apparente (raccords de formes et de contenus, sons d’ambiance) s’installe, séquence après séquence. Le film s’adapte ainsi au temps de la pensée, sans renoncer pour autant au temps de l’émotion.

L’écran de projection se présente en somme comme un écran d’accumulation dans la mémoire à court terme, mais aussi comme écran de remémoration d’affects, souvenirs et idées puisés dans la mémoire à long terme. A chaque instant, la continuité apparente est travaillée de la sorte par les rémanences de l’antérieur et les postulations de l’à-venir : le temps s’allonge quand on attend anxieusement la survenue d’un événement pressenti, possiblement conflictuel ou dangereux, ou lorsqu’on vibre après coup sur une séquence inattendue. Si le temps s’étire ainsi, c’est très probablement qu’il fait resurgir et revivre – par empathie – une émotion vécue auparavant. Une émotion qui tient au corps, dans son intensité d’origine. Tout se passe au fond comme si le film — où se trace et s’esquisse le devenir des personnages — était continûment confronté au déjà connu, à la mémoire profonde, afin d’être évalué par les différentes instances de la psyché.

En termes de vérité : que nous raconte-t-on ? Est-ce plausible, connu ou mal connu, peu représentatif, inattendu, exagéré ? En termes de mise en scène : démonstrative, choquante, esthétisante, insuffisamment étayée, transparente, inventive ? Avec un regard sur les insistances du récit : personnages principaux, situations récurrentes, développements ? On cherche aussi à se reconnaître ou s’identifier à un personnage (positif, négatif ou ambigu), à un groupe social (pour quelles aspirations ?) – ou alors à s’en démarquer… Les comportements sont examinés au regard des prescriptions idéologiques de la société, mais aussi des angoisses informulées 3.

Aucun spectateur – aucun cinéaste, aussi bien – ne détient une vérité autre que partielle et provisoire, quel que soit son vécu, sa participation directe ou indirecte à l’histoire. Aucun spectateur — et encore moins le metteur en scène – n’est neutre, sans désirs ni aspirations, sans références idéologiques ou culturelles. Aucun spectateur n’est doté non plus d’une mémoire exhaustive et étendue : on ne retient que ce qui nous émeut, on ne ravive que ce qui nous a véritablement touché. Et encore ! L’érosion des souvenirs – le refoulement ? – sont – semble-t-il – choses aussi courantes que l’oubli.

Par ailleurs, le travail intellectuel et artistique d’une équipe de cinéma, pendant un ou deux ans, excède largement celui que peut mener le spectateur durant le visionnement du film. La réalité intensifiée, resserrée, recomposée et réarticulée par le montage se trouve ainsi augmentée d’une multitude de relations horizontales entre les plans ou entre les séquences, et simultanément, d’une abondance de connexions verticales, explicites ou implicites.

Au final, le montage intérieur entrelace deux flux importants, en échange constant : les propositions venues de l’écran, les réponses et projections issues des différentes mémoires : directe (le vécu), indirecte (les savoirs constitués), inconsciente (les désirs). Dans cette interaction sous-jacente et pré-consciente, l’effet de présence de certains personnages est irremplaçable : il déclenche l’empathie et l’accès aux états internes (pensées, sensations, émotions) et par voie de conséquence, un travail sur l’altérité : il y a du moi dans l’autre, il y a de l’autre en moi.

Le préconscient au travail

Les appellations bande son et bande image se rattachent soit aux supports techniques, soit à la perception humaine, réduite — croit-on abusivement – à deux modalités synchrones : l’audio et le visuel. Plus intéressante est la distinction entre pensée imageante (préconsciente et spontanée) et pensée verbale (réflexive, soumise à une certaine logique), puisque ces deux pensées procèdent de deux “mondes” différents : l’ordre symbolique du langage et l’élasticité mémorielle de l’imaginaire. Deux mondes en échange permanent via la motricité idéative (le mouvement de pensée) d’une part, la motricité musculaire (le corps en mouvement) d’autre part, bien que ces motricités, libérées toutes deux des contraintes réelles (poids, fatigue, obligations de résultat) ne franchissent pas la barrière du passage à l’acte, à savoir : penser à voix haute, bouger réellement. C’est peut-être là que s’explique la dominante préconsciente du travail d’appropriation d’un film, même si, ici ou là, la pensée verbale se fraye un chemin jusqu’à la conscience.

Sans doute, lors de la projection d’un film, le spectateur est le plus souvent en immersion (seul, le préconscient 4 semble à ce moment-là s’approprier le film), tantôt en survol (la conscience se détache du flux imposé pour penser par elle-même, avec ou contre le film). Le spectateur assis est néanmoins en situation sensori-motrice, mais sa sensorialité – visuelle et auditive – est, comme la motricité, centrée et accaparée imaginairement par l’écran : libéré de l’épreuve de réalité, le corps du spectateur peut se projeter et se reporter sur le mouvement des personnages, ne serait-ce que pour comprendre ce qui se passe entre eux, ou évaluer les possibilités évolutives du lieu. Cependant, la pensée en images est sollicitée comme jamais, en raison de la nature elliptique – discursive et narrative – du montage. Pour en expliquer les mécanismes sous-jacents, je souhaiterais rapprocher ici plusieurs théories récentes issues des sciences perceptives ou cognitives.

Comprendre le corporel : la résonance motrice et l’inférence

Le corps mouvant aperçu à l’écran va se faire lire en mémoire corporelle, avec une vitesse de lecture directement liée à la vitesse d’exécution motrice, sans qu’il soit nécessaire de produire le moindre raisonnement conscient 5. Il s’agit tout simplement de donner un sens précis à l’agir corporel : par simple résonance motrice. Chacun devient ainsi l’interprète instantané de ce qu’il voit ; le mouvement des yeux est lu en moins de vingt millisecondes, celui du visage est compris en moins de cent soixante-dix millisecondes, celui des mains et des gestes est compris synchroniquement, à la bonne vitesse 6. La réaction d’orientation – tête et cou – vers un nouveau secteur d’attention prend une demie seconde. Enfin les déplacements corporels — rapprochements et éloignements — exigent plusieurs secondes, avant de former une direction et un but précis. Le mouvement “tête et cou” (faire face à…) est particulièrement intéressant, puisqu’il donne au personnage un nouveau champ frontal d’appréhension, et au spectateur, un champ visuel à imaginer — jusqu’au prochain contre-champ.

En s’appuyant sur les mouvements des yeux, du visage, de la tête, des mains, (le jeu corporel) le spectateur ne cesse ainsi d’élargir et de prolonger l’instant présent en le replaçant dans la chaîne des causes et des conséquences. L’instant – pour peu qu’il soit bien choisi et délimité – suffit donc à amorcer et compléter — par inférence— ce qui précède ou ce qui suit, du moins à court terme.

On économise du temps perceptif. Peut-on pour autant, muni de la seule résonance motrice, accéder aux réactions et intentions des personnages, s’approprier leurs états mentaux ? Participer à leur action ? Certes non. D’autres éléments doivent entrer en jeu.

Comprendre les objets : les affordances

Au-delà d’une simple catégorisation perceptive (la cuiller, la maison, le bus, la carte bleue), les objets de la vie quotidienne se voient dotés de propriétés pratiques, qui reflètent les savoir-faire et les connaissances du spectateur en la matière : un trottoir est praticable ou en travaux, un chemin carrossable, un jus d’orange buvable, une porte ouvrable, etc… Ce sont les affordances perçues 7. Un même objet peut du reste recevoir plusieurs possibilités : une bêche sert à faire son jardin, à tenir la porte branlante d’un garage, à creuser une tranchée ou une tombe ! Tout dépend du contexte.

On peut aussi rapprocher plusieurs objets dans la même image et composer une propriété nouvelle, pur produit des relations entre éléments : bougies + gâteau + champagne = anniversaire. Plus généralement, le choix d’un décor relève de l’assemblage adéquat de différents objets spécialement disposés, tant dans la largeur que la profondeur du champ. Soit une ambulance stationnée, avec son éclair bleu clignotant, devant une maison. Au plan perceptif, il n’y a que deux éléments dans l’image (la maison, lieu d’habitation ; l’ambulance, véhicule pour transporter malades et blessés). Mais la pensée imageante, en s’aidant de la simultanéité des affordances, prolonge et dépasse instantanément la simple perception : quelque chose de grave est arrivé !. Le résultat – instantanément ressenti – ne passe par aucun raisonnement conscient, aucune formulation langagière. Il en ira de même pour les vêtements et les accessoires de jeu qui participent à la caractérisation des personnages. À chacun de projeter les idées et connotations que son imagination lui suggère.

L’inférence partielle

Si l’on associe l’affordance d’un objet (sa valeur d’usage, en quelque sorte) à un mouvement corporel (regard, visage, geste de la main, déplacement) la portée de l’inférence augmente sensiblement, aidée par le contexte (amont et aval). Une main se saisit d’un extincteur : il y a un feu à éteindre. Un camion va trop vite sur la corniche ? Le dérapage vers le ravin est probable. Un camion brûle au fond d’un précipice : sans doute le chauffeur est allé trop vite dans les virages. Des manifestants renversent des voitures et forment des barricades : il y a un enjeu politique…

L’inférence partielle – préconsciente – permet de relier l’action présente à ses causes immédiates, mais aussi de voir venir l’action suivante dans un jeu d’hypothèses de type probabiliste. Un cri d’enfant, des pas précipités…. Quelle portée – immédiate ou différée – donner à ces sons ? Quelqu’un ouvre nerveusement son courrier, et se fait bousculer. Quelle importance attribuer à ce courrier, à cette enveloppe fiévreusement déchirée, à cette chute maladroite de la lettre ? Une ambulance s’approche et s’arrête auprès d’une maison (cf. supra), quand soudain une jeune femme entre bord cadre gauche et court vers la maison. Quelle conséquence attribuer à tout cela ? Quel degré de probabilité accorder à l’une ou l’autre des hypothèses entrevues ? La parole, avec ses possibilités de représenter l’ici et l’ailleurs, le passé ou l’avenir, vient alors en renfort.

Les dialogues

Le passage du muet au sonore (les bruits corporels ou non) et au parlant (la voix) a grandement facilité la compréhension des intentions et des réactions des personnages. Il s’agit ici évidemment du texte parlé et non du texte écrit. Comme l’explique la socio-pragmatique du langage, le “texte facial” (le visage et les mains) s’unit au “geste vocal” (le ton de la voix) et à la parole proprement dite pour produire le sous-entendu du dialogue, avec la force illocutionnaire des propos échangés. Ce qui est transmis est toujours plus large que ce qui est dit…

De fait, la pensée imageante déborde et enrobe la pensée verbale, non seulement par le contexte (qui parle à qui, dans quelle situation ?) mais aussi par l’intention qui sort de la voix, et qui se lit aussi dans le regard et sur le visage.

Votre ballon est sous la table ! On imagine le sous-texte de cette phrase anodine : il y a un groupe de jeunes garçons, amateurs de foot, qui, placés comme ils sont, ne voient pas leur ballon, lequel ballon s’est égaré dans un espace non prévu… etc… On leur signale la chose pour qu’ils le récupèrent au plus vite. Si l’image montre le lieu, puis fixe le personnage qui parle d’un ton amical ou agacé, avec une expression qui en dit long, il est clair que la pensée imageante englobe la pensée verbale.

Inversement, si l’on prive le spectateur du contexte (montage), du ton (jeu vocal) et du visage (expression, identité), la signification reste très incomplète :

  • moi, ma sœur, elle est infirmière… (???)
  • le sandwich au jambon est parti sans payer ! (??? – le serveur depuis la terrasse du café, à la caissière : pas question de payer pour cet inconnu qui vient de partir si discrètement)…

Aussi le spectateur, en bon connaisseur des actes de parole, s’intéresse davantage aux sous-entendus, à l’implicite des phrases échangées, qu’à un premier degré jugé trop explicite.

On se souvient de la première phrase de M. le Maudit, proférée par la livreuse de linge, s’adressant aux enfants qui jouent dans la cour, en contrebas : arrêtez cette maudite chanson ! ce qui veut dire à peu près : j’enrage de cette impuissance de la police à arrêter le meurtrier, et voilà en plus qu’ils chantent innocemment cette comptine, où l’on raconte les exploits d’un tueur fou, ce qui évidemment réveille mon angoisse… La pire des choses eut été de dire : Vous ne savez donc pas qu’il y a un tueur psychopathe qui rôde ! Taisez-vous ! Ce premier degré didactique et lourd eût empêché tout simplement l’imaginaire du spectateur (l’enrichissement par le sous-texte) de fonctionner.

Le pouvoir qu’a la parole de représenter les lieux ou les temps – le passé, le présent immédiat, le futur proche ou lointain – tout en s’adressant à un interlocuteur sur le ton du conseil, de la plainte, de la persuasion ou de la colère (etc. …) est de facto souvent mis à contribution 8 : on le retrouve dans les films avec toutes les figures possibles de l’énoncé et de l’acte de parole. Quitter l’ici et le maintenant en voyageant dans les phrases. Certaines d’entre elles peuvent être même considérées comme de pures instructions narratives ouvrant par inférence sur la séquence suivante.

Un personnage, tout en finissant son petit déjeuner, raccroche le téléphone après avoir dit d’un ton enjoué : Ok, j’arrive ! (Cut : on le retrouve au volant de sa voiture en train de démarrer.) Tout le monde comprend que ce départ heureux est lié au coup de fil. On a ainsi économisé le manteau, les clefs, la sortie, l’escalier, la pendule, le hall d’entrée, la marche jusqu’à la voiture, l’ouverture des portes, etc. … L’objet, le geste et la parole ont été associés — dans le préconscient – pour inférer la rencontre toute proche.

Ok, dans dix minutes, devant la gare, j’arrive. L’interlocuteur est censé savoir de quelle gare on parle, tandis que le délai est précisé. Cut sur la voiture, arrivant à la Gare du Nord et s’arrêtant devant une personne qui fait signe. Le spectateur s’y attend, mais on est encore loin de la redondance. Ok, dans dix minutes, ma chère Claire, j’y serai… oui, à la Gare du Nord, comme d’habitude… à la dépose minute… Ici, l’annonce est précise, en forme d’instruction narrative. On frise la redondance. Cut sur la voiture arrêtée dont la portière s’entrouvre pour laisser entrer Claire. On voit comme il est facile de s’appuyer sur la puissance des représentations mentales (déclenchées par la parole) pour diriger le montage sans heurter le spectateur. Le temps de la compréhension est de la sorte abrégé : en combinant actions, dialogues et ellipses, on évite bien des piétinements 9.

La TMPP et les neurones miroirs

Au fond, le geste vocal dans sa justesse – le timbre et le ton de la voix – est aussi important que le texte proprement dit dans sa pertinence : les hésitations, les accents, le rythme d’un propos sont parfaitement ressaisis par l’auditeur, simplement parce qu’étant lui-même locuteur, ils correspondent à des façons de parler déjà vécues, à des profils d’expression vocale déjà éprouvés.

Une théorie, née aux Etats-Unis dans les années 1950, sous l’impulsion d’Alvin Liberman, a exploré ce domaine expressif. La théorie motrice de la parole perçue [ou TMPP] établit que la perception de la parole ne doit pas être recherchée seulement dans la “surface acoustique“ des mots, mais aussi dans la “structure articulatoire sous-jacente”. La chaîne parlée tient en effet en une série de passages : du geste intentionnel à la commande motrice, de la commande motrice aux déplacements d’articulateurs (langue, mâchoires, lèvres), avec pour résultat final une parole placée entre les respirations.

Il s’agit alors, pour estimer les gestes intentionnels à partir du son proféré, de faire le chemin inverse, c’est-à-dire de faire dépendre la reconnaissance vocale tant du cortex (pré)moteur, répertoire de gestes vocaux connus, d’articulations apprises, que du cortex auditif, lexique de syllabes et de vocalisations. Cette théorie a été perfectionnée et élargie – il y a peu – sous l’appellation “neurones-miroirs”.

Pourquoi, lorsqu’on voit quelqu’un prendre un verre d’eau et le soulever, en déduit on automatiquement qu’il a soif et qu’il va boire ? Pourquoi interprétons-nous et évaluons-nous si justement le jeu corporel, qu’il s’agisse du regard, du visage ou des attitudes ? Sans doute, parce qu’acteurs nous-mêmes, ce que nous voyons des agissements d’autrui — la “surface visuelle” en mouvement – va se réfléchir aussi dans la mémoire corporelle, soit dans la “structure articulatoire sous-jacente”, à savoir : le déroulé des actes successifs.

En 1997, des chercheurs italiens de l’université de Parme ont montré que le seul fait de regarder des mouvements de la bouche, des mains ou des pieds, active des zones corticales impliquées dans l’exécution de chacun de ces mouvements. En d’autres termes, l’analyse des mouvements humains dépend tout autant du cortex visuel que du cortex (pré)moteur, lequel “reconnaît” – de mémoire motricienne – les règles pratiques qui contraignent les gestes, et aussi bien les phases successives d’une action. En clair, un même réseau neuronal s’active lorsque je vois autrui agir, lorsque j’imagine cette action et lorsque j’agis moi-même. Par exemple, l’action prendre une tasse dans sa main pour le déjeuner ne déclenche pas la même activité neuronale que prendre une tasse dans sa main pour débarrasser la table10.

Dans un premier temps – de 1997 à 2006 – on a cru les neurones-miroirs capables de traduire (ou de laisser transparaître) les états mentaux, à partir des gestes et des mouvements corporels. Dans un second temps, une controverse entre chercheurs a séparé la simple résonance motrice de la lecture intentionnelle des actes, ce qui a donné lieu à de nombreux débats. Pour beaucoup, les neurones-miroirs ne peuvent permettre d’accéder aux états mentaux, à l’intériorité d’une personne : ils ne peuvent qu’élucider la portée immédiate d’un mouvement, pour autant que le spectateur les ait déjà vécus lui-même, directement ou indirectement. Pour ma part, je chercherais plutôt la réponse du côté des solutions intuitivement mises en œuvre dans les films réussis. La résonance motrice ne suffit pas à saisir une intention complexe ou différée. Pour accéder partiellement à une intention, il faut non seulement coupler le mouvement corporel aux affordances d’un objet (la tasse de café, pour reprendre l’exemple ci-dessus) mais également y adjoindre les propos des personnages (texte, geste et visage vocaux) si l’on veut voir plus loin. Et surtout lui donner un contexte effectif, une accumulation préalable. C’est ainsi que le montage des films apporte toute sa puissance de pensée, en ajoutant, en relation directe avec les personnages et les situations, un discours sous-jacent – en filigrane – celui des prises en compte successives opérées par le défilement des plans et l’enchaînement des séquences.

Le montage

En écourtant et resserrant les actions, en usant du montage parallèle, en recouvrant les ellipses d’une continuité apparente, le montage imprime son discours latent, de cut en cut, de séquence en séquence. Voici que, cependant, mais par ailleurs, or, et pourtant, donc, sauf que… C’est au spectateur de retrouver l’implication ou la relation entre plans en s’aidant du jeu (actions et dialogues), mais aussi de l’emplacement des points de coupe (in/out), voire des sons off, déclencheurs de présences nouvelles. Au demeurant, ce discours latent ne se remarque guère, sauf lors des ruptures, des ellipses voyantes ou inexpliquées, ou lors du changement de séquence. Le plus souvent, il opère en catimini, s’adressant au préconscient, et comme tel, s’assurant une certaine transparence. Faut-il encore penser ce discours sous-jacent comme un langage ? Rien n’est moins sûr. Comme une syntaxe implicite de la pensée en images ? C’est plus probable.

En premier lieu, le montage progresse par inférences réussies, dans le simultané ou le successif, ce qui lui assure une grande immunité vis-à-vis de la rumination, du détachement ou de l’interrogation oblique. De plus, les raccords formels (de lumière, de décor, de mouvements, de regards… etc.) se chargent de lisser – sans couture apparente – les passages de plan à plan, en recouvrement des raccords de contenus (inférences liées au mouvement corporel, aux affordances d’objets, aux répliques des personnages). Enfin, le son d’ambiance, en verrouillant la continuité temporelle et spatiale de chaque séquence efface un peu plus encore la saute du point de vue (le passage des cuts).

Ce faisant, le spectateur emprunte à son tour le chemin inférentiel tracé par le montage (la fameuse syntaxe filmique), soit pour accéder aux réactions et intentions des personnages, soit pour partager le point de vue du cinéaste.

Cependant, dès qu’il y a conflit entre les différents personnages que l’on a choisi de filmer, il devient impossible de créer un schéma de montage qui puisse renforcer tous les points de vue à la fois. Le monteur — force de proposition — suggère alors à son réalisateur — force d’intention — une structure appropriée, narrative en apparence, discursive en réalité 11. L’objectif est de se rapprocher de l’un des points de vue, en privilégiant un montage accordé aux intentions et aux réactions de l’un ou l’autre des protagonistes.

Ce schéma de montage va favoriser ou renforcer tel ou tel personnage par un suivi avantagé de ses actes (panoramiques d’accompagnement, gros plans, travellings, etc. … posés sur les expressions, gestes, regards…). De cette manière, les points de coupe – in et out – semblent appartenir synchroniquement, non plus au narrateur, mais aux préoccupations et décisions des acteurs de la scène. Doté de cette couverture narrative, le montage reprend à son compte certains états mentaux, approuve certaines positions, au détriment d’autres points de vue, mis à distance ou minorés par l’éloignement ou la brièveté des plans.

Pour autant, le cinéaste peut suivre un autre schéma, en affirmant par exemple ses propres positions dans un commentaire explicite : l’ordonnancement des plans est alors subordonné à une voix off qui oriente et prépare la lecture des plans. Ou dans un commentaire presque neutre qui semble s’appuyer sur le contenu et l’enchaînement des images (qu’il a cependant lui-même montées). C’est que bien souvent, les paroles des personnages et le montage des plans ne suffisent plus à assurer la compréhension de situations trop nouvelles, trop étrangères, ou trop complexes. Le narrateur descend alors dans l’arène, ce qui ne l’empêche nullement de continuer à faire défiler ses propres prises en compte en ajustant :

  1. les raccords par inférence (étayés par les mouvements corporels, les objets, les dialogues).
  2. les raccords formels (fluidité de l’espace et du temps, continuité apparente).
  3. la densité et la vitesse du déroulé temporel (intensités, ellipses, flux entrelacés ou parallèles).

Cependant, ce chemin de pensée et d’émotion proposé par le montage ne cesse d’interagir avec les savoirs et les croyances déjà constitués chez le spectateur. Certes, les images et les sons d’un plan sont vrais – ou du moins crédités comme tels – bien qu’écourtés, mais le montage qui les anime est une construction après-coup qui, à partir d’un tournage déjà très sélectif, a décidé d’une mise en ordre narrative/discursive. La construction voulue par le cinéaste, pour être crédible, a donc besoin à son tour d’être relayée et authentifiée par les figures cinématographiques de la présence : elles certifient et départagent les points de vue.

L’accès aux états internes : le regard et la voix

Pour se faire comprendre, le documentaire multiplie les aspects, varie les axes et les distances. Les plans larges (situation) rendent lisibles les déplacements, les rencontres, les approches et les éloignements. On dispose ainsi d’un contexte pour comprendre les plans plus serrés. Les plans rapprochés donnent à voir les gestes et les visages (personnage). Sont ainsi précisés les épicentres successifs de l’action ou de la parole : ce qu’il est souhaitable de montrer ou d’évincer. Les mouvements de caméra (panoramiques d’accompagnement, suivi de mouvements) renforcent la focalisation, la mise au centre. Inversement, le non suivi (sorties de champ, éloignements) participe de la mise à l’écart, provisoire ou définitive. Les gros plans de visage révèlent, quant à eux, l’activité du regard : les yeux s’orientent, saccadent et convergent vers un but (indexation in ou off). Le spectateur suit avec précision les mouvements de l’attention, les prises en compte successives et les visées du protagoniste mais aussi ses visions intérieures, rythmées par la suspension provisoire du regard, point de tactilité ouvert sur l’intime.

Lorsqu’un personnage réfléchit, passe en vision mentale, le spectateur est invité en effet à le suivre en interne afin de partager pensées et émotions. Un tel accès doit évidemment être préparé en amont, si l’on veut que l’empathie devienne effective, se remplisse à bon escient de cette intériorité.

Heureusement, le gros plan du visage laisse transparaître une inquiétude, monter un espoir, éclore un sourire : les états mentaux affleurent par des synergies faciales qui échappent en bonne part à la volonté consciente. La physionomie mouvante accompagne de la sorte intentions et réactions. Cependant l’axe de prise de vue – face, trois-quarts, profil, dos – en module autant l’emprise que la lisibilité : le gros plan face est le plus informatif, mais aussi le plus complet. La position de caméra est alors décisive, puisqu’elle règle la possible intensité des introjections et des projections.

Si le texte facial ne suffit pas, le geste vocal vient à la rescousse : la voix chuchotée, la voix pleurée, la voix criée, la voix tremblée ou incertaine, le rythme et les accents, les soupirs et les craintes nous en disent plus que les paroles. La voix, reliée au domaine respiratoire, est certes traversée par l’émotion — elle peut se fendre ou se briser – mais aussi au domaine de la volonté – elle peut influencer et infléchir les événements. Sa force illocutionnaire, tournée vers l’extérieur, est inséparable de sa fragilité expressive, venue de l’intime. Ainsi formés, les propos retenus au montage, s’adressent aussi – et pour cause — au spectateur, qui se trouve conforté ou questionné, embarrassé ou touché dans ce qu’il croit savoir : à chacun d’imaginer ce que parler veut dire dans le contexte précis rapporté par la mise en scène 12.

S’il y a deux domaines où les neurones-miroirs retrouvent une pertinence, c’est bien ceux de la voix et du visage, tous deux accessibles par les gros plans visuel et auditif. La voix entendue se réfléchit en écho moteur dans l’imaginaire de celui qui écoute. Le visage entrevu se réfléchit, tel un double spéculaire, dans la motricité faciale de celui qui regarde. C’est que l’un et l’autre participent à la communication entre les êtres humains : on se regarde pour mieux s’écouter, pour mieux comprendre les intentions réciproques. Comme nous le révèle clairement le portrait, le visage forme un “paysage” particulièrement intense, indiquant l’âge, le sexe, le caractère, l’histoire psychologique et sociale, mais surtout l’état intérieur, instantanément donné par les yeux, les synergies musculaires de la face. Tout se passe comme si notre visage, invisible à notre propre regard, mais offert à la vue des autres, fonctionnait en accord avec nos états mentaux, révélant nos intentions et nos réactions les plus profondes, suscitant projections et introjections.

« Le visage est le lieu de la reconnaissance mutuelle, nous allons les mains et le visage nus et nous offrons aux autres le relief de traits qui nous identifient. À travers lui nous sommes reconnus, nommés, jugés, assignés à un sexe, à un âge, une couleur de peau, nous sommes aimés ou méprisés, ou anonymes, noyés dans l’indifférence de la foule. », David Le Breton

Le langage des yeux, vif et rapide, ne trompe pas. Il nous dit l’amour ou la haine, la peur, l’inquiétude, la ruse, la gêne, la séduction, l’admiration… La puissance du regard 13 est telle que l’on a cru bon d’interdire le regard caméra en raison du trouble qu’il produit en réintroduisant le présent dans le passé de la représentation : il – ou elle – me regarde, ici et maintenant, dans le présent de l’écran, ce qui est évidemment impossible, vu le dispositif. On lui préfère donc “le flagrant délit de sincérité” exprimé par les yeux, les sourcils et les lèvres, sans adresse directe au spectateur 14… La crédibilité atteint alors son intensité de présence maximale. À cet instant d’émotion particulière, d’empathie intense, le cinéaste, le personnage et le spectateur éprouvent ensemble une réalité qui les concerne possiblement tous les trois.

Les figures de la présence parcourent ainsi tous les états corporels et mentaux, en s’inscrivant dans la complexité sociale, individuelle et collective. Si le chercheur français Alain Berthoz propose le concept de simplexité 15, ce n’est pas un hasard : le cinéaste, comme tous les humains, cherche à faire simple, ce qui demande d’inhiber, de sélectionner, de lier, d’imaginer, pour pouvoir ensuite agir au mieux dans la complexité qui nous entoure.

La pensée en images ne se remarque pas, contrairement à la pensée verbale. On n’a donc pas fini de mettre au clair ces deux modes d’appropriation de la réalité, que celle-ci soit perçue directement ou proposée à l’état condensé, comme c’est le cas dans un film. Comment s’organisent au plus profond, connaissances et émotions, pour donner lieu à des flux aussi différents, mais en même temps aussi interdépendants ?

Figures de l’absence

Tous les états du corps ne sont pas filmables. Certains sont protégés, secrets ou interdits de caméra. D’autres sont déclarés obscènes. Ils existent, mais sont occultés, tus et au besoin, effacés. Pour toutes sortes de bonnes ou mauvaises raisons, provisoires ou durables, morales ou politiques.

Les visages (disparus), les voix (éteintes), les actions (censurées) posent clairement la question de la liberté des cinéastes. La démocratie doit gérer ses conflits au fur et à mesure qu’ils se présentent, sans attendre qu’ils s’enkystent ou dégénèrent. Le cinéma et les médias devraient ouvrir au débat public, à l’intelligence plurielle, à la transformation positive du monde.

Que vaut en effet la mémoire d’un peuple sans les images et les sons qui vont avec ? Que devient l’identité collective quand les souvenirs sont tronqués ou effacés, quand les témoins directs ensevelissent avec eux les souffrances ou les espoirs d’un pays tout entier ? Qu’est-ce qu’une nation sans archives ?

Filmer les évènements importants, qu’ils soient douloureux ou dangereux, c’est disposer d’une mémoire filmée, qui, une fois l’effroi ou la colère dissipés, permet de construire et regarder avec recul et distance la trajectoire historique de son pays. Ce constat devrait inciter à filmer sans relâche les évènements présents, et plus largement les acteurs de la réalité contemporaine.


  1. Le spectateur entre dans le film avec un je singulier (trajectoire psychologique, aspirations conscientes/inconscientes) et un nous d’appartenance plurielle (culturelle, sociale, sexuelle, âge), inclus néanmoins dans une attente particulière : il est venu voir tels interprètes, tel type de film, tel metteur en scène, des actions imaginaires ou réelles. Désireux de se nourrir – intellectuellement et émotionnellement – de films de confrontation et de mémoire, le spectateur coproduit à son tour un texte intérieur, en s’aidant du déjà connu, du déjà vécu.
  2. Le montage ne saurait se contenter d’un premier degré didactique, ignorant les possibilités imaginatives du spectateur.
  3. Chaque spectateur se positionne ainsi devant les personnages et les situations conflictuelles avec un parti pris (soit un mélange de savoirs, de croyances et d’approximations qui caractérise la subjectivité), avec les préjugés « transparents et acquis » de son milieu de vie (règles communément admises, évidences partagées, intérêts supposés communs).
  4. La réalité est sûrement plus complexe : s’il y a un préconscient “cognitif” lié au mémoriel, au “je-nous” évoqué plus haut, il y a aussi la topique freudienne (ça, moi, surmoi) et conséquemment le refoulement, la censure, le souvenir et l’oubli involontaires, et aussi bien le décalage entre les intérêts objectifs et aspirations subjectives, soit la coupure entretenue par les idéologies entre imaginaire individuel et nécessité collective.
  5. Le cortex pré-moteur — dépositaire de la mémoire corporelle — interprète les données issues du cortex visuel afin de re-projeter sur l’image une signification immédiate. La vitesse de lecture des actes moteurs est nécessairement adaptée à la vitesse de la commande motrice. Par leur faible masse, les yeux vont très vite, tandis que les muscles du visage (vingt-six paires) sont plus lents, occupés à configurer les expressions de la face. La tête et le cou sont évidemment moins rapides… La résonance motrice est du reste à la base des comportements imitatifs indispensables à tout apprentissage moteur.
  6. Sauf s’il s’agit de prestidigitation : l’habileté motrice du magicien est supérieure à la vitesse de lecture du public, très béotien en la matière.
  7. Affordance est un terme conçu par Gibson, dans le cadre de sa théorie écologique de la perception (1969).
  8. C’est le cas des films à témoignages, composés principalement d’interviews…
  9. Cette capacité à prolonger mentalement le devenir des actions à court terme, sur la base d’un amorçage réussi, est essentielle au cinéma : elle permet de suivre plusieurs personnages dans une scène, simplement en y sélectionnant les moments significatifs, en les croisant au montage, tandis que le son off se charge d’entretenir en mémoire le flux des présences (bruit de pas, dialogues), tout en assurant la continuité apparente, artificiellement reconstruite. Si l’on focalise sur A, on peut faire une ellipse de B, et inversement. Si l’on suit C, on peut faire une ellipse de A et B, avant d’y revenir à nouveau…
  10. Sur les neurones miroirs et leur fonctionnement, se reporter à Giacomo Rizzolatti, Corrado Sinigaglia, Les Neurones miroirs, Ed. Odile Jacob, Paris, 2007. La particularité de ces neurones tient au fait qu’ils s’activent pendant que l’individu exécute un mouvement (c’est le cas pour la plupart des neurones du cortex moteur et pré-moteur) mais aussi lorsqu’il est immobile et voit (ou entend) une action similaire effectuée par un autre individu, voire même quand il pense que ce dernier va effectuer ladite action.
  11. Si chaque image s’adosse à un point de vue, alors il faut admettre que la succession des plans, même lorsqu’elle paraît naturellement conduite par l’enchaînement des actions, tient toujours un discours sur ce qui est montré : le discours des points de vue successivement délivrés, augmenté de celui des relations entre plans.
  12. Le déroulement du film convoque une réalité de référence, propre à chaque spectateur. C’est donc un réseau d’affects et de représentations, de croyances et d’aspirations – constitué avant la projection du film, mais réactivé et travaillé par le montage — qui s’accumule en mémoire rapprochée, pour faire trace et dialoguer avec les propositions du cinéaste.
  13. Voir Gérard Bonnet, La Violence du voir, PUF, Paris, 1996.
  14. Sauf si, pour de bonnes raisons, le cinéaste souhaite prendre à témoin son spectateur, furtivement ou durablement.
  15. Alain Berthoz, La Simplexité, Ed. Odile Jacob, Paris, 2009.

Publiée dans La Revue Documentaires n°24 – D’un corps à l’autre (page 19, Août 2011)
Disponible sur Cairn.info (https://doi.org/10.3917/docu.024.0019, accès libre)