Écouter, voir

Claude Bailblé

Chaque système sensoriel transforme l’énergie excitatrice (lumineuse, chimique, thermique, motrice, acoustique) en sensation codée par un capteur, en image structurée et organisée. La perception est donc polymodale. Elle assemble les diverses excitations émergentes en une représentation unifiée, multisensorielle. L’insertion de soi dans le monde sensible suppose l’éveil général des perceptions sensori-motrices, et non la réduction aux seules perceptions audiovisuelles, comme au cinéma. Pour autant, l’image visuelle prévaut, car elle a le pouvoir ordinaire de se confondre avec l’objet, d’en certifier la présence, ce qui lui assure un avantage décisif sur l’imagerie auditive, reléguée à l’actualisation passagère de telle ou telle propriété. La vision assure une perception durable, suivant en cela la disponibilité de l’énergie lumineuse, omniprésente et extérieure aux objets. Sous le soleil, le paysage immobile garde tout son éclat. La vue s’étend, aérienne (le plan de front) et terrestre (le plan de sol). Le regard, vif et mobile, parcourt alors l’étendue comme un toucher à distance.

L’imagerie statique relate les emplacements, les orientations et les grandeurs avec suffisamment d’exactitude et de précision pour devenir un champ d’action efficace. Chacun se débrouille avec le plan de sol, le plan de front, le raccourci oblique (dû à l’élévation du point de vue), sans même penser qu’ils existent à l’état d’image (quelques millimètres carrés) au fond de la chambre oculaire.

L’imagerie dynamique (les figures en mouvement) relate les approches et les éloignements, les trajectoires et les vitesses, les configurations mobiles en présence. Elle montre aussi les mouvements intra-figuraux (les traits du visage, par exemple), les changements d’aspects (les gestes et les attitudes), les actions et les déplacements, à l’intérieur de l’imagerie statique (plan de sol).

Cela dit, nous ne voyons bien que ce qui nous fait face, assez mal les côtés (obliquement, tangentiellement), tandis que l’envers nous échappe. 1 De fait, nous ne voyons pas un objet, mais seulement une image frontale, mise en volume. La scène visuelle – comme une façade – est incomplète: 1l y manque les côtés, le dorsal du frontal, le rétro-frontal et même le rétro-dorsal. Pour s’en convaincre, interviewer un prestidigitateur. Tandis que l’imagerie auditive, omnidirectionnelle, échappe de partout, aussi fugace et ténue soit-elle !

La saisie des données visuelles statiques (l’espace, le contexte) est certes performante et rapide; mais en quelques secondes, l’information est collectée, la curiosité s’épuise. Le plus souvent, la perception retourne au silence, et la pensée (le monde intérieur) reprend le dessus. Il n’en va pas de même pour les données dynamiques (les figures en mouvement). Sujettes à interprétation, elles appellent à la compréhension du « texte visuel », au repérage et à la saisie des indices (séquentiels ou parallèles, singuliers ou pluriels), au suivi des modifications intra-figurales (l’expression d’un visage, le geste, l’attitude), figurales (les actions et déplacements, les trajectoires et les vitesses), configurales (les écarts et rapprochements entre personnes), ou extra-figurales (les relations au lieu, à la situation). Pour qui sait lire, le « texte visuel » fait alterner le mouvement (significatif) et l’immobilité (suspensive), exactement comme le « texte auditif » fait succéder au son mouvant l’arrêt silencieux. Pour autant, ces deux silences ne restent pas inertes : la profondeur du temps les relie au passé et au futur de l’instant.

L’imagerie auditive

Ainsi l’énergie sonore se fait l’image d’un monde plus rapproché, limité par la puissance des sources. La portée d’un « petit son » est parfois très courte, si courte même que le monde phénoménal montre un mouvement muet, une sorte de hors-champ acoustique dans un plein-champ visuel. L’horizon de l’écoute est imprévisible, protéiforme et changeant, toujours frappé d’incomplétude. Il est donc recouvert par celui de la vue, de plus conséquente portée.

Il n’empêche. L’imagerie auditive reste hautement expressive, doublement expressive : l’objet sonore mêle la cause et l’effet. La cause est naturelle (orage, pluie, vent, etc.), sociale (circulation, machines, travaux, etc.) ou alors domestique (téléphone, aspirateur, douche, etc.). Le plus souvent, l’image auditive reflète une action, un geste précis (une activité bio-musculaire).

L’effet est alors la matérialisation acoustique d’une énergie qui n’a rien de sonore : elle s’entend pourtant dans le contour, la hauteur, la masse, l’allure vibratoire. Mais comme le son est éphémère, (parfois très bref, souvent passager), l’image auditive laisse derrière elle l’ombre d’un silence, cette sorte de silence qui prête au doute, à la conséquence imminente. Quelqu’un a remué un objet, fait quelques pas… On a identifié une présence, une présence vivante, source d’intentions diverses, prêtes à s’actualiser.

Le son, qui naît d’une énergie mise en jeu, ouvre sur un futur proche, un devenir. Ainsi, le grincement d’une porte n’est pas écouté pour lui-même, ni même seulement dirigé vers sa cause (la personne qui entre ou sort) mais tout aussitôt orienté vers l’instant suivant, comme accomplissement conséquent de l’instant présent. On « voit » la nouvelle situation se profiler, avant de la constater visuellement, dans les faits. 2 En somme, le décours énergétique désigne l’agent causal, tandis que les formants et le timbre désignent l’objet sonorisé. Il est rare que ces deux images soient perçues à égalité : la balance penche toujours d’un côté, en faveur de la cause (comme moment d’un processus) ou de l’effet acoustique (l’aspect « timbral » ou « musical » du son).

Précise ou imprécise, l’imagerie auditive ouvre sur un imaginaire multiple, foisonnant. Un simple bruit de pas éveille instantanément au moins six images, lesquelles passent inaperçues, mais n’en fonctionnent pas moins. La chaussure (sandale, semelle de crêpe, talon vertige, etc.) ; le sol (gravier, carrelage, parquet ciré…) ; le lieu (plein air, cour intérieure, hall, living…); l’identité de qui marche; avec quelle détermination (en traînant les pieds, nonchalamment, avec hésitation, précipitamment) ; pour aller où ? Se rapprocher ou s’éloigner de qui ? (l’instant suivant, le futur proche, l’intention…). Une simple percussion de contact, rythmée par la démarche, et voilà une pléiade d’informations, plus ou moins flottantes, plus ou moins affirmées !

Il faut d’abord que le matériau sonore et sa facture (profil dynamique, timbre, grain, masse) désignent clairement l’énergie première (la cause) et sa manifestation seconde (l’objet). Or un son définit parfois assez mal le champ de forces d’où il émane, à travers un mode de production mécano-acoustique (m.d.p.m.a.). Percussion gaz sur gaz (air comprimé) ; gaz sur solide (sons éoliens); liquide sur liquide (gouttes de pluie sur une flaque) ; solide sur liquide (rames dans l’eau); solide sur solide (marteau, chocs de toutes sortes)…

Y ajouter tous les états intermédiaires: mou, visqueux, gouttelettes, poussières, etc. Il y a donc une infinité de m.d.p.m.a, qui tous appellent une lecture, un décodage (son →> source) particuliers. L’imagerie auditive est multiple. Choc, bzzzz, plaf, dring, bâng, tonk, vroum, etc. Ce décodage peut rester sans réponse précise, de sorte que seule la présence est détectée, flottante, hypothétique, en quête d’identification.

On peut donc accommoder le rapport image perçue → objet identifié et soulever ainsi les puissances de l’imaginaire (sinon de la constitution hypothétique), en réglant la part du flou et du net dans l’image auditive, à la manière d’un cadreur réglant son objectif pour la mise au point. Mais après avoir reconnu l’objet sonore (partiellement ?), il faut encore remonter à la cause efficiente, celle qui a déclenché le bruit ou l’incident acoustique. Identifier, à travers le « geste instrumental » (l’enveloppe dynamique du son, l’énergie mise en jeu), le facteur déclenchant.

Le régime d’audibilité

Comment l’image auditive représente-t-elle l’objet vibrant, et aussi bien le processus mis en jeu ? La médiation est énergétique/temporelle : le son s’inscrit dans le provisoire, le passager ou le furtif. Sans doute cette médiation, malgré la dispersion omnidirectionnelle des sons, est moins claire, moins stable que celle de la vue, plus géométrique/spatiale. Mais elle est plus parlante : elle s’exprime sur dix octaves et sur une cinquantaine de décibels. Une porte qui claque ne devient pas brillante au moment de l’impact : la modification spatiale/géométrique reste muette…

En premier lieu, s’interroger sur la manière dont la surface émissive de la source (ponctuelle ou étendue) rend compte du volume entier de l’objet (mode de représentation spatial).

En second lieu, s’interroger sur la façon dont la durée de l’émission – momentanée – rend compte de la longueur ou de la brièveté de la cause déclenchante (mode de représentation temporel).

a – Le mode de représentation spatial

  1. l’objet est représenté par un fragment (synecdoque), en partie, ou totalement.
  2. la source est simple (ponctuelle, surfacique), composite (multi-ponctuelle, multi-surfacique), ou omnidirectionnelle
  3. la source est homogène (sons voisins) ou hétérogène (sons multiples et différents)
  4. la source est décomposable en segments articulés (co-modulés ou dis-modulés) avec émissions de sons synchrones, détachés, séquencés (semblables ou dissemblables)
  5. la source est figurale (son « coque », en surface), intra-figurale (état interne), configurale (entrechoc), extra-figurale (sollicite l’acoustique des lieux) ou mixte (mélange)
  6. la source est en mouvement ou fixe (position, vitesse, direction, trajectoire).

b – Le mode de représentation temporel

Le son représente, en sa durée, la diversité des causes énergétiques mises en jeu. Mais cette représentation acoustique est souvent incomplète, ne reflète pas continuement ou également les forces en présence. On peut cependant avancer l’hypothèse minimale d’une tri-causalité. Action, réaction, champ de pesanteur. « Pousser une porte » implique une énergie potentielle (vaincre l’inertie de la masse), une énergie cinétique (stockée par la masse dans sa vitesse), une énergie réactive (rebond sur un butoir) et un frottement (audible ou non sur les gonds), dû au poids de la porte…

« Sortir ses clefs, ouvrir la serrure, pousser la porte et la refermer » implique une séquence de sons dont certains sont inaudibles (trop faibles), et donc appelés « silence » (quand ils ne sont tout simplement masqués par les plus forts) et d’autres très saillants, selon le couplage, le transfert de l’énergie première en énergie seconde.

L’imagerie sonore est par essence une imagerie énergétique, excitant les qualia de la sensibilité auditive : profil dynamique, timbre, allure, grain, masse, hauteur spectrale, site, etc. Chacune des vibrations est reliée à la réalité particulière des forces co-agissantes et réagissantes au plan acoustique. La question est de savoir comment s’opère le passage des unes aux autres. C’est l’objet même de l’acoustique physique des corps vibrants.

  1. agent actif
    — durée et force : impulsionnel, bref, passager, long, continu
    — régularité : sporadique, espacé, intermittent, itératif, rythmé
    — mouvement : balistique, accompagné, forcé, avec ou sans doppler
    — phases : unique ; bi, tri… multiple; écourtée, suspendue, articulée, en cascade…
  2. agent réactif
    — mode : frottements, percussion élastique, amortie, oscillations, résonances
    — fluctuations, rebond, reprise, renvoi, impact, brisure, éclatement, etc.
    — solide ; liquide ; gaz ; états intermédiaires.
  3. agent permanent : la pesanteur 3
    — isolé : chute, masse, impact, éclatement, collision simple multiple (cf. poids, vitesse)
    — mixte : co-modulé; articulé au début, au milieu, à la fin de l’événement acoustique
    — progressif: frottement, glisse, chute, etc., addition cumulative (théorie des catastrophes).
  4. nature de l’objet « sonorisé »
    — masse, dureté, mollesse, cavités, état de surface, fragilité, etc., la capacité à traduire en un son bien spécifique
    — l’énergie reçue (formants). Ses possibilités en termes mécaniques : déformations élastiques ou irréversibles,
    — destruction, éclatement. Ses propriétés lors d’un mouvement : roulement, frottements, rebonds, etc.

On devine ici la complexité du signe auditif. Le passage du signifiant au référent est fragile et furtif, voire distendu. Le régime d’audibilité dépend objectivement des modes de représentation ci- dessus évoqués, et subjectivement des compétences auditives, du degré de préparation et d’attention de l’auditeur. Noter qu’un masque-réflexe (accentuation du percussif) est toujours possible dans le décours d’un son ; se rappeler aussi du masquage instantané des micros-informations (et des harmoniques de poids faible) par les formants les plus intenses ; ne pas oublier le masquage temporel son sur son, dû à l’acoustique (l’énergie réactive) des lieux. Décidément, un son peut en cacher un autre, possiblement plus important… En d’autres termes, l’imagerie auditive, pour être réussie, est exigeante, dans toutes ses étapes, de la conception à la restitution, en passant  par la captation, le montage ou le mixage. La mise en scène du sonore – la recomposition, au sens musical ou pictural – reste largement intuitive, empirique, et même stéréotypée, parfois.

La scène auditive

Si, pour un objet sonore donné, on peut déjà inférer plusieurs agents, distinguer plusieurs phases plus ou moins articulées, repérer le déroulement des « forces » en présence, que dire d’une configuration d’objets simultanément ou successivement entendus en situation courante ?

Au vrai, l’image auditive s’appuie sur l’image visuelle, et réciproquement ! L’information acoustique est complexe, aussi l’oreille l’analyse très rapidement, sans que la conscience ne s’en rende compte. La saccade d’orientation auditive, purement neuronale, est plus rapide que la saccade visuelle, bio-musculaire. Certains paramètres sont extraits en moins d’une milliseconde, certaines qualités sont évaluées en quelques quarante millisecondes… Plusieurs sources sont ainsi décodées en fond sonore, même si l’attention (l’écoute focale) n’en retient qu’une. L’acoustique des lieux, la position et la distance des sources, leur degré d’implication ou leur indifférence, tout cela est entendu, mémorisé. Le silence n’est donc pas le problème majeur de la mémoire auditive… Se déployant dans la durée, le son est surtout ausculté dans la dimension temporelle, laquelle est son véritable plan de projection. Cependant, au cinema, le son a pris du retard sur l’image. La caméra ubiquitaire a multiplié le spatial (le découpage en plans) tandis que la narration réduisait le temporel (les séquences) à quelques unités ou dizaines d’unités. La monophonie, en simplifiant considérablement la représentation auditive, a d’autre part pénalisé l’expression sonore, raccourci ses possibilités. De fait, la mono, avec ses phénomènes d’inter-masquage, se doit de réduire la multiplicité des sons, sauf à perdre l’intelligibilité, la clarté ordinaire de l’écoute focalisée. Ainsi, le son se cantonne encore souvent dans un rôle d’auxiliaire stabilisant (ambiance), ou de faire-valoir des voix. L’audibilité réduite se dissimule – quant à elle – sous l’apparente netteté d’une écoute focale un peu trop précise (dialogues) et d’un champ ambiant amoindri. Pourtant, le son dispose de plusieurs octaves où répartir les données (continues et transitoires) sans qu’elles se gênent, données améliorées par une meilleure restitution des fréquences aiguës (jusque 12 500 Hz) d’une part, et de la dynamique utile (45 dB), d’autre part.

L’ensemble, dirigé par un narrateur omniscient pose ses yeux attentionnels, ici où là : le son suit, inspatial, sans se faire remarquer par la moindre perception directionnelle… Le cinéma imite à la fois les mouvements de l’imaginaire (la pensée délivrée de l’espace contingent, du temps mort) et ceux de l’attention (la prise en compte des éléments significatifs) pour les appliquer à la représentation (d’où les changements d’axes, de distance et les ellipses). En sorte qu’une monteuse (ou un monteur) monte simultanément deux images : la « in » et la « off », celle-ci englobant celle-là. Il est même franchement impossible de monter la première en ignorant la seconde, tant les interactions sont nombreuses entre le champ et le hors-champ. Or il se trouve que le son, en donnant consistance à l’espace visuellement off, est appelé à « couvrir » et faire vivre le lieu où se déroule l’action. Le montage-son ne saurait donc être indépendant du montage-image, et réciproquement. C’est pour cette raison que l’on a réuni, sur une même table, des pellicules-supports identiques, physiquement semblables 4. La composition – en plusieurs bandes – d’un univers sonore se développe en présence de l’image, sans se réduire à la seule synchronisation des dialogues. Les données visuelles et auditives peuvent tout à fait se repositionner dans un dispositif artificiel (in et off), dès l’instant où ce dispositif puise sa transparence dans les mouvements de l’attention du narrateur et/ou des personnages.

Les registres du sonore

Les différents registres du sonore aboutissent à la table de montage comme une partition déjà travaillée rejoint le pupitre du chef d’orchestre pour être jouée (décor sonore, continuité synchrone).

Le commentaire: si le commentaire peut simplifier et orienter la lecture des images, il peut ajouter aussi ses interférences, ses échappées éparpillantes, ses débordements, ses bouchons. Mais aussi ses corrélations fécondes. Il peut dire en trois mots ce que l’image aurait eu du mal à montrer en dix plans. Le risque persiste cependant de créer un fil conducteur dominant, celui de la parole : le duel entre images et commentaire tourne facilement à l’avantage du texte, non sans ramener les images au niveau subalterne de l’illustration, de la preuve. II importe néanmoins de maintenir le parallélisme entre les deux flux, de conserver une « balance » entre la phrase parlée et le propos tenu par l’enchaînement des plans, de gérer l’équilibre entre les choses dites, les choses montrées et les choses faites. Sans cette précaution, l’effort mental, écartelé entre le continuer-à-voir et le continuer-à-comprendre, ne sait plus où se porter : le spectateur « décroche » 5.

Les dialogues: à la fois texte et geste vocal, la parole énonce une réalité souvent différente de l’image, se promenant dans le passé ou le futur. « Je vous verrai demain », « tu t’en souviens certainement »… C’est par le pouvoir de représenter que les mots agissent sur nous; mais dans la pratique les mots n’existent qu’immergés dans des situations, des actions, des jeux de force ou d’influences. Les échanges de parole tendent à convaincre, à obliger, à susciter la sympathie ou le désir, à imposer des représentations plus ou moins exactes, plus ou moins mensongères ou incomplètes. Et aussi bien à émouvoir, réconforter, détendre, relancer. En sorte qu’une imagerie mentale venue des mots complète et ouvre l’image venue de l’écran.

La voix: entre chair et parole, la voix propose une identité sonore, un visage vocal : l’âge, le sexe, le caractère social ou psychologique s’entendent dans le timbre modulé par la langue, l’articulation des syllabes. On entend des mots plus ou moins bien prononcés, des jets de paroles, des filets de voix, des respirations et des soupirs et l’on est renseigné sur celui ou celle qui parle. L’intonation, le souffle, le débit, l’accentuation (le geste vocal, en somme) expriment l’état actuel du personnage, son trouble, son désir, ses intentions. Le sous-entendu naît de la confrontation entre le visage vu et le geste vocal entendu, de l’interaction entre le visage qui commente ou dissimule, et la voix qui sonne juste ou légèrement faux. Outre le texte parlé, la voix ajoute finalement à l’image une plus-value expressive qui facilite la compréhension du personnage, et même la traversée des apparences.

L’ambiance: le lieu scénique déborde l’écran et se donne par le décor sonore, en coulisses. Une atmosphère est composée, faite de plusieurs sources, petites ou grandes, détails proches ou lointains, sons indices ou sons symboles capables de « dire » le lieu ou le moment, sons d’ambiance aptes à baliser l’espace et le temps, sans forcément sombrer dans le cliché sonore.

Le lieu scénique est installé grâce à une panoplie (multipistes ?) de sons soigneusement choisis pour leur discrète expression ou au contraire leur ostensible signification. On règle leur durée : trop courte ? illisible, non signifiante; trop longue ? insistante, usant l’idée devenue trop évidente. On règle leur intensité, en se rappelant qu’une idée forte n’a pas besoin d’un son fort, mais d’un son émergent, captant la curiosité auditive (un son impulsionnel, transitoire, par exemple, accroche l’attention des « neurones phasiques ») 6. On ajuste le silence, où dans l’après-coup d’un son, se recueille la signification, la résonance intérieure de l’événement auditif. On arrange les intervalles et les écarts entre les bruits, si ceux-ci doivent entrer en rapport par leur succession ou par leur rythme.

On dose enfin leur masse, leur « encombrement » mental. Le paysage ou le décor sonore exigent une véritable recomposition acoustique, entièrement préparée au montage.

Cette composition se déploie dans la durée, tout comme la composition visuelle, durée en laquelle se succèdent – tempo gusto – les regards, les gestes, les petits mouvements, les paroles, les déplacements, les réactions, les silences. Mais il est clair que, dans cette mise en place, l’action n’est plus bornée cette fois par un écran rectangulaire. Les lieux se font entendre, avec leur réverbérance, leur couleur, leurs résonances, même s’ils restent hors-champ (entendez : hors-champ image). Le champ diffus informe sur la dimension d’un local, « l’esprit des lieux ». 7

L’ambiance place le spectateur sur le terrain, en lui redonnant l’acoustique de la situation filmique, qu’elle soit réverbérante ou de plein air. Et surtout, en annexant et désannexant de manière invisible – et à tout instant – quelque élément sonore nouveau, l’ambiance définit les bords de l’action, la lisière du lieu, de la façon la plus souple qui soit. Cependant elle reste assez stable pour donner à la séquence un « background », une continuité temporelle apte à délimiter une unité de temps, de lieu ou d’action. Dès lors, le changement d’ambiance (cut ou en léger fondu) est à même de marquer – sans autre signe ponctuatif – l’avancée du récit vers un autre lieu scénique, une autre séquence. La caméra est au cinéma, plan après plan, mais le micro est au théâtre, scène après scène…

Les effets: l’attention du spectateur (et aussi bien celle des personnages) est relancée, réorientée par la survenue d’une image auditive inattendue, d’un « effet » sonore, qui – comme son nom l’indique – renvoie à une cause efficiente. « L’effet » est mixé avec suffisamment de « présence » pour se hausser à l’état d’indice agissant directement sur l’avancée narrative. Bruit de pas, porte qui claque, cliquetis, détonation, moteur qui démarre, événement soudain. L’effet (bruit ou silence soudain) annonce une bifurcation, car il surgit comme un élément nouveau dans le continuum sonore. L’effet est donné dans l’image ou hors l’image, à l’insu mais le plus souvent au su des personnes, lesquels se tournent dans la direction supposée de l’événement afin de le prendre en compte… Car aucun auditeur ne peut se soustraire au son, à la fois énergie et matériau.

L’audible et le visible

Dès qu’un son émerge du bruit de fond ambiant, c’est qu’il est détecté en même temps que localisé. L’attention se porte vers « l’intrus » auditif de manière presque réflexe, afin de l’identifier. En tournant la tête dans sa direction, les yeux et les oreilles cherchent à le saisir. Si la source est invisible, la localisation – purement auditive – bénéficie frontalement d’une précision maximale (à plus ou moins deux degrés d’angle). Si la source, transitoire et furtive, s’est déjà tue, la rotation du cou a enregistré la provenance du bruit bref. 8 On sait à peu près d’où cela vient. Si le son persiste, il est analysé et reconnu comme intéressant, dangereux ou insignifiant. Écouter, c’est donc – dans le même mouvement – situer et clarifier la source, focaliser sur elle, atténuer mentalement l’ambiance, c’est entrer en rapport avec l’objet visé, afin de se déterminer.

Habituellement l’attention visuelle et l’attention auditive fonctionnent en parallèle, de manière coaxiale: le regard et l’écoute s’emparent en même temps de l’objet intrusif. Au cinéma, la mise en scène disjoint souvent le visuel de l’auditif. Le cadrage micro est souvent plus large que le cadrage camera, par ailleurs occupé à ses différentes prises en compte frontales. Le lieu scénique – en lequel circule et progresse le fil de l’action – est toujours audible, mais l’épicentre scénique n’est pas forcément visible à l’écran; on le devine dans le regard d’un personnage; on l’attend dans le plan suivant. Par contre, cet épicentre sonore est presque toujours « in » (c’est-à-dire dans le champ de perception auditif), mais peut-être n’est-il pas disponible visuellement, comme c’est le cas dans l’attention coaxiale. Parfois, « l’épicentre » n’est donné que par l’écran sonore; dans ce cas, l’image montre un « ailleurs », un « à-côté », un « off » !

De cette disjonction image/son, de cette séparation peu courante dans la perception humaine, surgissent de nouvelles tensions que le cinéaste saura exploiter. Les données auditives isolées – en situation acousmatique 9 – créent un manque-à-voir qui laisse la vue provisoirement inapaisée, insatisfaite. Il n’y a donc pas – scénographiquement parlant – de sons « off » (les vrais sons « off » sont absents ou masqués) mais des images tantôt « in », tantôt « off » encadrant ou non l’épicentre momentané de l’action. L’appellation empirique – in|off – aussi pratique soit-elle pour le monteur devant synchroniser ses sons devant l’image, correspond plus au dispositif de projection audiovisuel qu’à la problématique narrative ou à la dramaturgie.

Quand un personnage sort du champ, tout le monde l’entend apparemment en « off », car la vision dirige l’audition : la localisation (monophonique) est alors totalement spéculaire, conduite – visuellement parlant – par le contenu des plans. Cela peut diriger l’attention du spectateur ou orienter son écoute. Qu’il soit « in » ou « off », le son reste cependant frontalisé, porteur d’une scène dont l’étendue ne dépend que du dimensionnement acoustique des lieux, lequel est suggéré au mixage par le décor sonore, par l’ambiance venue des « coulisses » de l’écran. L’ambiance – véritable tableau sonore – reste très efficace dans la mise en espace de l’architecture, dans la mise en profondeur du lieu scénique. L’image coplanaire (sans épaisseur réelle) est alors creusée par l’étagement des plans sonores, en même temps que débordée par les sons localisés en « off ».

Il est une évidence : en tant qu’image du monde, l’audible déchoit au rang d’indice, tandis que le visible s’élève au rang d’objet, voire même de « réel ». Le visible, qui n’est pourtant qu’apparence, établit facilement une confusion entre l’objet et son image, verrouillant ainsi l’aspect (l’enveloppe visuelle) sur la réalité qu’il recouvre. Un chat est un chat ! Il suffit de reconnaître l’image pour y appliquer ce que nous connaissons déjà de l’objet, lequel se substitue à l’image, sous la pression du savoir constitué. Nous interprétons un regard, un mouvement des lèvres à peine perceptible, un haussement d’épaules. Nous guettons les gestes, les déplacements silencieux, les coups d’œil. Nous suivons sur les visages les désirs, les émotions, les intentions, les réactions.

Pourtant, l’audible est représentatif du dehors et même du dedans des choses. À l’extérieur : frottements, articulations, percussions de contact. À l’intérieur : les résonances indiquent d’invisibles cavités; la masse révèle les dimensions du corps sonore; la densité spectrale traduit l’intensité mise en jeu; la qualité des transitoires traduit la souplesse ou la rigidité des matériaux ; les formants renseignent sur la matière en vibration.

Comment ne pas penser au stéthoscope et aux précieux renseignements qu’il donne sur le cœur ou la respiration ? Tout dépend du transfert d’informations mécano-acoustique : la sonnance, le grain, le contour, la profondeur de modulation, le timbre révèlent l’objet-source d’une manière plus ou moins forte. Seuls les sons bien dessinés, riches en profils évolutifs aboutissent à une identification univoque, à une compréhension claire, à une rémanence importante. Ces bruits-là ont une durée de vie prolongée dans le temps mental de l’histoire. Quoi qu’il en soit, le son « dynamise » l’image, lui prête son énergie, dirigeant ainsi le regard du spectateur en un point précis de l’écran. Une palette d’expression – du pianissimo au fortissimo – enrichit l’image au contraste plus limité, moins étendu dans sa lisibilité.

Parler des bruits, c’est évidemment parler de nous, les humains: souples et silencieux pour l’essentiel – exception : la parole – nous ne faisons du bruit qu’en entrant en contact avec les choses. Chaque son renvoie par son timbre au matériau des choses, et par son énergie au geste d’un personnage : l’audible soutient et contourne l’invisible. Le signifiant sonore, d’une certaine manière, décrit l’activité humaine dans tous ses états, et, ce faisant, réanime dans le for intérieur des affects, des souvenirs portés par des signifiants identiques, mais dont le contenu – en rapport ou non avec le film – s’est perdu dans le vague des situations oubliées.

C’est dire si l’écriture sonore mérite considération. Le son peut être réaliste (au niveau perceptif), mais il peut s’évader – tout en restant audible et recevable – des conventions qui régissent le son direct. De nouvelles relations sont possibles, ainsi que l’attestent certaines créations, encore trop peu nombreuses.

Si l’on accepte l’hypothèse dynamique du double scénario, (l’un vient de l’écran, l’autre se crée par réaction et association dans la tête de chaque spectateur), alors les données « réalistes » et « transparentes » du son synchrone sont révisables. En effet, les écarts, les césures, les sautes suscitent une réactivité et une réflexivité nouvelles. Ces écarts sont déjà en germe dans l’espace « off », qui n’est pas censé entrer en redondance avec l’espace « in », ou même dans les raccords non-transparents ostensiblement arrangés pour questionner le spectateur.

La reconstruction active, à l’intérieur de nous-mêmes, de relations extensives, de processus concomitants, est déjà annoncée par le montage parallèle ou les chevauchements sonores d’une séquence à l’autre. Rien n’empêche de l’étendre à d’autres interactions. La contiguïté spatiale ou temporelle des faits admettent un certain désynchronisme, une sorte d’ici et ailleurs, d’avant et après mêlés. Les causes multiples d’un processus supportent une présentation simultanée ou reconcentrée d’autant plus évidente que le spectateur aurait tendance à les associer dans sa construction intérieure.

La mémoire affective, souvent sollicitée au cinéma, devance ou reprend – au-delà ou en deçà de l’instant présent – des images et des sons momentanément absents de l’écran.

Les mouvements de la pensée – transtemporels par nature – peuvent être guidés, renforcés ou même réorientés par des co-occurrences inattendues. Des chemins de traverse, plus courts et plus passionnants que les sentiers battus (propriétés adjacentes, éléments contradictoires, affects simultanés) restent à explorer dans des correspondances autres que synchroniques, déjà présentes dans la poésie. Une signification neuve peut émerger de rencontres plus élaborées que celles du synchronisme strict. Des sons asynchrones, fragmentaires mais allusifs, homophones puis différents par le timbre ou le contour, remixés ou musicalisés s’insèrent dans un continuum « réaliste ». Des sons à venir (prédictibles) ou déjà advenus (traces) – moments saillants d’un événement auditif – se mixent aux données silencieuses de l’instant présent. Des sons connexes – faiblement figuratifs – s’ajoutent aux situations en suspens. Des inserts visuels motivés surgissent dans une continuité sonore établie. Des non-correspondances (provisoires) s’installent sur des qualia communs, sans nécessité apparente. Des tensions naissent, se répètent, jusqu’à la rencontre révélatrice.

« L’association de deux discours qui tantôt se correspondent en termes de temps forts, tantôt se dissocient, crée dans le spectateur un troisième discours », écrit Michel Fano. Ce troisième discours, articulé au plus fort de chacun, fera naître des émotions introuvables dans le réalisme synchrone.

Juillet 1997


  1. Les sources sonores, le plus souvent omnidirectionnelles, donnent au contraire à entendre l’entier de l’objet : seules les fréquences aiguës émises «dorsalement» sont atténuées et, de ce fait, largement masquées par l’émission frontale.
  2. Pour donner une image grammaticale, le mode d’apparaître du son est un mélange de gérondif (l’inéluctabilité du réel en marche), de participe présent (actualité fuyante de l’instant) et de supin (l’avance incessante de ce qui va advenir).
  3. En somme, la pesanteur est l’énergie gratuite et permanente qui fournit à l’acoustique une bonne partie de ses sons, exactement comme le soleil et l’ombre apportent de quoi éclairer les mouvements enclenchés par des énergies autres que lumineuses.
  4. Cela n’est plus vrai avec les machines de montage informatisées. La sophistication des machines image et son tend à séparer les opérations de post-production, à distribuer le travail entre plusieurs operateurs très spécialisés…
  5. Se pose alors le problème de la concurrence entre deux flux informationnels, qu’il faut résoudre par l’alternance et la complémentarité. La perception est continue, alors que l’activité cognitive est intermittente, sujette à des sautes d’intensité, qu’il est utile d’amortir ou d’étaler. Le silence «textuel» soutient la structuration des données, facilite la mise en jeu des concepts et des savoirs sur les images, tandis qu’à l’inverse, le déroulement «muet» des plans appelle de nouveaux commentaires, autorise de nouvelles explications. Le silence est utile : c’est le seul passage secret entre le spectateur et l’écran, la seule respiration laissée à l’entendement intérieur. Le cinéaste passe le plus clair de son film à ne pas l’oublier.
  6. Les neurones phasiques, qui équipent chaque modalité sensorielle, ne détectent que les changements (ici la dérivée des phénomènes sonores : di/dt, df/dt), mais les signalent nettement à la conscience.
  7. La couleur sonore de la salle (la réverbération) suit les raies ultimes du spectre d’extinction, les formants les plus soutenus, dus au stationnement des ondes entre les parois du local. Les ondes diffuses de la réverbération réveillent en chacun le souvenir de locaux analogues, ravivant les impressions d’enveloppement acoustique, de bain sonore, d’écho insaisissable…
  8. La réaction d’orientation (tête et cou) est l’un des points de passage obliges, rappelons-le, vers la caméra subjective. Chaque plan comporte du reste une « instruction de sortie», laquelle entraîne souvent une «instruction d’entrée», une « validation» dans le début du plan suivant.
  9. Acousmatique : se dit d’une source sonore présente mais invisible à l’écran. La tension visuelle augmente en raison du déficit imposé à l’attention coaxiale.

Publiée dans La Revue Documentaires n°13 – La formation du regard (page 39, 1997)