Le document sonore du paysage au fait de société

Francis Wargnier

La stéréophonie, cela n’existe pas

La stéréophonie est un système de captation- restitution du son permettant d’entendre des sources placées entre deux enceintes acoustiques. Ces sources sont dites virtuelles par opposition aux sources réelles que constituent les haut-parleurs. Cet ensemble de sources virtuelles constitue une image sonore homothétique de l’image sonore naturelle existante sur le lieu de captation.

On parle souvent d’espace, de profondeur, à propos de la stéréophonie. Le son spatial virtuel peut sembler étonnant, un peu magique, séduisant, attractif. Étonnant parce que virtuel au sens où ce mal nommé “son solide” (du grec “stereos” : solide) n’existe qu’au travers de notre perception. Physiquement, il n’y a pas de sources entre les deux enceintes acoustiques. Cette image stéréophonique, restitution cadrée d’une portion de l’espace acoustique naturel à trois dimensions, anamorphosée sur deux dimensions, n’existe que grâce au dispositif choisi pour nous donner à percevoir. Physiquement, les informations sortant simultanément de chaque enceinte entretiennent de fines relations énergétiques et temporelles, c’est tout. Écouter le signal de gauche puis le signal de droite : rien ne parait les distinguer vraiment, si ce n’est les différences propres d’un dispositif de membranes cartonnées de vieille technologie ; les haut-parleurs.

Fort du constat de sa non existence physique au-delà des corrélations entre signaux, qu’est-ce qui fait sa séduction ? Un train qui passe semble entrer dans la pièce. Et c’est là qu’est le miracle. L’Entrée d’un train en gare de La Ciotat des frères Lumière ne lasse pas de nous surprendre, voire de nous prendre au piège d’une réalité convaincante par sa précision.

En bref, on s’y croit. Y a-t-il une recette ? Il y en a deux. Tout d’abord écouter le son légèrement plus fort, au sens du niveau acoustique, que le niveau réel, ou ce que le local d’écoute peut admettre. Autrement dit donner l’image sonore d’un objet qui ne tient pas dans la pièce, et dont la réalité transposée sort du cadre de l’image visuelle. Il aura alors le pouvoir psychophysiologique de la puissance sonore. Plus fort, pour nous donner à entendre des détails autrement perdus dans le bruit de fond, d’où un sentiment de précision. Plus fort, pour que la quantité de mouvement paraisse plus grande ; c’est alors le sentiment dynamico-rythmique qui l’emportera.

Dans beaucoup de cas, il n’est pas possible de faire plus fort que la réalité. Il faut alors simplement “remplir” la pièce en écoutant suffisamment fort pour sentir les fonds, les bas niveaux, l’horizon. Le mixage devra faire le reste. Rappelons en parenthèse que l’un des rôles essentiels du mixage est d’aménager la dynamique d’un programme. C’est une notion souvent oubliée dans la production télévisuelle d’aujourd’hui, à cause des écrans publicitaires, mais fort heureusement très présente dans la production cinématographique.

Donc la première recette pour séduire avec la stéréophonie est de tricher sur le niveau, d’accentuer le clinquant, tout en prenant garde que cette bimbeloterie ne se sente pas en tant que telle. Un bon mixage reste un mixage qui ne s’entend pas.

La seconde recette consiste à utiliser un système de prise de son sans distorsion frontale, avec le moins possible de repli spatial, et un rapport d’anamorphose le plus proche possible de l’unité (que de concepts de spécialistes !). J’ai nommé le couple de microphones dit ORTF. Le but est d’obtenir une image la plus proche possible de l’image naturelle. Pour se faire les informations ne devront pas être trop tassées entre les haut-parleurs d’où un rapport d’anamorphose proche de 1 (1,5 dans le cas du couple ORTF).

Le rapport d’anamorphose est le rapport entre l’angle de prise de son (90° pour l’ORTF) et l’angle de restitution (les 60° définissant la meilleure place d’écoute de la stéréophonie). L’angle de prise de son correspond à l’angle plan avant pour lequel le système donne des sources virtuelles.

Cette image, pour être précise, devra également être sans distorsion frontale, c’est-à-dire que les positions des sources devront être dans un rapport linéaire entre captation et restitution. Ainsi une source placée à 22,5° par rapport à l’axe central, soit à la moitié de la demi-base (90° /4), devra être perçue à la moitié de la demi-base de restitution soit 15° (60° /4). C’est loin d’être le cas de tous les systèmes de prise de son. Cette distorsion frontale est également fonction du facteur de crête du son. Ainsi, la parole d’un personnage pourra ne pas être placée au même endroit que le son de ses pas…

Ce défaut conduit à des images très floues (systèmes à microphones omnidirectionnels).

Quant au repli spatial, malheureusement inhérent aux principes des microphones classiques, il s’agit des sources captées à l’arrière du système et restituées à l’avant. Ces sources complexifient le rendu de l’image en tendant parfois à la rendre confuse. Un système utilisant des microphones directifs générera donc un repli des sources arrière de niveau moindre qu’un système utilisant des microphones omnidirectionnels.

Un système qui donne un espacement entre sources, et des dimensions apparentes proches de la réalité physique fera appel à notre mémoire, à nos sensations de référence. Nous effectuons alors d’incessants va et vient entre notre vécu et ce qui est livré à l’oreille à travers la prise de son, procédant ainsi d’une écoute réellement active, inconsciente, mais qui participe de la séduction.

La stéréophonie, scénographie des énergies

La dimension temporelle du son fait qu’un son spatial peut, au-delà de la simple image géographique, tendre vers une scénographie. En marge de la scénographie narrative, le son raconte les matières, la distance, le nombre, la largeur, les mouvements, en une bio scénographie sonore complément du visuel.

C’est par ces communautés d’objets sonores, foule des feuilles au vent, troupeaux des couloirs du métro, nuages d’insectes de plein soleil…que nous prenons la mesure de l’espace environnant.

L’énergie sonore en tant que sommation temporelle spectrale s’apprécie aussi bien à l’échelle de l’objet qu’au paysage tout entier.

L’énergie sonore en tant que quantité de son ambiant, bouge constamment. La distribution temporelle et spatiale des évènements, cartographie évolutive, s’organise selon ses propres lois de renouvellement et de variations, selon son propre rythme.

La prise de son ne fait rien d’autre que capter et restituer ces variations d’énergies acoustiques. Lorsque la prise de son est spatiale, c’est-à-dire qu’elle sait décrire avec cohérence les positions et mouvements des objets d’une scène sonore, elle ne fait que donner à entendre une scénographie des énergies.

Le silence du Morvan, l’hiver dans la neige. Soudain, le jacassement furtif d’une pie. Le silence met longtemps à revenir. Notre esprit résonne longtemps du cri de l’oiseau.

Jérusalem. Novembre 2006. Dans la crypte de l’église du saint sépulcre. Le muezzin et l’angélus. Contrepoint récurrent. Document. Signature de la ville sainte.

Sud marocain. Une petite bourgade sur la route. Le muezzin tellement fort, à la sonorisation tellement distordue qu’elle semble solidifier l’air ambiant.

Hiver 1996. L’autoroute A5 vient d’ouvrir. Une voiture par minute. Comme un temps gelé. TGV : déchirure d’espace.

Et puis tous ces marchés de France, foules aux accents reconnaissables malgré la densité, parce que la foule aussi roule les “r”, ou chante la Provence.

L’espace dans la durée

La distribution spatiale ne peut se concevoir que dans la durée.

Marais de Brouage. Charente Maritime. Juin 1999. Minuit. Concert de milliers de grenouilles. Espace indéfiniment rempli ; une grenouille par mètre sur 10 Km carré. Chœur d’un million de grenouilles. 6 heures du matin. Reste quelques fêtardes. Les alouettes se lèvent avec le soleil. Passe un vol de grues. Cri d’aigrette. Plongeon de ragondin. Dispersés dans la distance et le temps. Dans la nuit, 5 secondes suffisaient à décrire le paysage. Au matin, il faut plusieurs minutes pour appréhender sa poésie et sa géographie, pour le reconnaître même. Écrire avec le temps du paysage. Oublier la mise en page, le formatage de l’audiovisuel contemporain.

Ainsi distance ira souvent de pair avec durée. Pour écouter loin, il faut écouter longtemps.

Échelle des distances

Dans la distribution spatiale, il y a une échelle des distances. Le très gros plan, qui cache le paysage, puis le gros plan, le plan moyen ; personnage en pied, et la gradation des plans larges, qui donnent l’étendue du paysage, jusqu’à l’horizon visuel. Mention particulière pour le plan d’ensemble, assemblage d’évènements de différents plans, repartis dans le temps.

Masque et perspective inverse

En prise de son, masquer veut dire cacher. Le niveau, la largeur spectrale, le registre, la quantité de variations, sont des paramètres qui influent sur le masque d’un son par un autre son.

Ainsi, un marteau piqueur, son large formé d’impulsions répétées, sera, par son itération, plus masquant qu’un son continu de même largeur spectrale. La largeur spectrale qualifie et quantifie la zone de fréquence occupée par le son.

Visuellement, un objet placé devant un autre objet se voit, sauf s’il y a mimétisme. Auditivement, il arrivera fréquemment qu’une source sonore masque une autre source plus proche de nous jusqu’à la faire disparaître. Une abeille butine, passe une voiture derrière l’abeille. Je regarde l’abeille, je la vois. J’écoute l’abeille, je ne l’entends plus lorsque passe la voiture. Et ces phénomènes de masques ont une rémanence. Derrière une impulsion, un choc de fort niveau, il faut un certain temps à l’oreille pour qu’elle s’ouvre à nouveau. L’oreille peut être éblouie.

Ainsi les lois de la perspective du paysage sonore savent être inverse des lois de la vision. Nous entendons naturellement comme Picasso peignait.

L’image sonore n’est pas linéairement homothétique de l’image visuelle. La taille apparente de l’image sonore d’un objet n’est pas égale à sa taille apparente visuelle.

Ainsi, perché sur un arbre, un oiseau a un chant spatialement plus volumineux que son apparence visuelle. De même, un avion, presque un point dans le ciel, semble remplir une large portion d’espace. Il semble que le volume sonore spatial apparent, c’est-à-dire la portion d’espace, la surface, que semble occuper le son, soit proportionnelle à la puissance de la source.

Ces différences-perspectives étant, nous ne chercherons donc pas systématiquement à faire de l’image sonore un calque parfait de l’image visuelle.

Vers le document sonore

Revenons au plan d’ensemble comme image normale d’un paysage rural, urbain, marin, forestier, montagnard, désertique, ou tout à la fois ; coexistence de communautés d’objets répartis dans l’espace selon différents modes ; de ponctuel à étale, de fixe à mobile…

Le son monophonique, issu d’un seul microphone, restitué par une seule enceinte acoustique, donne une image ponctuelle où tous les objets se masquent. Les ingénieurs du son savent combien il est difficile, dans ces conditions, d’enregistrer un embouteillage, une foule, un vent dans un arbre. Des objets de mêmes formes, amalgamés sur un seul point de restitution, forment une pâte qui perd toute texture, et même toute identité. Ainsi un vent n’est plus reconnaissable en tant que tel, s’il n’est pas suffisamment formé. La stéréophonie marque un pas, mais reste limitée à cause du repli de la dimension zénithale sur le plan horizontal. Le masque est moindre qu’en monophonie, mais la définition spatiale reste entachée par ce tassement des sources. Ainsi, les oiseaux, les paroles des hommes et leurs pas seront restitués sur le même plan. Lorsqu’on commence à écouter des paysages naturels en stéréophonie, cette limitation au plan horizontal ne gêne guère, la séduction l’emportant sur le défaut. Mais avec l’habitude, on percevra ce tassement comme non naturel et comme une limite du procédé.

La possibilité de choisir dans l’éventail des possibles au moment de la prise de son, amène au document. Choisir un emplacement et une orientation pour les microphones conduit au cadrage. Ce cadrage a des limites temporelles et spatiales. C’est une portion d’espace-temps captée, à l’intérieur duquel l’événement va exister. Car le son n’est pas seulement porteur de paysages, il est aussi, et surtout, témoignage de la vie des hommes.

Bien sûr, il est des phénomènes qui ne rentrent pas dans ce cadre de la stéréophonie, tels la guerre moderne ou le tsunami. Non seulement la dynamique exigée par les grands drames du monde dépasse largement la dynamique possible en reproduction, mais, fort heureusement, nous n’avons guère la culture de ces phénomènes. De tels sons réels, ramenés au gabarit des chaînes de reproduction, risquent de n’être que des bruits inouïs et sans forme.

La mémoire du son

Si nous gardons une mémoire du son qui nous fera entendre les matières ; métal, bois, plastique, cuir, pierre… Il en est autrement des objets complexes. Un son de train TGV diffère tellement d’un son de train à vapeur, lequel reste en nos mémoires grâce au cinéma, que, si nous n’en avons pas l’expérience, et sans image visuelle, ce son ne sera pas associé à un train. Quantité d’événement sonores seront ainsi ; leur identité dépendra de notre culture du sonore. Même si notre culture sonore reste pauvre, nous constatons une modification progressive du paysage quotidien. Ainsi les 2 CV Citroën sont aujourd’hui des pièces de collection. Leur son si typique est un peu perdu au fond des sonothèques. Qui a déjà écouté des scieurs de long en forêt ? Qui se souvient des troupeaux en transhumance (ils existent encore) ? Les chalutiers et leurs flatulences diesel disparaîtront bientôt. Quant au brame du cerf, hurlement du loup… Tout cela appelle à la captation pour la constitution d’une mémoire volontaire du sonore, dont la stéréophonie est le support incontournable malgré ses limites.

Les moyens de la stéréophonie

La captation stéréophonique est facilement une captation de reportage, notre couple ORTF et son magnétophone sont transportables partout. Bien sûr, il y a quelques précautions à prendre depuis les bonnettes antivent (encore à améliorer), jusqu’aux sels dessiccateurs pour protéger les microphones de l’humidité, en Bretagne aussi bien que dans la forêt tropicale humide. Il faut aussi compter sur les réactions des populations, lasses du tourisme voleur d’images. La discrétion reste de mise, et la demande d’autorisation incontournable. Une autre solution est le mouvement. Au sein d’une foule, on ne restera pas fixe, le travelling incessant est la solution pour cueillir les bribes de vie nécessaires et suffisantes au document.

Un document sonore

Documenter c’est choisir. D’abord une intention.

Rio, août 2001. Documentaire grand format d’Hugo Santiago sur la chanteuse Maria Bethania.

Intention : dans les sources d’inspiration de Maria Bethania ; la samba. Rendre compte de l’actualité de la samba et ses rapports au carnaval, son importance dans la vie des quartiers de Rio.

Premier choix : Aller un soir filmer une scola de samba. En août, chaque scola commence par choisir la chanson qui la représentera au prochain carnaval.

Second choix : Filmer surtout les danseurs formidables de la samba.

Enregistrer l’orchestre de percussions, avec direction de l’orchestre au sifflet et sonorisation du chant totalement saturée.

Troisième choix : le niveau est très proche du seuil de douleur. Se protéger en gardant le casque d’écoute en permanence. Le niveau du casque est au maximum pour tenter d’entendre les microphones.

Quatrième choix : Au montage : les “poids lourds” de la samba ; parmi les plus beaux corps de la planète, sur la plus mauvaise qualité de sonorisation de l’univers. Le contraste beauté de l’image/laideur du son comme partie intégrante du document.

Ici quelques secondes suffisent à documenter.

Le confort d’écoute

A côté de la sensation d’être dans le lieu de captation grâce à la stéréophonie existe un confort d’écoute. Par confort d’écoute, il faut simplement comprendre que l’auditeur n’a que peu d’effort à faire pour entendre le document. Il est placé devant une image sonore tout à fait homothétique à la réalité, comme une fenêtre ouverte sur l’événement. Pour que ce confort existe, il faut fournir à l’oreille suffisamment d’informations pour “solidifier” la perception. On se sert de deux paramètres complémentaires : la différence d’intensité obtenue par les directivités et l’inclinaison relative entre les deux microphones d’une part et la différence de temps de parcours de l’onde sonore obtenue par l’écartement des microphones d’autre part. On montre qu’avec ce dispositif, il n’existe pas deux points de l’espace ayant même différence d’intensité et même différence de temps. De fait, ce dispositif est donc à même de quantifier l’espace puisque chaque point a un couple différence d’intensité-différence de temps distinct par rapport à deux capteurs ou aux deux oreilles de l’auditeur.

À ce paramétrage s’ajoute notre connaissance du milieu qui nous fait entendre que l’intensité décroît avec la distance, que le champ diffus, la réverbération est homogène, que les aigus sont filtrés par l’air ambiant. L’oreille sera surinformée de la position de la source, à la fois par le paramétrage du système et par la reconnaissance de la distance liée au niveau et au timbre. L’espace restitué est ainsi conforté.

La définition du son et de l’image

Définition, rendu, piqué, profondeur de champs, flous. Paramètres et concepts d’abord définis pour l’image photographique, qui vont aussi s’appliquer à la stéréophonie.

Définition : s’adresse à la particule sonore élémentaire. Aujourd’hui, en image numérique, c’est le pixel, et en son numérique l’échantillon et sa quantification, qui donnent la définition. Dans les deux cas, cela traduit la qualité du support. En stéréophonie, le concept s’adresse à la fois à la qualité des microphones, à leur aptitude à capter les plus petits détails de texture et de contour, aussi bien qu’à la captation spatiale. La définition au sens spatial devient donc une question de rapport d’anamorphose et de repli de la zone arrière sur le front d’écoute. La définition spatiale est une question de masque.

Rendu. On parle du rendu des couleurs et lumières. En stéréophonie, c’est le rendu des timbres et de la dynamique. Essentiellement une question de microphones.

Flou et profondeur de champ. En stéréophonie, on pourra également parler d’accommodation. L’information différence d’intensité et différence de temps commentée ci-dessus induit une facilité d’accommodation donc une plus grande profondeur de champ que l’écoute naturelle. La difficulté de localisation de certains systèmes tels les systèmes en différence de temps pure donne du flou.

Stéréophonie et photographie

Nous pouvons considérer la stéréophonie comme un équivalent sonore de la photographie et de l’image film. Nous disposons en effet des mêmes facilités de composition et d’écriture.

Plan fixe, travelling, panoramiques horizontaux. Il manque le panoramique vertical compte tenu de l’absence de dimension zénithale.

De même mouvements internes des sources, raccords de tous types et champ-contre champ font partie de la panoplie stéréophonique. Mention spéciale sur le point du champ-contre champ. Un lieu commun des nostalgiques de la monophonie concernerait l’impossibilité de faire des champ-contre champ en stéréophonie. S’il y a non-respect de la règle des 180°, la permutation des sources sera aussi gênante à l’image qu’au son. Mais traditionnellement, on ne saute pas la génératrice qui joint les deux personnages. Dans le cas, où une troisième source hors-champ se mêle de la partie, et que cette source se trouve entre les deux axes caméra-microphone, il y a saut de cette source du hors champ gauche au hors champ droite à chaque changement d’axe. Ce saut de la troisième source peut distraire l’attention si cette source est secondaire.

Le documentaire stéréophonique

La stéréophonie n’est pas sortie des studios rapidement. Il a fallu des bonnettes antivent, des magnétophones portables stéréophoniques, et des preneurs de son aventureux. La radio fut donc le premier medium à tenter le reportage stéréophonique, avec de très belles réussites.

Puis vinrent les expérimentations en stéréophonie sur le terrain du reportage télévisuel. On découvrit très vite que l’impression globale reste systématiquement très nouvelle. Chaque prise de vue avec son synchrone stéréophonique est une surprise : profondeur accrue de l’image et du son, détails et composition de l’image plus évidents, son plus signifiant. Chaque particule sonore prend sens et identité grâce à l’image. Réciproquement chaque objet visuel prend vie grâce au son.

Et cette impression de jamais vu, d’inouï, se retrouve à chaque reportage, même après des années de production. Plus : la richesse des textures et des formes semble se renouveler à chaque nouveau visionnage. Les détails vers l’horizon ou les fonds, les relations dynamiques et largeurs apparentes font de chaque paysage un terrain où l’oreille prend plaisir à explorer, à se perdre dans la forêt des foules. La stéréophonie rend sensible la diversité des paysages. On prendra simplement soin de ne pas noyer cette diversité dans un bain de commentaire et de musique. La scénographie de la stéréophonie à l’image est naturelle, et comme toute chose naturelle, elle est fragile, toujours à la limite d’être sentie et comprise.

Du paysage au fait de société
Trois exemples pour présenter une approche scénographique du sonore

Claude Mouriéras. Titre du film : Le Prêt, la poule et l’œuf. Ethiopie. 2000. Des femmes essaient de survivre avec des micro financements. L’organisation de ces financements passe par des réunions où les femmes s’expriment. Le film montre le travail de ces femmes et leurs échanges d’expériences.

Claude Mouriéras est tombé dans la stéréophonie quand nous étions petits à l’aube du cinéma stéréo. C’était en 1978, je me souviens encore du regard de Claude écoutant une prise de son stéréo du chœur des moines de l’abbaye de Tamié. C’était comme la découverte d’un trésor.

Bord de la route Addis-Abeba – Djibouti. Un fond flou et une vague rumeur. Un bras qui tend un œuf rentre dans le champ. On découvre une femme et un enfant au bord d’une route. La rumeur prend matière puis forme. On devine un camion qui soudain fauche l’espace, laissant l’œuf invendu. Le rapport juste entre les trente tonnes à peine aperçues et l’œuf fragile et triste se construit avec le son. C’est le son qui donne l’image vraie du camion.

Plus loin un groupe de femmes discute. Plusieurs parlent simultanément et pourtant l’espace n’est pas confus, n’est pas saturé de paroles. La stéréophonie replace chaque femme dans l’espace du groupe. L’auditeur fait partie du groupe, et nous écoutons chaque personne s’exprimer avec un port de voix adapté à son interlocutrice. Scénographie naturelle.

Jean Pierre Duret. Titre du film : Le Rêve de Sao Paulo. Jean Pierre Duret, avant de devenir ingénieur du son de renom, découvre la stéréophonie en même temps que Claude Mouriéras. Le rêve de Sao Paulo témoigne de l’exil des paysans du Nordeste Brésilien vers la mégalopole. Jean Pierre Duret décide de faire la route avec une petite caméra équipée d’une perchette au bout de laquelle il place un couple stéréo.

En chemin, deux hommes extraient des pierres pour les constructions. Marteaux sur poinçon dans l’espace de la carrière. Mal aux oreilles, avec un son tellement sec et pointu qu’il sent la poussière. Ailleurs, c’est la houe qui manie cette femme sans âge, ramassant des graines à replanter au milieu des cailloux. Là encore le sentiment de précarité, de dureté du travail est donné par le son. On entend chaque obstacle, chaque miette de sol que la caméra donne à voir. Précision et définition de la stéréophonie.

Anna Kendall. Titre du film : Chant d’outre temps. Printemps 1994. Région de Corte en Corse centrale. Anna veut remonter aux sources du travail des chanteurs de l’ensemble Organum de Marcel Pérès. Une tondera, ou tonte de moutons traditionnelle. Les ciseaux et bêlements de 200 bêtes, puis le casse-croûte et les premières polyphonies furtives du matin. À nouveau le travail, bientôt terminé car les tondeurs sont nombreux. L’apéritif et les diame respondi, joutes vocales improvisées et chantées, au milieu des conversations. Le repas sera le théâtre de deux chœurs qui se répondront d’un bout à l’autre de la table.

Élargir le champ de l’image. Aller chercher le gros plan tout en gardant aux chants leur ampleur. Le en-champ stéréophonique sait être hors-champ image. L’oreille, avec la stéréophonie saura accommoder sur ce que montre l’image : un visage qui rit, les ciseaux du tondeur le plus rapide de Corse.

Sans conclure

Cette excursion désordonnée dans le documentaire cinématographique stéréophonique aura voulu dégager des concepts destinés à mettre en évidence une scénographie sonore naturelle de captation. Ainsi la stéréophonie se pose davantage comme une sonographie à part entière, complémentaire de la photographie, que comme ingrédient destiné à un mélange, que comme couche d’ambiance d’un mixage hiérarchisé.

La captation stéréophonique synchrone est la plupart du temps auto suffisante, il faut simplement la travailler comme l’image.

Janvier 2007


Publiée dans La Revue Documentaires n°21 – Le son documenté (page 163, 3e trimestre 2007)
Disponible sur Cairn.info (https://doi.org/10.3917/docu.021.0163, accès libre)