Tél. +41 58 465 73 44 | fnoffice@nb.admin.ch

Logo FN

Home

International Year of Sound 2020+

La fine ligne qui sépare le signal analogique du signal numérique:
le théorème de Nyquist-Shannon ne dit pas tout


La perception du son

Dans le domaine du son – qui est notre domaine de spécialité à la Phonothèque nationale suisse –, nous appelons analogique tout phénomène qui se produit dans la nature et que notre appareil auditif capte et transmet au cerveau. Ce dernier transforme ensuite ces informations en une expérience sensorielle, que nous identifions comme du son.

To see this video, please enable JavaScript or upgrade to the latest HTML5 compatible browser.



Le signal numérique

Le signal numérique est un signal temporel dit discret, c'est-à-dire discontinu, qui se résume en une succession de 0 (valeur basse) et de 1 (valeur haute). Il transporte donc les informations ou les données selon un système binaire qui code les informations sous forme de bits.

Signal analogique simple

Quant aux signaux composites, ils se présentent sous la forme d'une onde irrégulière, qui peut être décomposée si nécessaire en plusieurs ondes sinusoïdales:

Signal analogique composite

Un signal analogique peut être décrit et mesuré en fonction de son amplitude, de sa fréquence et de sa phase. L'amplitude indique la hauteur maximale du signal, autrement dit, en termes d'électricité, sa tension et, en termes d'acoustique, son niveau ou volume. La fréquence indique la vitesse à laquelle le signal change de polarité; elle se calcule en divisant la longueur de l'onde par une unité de temps déterminée. Enfin, la phase indique la position de l'onde par rapport au début du cycle (au temps t = 0).

Amplitude, fréquence et phase

La plage de valeurs d'un signal analogique n'est pas fixe. Par définition, un signal analogique peut prendre toutes les valeurs comprises entre les deux extrémités de cette plage. Elle peut ainsi représenter la valeur d'une grandeur physique telle qu'elle se présente dans la réalité.


Le signal numérique

Le signal numérique est un signal temporel dit discret, c'est-à-dire discontinu, qui se résume en une succession de 0 (valeur basse) et de 1 (valeur haute). Il transporte donc les informations ou les données selon un système binaire qui code les informations sous forme de bits.

Signal numérique

En termes d'acoustique, pour donner du sens à un signal numérique, nous décrivons le flux de bits, c'est-à-dire les changements d'état du signal dans le temps. Pour ce faire, nous en déterminons la résolution, qui dépend de la fréquence d'échantillonnage (représentée dans le graphique ci-dessous par les lignes verticales, qui correspondent à une unité de temps définie) et de la quantification (lignes horizontales, qui correspondent à la profondeur de bits).

Résolution

Échantillonnage et reconstruction du signal

L'échantillonnage est le processus par lequel un signal continu est transformé en signal discret: le signal analogique continu est d'abord converti en tension, puis décomposé et transformé en signal discret grâce à un convertisseur analogique-numérique (ADC). Concrètement, ce convertisseur échantillonne la tension et la convertit en signal numérique.

Le processus opposé à l'échantillonnage est la reconstruction. La différence fondamentale entre les signaux continus et les signaux échantillonnés réside dans le fait que les premiers sont définis en chaque point du temps, alors que les deuxièmes ne le sont qu'aux points d'échantillonnage. Comme les signaux échantillonnés ne sont pas définis entre les différents points d'échantillonnage, ils ne peuvent pas être utilisés directement dans un système continu. Pour cela, il faut préalablement les transformer à l'aide d'un convertisseur numérique-analogique (DAC). On appelle « reconstruction » cette étape de conversion du signal échantillonné en signal continu.

Concrètement, le signal continu est reconstruit par interpolation, processus qui consiste à extrapoler la valeur du signal continu située entre deux échantillons sur la base des deux valeurs directement contiguës.

Les processus d'échantillonnage et de reconstruction (cette dernière précédant l'interpolation) sont illustrés ci-dessous:

Échantillonnage Reconstruction

Le repliement spectral vient tout compliquer

En ignorant ce qui se produit entre deux échantillons, le processus d'échantillonnage implique une perte d'informations par rapport au signal original. Si nous connaissons la fréquence de la courbe sinusoïdale d'origine, nous serons en mesure de prévoir exactement le signal échantillonné. En soi, ce concept est simple à comprendre et à appliquer. Sauf qu'après l'échantillonnage, la fréquence du signal ne ressemblera pas forcément à celle du signal original. En d'autres termes, il est tout à fait possible que, dans certains cas, étant donné deux signaux échantillonnés dont l'un est dérivé d'une courbe sinusoïdale de fréquence plus basse et l'autre d'une fréquence plus élevée, nous soyons dans l'incapacité de distinguer l'un de l'autre. Ce risque d'ambiguïté entre deux signaux de fréquence différente (ou deux composantes d'un même signal), que l'on appelle « repliement spectral », se produit chaque fois que l'on échantillonne un signal dans le monde réel.

Repliement spectral

Analogique vs numérique: à qui la palme?

On entend souvent dire que les systèmes numériques seraient parfaits et les systèmes analogiques vieux, désuets, imprécis. Mais la réalité est différente: le signal analogique réplique fidèlement les variations de la grandeur physique qu'il représente, alors que le signal numérique convertit et résume l'information en une succession de 0 et de 1. Aussi finement que vous fractionniez le temps et l'amplitude, cette opération reste approximative; en théorie, c'est donc le signal analogique qui serait parfait.

Mais, si nous reculons d'un pas, qu'entendons-nous au juste par signal numérique dans la vie de tous les jours? Pensons-nous vraiment à ce signal (électrique, carré) résultant du flux de bits? Ou à la séquence de chiffres obtenus par l'échantillonnage de la source analogique (c'est-à-dire l'interprétation des bits? Ou simplement au son élaboré et transmis par notre appareil de reproduction audio, qu'il s'agisse d'un simple téléphone portable, d'une tablette ou d'un ordinateur, ou d'un appareil plus sophistiqué?

Nous pourrions y répondre par cette réplique simple et irréfutable: puisque le son numérique n'existe pas, ces questions sont sans importance. Au fond, le signal numérique n'est qu'un moyen permettant de transporter une information qui, de toute façon, ne peut être consommée – et appréciée – qu'en mode analogique.

Mais alors, pourquoi numériser le son? L'une des raisons qui font préférer les signaux numériques aux signaux analogiques est la facilité de transmission et de reproduction qu'ils offrent grâce à leur capacité d'autoréparation. En effet, si le signal numérique contient des erreurs en dessous d'un certain seuil, ces dernières se corrigent automatiquement. Ainsi, si le signal numérique n'est que partiellement déformé, les bits restent identifiables grâce au fait que le signal se compose uniquement de deux valeurs (0 et 1):

Autoréparation
Signal numérique

Les signaux numériques offrent aussi une grande facilité de stockage, puisqu'il suffit d'une sorte d'interrupteur pour stocker un bit. Il n'est évidemment pas question ici d'un dispositif mécanique, mais d'un interrupteur électronique capable de supporter de nombreux cycles on/off par seconde et qui peut être miniaturisé.

En admettant que ces arguments en faveur du numérique nous aient convaincus, comment allons-nous maintenant déterminer la résolution optimale pour capturer numériquement un son? Les plus avisés s'empresseront de dire que pour l'échantillonnage, qui – on s'en souvient – n'est que la première étape du processus de numérisation, il y a le théorème de Nyquist-Shannon.


Que dit le théorème de Nyquist-Shannon?

En simplifiant à l'extrême, le théorème de Nyquist-Shannon dit que tout signal analogique peut être reconstruit sans erreur si les échantillons sont prélevés à une fréquence au moins deux fois supérieure à la fréquence maximale présente dans le signal analogique à échantillonner.

Longue et compliquée, cette définition. Plus simplement dit: s'il est vrai que le spectre audible s'étend de 20 Hz à 20 kHz, il suffirait de choisir une fréquence d'échantillonnage légèrement supérieure à 40 kHz pour reproduire les sons sans erreur. Pour faire simple, disons 44,1 kHz, soit la valeur standard définie pour les CD audio.

Malheureusement, supposer que le théorème de Nyquist-Shannon est un moyen simple et direct de déterminer la fréquence d'échantillonnage minimale d'un système, c'est toutefois faire erreur, erreur du reste fort répandue. Car si le théorème a le mérite de fixer certaines règles, il n'apporte pas de réponses évidentes à toutes les questions. La principale difficulté réside dans le fait qu'il postule que la largeur de bande des signaux est parfaitement limitée. Autrement dit, que les signaux sont des courbes sinusoïdales pures avec une fréquence déterminée. Or, en réalité, aucun signal ne présente ces caractéristiques.


Ce que le théorème de Nyquist-Shannon ne dit pas

Le théorème de Nyquist-Shannon fixe une règle théorique claire et précise pour déterminer la fréquence d'échantillonnage par rapport au contenu spectral du signal. Cependant, nous voyons bien en pratique que les limites ne sont pas si claires. À première vue, le théorème de Nyquist-Shannon semble donc énoncer des principes qui ne se vérifient pas dans la réalité. Mais ce qu'il ne dit pas – sur le mode absolu et positif propre à tout théorème –, c'est que si nous voulons avoir une chance raisonnable de succès, nous ne pouvons pas utiliser un système d'échantillonnage basé sur la limite inférieure qu'il définit.

On pourrait en conclure qu'aucun système d'échantillonnage des données du monde réel ne fonctionne à la perfection. Mais sans vouloir prétendre à la perfection, il est possible, avec un peu d'ingéniosité et de travail, de concevoir des systèmes suffisamment bons pour que les avantages des signaux discrets dépassent largement les inconvénients de l'échantillonnage, ce qui permettra au final d'obtenir des systèmes numériques souvent supérieurs à leurs équivalents analogiques.


Quantification

Oublions un instant le théorème de Nyquist-Shannon et penchons-nous sur la deuxième étape – non moins importante – du processus de numérisation: la quantification. Nous avons compris désormais que le signal analogique, continu, est analysé à intervalles réguliers, en fonction de la fréquence d'échantillonnage. Pour chaque échantillon, le convertisseur analogique-numérique mesure l'amplitude du signal au moment du prélèvement et lui attribue une valeur numérique parmi toutes les valeurs à disposition. Le nombre de ces valeurs dépend de la profondeur de bits, déterminée en fonction de la résolution. La résolution la plus commune dans le domaine de l'audio, qui correspond à la qualité CD, est de 16 bits, soit un peu plus de 65 000 valeurs; l'audio haute résolution offre une résolution de 24 bits, soit un peu plus de 16 000 000 de valeurs, comme on le voit dans le tableau suivant:

Quantification

Pourquoi avons-nous besoin d'autant de valeurs? La question est pertinente, mais la réponse n'est pas aisée. À défaut de prétendre à l'exhaustivité, nous pouvons souligner ces deux faits:

  1. La perception du son est logarithmique, mais non directement proportionnelle au système de numération binaire. Je m'explique: que l'on se situe à peine au-dessus du seuil d'audibilité ou proche du seuil de la douleur, une augmentation d'amplitude de 6 dB correspond toujours à un doublement de la pression acoustique (mais non à un doublement du volume, pour lequel l'augmentation doit être de 10 dB). En termes binaires, une augmentation de 6 dB correspond à l'ajout d'un bit, ce qui fait que la granularité, c'est-à-dire le nombre d'intervalles disponibles, change radicalement lorsque l'on passe d'une valeur donnée à une valeur supérieure.
  2. Le système binaire ne connaît que des nombres entiers. Chaque opération visant à modifier le signal, par exemple une simple modification du volume ou de l'égalisation, introduit des erreurs de calcul et donc des approximations qui s'additionnent à chaque nouvelle intervention et qui vont altérer le signal à reconstituer.

Pour rester dans la schématisation, nous pourrions affirmer que les limites propres à la quantification ont, en bout de chaîne, un impact très fort sur la qualité du son.


Mais c'était compter sans le temps

Jusqu'ici, je ne prétends pas que mes explications aient pu fort ébranler les adeptes du numérique dans leurs convictions. Après tout, je n'ai fait qu'évoquer des aspects bien connus et largement documentés. Mais il s'en trouvera peut-être quelques-uns pour réfléchir et se demander où nous voulons en venir.

Revenons-en au théorème de Nyquist-Shannon. Aux paragraphes précédents, pour tenter de définir la fréquence d'échantillonnage qui réponde le mieux à notre objectif, nous avons pris en considération le spectre du signal. Or il est un autre aspect, presque toujours négligé mais essentiel, surtout si nous voulons reconstruire la spatialité du son: le domaine temporel. Nous avons vu plus haut que le spectre audible (d'une personne jeune et en bonne santé) s'étend de 20 Hz à 20 kHz. Tout importante qu'elle soit, cette information ne nous aide pas à comprendre d'où viennent les sons. Elle ne nous permet pas de situer les sons dans l'espace. Comment pouvons-nous distinguer si un son provient de devant ou de derrière nous, de notre droite ou de notre gauche, d'en haut ou d'en bas, et qui plus est avec une précision quasi millimétrique?

Ces interrogations ont trouvé réponse grâce à Milind N. Kunchur, un brillant professeur de physique, passionné d'acoustique, dont j'ai eu le plaisir de faire la connaissance il y a quelques années lors d'une conférence de l'Audio Engineering Society (AES). Dans ses recherches sur la sensibilité de l'ouïe, il a démontré que les êtres humains sont capables de percevoir des altérations temporelles très légères, de l'ordre de 5 microsecondes (µs) ! Si nous mettons cette découverte en relation avec le théorème de Nyquist-Shannon, sachant qu'un cycle d'une durée de 5 µs équivaut à une fréquence de 200 kHz, il faudrait utiliser des fréquences d'échantillonnage d'au moins 400 kHz pour préserver complètement la transparence d'un son... voilà qui représente un sacré coup de massue sur nos convictions!


Conclusion

Fort de cette dernière information, je ne puis qu'affirmer – à contrecœur mais sans l'ombre d'un doute – que « le son tel que nous le connaissons dans la nature ne peut pas être capté et reproduit avec toutes ses caractéristiques ». Si cette assertion est vraie surtout pour la technologie numérique, où tout est fragmenté, mesuré et quantifié, il ne faut pas se faire d'illusions: même la technologie analogique est loin d'être irréprochable. Il faut s'en faire une raison!

Pour voir le verre à moitié plein plutôt qu'à moitié vide, nous pourrions nous demander à quoi servent l'enregistrement et la reproduction des sons. Le but est-il vraiment de se substituer à la nature? Ce n'est pas mon avis. Personnellement, je considère plutôt qu'il s'agit d'un moyen de documenter l'histoire et les événements, qui s'est ensuite transformé en une forme d'art capable de stimuler nos sens.

En détournant un dicton bien connu, on pourrait dire que la beauté est dans les oreilles de celui qui écoute: si ce que nous écoutons nous plaît et déclenche en nous des émotions, alors l'enregistrement sonore a atteint son but, vous ne croyez pas?


Ressources

La Phonothèque tient à remercier sincèrement Brandon Pletsch pour la vidéo "Auditory Transduction", présentée à la suite du premier paragraphe de cette contribution.

Logo Schweizerische Eidgenossenschaft, 
Conféderation Suisse, Confederazione Svizzera, Confederaziun svizra


La Phonothèque nationale suisse fait partie de la Bibliothèque nationale suisse


© Fonoteca nazionale svizzera.
© Phonothèque nationale suisse. Tous les droits d'auteur de cette publication électronique sont réservés à la Phonothèque nationale suisse, Lugano. L'usage commercial est interdit.
Les contenus publiés sur support électronique sont soumis aux mêmes règles que les textes imprimés (LDA). Pour informations sur le copyright et les normes de citation: www.fonoteca.ch/copyright_fr.htm

URL: