Tel. +41 58 465 73 44 | fnoffice@nb.admin.ch

Logo FN

Home

International Year of Sound 2020+

Die schmale Grenze zwischen dem analogen und dem digitalen Signal:
Was beim Nyquist-Shannon-Theorem oft vergessen geht


Die Wahrnehmung von Ton

Im Audiobereich, dem Fachgebiet der Schweizerischen Nationalphonothek, gilt als analog, was in der Natur geschieht und was unser Gehör erfasst und an das Gehirn weiterleitet. Dieses wandelt die Informationen in eine Sinneswahrnehmung um, die wir als Ton erkennen.

To see this video, please enable JavaScript or upgrade to the latest HTML5 compatible browser.



Das analoge Signal

Ein analoges Signal ist ein elektrisches Signal mit einer kontinuierlichen Wellenform, die sich mit der Zeit verändert. Es kann genauer klassifiziert werden als einfaches oder zusammengesetztes Signal. Das einfache Analogsignal ist eine Sinuswelle.

Einfaches Analogsignal

Das zusammengesetzte Analogsignal hat dagegen eine unregelmässige Wellenform, die in verschiedene Sinuskurven unterteilt werden kann.

Komposit-Analogsignal

Ein analoges Signal kann anhand seiner Amplitude, Frequenz und Phase gemessen und beschrieben werden. Die Amplitude gibt die maximale Stärke des Signals an, im elektrischen Sinn also die Spannung und im akustischen Sinn den Pegel oder die Lautstärke. Die Frequenz gibt die Geschwindigkeit an, mit der das Signal die Polarität wechselt: Sie wird berechnet, indem die Wellenlänge durch eine bestimmte Zeiteinheit geteilt wird. Die Phase gibt die Position der Welle gegenüber dem Zeitpunkt "Null", das heisst in Bezug zum Beginn des Zyklus, an.

Amplitude, Frequenz und Phase

Das Wertespektrum ist in einem analogen Signal nicht starr. Ein Analogsignal kann per Definition alle Werte einnehmen, die zwischen den Polen des Spektrums liegen, und so den Wert einer physikalischen Grösse der Realität entsprechend wiedergeben.


Das digitale Signal

Das digitale Signal ist ein sogenannt zeitdiskretes Signal. Es ist nicht kontinuierlich, sondern nimmt nur zwei Werte an: einen hohen für den Zustand "1" und einen tiefen für den Zustand "0". Die Informationen oder Daten werden also binär in Form von Bits übermittelt.

Digitalsignal

Im Audiobereich wird ein Digitalsignal anhand des Bitflusses beschrieben. Das heisst, es werden die Zustandswechsel des Signals im Zeitverlauf und damit dessen Auflösung angegeben, die sich aus der Abtastrate (im folgenden Bild dargestellt durch die vertikalen Linien – Zeiteinheit) und der Quantisierung (d. h. die horizontalen Linien – Bittiefe) ergibt.

Auflösung

Abtastung und Rekonstruktion

Mit dem Prozess der Abtastung wird ein kontinuierliches Signal in ein diskretes Signal umgewandelt: Das kontinuierliche Analogsignal wird zunächst in eine Spannung übersetzt und anschliessend mithilfe eines Analog-Digital-Wandlers (ADC) zerlegt und in ein diskretes Signal umgewandelt. Der Analog-Digital-Wandler tastet also die Spannung ab und wandelt sie in ein digitales Signal um.

Der umgekehrte Vorgang ist die Rekonstruktion. Der grundlegende Unterschied zwischen kontinuierlichen und abgetasteten Signalen besteht darin, dass das kontinuierliche Signal im Zeitverlauf ständig definiert ist, während ein abgetastetes Signal nur zu den Zeitpunkten der Abtastung definiert ist. Deshalb kann es in einem kontinuierlichen System nicht unmittelbar genutzt werden. Dazu muss es durch einen Digital-Analog-Wandler (DAC) umgewandelt werden. Diese Umwandlung eines abgetasteten Signals in ein kontinuierliches Signal heisst Rekonstruktion.

Die Rekonstruktion wird abgeschlossen, indem das erhaltene Signal interpoliert wird. Bei der Interpolation wird der Wert des kontinuierlichen Signals zwischen zwei Abtastpunkten anhand des direkt vorangehenden und des direkt anschliessenden Wertes modelliert. Die Prozesse der Abtastung und Rekonstruktion (letztere vor Interpolation) werden wie folgt illustriert:

Abtastung Rekonstruktion

... mit Hindernissen: der Alias-Effekt

Da nicht erkannt wird, was zwischen den einzelnen Abtastpunkten geschieht, gehen beim Abtastprozess Informationen verloren. Wenn uns die Frequenz der originalen Sinuswelle bekannt ist, können wir das abgetastete Signal genau voraussehen. Dieses Konzept lässt sich leicht verstehen und anwenden. Nach dem Prozess scheint das abgetastete Signal aber nicht unbedingt die gleiche Frequenz aufzuweisen wie das Originalsignal. Das bedeutet, dass sich zwei abgetastete Signale, die aus zwei Sinuswellen mit unterschiedlich hohen Frequenzen abgeleitet wurden, in einigen Fällen nicht mehr voneinander unterscheiden lassen. Diese Ambiguität zwischen zwei Signalen mit unterschiedlichen Frequenzen (oder zwei Komponenten von Signalen) wird als Alias-Effekt bezeichnet. Er tritt immer dann auf, wenn ein reales Signal abgetastet wird.

Alias-Effekt

Analog vs. digital: Wer gewinnt?

Zuweilen werden die digitalen Systeme als perfekt, die analogen Systeme als veraltet und ungenau beschrieben. Die Realität sieht etwas anders aus: Das analoge Signal folgt genau dem Verlauf der Grössen, die es darstellt, während im digitalen Signal alles umgewandelt und auf eine Abfolge von "0" und "1" reduziert wird. Zeit und Amplitude lassen sich zwar aufteilen, es handelt sich dabei aber immer um eine Annäherung. Das heisst also, theoretisch ist das analoge Signal das perfekte.

Was verstehen wir aber im Alltag unter einem digitalen Signal? Meinen wir tatsächlich die (elektrische, eckige) Wellenform, die sich aus dem Bitfluss ergibt? Oder die Sequenz von Zahlen, die bei der Abtastung der analogen Quelle entsteht (d. h. die Interpretation der Bits)? Oder einfach nur, was unser Audio-Wiedergabegerät – sei es ein einfaches Mobiltelefon, ein Tablet, ein Computer oder ein hochwertigeres Gerät – verarbeitet und als Ton übermittelt?

Wir könnten darauf ganz einfach und eindeutig antworten, dass es keinen digitalen Ton gibt. Wieso interessiert es uns dann? Das digitale Signal ist nur das Transportmittel für etwas, das ohnehin nur in analoger Form konsumiert (und geschätzt) werden kann.

Wozu also den Ton digitalisieren? Ein Grund für die Bevorzugung von digitalen Signalen gegenüber analogen ist das leichte Übermitteln und Reproduzieren dank der Selbstheilung. Wenn ein digitales Signal Fehler enthält, die unter einer bestimmten Schwelle liegen, werden sie automatisch korrigiert. In einem nur teilweise deformierten Digitalsignal ist es gerade die Beschränkung auf die beiden Werte "0" und "1", die die Bits noch erkennbar macht:

Selbstheilung
Digitalsignal

Ausserdem lassen sich digitale Signale leicht speichern, was ein weiterer Vorteil ist: Um ein Bit abzuspeichern, genügt ein Schalter. Damit ist natürlich nicht eine mechanische Einrichtung gemeint, sondern ein elektrischer Schalter, der ein grosse Anzahl Ein- und Ausschaltvorgänge pro Sekunde aushält und der miniaturisiert werden kann.

Mit den genannten Argumenten ist die Idee des digitalisierten Tons akzeptabel geworden. Wie legen wir aber dessen optimale Auflösung fest? Wer sich auskennt, wird sagen, dass bei der Abtastung – wir erinnern uns: Sie ist nur der erste Schritt des Digitalisierungsprozesses – das Nyquist-Shannon-Theorem zu beachten ist.


Was sagt das Nyquist-Shannon-Theorem?

Äusserst vereinfacht gesagt lässt sich dem Abtasttheorem von Nyquist-Shannon zufolge jedes Analogsignal fehlerfrei rekonstruieren, indem in regelmässigen Zeitabständen Abtastpunkte erhoben werden, sofern die Abtastrate mindestens doppelt so hoch ist wie die höchste Frequenz, die im abzutastenden Analogsignal vorkommt.

Ein langer und komplizierter Satz. Einfacher gesagt: Wenn die wahrnehmbare akustische Bandbreite von 20 Hz bis 20 kHz reicht, wäre für eine fehlerfreie Rekonstruktion eine Abtastrate von etwas mehr als 40 kHz ausreichend, etwa die als Standard für Audio-CDs definierten 44,1 kHz.

Leider ist aber die Annahme, das Nyquist-Shannon-Theorem sei ein einfaches und unmittelbares Instrument zur Festlegung der Mindestabtastrate, ein gängiger Irrtum. Das Theorem legt zwar einige Grenzen fest, gibt aber keine eindeutigen Antworten. Die grösste Schwierigkeit liegt darin, dass es auf der Annahme basiert, das abzutastende Signal habe eine genau begrenzte Bandbreite und sei somit eine reine Sinuswelle mit einer bestimmten Frequenz. In der Realität weist jedoch kein Signal diese Eigenschaften auf.


Was sagt das Nyquist-Shannon-Theorem nicht?

Das Nyquist-Shannon-Theorem mit seiner Begrenzung der Abtastrate anhand des Signalspektrums nennt uns einige klare Grenzen, die in der Praxis allerdings nicht mehr so klar sind, wie in der Theorie. Auf den ersten Blick scheint die Theorie von Nyquist-Shannon also Aussagen zu machen, die in der Praxis nicht stimmen. Was uns das Nyquist-Shannon-Theorem – absolut und positiv – nicht sagt, ist, dass wir keinen Erfolg haben werden, wenn wir ein System mit vom Theorem festgelegter Mindestrate anwenden.

Das könnte bedeuten, dass kein System, das Daten aus der realen Welt abtastet, perfekt funktionieren kann. Auch wenn keine Perfektion erreicht wird, können mit etwas Verstand und Aufwand relativ gute Systeme erstellt werden, da die Vorteile diskreter Signale die Nachteile der Abtastung bei weitem überwiegen und viele digitale Systeme dadurch ihren analogen Entsprechungen überlegen sind.


Quantisierung

Legen wir das Nyquist-Shannon-Theorem kurz beiseite, um den zweiten, nicht weniger wichtigen Schritt des Digitalisierungsprozesses zu vertiefen: die Quantisierung. Wir wissen nun, dass das kontinuierliche Analogsignal in regelmässigen Zeitabständen analysiert wird, die sich aus der Abtastrate ergeben. Für jeden Abtastpunkt gibt der Analog-Digital-Wandler die momentane Amplitude des Signals an und schreibt ihr einen der verfügbaren digitalen Werte zu. Die Anzahl verfügbarer Werte hängt von der durch die Auflösung definierten Bittiefe ab – im Audio-Bereich beträgt diese üblicherweise 16 für die sogenannte CD-Qualität, was etwas mehr als 65 000 Werten entspricht, oder 24 für die sogenannte Hi-Res-Qualität, was etwas mehr als 16 000 000 Werten entspricht, wie die folgende Tabelle zeigt:

Quantisierung

Wozu brauchen wir so viele Werte? Die umfassende Antwort auf diese berechtigte Frage ist ziemlich kompliziert. Halten wir folgende zwei Tatsachen fest:

  1. Die Wahrnehmung von Ton ist logarithmisch, aber nicht direkt proportional zum binären System. Zur Erklärung: Eine Zunahme der Amplitude des Signals um 6 dB entspricht immer einer Verdoppelung des Schalldrucks (nicht der wahrgenommenen Lautstärke, dafür wären 10 dB erforderlich), unabhängig davon, ob wir uns knapp über der Grenze der Hörbarkeit oder in der Nähe der Schmerzgrenze befinden. Binär ausgedrückt entspricht eine Erhöhung um 6 dB der Zugabe eines Bit, die bei einem Wechsel von tiefen zu höheren Werten zu einer deutlichen Veränderung der Granularität, d. h. der Anzahl verfügbarer Zeitpunkte, führt.
  2. Das binäre System kennt nur ganze Zahlen. Jeder Vorgang, der das Signal verändert, z. B. eine einfache Änderung der Lautstärke oder der Entzerrung, führt zu Rechenfehlern und damit zu Annäherungen, die sich bei jedem Ereignis kumulieren und das zu rekonstruierende Signal verfälschen.

Vereinfachend können wir sagen, dass die Grenzen der Quantisierung schliesslich einen sehr grossen Einfluss auf die Tonqualität haben.


Und dann kam die Zeit

Kennerinnen und Kennern des Digitalen habe ich bis jetzt wahrscheinlich kaum etwas Neues erzählt. Wir haben uns mit bekannten und gut dokumentierten Themen befasst. Sie fragen sich vielleicht, worauf ich eigentlich hinauswill.

Kommen wir zurück zum Nyquist-Shannon-Theorem. In den vorausgegangenen Abschnitten haben wir uns damit befasst, wie die für einen bestimmten Zweck am besten geeignete Abtastrate anhand des Spektrums eines Signals festgelegt werden kann. Es gibt aber noch einen anderen Aspekt, der vor allem für die Rekonstruktion der Räumlichkeit eines Tons wichtig ist und meist vernachlässigt wird: die Zeit. Wir wissen, dass die (für einen jungen, gesunden Menschen) wahrnehmbare akustische Bandbreite von 20 Hz bis 20 kHz reicht. Damit verstehen wir aber noch nicht, woher ein Ton kommt. Wir können ihn im Raum nicht lokalisieren. Wie schaffen wir es also, zu erkennen, ob ein Ton von vorne oder von hinten, von rechts oder von links, von oben oder von unten kommt, und dies fast auf den Millimeter genau?

Milind N. Kunchur, ein herausragender Physikprofessor, der sich für die Akustik interessiert und den ich vor einigen Jahren an einer Tagung der Audio Engineering Society (AES) kennengelernt habe, hat sich mit dieser Frage befasst. In seinen Studien über die Sensibilität des Gehörs hat er bewiesen, dass Menschen kleinste zeitliche Veränderungen von bis zu 5 Mikrosekunden (µs) wahrnehmen können! Wenn wir diesen Wert auf das Nyquist-Shannon-Theorem beziehen (ein Zyklus mit einer Dauer von 5 µs entspricht einer Frequenz von 200 kHz), dürften wir Abtastraten unter 400 kHz erst gar nicht in Betracht ziehen, wenn wir die Transparenz eines Tons vollständig erhalten wollen... Und damit bricht unser ganzes Konstrukt zusammen!


Zum Schluss

Mit diesem einzigen Punkt, den wir den bekannten Begriffen hinzugefügt haben, können wir mit Bedauern zwar, aber zweifelsfrei festhalten, dass der Ton, wie wir ihn in der Natur kennen, nie mit allen seinen Eigenschaften erfasst und wiedergegeben werden kann. Diese Feststellung gilt zwar insbesondere für die digitale Technologie, in der alles zerteilt, gemessen und quantifiziert wird, aber wir dürfen uns keine Illusionen machen: Auch in der analogen Technologie treffen wir auf grosse Schwierigkeiten, mit denen wir uns auseinandersetzen müssen.

Wir versuchen, das "halb volle Glas" dem "halb leeren" vorzuziehen, und stellen uns die Frage nach dem Zweck der Tonaufnahme und -wiedergabe. Ist sie wirklich ein Versuch, die Natur zu ersetzen? Eher nicht. Ich persönlich verstehe sie vor allem als Mittel zur Aufzeichnung der Geschichte und von Ereignissen, ein Mittel, das sich später auch zu einer Kunstform entwickelt hat, die unsere Sinne anspricht.

"Schön ist, was gefällt" gilt in diesem Bereich ganz besonders. Wenn uns das Gehörte gefällt und es unsere Emotionen weckt, können wir dann nicht sagen, dass der Zweck der Tonaufnahme erfüllt ist?


Quellen

Die Schweizerische Nationalphonothek dankt Brandon Pletsch für die Animation "Auditory Transduction", die im ersten Abschnitt dieses Texts gezeigt wird.

Logo Schweizerische Eidgenossenschaft, 
Conféderation Suisse, Confederazione Svizzera, Confederaziun svizra


Die Schweizerische Nationalphonothek gehört zur Schweizerischen Nationalbibliothek


© Schweizerische Nationalphonothek. Alle Rechte der elektronischen Veröffentlichung sind der Schweizerischen Nationalphonothek, Lugano, vorbehalten. Die kommerzielle Verwendung der Informationen ist untersagt.
Elektronisch publizierte Informationen und Zitate unterliegen den gleichen Regeln wie gedruckte Texte. Es gilt das Schweizerische Urheberrechtsgesetz (URG). Für Copyright und Zitierregeln siehe: www.fonoteca.ch/copyright_de.htm

URL: