In den Wochen vor der High End kam das neue HiRes-Komprimierungsverfahren MQA mächtig in die Diskussion. MQA verspricht, mit einer Datenrate, die kaum mehr Platz beansprucht wie das CD-Format, echte HiRes-Wiedergabe zu ermöglichen – was einige der Kritiker lautstark bezweifeln.
Das ging so weit, dass Lothar Kerestedjian, Chef der HiRes-Download-Plattform highresaudio die MQA-Titel wieder von seiner Seite verbannte. Im LowBeats Interview mit Raphael Vogt erklärt MQA-Erfinder Bob Stuart das Verfahren, den Sinn dahinter und dass viele Kritiker womöglich auf einer nicht mehr ganz aktuellen Forschungsbasis argumentieren.
Jedenfalls ist MQA technisch und physiognomisch höchst spannend. Für alle, die Bob Stuarts detaillierte Ausführungen zu Entstehungsgeschichte, Anwendungen sowie wissenschaftlichem und technischem Hintergrund auf Deutsch nachlesen möchten, haben wir im Anschluss das gesamte Interview übersetzt.
(zum Video im Bild klicken)
Hallo Bob, schön, Sie kennen zu lernen. Würden Sie sich und Ihre Firma kurz vorstellen?
Ok. Ich bin Bob Stuart und Präsident von MQA Limited. Die meiste Zeit meiner Karriere im Audiobereich habe ich aber bei Meridian verbracht. Ich habe Meridian 1977 gegründet und mich durch eine sehr intuitive Ära des analogen Audio gearbeitet, die Einführung von Digital Audio eingeschlossen – wir können über die Codecs und so weiter in einer Minute sprechen – aber mein Job bei Meridian war die Herstellung von Produkten, die Entwicklung von DSPs, Lautsprechern und so weiter. Vor drei Jahren haben wir beschlossen, MQA zu gründen. Und inzwischen ist es mein Fulltime-Job.
Ich verstehe. Und dies ist nicht der erste Codec oder die erste Encoder/Decoder-Kette, die Sie entwickelt haben, es ist also kein Anfänger-Projekt.
Absolut nicht, das stimmt. Mit dem Projekt waren neben mir einige – in der Industrie recht berühmte – Kollegen wie Peter Craven und Michael Gerzon, mit denen ich seit den 1970ern zusammen arbeite, beschäftigt. Wir arbeiteten, sozusagen unabhängig von der Meridian Produktlinie, bereits vor der Einführung von Digital Audio Stationary Head (DASH; 1982) und sogar vor der Compact Disc an Forschungen zum Thema Digital Audio. Dies ist also ein Bereich, in dem wir eine Menge Expertise haben, gerade was theoretisch und praktisch alles schief gehen kann.
Etwa in den frühen 90ern wurde uns klar, dass die DVD im Kommen war und dass wir einen Tonträger haben könnten mit höherer Auflösung als bei der Compact Disc. Und dennoch – und das scheint eine Regel im Audiobereich zu sein – war da nie genug Platz. Wir wollten hochqualitativen Klang drauf tun, aber da war immer noch nicht genug Platz auf der Scheibe für – was manchmal als “Hochauflösend” bezeichnet wird. Zu der Zeit waren 96 Kilohertz 24 Bit das Ziel für Aufnahmen.
Zu dieser Zeit beschäftigte ich mich – wir entwickelten – tatsächlich glaube ich – den ersten verlustfreien (lossless) Kompressor. Verlustfreie Kompression war unbekannt, als wir ihn bei der RIAA vorstellten. 1992 machten wir eine Vorführung und sagten “Genau so müsst Ihr es machen, weil es uns erlaubt, mehr der Daten auf die Disk zu bringen”.
Wir haben es als eine Art Venture-Projekt entwickelt und umgesetzt, und ich habe dabei eine ganze Menge über Formate gelernt. Wie Sie wissen, nahm ich an der ADA in Japan teil, der Advanced Digital Audio Konferenz zum Thema “Welcher Weg ist der beste im Digitalen”, das war in den 90ern. Und 1995/’96 engagierte ich mich im DVD-Forum.
Das ist etwas, was viele Menschen heute vergessen. Die erste High-Res Audioquelle war DVD.
DVD. DVD Video konnte 96 Kilohertz 16 Bits abspielen.
Das meine ich.
Und die höhere Qualität und den Surround Sound auf die Disc zu bringen – was eine ganz schöne Herausforderung war – war zuerst auf DVD möglich. Das brachte mich übrigens in engen Kontakt mit der Musikindustrie. Weil man an einem Standard arbeitet und – ja, da gab es einigen Spaß, technischen Wettbewerb und solche Dinge. Aber ja, nein, wir sind nicht neu im Geschäft und wir haben gelernt.
Wir hatten enge Beziehungen zum Forum in Japan, mit den großen Firmen wie Sony und so weiter. Und auch mit den Plattenfirmen.
Den großen Plattenfirmen. Und es wurde mir klar, wie ihr Denken funktionierte. Und der Grund, warum das wichtig war, ist – dieses Gefühl habe ich seitdem ständig – dass die Musikindustrie sehr wichtig ist.
Klar, es ist in Mode, die Musikindustrie zu hassen, die Leute sagen, das seien Diebe und Räuber und sie verlangen tatsächlich für Musik Geld! Aber in Wirklichkeit machen sie einen wichtigen Job: Künstler entdecken und aufbauen, ein Archiv aufbauen und erhalten. Darüber hinaus ist schlicht Tatsache: Wir sind hier auf der High End Messe, und High End Hersteller sind gar nichts außer es gibt etwas, das man wiedergeben kann. Wir brauchen großartige Musik. Und das ist eine Leidenschaft, die mich mein Leben lang antreibt.
Wenn wir in der Geschichte weiter nach vorne gehen, gab es wie Sie wissen einen Format-Krieg zwischen SACD und DVD Audio, was wirklich eine Schande war. Der iPod 1 – damals hatten wir eine ganze Generation schlechter Audio-Qualität auf Radio-Niveau; die Leute hörten MP3 und AAC. Und der Diebstahl von Musik – das alles war sehr quälend.
An diesem Punkt war unsere Sicht: “Na gut, wir müssen uns darauf konzentrieren, die CD so gut zu machen wie möglich”, denn die Compact Disk hatte alles. Der riesige Katalog, CD ist wahrscheinlich das erfolgreichste physische Tonträgerformat aller Zeiten, weil mehr Titel für CD produziert wurden als für Vinyl oder andere Formate. Aber natürlich war sie nicht perfekt.
Was wir allerdings immer im Hinterkopf behielten: Dass irgendetwas fundamental falsch war an der Herangehensweise beim digitalen Audio. Dies ist die Entstehungsgeschichte bis zu dem Moment, als wir beschlossen “OK, das Problem muss gelöst werden. Wir haben das Wissen, wie man es machen kann und das heißt leider, dass wir die Geschichte erzählen müssen”. Tut mir leid, das war eine lange Einführung…
Nein, das war sehr gut und informativ.
Irgendwie erklärt es die lange Reise.
In der Vergangenheit gab es Technologien, die recht erfolgreich versuchten, den CD-Klang zu verbessern, wie zum Beispiel HDCD. Das fand ich ziemlich clever und auch einige andere Dinge wie Super-Bit-Mapping. Aber Ihre jetzige Herangehensweise ist völlig neu?
Das ist sie. Denn solche Dinge wie HDCD zum Beispiel sind zwar clever, aber es sattelt auf der CD auf. Und Super-Bit-Mapping, damit ist Noise Shaping gemeint und das ist seit langem bekannt.
Grundsätzlich schon.
Noise Shaping verschafft uns enorme Möglichkeiten der Optimierung. Aber was mich am meisten störte und dazu führte, dass wir, Peter Craven, Malcolm und ich uns zusammensetzten, war dieses Problem: Es wird einfach nicht genug Grundlagenforschung betrieben im Highend Audiobereich. Und ich rede nicht von den HiFi-Herstellern, ich meine wissenschaftliche Forschung darüber, wie wir hören und was hohe Auflösung in Wirklichkeit ist.
Ok, also nicht Bits zu zählen sondern herauszufinden, was als Mehr-Information wahrgenommen wird und dann zurückkommen darauf, wie wir das liefern können.
Korrekt. Was also passierte: In wissenschaftlicher Hinsicht wurde Geld hauptsächlich ausgegeben für Forschungen darüber, wie ein Smartphone mit einer möglichst kleinen Datenmenge auskommt oder wie man eine Hörhilfe konstruiert.
Sehr wichtig.
Eine sehr wichtige Aufgabe. Aber unsere Leidenschaft und unser Interesse liegt darin, die musikalische Darbietung einzufangen. Wo ist die Grenze, was kann ein Mensch tatsächlich hören? Wenn wir besser und besser werden, wie weit ist der Rahmen gespannt? Das wollten wir wissen und es gibt Informationen dazu, aber historisch gab es nicht viel.
Wir stellten grundsätzlich fest, dass die Leute eigentlich merken, dass irgendwas mit dem Digitalen nicht stimmt, denn die Compact Disk ist nicht perfekt. Wenn Du sie schneller machst, wird sie ein bisschen besser. Und so sehen wir einige Sampling Raten, die bis 88, 96 gehen, 192 ist ein bisschen besser, 384 noch ein bisschen besser, aber man kommt an kein Ende. Und während wir die Daten verdoppeln werden die Datenmengen riesig.
Exakt.
Und das zeigt uns, hier liegt ein Problem, denn die Qualität steigt nicht proportional. Das ist der Schlüssel. Und warum sind die höheren Sampling Raten wichtig? Weil wir wissen, dass man den Unterschied zwischen 192 und 48 hören kann obwohl man einen Hochtöner hat, der bei 20 Hertz aufhört, gar keine so hohe Frequenz. Wie geht das?
Der größte Schritt war für uns, als wir neurowissenschaftliche Grundlagenforschungen studierten, die anders waren als Psychoakustische Studien. Gut, dass ist eine akademische Unterscheidung, aber Psychoakustiker gibt es schon lange, hier in Deutschland einige sehr berühmte, die sehr viel davon verstehen, wie das Ohr arbeitet, aber auf lineare Weise. Das heißt, dass, also …
Wenn wir einen Verstärker nehmen und ich will ihn messen, kann ich einen Sinusgenerator anschließen und sehen, was herauskommt. Aber wenn ich wissen will, wie Ihre Ohren arbeiten, kann ich nicht wirklich einen Sinus einspielen und herausfinden, was passiert, weil unser Gehör so kompliziert ist und so nicht-linear, dass man nicht sagen kann “Na gut, ich teste mit A, dann teste ich mit B, dann füge ich beides zusammen, so erhalte ich A+B.”
Die Antwort ist nein, so ist es nicht, weil der Mensch nicht so funktioniert. Wenn wir Musik hören, wenn wir eine Stereoaufnahme anhören, passiert etwas Fantastisches: Unser Gehör ist so empfindlich, so fein. Aus dem Lautsprecher kommen Klänge, wir hören aber keine Klänge oder Frequenzen, wir hören Instrumente, die direkt vor uns erscheinen, zusammengesetzt werden. Wir wissen, wir hören eine Gitarre, ein Piano.
Wenn es gut ist, ist es eine echte Re-Produktion.
Es ist eine Reproduktion und das ist etwas sehr Kompliziertes. Es ist tatsächlich bis heute unmöglich, einen Computer zu programmieren, diese sofortige Wiedererkennung so zu leisten, wie wir das können. Sobald Klang da ist, wissen wir umgehend, was wir hören. Also war die Wissenschaft, die uns weiterhalf, am Ende die Neurowissenschaft.
Neurowissenschaftler sagen nicht “Ich will wissen, was Du hören kannst, also werde ich Dein Ohr mit Tönen und Piepsern und Klicks und Pops messen”, sie sagen, die einzige Möglichkeit, zu verstehen, was ein Tier hören kann ist, wenn man die Klänge verwendet, für die sich sein Gehör entwickelt hat. Die natürlichen Geräusche seiner Umgebung, der Wind, das Wasser, raschelnde Blätter, knackende Zweige…
Welche Assoziation es im Gehirn erzeugt?
Korrekt. Und diese Geräusche sind statistisch und mathematisch völlig anders als die Art Signale, die wir verwendet haben, um Geräte zu messen und Dinge zu entwickeln wie MP3 und AAC. Kurz gefasst – denn meine Antwort ist lang – die “Schlüssel-Entdeckung” machte eine Gruppe Neurowissenschaftler in Italien – sie wurde irgendwo anders in Europa nochmals bestätigt – , dass der Mensch kein Eins-zu-Eins-Verhältnis zwischen Zeit und Frequenz kennt.
Nun, Furier-Transformation oder das Nyquist-Shannon-Theorem gehen für klassische Sampling-Systeme ein direktes Eins-zu-Eins-Verhältnis ein, also wenn Ihre höchste Frequenz 2o Kilohertz ist, ist die Periode 50 Mikrosekunden.
Ein sehr statisches System.
Ein sehr statisches System und sehr linear. Aber der Mensch ist fähig, Mikro-Zeit bei niedrigen und bei mittleren Frequenzen zu unterscheiden, was nichts zu tun hat mit den Hochfrequenzen, wie man vermuten würde.
Also stellt man fest, wenn man als Audio-Mensch hier herumläuft, dass die Highend Hersteller über die Jahre ihre Verstärker mit höherer Bandbreite ausgestattet haben, sie haben sie mit höheren Sampleraten versehen und die Leute sagen, “ah, siehst Du, es kommt auf die höheren Frequenzen an”, aber die Antwort darauf ist nein, stimmt nicht.
Tatsächlich ist es so, wenn man diese Art von Bandbreite hat, kann man Hall wahrnehmen und Sounds ohne klar getrennte Frequenzen, die nahe beinander liegen wie zum Beispiel das Rascheln eines Blattes. Diese Geräusche wahrzunehmen ist am wichtigsten – was uns zu der Erkenntnis führte, dass die Art, wie digitales Sampling gemacht wird, überdacht werden muss, sodass wir ein Zeit-Frequenz-Gleichgewicht erreichen, das auf den Menschen abgestimmt ist und nicht auf den FFT-Analyser oder das Messgerät.
Wie die statischen Grundlagen?
Statische Grundlagen. Das ist etwas, worüber manche denken “Das ist absolut richtig”, andere halten es für ketzerisch, aber grundsätzlich ist es einfach wahr, dass, wissen Sie, Klänge werden verwischt. Nach näherer Betrachtung fragten wir uns, “haben wir genug Energie, und das zu veröffentlichen?”
Denn wir haben etwas sehr Fundamentales zu erklären, wir müssen uns hinstellen und sagen, “Naja, das haben wir sozusagen 20 Jahre lang falsch gemacht und Ihr auch”. Wir müssen also nach vorne schauen. Ich denke aber, die Sache ist zu wichtig. Denn wenn man die Zeit-Frequenz Balance richtig hinkriegt, klingt einfach alles völlig realistisch.
Wenn Sie aber ein verwendbares System schaffen wollen, können Sie das traditionelle statische Sampling-System und -Raten nicht ignorieren, denn sonst gibt es keine Speicher- oder Transportmöglichkeiten für Ihre Daten?
Das stimmt. Die Daten sind natürlich kein Problem, die Knackpunkte sind das Wandeln von Analog zu Digital und von Digital zu Analog, und all die anderen Stellen wo Sampling in der Signalverarbeitung stattfindet in einer Workstation, beim Filtern (EQ), oder Pegeln. Immer wenn ein Signal geändert wird, gibt es auch ein Risiko, dass der DAC das Signal durch Vor- oder Nachschwinger verschmiert. Das ist es im Wesentlichen.
Jetzt könnten wir natürlich sagen, “Ok, großartig, wir haben dies und das erarbeitet und jetzt wissen wir wie das Gehirn arbeitet”. Und außerdem sind wir, wenn wir das tun, in der Lage, die Datenmenge so zu reduzieren, dass sie die Audio-Information exakt abbildet, die wir versuchen, einzufangen.
Wir müssen nicht schneller werden, um die Zeit richtig zu erfassen, das haben wir schon bisher nicht richtig hingekriegt.
Der zentrale Punkt hier ist, wenn die Zeit-Auflösung korrigiert ist, ist es viel natürlicher, obwohl wir eine niedrigere Datenrate verwenden.
Klar, wir hätten sagen können, ok, alle müssen stoppen. Wir müssen neue DACs und neue Analog-zu-Digital-Konverter bauen. Nein, das geht nicht, weil es die Archive gibt. Sie wissen, dass Ella Fitzgerald wichtig ist, die Musik von Frank Sinatra und all diese großen Aufnahmen, wir müssen einen Weg finden, das alles einzubinden.
Außerdem kann man den Leuten nicht sagen: “Schmeißt Euer iPhone weg, weil Ihr einen neuen DAC-Chip braucht”, das ist unmöglich, also mussten wir ein System entwickeln, das rückwärts-kompatibel ist mit dem aktuell bestehenden System.
Der einzige Weg, das zu schaffen ist Anfang-bis-Ende. Das ist kein Versuch, zu dominieren, das ist keine Landnahme oder der Versuch, reich zu werden. Es geht um Fakten, um Physik. Um es richtig hinzukriegen, muss man das jetzige System kontrollieren, also braucht man einen Decoder, der den DAC steuert und einen Encoder zur Korrektur des A-D-Wandlers , um MQA in einem aktuellen System zum Laufen zu bringen. Das ist es im Prinzip, wie wir dazu kamen.
Die Schlüsselerkenntnisse stammen aber aus der Neurowissenschaft und die Dinge, die uns helfen, sind die Statistiken der Musik, die Art, wie wir hören, die Tatsache, dass der Mensch so viel sensibler auf Zeit als auf Frequenz reagiert, allerdings nur – nebenbei erwähnt – wenn die Signale in die richtige Richtung laufen. Wenn man Menschen Musik rückwärts vorspielt, arbeiten wir wie Fourier-Analyzer, die rückwärts hören und vorwärts analysieren, was für ein Alarm!
Denn unser Hören ist für das Überleben entwickelt. Wenn ein Geräusch ertönt, ist am wichtigsten, dass Du weißt, woher es kommt und dich ihm zuwenden kannst, oder dich entfernen, nicht wahr? Und am nächst-wichtigsten ist, dass Dich Tierlaute nicht verwirren und die dritte Funktion ist, dass wir miteinander sprechen können. Und Musik gehört zu diesem System.
Lassen Sie mich eine vereinfachte Frage stellen: Was ist es für mich, als Hörer, was Ihr System besser kann? Ist es Musikalität, ist es Räumlichkeit, ist es der Frequenzgang?
Wenn Sie jetzt von Klang sprechen, denn offensichtlich ist es bequem und Du kannst es streamen, es ist absolut die Auflösung. Und das ist das andere Problem.