Künstliche Intelligenz, kurz KI, dringt in immer mehr Bereiche unseres Lebens vor. Neben der durchaus ernstzunehmenden Angst vor Missbrauch der Technologie bietet KI zahllose neue und praktische Möglichkeiten. So hat jetzt Volumio seine Musiksoftware mittels einer intelligenten Suchfunktion aufgebohrt. LowBeats hat die Fähigkeiten des Systems getestet, stellt die passende Streaming Bridge Volumio RIVO vor und klärt Missverständnisse zum Thema KI auf.
Wer oder was ist Volumio?
Ich falle gleich mit der Tür ins Haus, um im Anschluss ein Paar Dinge zum Thema KI aufklären zu können: Volumio ist ein aus Italien stammendes Streaming-Öko-System, bestehend aus Hard- und Software. Derzeit bietet Volumio drei Audio-Komponenten an: eine rein digitale Streaming Bridge namens RIVO (989 Euro), einen Streamer mit integriertem DAC namens PRIMO 2 (799 Euro) und den kompakten All-In-One Streaming-DAC-Vollverstärker Volumio Integro (1.199 Euro). Hierzulande ist Volumio über den Vertrieb AudioNext und deren Online-Shop audiodomain.de erhältlich.
Herzstück ist das bereits seit 2013 existierende Volumio OS (Operating System) mit der zugehörigen Musikverwaltungs- und Streaming-App, die für iOS und Android erhältlich ist, aber auch als Web-Interface auf jedem modernen Internet-Browser läuft.
Volumio ist eine freie und quelloffene Linux-Distribution. Im Gegensatz zu den meisten proprietären Streaming-Apps, bei denen die App ausschließlich vom jeweiligen Hersteller entwickelt und für die eigene Hardware genutzt wird, kann Volumio beispielsweise auf einem RasPi oder NUC installiert werden, um diesen dann als Streamer zu verwenden. Ich betrachte das System hier aber zusammen mit dem RIVO als Kombination aus Hard- und Software, so wie ich es auch bei Streaming-Produkten anderer Hersteller machen würde.
Was ist eigentlich „Künstliche Intelligenz“?
Wer mit der KI-Thematik vertraut ist, kann dieses Off-Topic-Kapitel überspringen.
Für all diejenigen, die sich bisher noch nicht näher mit dem Thema Künstliche Intelligenz befasst haben und die vielleicht durch reißerische Nachrichten in den Medien verunsichert oder gar beängstigt darüber sind, hier nur ein paar kurze Erklärungen.
Zunächst: Warum heißt es manchmal KI, und manchmal AI? Ganz einfach. KI ist deutsch und steht für Künstliche Intelligenz, AI ist Englisch und heißt Artificial Intelligence. Es ist ein und dasselbe.
Es lässt sich trefflich darüber streiten, ob wir es bei KI wirklich mit Intelligenz im menschlichen Sinne zu tun haben. Um das zu ermitteln, gibt es den sogenannten Turing-Test. Tatsächlich soll ChatGPT diesen bestanden haben und könnte demnach als echte Künstliche Intelligenz eingestuft werden. Aber auch der Turing-Test ist kein ultimativer Beweis für “denkende” Maschinen.
Eine große Einschränkung ist auch, dass KI-Systeme kein Bewusstsein haben, wie beispielsweise die Maschinen in den dystopischen Terminator-Filmen. KI basiert auf Machine Learning und Deep Learning. Grob gesagt: Deep Learning ist ein Teilbereich des maschinellen Lernens, und maschinelles Lernen ist ein Teilbereich der künstlichen Intelligenz. Dabei werden Computer mit ausgefuchsten Algorithmen ausgestattet und mit Massen von Informationen gefüttert, um dem Computer – vereinfacht ausgedrückt – per Holzhammer-Methode die reale Welt zu erklären.
Ein Beispiel: Einige moderne Foto/Video-Kameras verfügen über eine KI-basierte automatische Motiv-Erkennung, damit die Kamera Objekte und Subjekte besser scharf stellen kann. Dazu werden die Systeme mit Millionen von Bildern wie etwa Vögeln oder Fahrzeugen gefüttert. Daraus „lernt“ der Algorithmus, wie Vögel oder Autos aussehen und Vögel von Flugzeugen oder Autos von Zügen zu unterscheiden. Bislang musste man Kameras mit solchen Systemen per Menübefehl sagen, worauf man jetzt fokussieren möchte. Also etwa auf Tiere, damit der Fokus immer auf den Augen liegt, egal ob Pferd oder Katze. Soll zwischendurch ein Auto fotografiert werden, muss man die Motiverkennung erst im Menü umschalten. Sehr umständlich, aber immerhin klappt die Erkennung der spezifizierten Motive in der Regel sehr gut.
Inzwischen geht die Technik schon wieder einen Schritt weiter. Einige Kameras der Canon EOS R-Serie haben eine Automatik, um die Unterscheidung zwischen Motivgruppen selbst zu treffen. Also egal, ob man gerade einen Menschen, ein Tier, Auto oder Flugzeug im Sucher hat: Die Kamera erkennt mit recht hoher Zuverlässigkeit selbst, was da gerade im Bild ist und worauf scharfgestellt werden sollte. Mit Hilfe von Machine Learning können die Kameras Motive nicht nur besser erkennen und unterscheiden, sondern sie auch in Bewegung und aus verschiedenen Perspektiven identifizieren und scharfstellen.
KIs wie ChatGPT sind demgegenüber eine andere Form von Machine Learning. Dabei geht es eher darum, das System so antworten zu lassen, wie es ein Mensch es tun würde. ChatGPT durchsucht auf eine Frage (die auch mehrteilig sein kann und Rückfragen erlaubt) das gesamte Internet nach Informationshappen, die zur Frage passen, und formuliert daraus eine Antwort. Die Ergebnisse sind oft erschreckend gut. So gut, dass wie erwähnt der Turing-Test bestanden wurde und Schüler inzwischen ChatGPT nutzen, um ihre Abschlussarbeiten schreiben zu lassen, was den Lehrkörper vor enorme Herausforderungen stellt. Noch eine KI-Entwicklung: In Hollywood streiken gerade die Schauspieler, unter anderem deswegen, weil sie befürchten, dass künftig KI eingesetzt wird, um aus ihren Körperscans virtuelle Schauspieler mit ihrem Gesicht zu erstellen, die sie ersetzen sollen. Die Implikationen von KI sind wirklich äußerst weitreichend und werden unsere Gesellschaft in Zukunft noch sehr beschäftigen.
Bei allen Gefahren birgt KI auch viele Möglichkeiten, die nicht ungenutzt bleiben sollten. Eine vergleichsweise simple Form von KI hat nun Volumio in seine Software integriert. Mit „Supersearch“, einer Art Verknüpfung zu ChatGPT, soll der Nutzer einzelne Musiktitel oder Playlists ganz nach seinem Wunsch finden oder zusammenstellen können, indem einfache Suchparameter in natürlicher Formulierung eingegeben werden. Ganz so, als würde man dem Fachmann im Plattenladen seine Wünsche schildern, der dann zielsicher passende Titel heraussucht.
Volumio RIVO: die Hardware
Um das zu testen hat mir der deutsche Volumio-Vertrieb eine RIVO Streaming Bridge zur Verfügung gestellt. Angeschlossen an einen beliebigen DAC (per USB, S/PDIF, AES/EBU) bietet der RIVO Zugriff auf Musik unterschiedlicher On- und Offline- Quellen. Mit RIVO lassen sich die Streaming-Dienste Qobuz, Tidal und Highresaudio sowie Internet-Radio nutzen – und natürlich die eigene Musik-Bibliothek von Festplatte, NAS oder SD-Karte.
Der knapp 1.000 Euro teure RIVO kommt in einem einfachen, aber schön gemachten Gehäuse aus Alu und besitzt nur eine Taste für On und Off. Mit dem Heimnetz wird er per LAN oder WLAN verbunden. Eine Direktverbindung per Bluetooth ist ebenfalls möglich. Über HDMI kann das Menü auf einem angeschlossenen TV dargestellt werden. Sofern dieser sich mittels Maus und/oder Tastatur steuern lässt, kann darüber auch die Bedienung erfolgen. Ansonsten nutzt man die Volumio-App auf einem Smart-Device oder öffnet im Internet-Browser seines Mac/PC das Web-Interface, welches genauso wie die App aussieht. Auf die Volumio-App ist der RIVO aber nicht allein beschränkt, denn er ist auch Roon Ready.
Der RIVO ist ein sparsamer Streamer, der von einem etwas sehr simplen 5-V-Steckernetzteil gespeist wird. Im Betrieb und bei Musikwiedergabe verbraucht er, solange keine busgespeiste Festplatte angeschlossen ist, gerade mal 2,3 Watt. Ausgeschaltet (was bei Volumio „heruntergefahren“ heißt) sind es ca. 0,5 Watt. In diesem Modus kann der RIVO aber nicht aus dem Netzwerk angesprochen und aktiviert werden. Dazu muss die Taste an der Front gedrückt werden. Dann dauert es ca. eine Minute, bis das Gerät gebootet und einsatzbereit ist. Einen Netzwerk-Standby hat der RIVO nicht, aber mit seinen 2,3 Watt Verbrauch im Betrieb ist er genügsamer als die meisten anderen Streamer im Netzwerk-Standby. Da kann man ihn auch permanent eingeschaltet lassen.
Die Volumio-App
Wie beinahe jeder Streamer ist auch der RIVO auf eine App angewiesen. Die Volumio-Software ähnelt in ihrem Funktionsaufbau vielen anderen Apps dieser Art, gehört aber zu den ausgereifteren und bietet vergleichsweise viele Systemoptionen zur Anpassung an den persönlichen Bedarf. Außerdem unterstützt Volumio Plug-Ins von anderen Entwicklern, womit die Funktionalität noch deutlich erweitert werden kann, beispielsweise um eine DSP-Klangregelung oder Interface-Erweiterungen. Eine genaue Beschreibung dazu würde hier aber zu weit führen. Die folgenden Screenshots zeigen den sehr schön gegliederten Einrichtungsprozess:
Volumio Supersearch – Musik per KI finden
Nun aber zum eigentlichen Schwerpunkt des Artikels und dem „Partytrick“ namens Supersearch, der auf der ChatGPT-Technologie von OpenAI aufsetzt. Dabei muss ich gleich mit einem kleinen Dämpfer anfangen: Das, was Volumio mit Supersearch bietet, ist nicht völlig neu. Vor allem Sprachassistenten wie Amazon Alexa und Apple Siri bieten eine ähnliche Funktionalität schon länger. Und sogar noch komfortabler, weil man seinen Wunsch einfach dem Sprach-Assi zurufen kann, während man bei Volumio die Anfrage in ein Suchfeld tippen muss. Okay, mit der Speach-to-Text-Funktion eines iPhone/iPad (das kleine Mikrofon auf der virtuellen Tastatur) kann man seinen Wunsch auch hier einsprechen, aber dieser muss erst mal als Text in dem Suchfeld erscheinen.
Derzeit ist die KI-basierte Supersearch-Funktion noch im Beta-Stadium und muss separat aktiviert werden. Dazu tippt man einfach auf den kleinen Button links in der Suchleiste.
In einer normalen Suchfunktion, wie derzeit noch in den meisten Musik-Apps zu finden, kann lediglich nach Titeln und Interpreten, aber nicht nach spezifischen Kriterien gesucht werden. Um beispielsweise die Suche auf ein bestimmtes Genre einzuschränken, muss – sofern die App das bietet – vorher gesondert eine Genre-Auswahl etwa per Häkchen setzen getroffen werden. Auch ist es bei den meisten Apps ohne KI nicht möglich, sich mit einem einfachen Kommando Playlists für spezielle Anlässe oder Stimmungen zusammenstellen zu lassen. Oder nach Musik zu suchen, von der man vielleicht nur den Refrain kennt. Genau solche Dinge sollen mit Supersearch sehr einfach funktionieren.
Die Anfrage kann in Englisch aber auch in Deutsch und in ein paar anderen Sprachen gestellt werden. Allerdings verweist Volumio darauf, dass Englisch derzeit die zuverlässigeren Ergebnisse zutage fördere. In meinem Test funktionierten aber auch Anfragen auf Deutsch ganz ordentlich. Hier ein paar Beispiele unterschiedlicher Suchen:
Wie aus den Screenshots hervorgeht, lassen sich gute Ergebnisse erzielen, es gibt aber noch viele Einschränkungen. Nicht immer sind die Ergebnisse wirklich passend und die Liste der Vorschläge ist manchmal sehr kurz. Allerdings sucht Supersearch, ähnlich wie Roon Radio, am Ende der Liste nach weiteren passenden Tracks und setzt die Wiedergabe fort.
Auch hapert es bei der KI noch mit Kontext-Erkennung. Gibt man beispielsweise ein: „Ich bin erschöpft und möchte entspannen“ führt das zu keinen Ergebnissen. Der einfache Terminus „Entspannungsmusik“ hingegen schon, wenngleich mit recht eingeschränkter Auswahl. Die Suche nach “BRIT Award winners 2020” förderte zwar eine Liste zutage, unter denen auch BRIT-Award-Gewinner wie Billie Eilish zu finden sind, aber die Ergebnisse zeigen kein annähernd exaktes Abbild der tatsächlichen Gewinner. Da hier nur Qobuz durchsucht wurde, können nicht von dem Dienst angebotene Titel/Interpreten auch nicht auftauchen, aber die Ergebnisse waren trotzdem ungenügend.
Anfragen „in natürlicher Ausdrucksweise“ sind also noch nicht so recht das Ding von Supersearch. Nachfragen zur Verfeinerung oder Präzisierung der Suche sind derzeit auch noch nicht möglich.
Solche und ähnliche Ergebnisse kennt man auch von Siri & Co. Auf manche Anfrage reagieren die Sprachassistenten mit quasi perfekten Ergebnissen, bei anderen rollt man hingegen mit den Augen, wie dumm die KI dahinter doch ist. Vor allem mehrteilige Anfragen, und solche, die eher umgangssprachlich formuliert sind, führen häufig ins Leere – oder zu total kuriosen Ergebnissen.
Wenn die Entwicklung von KIs so schnell wie bisher weitergeht, könnten wir theoretisch schon in wenigen Jahren mit unserer Musikanlage sprechen, wie mit einem persönlichen DJ, der alles über Musik weiß. Jedoch sollte man diese Hoffnung nicht zu hoch hängen. Das Beispiel der KI-Forschung zum autonomen Fahren zeigt, dass es immer wieder natürliche Barrieren gibt, die mit Machine Learning nicht so leicht zu überwinden sind. Also vielleicht dauert es auch noch viel länger, bis wir uns mit unserem Streamer so unterhalten können:
„Hey Volumio. Erinnerst du dich noch an die am letzten Sonntag im Wohnzimmer gespielte Playlist? Darin war ein Song von einer Sängerin mit wunderschöner Stimme, den ich zweimal hintereinander gehört habe. Spiel das noch mal.“
oder…
“Erstelle eine 6-8 Stunden lange Playlist für eine Hochzeitsfeier, wobei die erste Stunde Musik zur Begrüßung und die letzte Stunde Rausschmeißmusik beinhalten soll.”
Die Voraussetzungen und Variablen einer solchen Anfrage überfordern die heutigen Möglichkeiten noch deutlich.
Fazit Volumio RIVO: Es gibt noch viel zu lernen
Der Ansatz ist vielversprechend. Aber keine Sorge, die Machtübernahme der Musikmaschinen steht nicht unmittelbar bevor. Supersearch ist quasi Machine Learning in progress. Längst nicht alle Anfragen führen zu überzeugenden Ergebnissen. Manche zu gar keinen. Doch jede von Nutzern eingegebene Suchanfrage füttert den Algorithmus mit weiteren Daten, aus denen das System lernt und seine Ergebnisse nach und nach verbessert. Schon jetzt ist Volumios KI-Integration in vielen Fällen äußerst hilfreich und damit ein substanzielles Upgrade. Das volle Chat-Potential von ChatGPT nutzt diese Lösung aber nicht aus. Einen Turing-Test würde Supersearch kaum bestehen.
Zur Hardware: Der Volumio RIVO ist als Streaming Bridge eine gute Wahl für Volumio- oder auch für Roon-Nutzer. Knapp 1.000 Euro sind für die gebotene Hardware vielleicht etwas viel, vergleicht man das Angebot beispielsweise mit Geräten, wie dem weniger als halb so teuren iFi Audio ZEN Stream. Aber die sehr unkomplizierte Installation, die DAC-Anschlussmöglichkeiten, On-Screen-Menü via HDMI und nicht zuletzt das Zusammenspiel mit der Volumio App rechtfertigen den Preis.
Bewertung
KlangPraxisVerarbeitungGesamt |
Die Bewertung bezieht sich immer auf die jeweilige Preisklasse. |
| Sehr niedriger Energieverbrauch im Betrieb |
| einfache Einrichtung |
| KI-Suchfunktion (derzeit noch Beta) |
| gut gereifte App mit vielen Optionen |
| keine Tasten für Musiksteuerung am Gerät |
Vertrieb:
audioNEXT GmbH
Isenbergstr. 20
45130 Essen
www.audiodomain.de
Preis (Hersteller-Empfehlung):
Volumio RIVO: 989 Euro
Technische Daten
VOLUMIO RIVO | |
---|---|
Konzept: | Streaming-Transporter (Bridge) ohne DAC |
Streaming: | Airplay via Shairport Sync, Spotify & Spotify Connect, TIDAL & TIDAL Connect, QOBUZ |
Besonderheiten: | geringer Stromverbrauch, Software mit KI-gestützter Suche, Erweiterungen mit Plug-Ins |
Maße (B x T x H): | 270 × 150 × 50 mm |
Gewicht: | ca. 1.140 g |
Alle technischen Daten |