ende
Startbild Volumio RIVO
Volumio führt mit "Supersearch" eine KI-basierte Suchfunktion für Musik ein. Top oder Flop? LowBeats testet es zusammen mit dem Streaming-Transporter Volumio RIVO (989 Euro). (Montage: F. Borowski)

Test Volumio RIVO: Streaming Bridge mit KI-gestützter Musiksuche

Künstliche Intelligenz, kurz KI, dringt in immer mehr Bereiche unseres Lebens vor. Neben der durchaus ernstzunehmenden Angst vor Missbrauch der Technologie bietet KI zahllose neue und praktische Möglichkeiten. So hat jetzt Volumio seine Musiksoftware mittels einer intelligenten Suchfunktion aufgebohrt. LowBeats hat die Fähigkeiten des Systems getestet, stellt die passende Streaming Bridge Volumio RIVO vor und klärt Missverständnisse zum Thema KI auf.

Wer oder was ist Volumio?

Ich falle gleich mit der Tür ins Haus, um im Anschluss ein Paar Dinge zum Thema KI aufklären zu können: Volumio ist ein aus Italien stammendes Streaming-Öko-System, bestehend aus Hard- und Software. Derzeit bietet Volumio drei Audio-Komponenten an: eine rein digitale Streaming Bridge namens RIVO (989 Euro), einen Streamer mit integriertem DAC namens PRIMO 2 (799 Euro) und den kompakten All-In-One Streaming-DAC-Vollverstärker Volumio Integro (1.199 Euro). Hierzulande ist Volumio über den Vertrieb AudioNext und deren Online-Shop audiodomain.de erhältlich.

Herzstück ist das bereits seit 2013 existierende Volumio OS (Operating System) mit der zugehörigen Musikverwaltungs- und Streaming-App, die für iOS und Android erhältlich ist, aber auch als Web-Interface auf jedem modernen Internet-Browser läuft.

Volumio RIVO 07
Die Volumio-App verfügt jetzt über eine KI-basierte Funktion zur Musiksuche (Foto: Volumio)

Volumio ist eine freie und quelloffene Linux-Distribution. Im Gegensatz zu den meisten proprietären Streaming-Apps, bei denen die App ausschließlich vom jeweiligen Hersteller entwickelt und für die eigene Hardware genutzt wird, kann Volumio beispielsweise auf einem RasPi oder NUC installiert werden, um diesen dann als Streamer zu verwenden. Ich betrachte das System hier aber zusammen mit dem RIVO als Kombination aus Hard- und Software, so wie ich es auch bei Streaming-Produkten anderer Hersteller machen würde.

Was ist eigentlich „Künstliche Intelligenz“?

Wer mit der KI-Thematik vertraut ist, kann dieses Off-Topic-Kapitel überspringen.

Für all diejenigen, die sich bisher noch nicht näher mit dem Thema Künstliche Intelligenz befasst haben und die vielleicht durch reißerische Nachrichten in den Medien verunsichert oder gar beängstigt darüber sind, hier nur ein paar kurze Erklärungen.

Zunächst: Warum heißt es manchmal KI, und manchmal AI? Ganz einfach. KI ist deutsch und steht für Künstliche Intelligenz, AI ist Englisch und heißt Artificial Intelligence. Es ist ein und dasselbe.

Es lässt sich trefflich darüber streiten, ob wir es bei KI wirklich mit Intelligenz im menschlichen Sinne zu tun haben. Um das zu ermitteln, gibt es den sogenannten Turing-Test. Tatsächlich soll ChatGPT diesen bestanden haben und könnte demnach als echte Künstliche Intelligenz eingestuft werden. Aber auch der Turing-Test ist kein ultimativer Beweis für “denkende” Maschinen.

Eine große Einschränkung ist auch, dass KI-Systeme kein Bewusstsein haben, wie beispielsweise die Maschinen in den dystopischen Terminator-Filmen. KI basiert auf Machine Learning und Deep Learning. Grob gesagt: Deep Learning ist ein Teilbereich des maschinellen Lernens, und maschinelles Lernen ist ein Teilbereich der künstlichen Intelligenz. Dabei werden Computer mit ausgefuchsten Algorithmen ausgestattet und mit Massen von Informationen gefüttert, um dem Computer – vereinfacht ausgedrückt – per Holzhammer-Methode die reale Welt zu erklären. 

Ein Beispiel: Einige moderne Foto/Video-Kameras verfügen über eine KI-basierte automatische Motiv-Erkennung, damit die Kamera Objekte und Subjekte besser scharf stellen kann. Dazu werden die Systeme mit Millionen von Bildern wie etwa Vögeln oder Fahrzeugen gefüttert. Daraus „lernt“ der Algorithmus, wie Vögel oder Autos aussehen und Vögel von Flugzeugen oder Autos von Zügen zu unterscheiden. Bislang musste man Kameras mit solchen Systemen per Menübefehl sagen, worauf man jetzt fokussieren möchte. Also etwa auf Tiere, damit der Fokus immer auf den Augen liegt, egal ob Pferd oder Katze. Soll zwischendurch ein Auto fotografiert werden, muss man die Motiverkennung erst im Menü umschalten. Sehr umständlich, aber immerhin klappt die Erkennung der spezifizierten Motive in der Regel sehr gut.

Inzwischen geht die Technik schon wieder einen Schritt weiter. Einige Kameras der Canon EOS R-Serie haben eine Automatik, um die Unterscheidung zwischen Motivgruppen selbst zu treffen. Also egal, ob man gerade einen Menschen, ein Tier, Auto oder Flugzeug im Sucher hat: Die Kamera erkennt mit recht hoher Zuverlässigkeit selbst, was da gerade im Bild ist und worauf scharfgestellt werden sollte. Mit Hilfe von Machine Learning können die Kameras Motive nicht nur besser erkennen und unterscheiden, sondern sie auch in Bewegung und aus verschiedenen Perspektiven identifizieren und scharfstellen.

Volumio RIVO 01
Motiverkennung am Beispiel der Canon EOS R6 Mark II (Foto: F. Borowski)

KIs wie ChatGPT sind demgegenüber eine andere Form von Machine Learning. Dabei geht es eher darum, das System so antworten zu lassen, wie es ein Mensch es tun würde. ChatGPT durchsucht auf eine Frage (die auch mehrteilig sein kann und Rückfragen erlaubt) das gesamte Internet nach Informationshappen, die zur Frage passen, und formuliert daraus eine Antwort. Die Ergebnisse sind oft erschreckend gut. So gut, dass wie erwähnt der Turing-Test bestanden wurde und Schüler inzwischen ChatGPT nutzen, um ihre Abschlussarbeiten schreiben zu lassen, was den Lehrkörper vor enorme Herausforderungen stellt. Noch eine KI-Entwicklung: In Hollywood streiken gerade die Schauspieler, unter anderem deswegen, weil sie befürchten, dass künftig KI eingesetzt wird, um aus ihren Körperscans virtuelle Schauspieler mit ihrem Gesicht zu erstellen, die sie ersetzen sollen. Die Implikationen von KI sind wirklich äußerst weitreichend und werden unsere Gesellschaft in Zukunft noch sehr beschäftigen.

Bei allen Gefahren birgt KI auch viele Möglichkeiten, die nicht ungenutzt bleiben sollten. Eine vergleichsweise simple Form von KI hat nun Volumio in seine Software integriert. Mit „Supersearch“, einer Art Verknüpfung zu ChatGPT, soll der Nutzer einzelne Musiktitel oder Playlists ganz nach seinem Wunsch finden oder zusammenstellen können, indem einfache Suchparameter in natürlicher Formulierung eingegeben werden. Ganz so, als würde man dem Fachmann im Plattenladen seine Wünsche schildern, der dann zielsicher passende Titel heraussucht.

Volumio RIVO: die Hardware

Um das zu testen hat mir der deutsche Volumio-Vertrieb eine RIVO Streaming Bridge zur Verfügung gestellt. Angeschlossen an einen beliebigen DAC (per USB, S/PDIF, AES/EBU) bietet der RIVO Zugriff auf Musik unterschiedlicher On- und Offline- Quellen. Mit RIVO lassen sich die Streaming-Dienste Qobuz, Tidal und Highresaudio sowie Internet-Radio nutzen – und natürlich die eigene Musik-Bibliothek von Festplatte, NAS oder SD-Karte.

Volumio RIVO 02
Außer einer Taste für On/Off gibt es keine Bedienelemente am Gerät (Foto: F. Borowski)

Der knapp 1.000 Euro teure RIVO kommt in einem einfachen, aber schön gemachten Gehäuse aus Alu und besitzt nur eine Taste für On und Off. Mit dem Heimnetz wird er per LAN oder WLAN verbunden. Eine Direktverbindung per Bluetooth ist ebenfalls möglich. Über HDMI kann das Menü auf einem angeschlossenen TV dargestellt werden. Sofern dieser sich mittels Maus und/oder Tastatur steuern lässt, kann darüber auch die Bedienung erfolgen. Ansonsten nutzt man die Volumio-App auf einem Smart-Device oder öffnet im Internet-Browser seines Mac/PC das Web-Interface, welches genauso wie die App aussieht. Auf die Volumio-App ist der RIVO aber nicht allein beschränkt, denn er ist auch Roon Ready.

Vorwärts Zurück
Volumio RIVO 06
Das Innenleben des RIVO (Foto: F. Borowski)
Volumio RIVO 03
Rückseite: neben diversen USB-Anschlüssen für Massenspeicher und Audio ist auch ein microSD-Slot vorhanden (Foto: F. Borowski)
Volumio RIVO 04
Das Gehäuse besteht aus einem Alu-Strangguss-Profil (Foto: F. Borowski)
Vorwärts Zurück

Der RIVO ist ein sparsamer Streamer, der von einem etwas sehr simplen 5-V-Steckernetzteil gespeist wird. Im Betrieb und bei Musikwiedergabe verbraucht er, solange keine busgespeiste Festplatte angeschlossen ist, gerade mal 2,3 Watt. Ausgeschaltet (was bei Volumio „heruntergefahren“ heißt) sind es ca. 0,5 Watt. In diesem Modus kann der RIVO aber nicht aus dem Netzwerk angesprochen und aktiviert werden. Dazu muss die Taste an der Front gedrückt werden. Dann dauert es ca. eine Minute, bis das Gerät gebootet und einsatzbereit ist. Einen Netzwerk-Standby hat der RIVO nicht, aber mit seinen 2,3 Watt Verbrauch im Betrieb ist er genügsamer als die meisten anderen Streamer im Netzwerk-Standby. Da kann man ihn auch permanent eingeschaltet lassen.

Volumio RIVO 05
Das mitgelieferte Steckernetzteil des RIVO könnte hochwertiger sein (Foto: F. Borowski)

Die Volumio-App

Wie beinahe jeder Streamer ist auch der RIVO auf eine App angewiesen. Die Volumio-Software ähnelt in ihrem Funktionsaufbau vielen anderen Apps dieser Art, gehört aber zu den ausgereifteren und bietet vergleichsweise viele Systemoptionen zur Anpassung an den persönlichen Bedarf. Außerdem unterstützt Volumio Plug-Ins von anderen Entwicklern, womit die Funktionalität noch deutlich erweitert werden kann, beispielsweise um eine DSP-Klangregelung oder Interface-Erweiterungen. Eine genaue Beschreibung dazu würde hier aber zu weit führen. Die folgenden Screenshots zeigen den sehr schön gegliederten Einrichtungsprozess:

Vorwärts Zurück
Volumio RIVO 08
Einrichtung: Zuerst ein im Netzwerk verbundenes Gerät auswählen …
Volumio RIVO 09
… dann die Sprache wählen …
Volumio RIVO 10
… eventuell das Firmware-Update installieren …
Volumio RIVO 11
… Anmelden oder Account einrichten (Screenshots: F. Borowski)
Volumio RIVO 12
Anschließend folgt die Anmeldung für Volumio-Account …
Volumio RIVO 13
… den Name für das Gerät eingeben…
Volumio RIVO 14
… den Audioausgang wählen …
Volumio RIVO 15
… und eventuell mit WLAN verbinden (der RIVO hat übrigens innenliegende Antennen)
Volumio RIVO 16
Anschließend mit dem Musikdienst verbinden …
Volumio RIVO 17
…. und fertig (Screenshots: F. Borowski)
Vorwärts Zurück

Volumio Supersearch – Musik per KI finden

Nun aber zum eigentlichen Schwerpunkt des Artikels und dem „Partytrick“ namens Supersearch, der auf der ChatGPT-Technologie von OpenAI aufsetzt. Dabei muss ich gleich mit einem kleinen Dämpfer anfangen: Das, was Volumio mit Supersearch bietet, ist nicht völlig neu. Vor allem Sprachassistenten wie Amazon Alexa und Apple Siri bieten eine ähnliche Funktionalität schon länger. Und sogar noch komfortabler, weil man seinen Wunsch einfach dem Sprach-Assi zurufen kann, während man bei Volumio die Anfrage in ein Suchfeld tippen muss. Okay, mit der Speach-to-Text-Funktion eines iPhone/iPad (das kleine Mikrofon auf der virtuellen Tastatur) kann man seinen Wunsch auch hier einsprechen, aber dieser muss erst mal als Text in dem Suchfeld erscheinen.

Derzeit ist die KI-basierte Supersearch-Funktion noch im Beta-Stadium und muss separat aktiviert werden. Dazu tippt man einfach auf den kleinen Button links in der Suchleiste.

In einer normalen Suchfunktion, wie derzeit noch in den meisten Musik-Apps zu finden, kann lediglich nach Titeln und Interpreten, aber nicht nach spezifischen Kriterien gesucht werden. Um beispielsweise die Suche auf ein bestimmtes Genre einzuschränken, muss – sofern die App das bietet – vorher gesondert eine Genre-Auswahl etwa per Häkchen setzen getroffen werden. Auch ist es bei den meisten Apps ohne KI nicht möglich, sich mit einem einfachen Kommando Playlists für spezielle Anlässe oder Stimmungen zusammenstellen zu lassen. Oder nach Musik zu suchen, von der man vielleicht nur den Refrain kennt. Genau solche Dinge sollen mit Supersearch sehr einfach funktionieren.

Volumio RIVO 18
Info-Screen zu “Supersearch” (Screenshot: F. Borowski)

Die Anfrage kann in Englisch aber auch in Deutsch und in ein paar anderen Sprachen gestellt werden. Allerdings verweist Volumio darauf, dass Englisch derzeit die zuverlässigeren Ergebnisse zutage fördere. In meinem Test funktionierten aber auch Anfragen auf Deutsch ganz ordentlich. Hier ein paar Beispiele unterschiedlicher Suchen:

Vorwärts Zurück
Volumio RIVO 22
Erster Versuch mit Anfrage in Englisch: ordentliche Suchergebnisse (Screenshot: F. Borowski)
Volumio RIVO 23
Zweiter Versuch: Die Einschränkung auf eine Playlist, die um zwei Stunden lang sein soll, funktioniert nicht (Screenshot: F. Borowski)
Volumio RIVO 24
Einfach nur “Easy Listening” fördert hingegen Ergebnisse zutage (Screenshot: F. Borowski)
Volumio RIVO 25
Anfrage auf Deutsch (Screenshot: F. Borowski)
Volumio RIVO 26
Auch das passt (Screenshot: F. Borowski)
Volumio RIVO 21
Dieser Screenshot sieht etwas anders aus, weil er nicht vom iPad, sondern vom Mac aus Safari stammt. Die ausführliche Anfrage fördert ein gutes Erbenis zutage (Screenshot: F. Borowski)
Volumio RIVO 20
Romantik kennt Supersearch offenbar nur im Zusammenhang mit der kulturgeschichtlichen Epoche. Die Liste ist auch sehr kurz geraten (Screenshot: F. Borowski)
Volumio RIVO 19
Diese Anfrage lieferte keine guten und nur wenige Ergebnisse (Screenshot: F. Borowski)
Vorwärts Zurück

Wie aus den Screenshots hervorgeht, lassen sich gute Ergebnisse erzielen, es gibt aber noch viele Einschränkungen. Nicht immer sind die Ergebnisse wirklich passend und die Liste der Vorschläge ist manchmal sehr kurz. Allerdings sucht Supersearch, ähnlich wie Roon Radio, am Ende der Liste nach weiteren passenden Tracks und setzt die Wiedergabe fort.

Auch hapert es bei der KI noch mit Kontext-Erkennung. Gibt man beispielsweise ein: „Ich bin erschöpft und möchte entspannen“ führt das zu keinen Ergebnissen. Der einfache Terminus „Entspannungsmusik“ hingegen schon, wenngleich mit recht eingeschränkter Auswahl. Die Suche nach “BRIT Award winners 2020” förderte zwar eine Liste zutage, unter denen auch BRIT-Award-Gewinner wie Billie Eilish zu finden sind, aber die Ergebnisse zeigen kein annähernd exaktes Abbild der tatsächlichen Gewinner. Da hier nur Qobuz durchsucht wurde, können nicht von dem Dienst angebotene Titel/Interpreten auch nicht auftauchen, aber die Ergebnisse waren trotzdem ungenügend.

Anfragen „in natürlicher Ausdrucksweise“ sind also noch nicht so recht das Ding von Supersearch. Nachfragen zur Verfeinerung oder Präzisierung der Suche sind derzeit auch noch nicht möglich.

Solche und ähnliche Ergebnisse kennt man auch von Siri & Co. Auf manche Anfrage reagieren die Sprachassistenten mit quasi perfekten Ergebnissen, bei anderen rollt man hingegen mit den Augen, wie dumm die KI dahinter doch ist. Vor allem mehrteilige Anfragen, und solche, die eher umgangssprachlich formuliert sind, führen häufig ins Leere – oder zu total kuriosen Ergebnissen. 

Wenn die Entwicklung von KIs so schnell wie bisher weitergeht, könnten wir theoretisch schon in wenigen Jahren mit unserer Musikanlage sprechen, wie mit einem persönlichen DJ, der alles über Musik weiß. Jedoch sollte man diese Hoffnung nicht zu hoch hängen. Das Beispiel der KI-Forschung zum autonomen Fahren zeigt, dass es immer wieder natürliche Barrieren gibt, die mit Machine Learning nicht so leicht zu überwinden sind. Also vielleicht dauert es auch noch viel länger, bis wir uns mit unserem Streamer so unterhalten können:

„Hey Volumio. Erinnerst du dich noch an die am letzten Sonntag im Wohnzimmer gespielte Playlist? Darin war ein Song von einer Sängerin mit wunderschöner Stimme, den ich zweimal hintereinander gehört habe. Spiel das noch mal.“

oder…

“Erstelle eine 6-8 Stunden lange Playlist für eine Hochzeitsfeier, wobei die erste Stunde Musik zur Begrüßung und die letzte Stunde Rausschmeißmusik beinhalten soll.”

Die Voraussetzungen und Variablen einer solchen Anfrage überfordern die heutigen Möglichkeiten noch deutlich.

Fazit Volumio RIVO: Es gibt noch viel zu lernen

Der Ansatz ist vielversprechend. Aber keine Sorge, die Machtübernahme der Musikmaschinen steht nicht unmittelbar bevor. Supersearch ist quasi Machine Learning in progress. Längst nicht alle Anfragen führen zu überzeugenden Ergebnissen. Manche zu gar keinen. Doch jede von Nutzern eingegebene Suchanfrage füttert den Algorithmus mit weiteren Daten, aus denen das System lernt und seine Ergebnisse nach und nach verbessert. Schon jetzt ist Volumios KI-Integration in vielen Fällen äußerst hilfreich und damit ein substanzielles Upgrade. Das volle Chat-Potential von ChatGPT nutzt diese Lösung aber nicht aus. Einen Turing-Test würde Supersearch kaum bestehen.

Zur Hardware: Der Volumio RIVO ist als Streaming Bridge eine gute Wahl für Volumio- oder auch für Roon-Nutzer. Knapp 1.000 Euro sind für die gebotene Hardware vielleicht etwas viel, vergleicht man das Angebot beispielsweise mit Geräten, wie dem weniger als halb so teuren iFi Audio ZEN Stream. Aber die sehr unkomplizierte Installation, die DAC-Anschlussmöglichkeiten, On-Screen-Menü via HDMI und nicht zuletzt das Zusammenspiel mit der Volumio App rechtfertigen den Preis. 

VILUMIO RIVO
2023/07
Test-Ergebnis: 4,3
SEHR GUT
Bewertung
Klang
Praxis
Verarbeitung

Gesamt

Die Bewertung bezieht sich immer auf die jeweilige Preisklasse.

 

Sehr niedriger Energieverbrauch im Betrieb
einfache Einrichtung
KI-Suchfunktion (derzeit noch Beta)
gut gereifte App mit vielen Optionen
keine Tasten für Musiksteuerung am Gerät

Vertrieb:
audioNEXT GmbH
Isenbergstr. 20
45130 Essen
www.audiodomain.de

Preis (Hersteller-Empfehlung):
Volumio RIVO: 989 Euro

Technische Daten

VOLUMIO RIVO
Konzept:Streaming-Transporter (Bridge) ohne DAC
Streaming:Airplay via Shairport Sync, Spotify & Spotify Connect, TIDAL & TIDAL Connect, QOBUZ
Besonderheiten: geringer Stromverbrauch, Software mit KI-gestützter Suche, Erweiterungen mit Plug-Ins
Maße (B x T x H):270 × 150 × 50 mm
Gewicht:ca. 1.140 g
Alle technischen Daten

Autor: Frank Borowski

Avatar-Foto
LowBeats Experte für Schreibtisch-HiFi und High End kennt sich auch mit den Finessen der hochwertigen Streaming-Übertragung bestens aus. Zudem ist der passionierte Highender immer neugierig im Zubehörbereich unterwegs.