Theres

Theres Preißler

Marketing

24 March 2024

Die Wahrheit über KI Stimmen für Audioguides – wie gut sind sie wirklich?

Nubart's blog - the truch about AI voices in audio guides

KI-Stimmen, die menschliche Stimmen ersetzen, bieten neue Möglichkeiten für die Produktion von Audioguides. Die einfache und schnelle Erstellung von künstlichen Stimmen in verschiedenen Sprachen kann viel Geld und Zeit sparen. Allerdings gibt es viele Einschränkungen, da Maschinen (noch) nicht so anpassungsfähig sind wie Menschen. In diesem Artikel werden einige der Probleme aufgezeigt, auf die Sie stoßen können, wenn Sie KI Stimmen für Ihren Audioguide einsetzen.


Wie funktioniert es?

KI hat viele Aspekte unseres Lebens einfacher und angenehmer gemacht. Mit KI-generierten Stimmen ist nun auch die Audioguide-Branche betroffen. Mit Technologien wie Text-to-Speech (TTS) und Natural Language Processing (NLP) kann jeder Text in eine künstliche Stimme umgewandelt werden, die Ihre Besucher durch das Museum führt. Die Wahl von KI-Stimmen für Ihren Audioguide hat die folgenden Vorteile:

Vorteile von KI-Stimmen für Audioguides


1 - Erschwinglich

Wenn Sie nur über ein begrenztes Budget verfügen, aber dennoch einen Audioguide für Ihr Museum produzieren möchten, können KI-Stimmen die passende Lösung für Sie sein. Im Vergleich zur Produktion mit menschlichen Stimmen sind KI-Stimmen viel billiger, da die Arbeit hauptsächlich von einer Maschine erledigt wird.


2 - Schnelle Produktion... bis zu einem gewissen Punkt

Die Verwendung von KI-Stimmen für Ihren Audioguide ermöglicht eine schnelle Produktion, da verschiedene Sprachen und Akzente schnell erzeugt werden können. Sie können sich das jedoch nicht so vorstellen, dass Sie einfach einen Knopf drücken und dann eine magische, menschliche Stimme haben.

Wenn Ihnen die Qualität Ihres Audioguides wichtig ist, sollten Sie sich jeden Track genau anhören und in den meisten Fällen manuell bearbeiten. Dieser Bearbeitungsprozess kann viel Zeit in Anspruch nehmen, da die KI noch nicht perfekt ist und die Anpassungen von Menschen vorgenommen werden müssen.

Zunächst muss das Rendering vorgenommen werden. Nachdem Sie Ihr Skript hochgeladen und die Stimme ausgewählt haben, die Ihnen am besten gefällt, müssen Sie warten, bis die von Ihnen gewählte Plattform ihre Magie einsetzt und den Track produziert. Ein kurzer Text von 65 Wörtern (= vier Zeilen) braucht etwa 7 Sekunden zum Rendern. 7 Sekunden scheinen nicht so viel zu sein... aber es wird viel, wenn Sie bei jeder Bearbeitung immer wieder 7 Sekunden erneut warten müssen.

Nur wenn Sie eine große Textmenge in Sprache umwandeln und Ihnen die Qualität des Ergebnisses nicht so wichtig ist, werden KI-Stimmen nicht nur erschwinglich, sondern auch schnell sein.


3 - Getreue Wiedergabe des Skripts

Jeder, der schon einmal mit Sprechern gearbeitet hat, weiß, dass falsch geschriebene oder vertauschte Wörter und Auslassungen fast unvermeidbar sind. Ein mühsamer, aber notwendiger Teil einer Audioguide-Produktion ist daher das Anhören aller Audiospuren, um sie mit dem Skript zu vergleichen und die Fehler zu finden.

Zumindest in diesem Sinne sind KI-Stimmen perfekt: Was im Skript steht, ist das, was Sie bekommen. Aber freuen Sie sich nicht zu früh: Sie werden sich sowieso alles zur Überprüfung anhören müssen, wenn auch aus anderen Gründen (siehe unten).

Das waren die Vorteile. Betrachten wir nun die Nachteile:


Nachteile von KI-Stimmen für Audioguides


1 - Fehlen von Emotion

KI-Stimmen werden immer besser darin, menschlich zu klingen. Trotzdem bleiben Maschinen immer noch Maschinen und werden, zumindest in naher Zukunft, nicht im vollen Ausmaß die menschliche Fähigkeit haben, Gefühle auszudrücken. Synchronsprecher sind darauf trainiert, eine Rolle so zu spielen, dass sie sich für den Zuhörer sehr real anfühlt. Wenn es Ihnen wichtig ist, dass Ihre Stimmen charaktervoll, fesselnd und gefühlvoll sind und einen bleibenden Eindruck hinterlassen, sind menschliche Stimmen vielleicht die bessere Wahl. Vor allem, wenn Sie eine ganz bestimmte Vorstellung davon haben, wie Ihre Stimmen klingen sollen, wird eine KI-Stimme Ihren Erwartungen möglicherweise nicht gerecht.

Die meisten aktuellen KI-Stimmen Plattformen ermöglichen es Ihnen, einen Ton für Ihre Stimme einzustellen, z. B. "inspirierend", "werbend", "traurig", "ruhig" oder "gesprächig". Das ist ein netter Ansatz, aber es dauert eine Weile, mit den verschiedenen Optionen zu experimentieren und herauszufinden, wie jeder dieser Töne für jede der vorgeschlagenen KI-Stimmen klingt, vor allem, weil man jedes Mal warten muss, bis das Rendering erfolgt.

Wenn Sie zum Beispiel nach einer KI-Stimme suchen, die die subtile Traurigkeit ausdrückt, die der Satz: "Leider wurde der Rest des Gebäudes während des Krieges vollständig zerstört" erfordert, werden Sie wahrscheinlich Schwierigkeiten haben, da der traurige Ton von KI-Stimmen Generatoren zu dramatisch klingen würde.

Feinheit ist (noch?) keine Fähigkeit, die KI-Stimmen beherrschen!


2 - Negative unterbewusste Wahrnehmung

Eine von CloudArmy durchgeführte Studie, in der die impliziten Reaktionen der Teilnehmer auf von KI gesprochene Werbung getestet wurden, ergab, dass Menschen zwar in der Regel nicht in der Lage sind, bewusst zwischen menschlichen und KI-Stimmen zu unterscheiden, aber ihre impliziten Reaktionen auf künstliche Stimmen waren weniger positiv und vertrauensvoll als ihre Reaktionen auf von Menschen gesprochene Werbung.

Selbst wenn der Audioguide einen anderen Kontext liefert als eine Anzeige, sollten diese Erkenntnisse berücksichtigt werden. Um KI-Stimmen erfolgreich zu integrieren, ist es wichtig zu verstehen, wie Besucher sie wahrnehmen werden.

KI-Stimmen sind wie eine von einem Synthesizer erzeugte Klaviersonate, die perfekter klingt, als ein Mensch sie je spielen könnte, aber uns emotional nicht berührt, weil ihr die Schönheit der menschlichen Unvollkommenheit fehlt.


3 - Fehler sind schwierig zu korrigieren

Die KI-Technologie befindet sich noch in der Entwicklung. Fehler sind keine Seltenheit. Zum Beispiel kann es sein, dass die Maschine die Art und Weise der Zeichensetzung einer bestimmten Sprache nicht kennt und daher Probleme hat, die richtige Intonation zu erzeugen. Oder Zahlen werden nicht richtig ausgesprochen. Diese Fehler müssen von Menschen korrigiert werden, was sehr zeitaufwendig sein kann und nicht immer möglich ist.

Dies bedeutet auch, dass ein Teammitglied mit der verwendeten Sprache vertraut sein muss, um Fehler zu erkennen. Andernfalls erhalten Sie vielleicht eine Tonspur, die für Sie französisch klingt, für einen französischen Muttersprachler aber nicht !

Darüber hinaus ist es schwierig, einem KI-Sprachgenerator Anweisungen zu geben. Einem menschlichen Sprecher können Sie sagen: "Bitte machen Sie nach jedem Satz eine Pause", und er wird es sofort verstehen. Aber bei einer künstlichen Stimme müssen Sie manuell auf alle Pausen im Skript hinweisen und für jede Pause entscheiden, wie lang sie sein soll.

Abkürzungen sind eine große Herausforderung. Die meisten KI-Stimmen werden wahrscheinlich die bekanntesten Abkürzungen wie "NATO" oder "NASA" richtig aussprechen, weil sie darauf programmiert wurden. Aber wenn Sie zum Beispiel "RIP" in Ihrem Skript haben, wird die künstliche Stimme wahrscheinlich "er i pe" sagen. Folglich müssen Sie alle Abkürzungen in Ihrem Skript suchen und eine nach der anderen durch das ersetzen, was Sie hören wollen: "Ruhe in Frieden".


4 - Der Alptraum der Fremdwörter

Eine weitere große Herausforderung für KI-Stimmen ist die Aussprache von Fremdwörtern, da vor allem in der Museumswelt interkulturelle Kommunikation ein heikles Thema darstellt.

Stellen Sie sich zum Beispiel ein Modemuseum als Kunden vor, in dem Kleider von Ermenegildo Zegna ausgestellt sind. Trotz mehrerer Versuche ist es uns nicht gelungen, eine KI-Stimmen dazu zu bringen, den Namen dieser Marke in einem Atemzug und mit einem Akzent auf der Silbe "gil" richtig auszusprechen. Die englischen oder französischen KI-Stimmen, die wir ausprobiert haben, machen zwischen jeder Silbe Pausen, was für ein italienisches Ohr unerträglich ist. Besonders wenn Ihr Kunde in Italien ansässig ist, haben Sie dann ein Problem!

Die meisten KI-Stimmengeneratoren ermöglichen die Anwendung des Internationalen Phonetischen Alphabets (IPA) für bestimmte Wörter. Bislang haben wir jedoch keine sehr zufriedenstellenden Ergebnisse gesehen. Außerdem erfordert dieser Ansatz viel Geduld und hochspezialisiertes Wissen, insbesondere weil es nicht immer möglich ist, die IPA-Transkription online zu finden.


Wie KI-Stimmen für einen Audioguide eingesetzt werden

Wenn Sie sich für die Verwendung von KI-Stimmen entscheiden, werden Sie sich bei einem KI-Stimmengenerator registrieren, wie z. B. Murf AI, ElevenLabs, PlayHT, LOVO AI, Narakeet, Resemble AI oder Typecast, neben vielen anderen. Sie können aus einer Vielzahl von Stimmen wählen, die verschiedene Altersgruppen, Geschlechter, Sprachen und Stimmungen repräsentieren. Sobald Sie eine Stimme ausgewählt und Ihr Skript hochgeladen haben, können Sie Ihren Audioguide rendern. Von diesem Zeitpunkt an gibt es zwei Möglichkeiten, mit der Produktion fortzufahren:

  1. Die Stimmen werden durch den KI-Stimmengenerator ohne weitere Bearbeitung erstellt. Sie akzeptieren, dass es viele Fehler geben wird, wie fehlende Pausen und falsche Aussprache, die nicht entfernt werden und die die Besucher wahrscheinlich bemerken werden.
  2. Die zweite Möglichkeit besteht darin, dass ein Teammitglied die KI-Audiospuren manuell bearbeitet, indem es Pausen hinzufügt oder entfernt, die Tonhöhe, die Geschwindigkeit und den Tonfall anpasst und falsche Aussprachen korrigiert, wo dies möglich ist. Auf diese Weise arbeitet Nubart mit KI-Stimmen auf unserem niedrigsten Service-Level, genannt Kupfer. Es ist viel zeitaufwändiger als die erste Option, aber wir nehmen uns alle Zeit, die wir brauchen, um unsere hohen Standards zu erfüllen und ein Endergebnis zu erzielen, das unsere Kunden zufrieden stellt, innerhalb der hier beschriebenen Grenzen der künstlichen Intelligenz.

Welche Stimmen wollen Sie?

Wenn Sie sich die KI-Stimmen im Vergleich zu menschlichen Stimmen genauer ansehen, werden Sie schnell feststellen, dass KI-Stimmen (noch) nicht perfekt sind. Die menschlichen Stimmen gewinnen immer noch das "Rennen". Auch im Hinblick auf die Zeit und den Aufwand, den das Produktions- und Tonbearbeitungsteam investiert. Menschliche Stimmen sind in der Lage, echte Gefühle zu vermitteln, einen bleibenden Eindruck zu hinterlassen und die Geschichte zu erzählen, die Sie wirklich erzählen wollen.

Wenn Ihr Budget derzeit jedoch keine menschlichen Stimmen zulässt, können künstliche Stimmen eine gute Alternative sein, wenn die Erwartungen realistisch gehalten werden. Diese Stimmen werden vielleicht keinen hohen Ansprüchen gerecht, aber sie können dennoch ihre Aufgabe erfüllen und Ihren Besuchern wertvolle Informationen liefern.