artikel
10. Juni 2025
AI-Challenge
Künstliche Intelligenz
Digitalisierung
Virtuelle Welten (AR/VR/MR)
Du möchtest eine hochwertige, mehrsprachige Videoserie produzieren? Doch dir fehlen die zeitlichen Ressourcen, ein Redaktions- und Produktionsteam, professionelle Studiohintergründe, Requisiten, teures Studioequipment, Grafiker:innen, Dolmetscher:innen – und erst recht ein Hollywood-Team für Spezialeffekte.
Die neue Learning-Videoserie der ÖW zeigt, wie sich mit Hilfe von KI eine professionelle, skalierbare und mehrsprachige Videoreihe effizient erstellen lässt.
Der Use Case ist die kürzlich gestartete, mehrsprachige You Tube Learning-Videoreihe der Österreich Werbung "Learning with Lorin", welche speziell zur Wissensvermittlung im Bereich Content Creation dient. Die Serie bietet praxisnahe Tipps und technische Tricks, anschauliche Erklärgrafiken und eine gute Portion Humor.

Untenstehend sind die YouTube Links einer der Folgen der Videoreihe in deutscher und englischer Fassung.
Da zeitliche, personelle und technische Ressourcen begrenzt waren, kamen verschiedene KI-Tools zum Einsatz – von der Ideengenerierung über das Skripting bis hin zu Schnitt und Postproduktion. So konnte die Produktionszeit um ein Vielfaches reduziert werden.
Verwendet wurden KI-gestützte Lösungen für virtuelle Studiohintergründe, Audioverbesserung, Videoclones, Stimmensynthese, einheitlich generierte Grafiken sowie humorvolle Spezialeffekte.
Die Produktion der Videos erfolgt zunächst in deutscher Sprache. Da das Wissen auch unseren internationalen Marktbüros zur Verfügung stehen soll, werden die Folgen mittels KI zusätzlich ins Englische übersetzt – inklusive synchronisierter Lippenbewegung und passender Stimme.
Die Produktionszeit konnte in allen Umsetzungsphasen (Konzeption, Produktion, Postproduktion) signifikant verkürzt werden.
Die gesamte Videoreihe wurde ohne klassisches Produktions- oder Redaktionsteam realisiert. Auch die Beauftragung von Grafikdesigner:innen war nicht erforderlich. Alle Inhalte wurden von nur einer Person erstellt, die zugleich als Moderator fungierte – neben ihren regulären Aufgaben im Tagesgeschäft.
Statt eines einheitlichen langweiligen Hintergrunds kamen generative KI-Bildergänzungen zum Einsatz, um die Sequenzen visuell aufzuwerten – inklusive virtueller Hintergründe und Requisiten, Grafiken und animierter Spezialeffekte.
Durch KI generierte Musik erspart man sich Kosten für Musiklizenzen.
Das Ergebnis: eine moderne, ansprechende Ästhetik ohne klassischen Studioaufwand.
Ergänzungen oder Erweiterungen im Schnitt konnten ohne zusätzliche Dreharbeiten realisiert werden.
Dank KI-generierter Video- und Stimmklone ließen sich neue Passagen einfügen – flexibel, konsistent und zeitsparend.
Durch KI-gestützte Übersetzung mit Lipsync können die produzierten Videos in mehreren Sprachen unter Beibehaltung der Originalemotione angeboten werden – synchron zur Originalbewegung und mit passender Stimme.
Die verwendeten Tools sind nicht nur auf Videoserien beschränkt, sondern lassen sich auch für andere multimediale Formate einsetzen – etwa für Podcasts, Videostatements, Visuals oder Präsentationen.
Sie funktionieren sowohl stand-alone als auch in Kombination – je nach Projektbedarf.
Die Konzeption eines inhaltlichen Redaktionsplans sowie die Strukturierung und Erstellung der Skripte erfolgten mit Unterstützung von ChatGPT.
Besonders hilfreich ist hier natürlich die fachliche Expertise im Themenfeld der Videoserie sowie präzises Prompting – beides trägt maßgeblich zur inhaltlichen Qualität und Relevanz bei.
Der Schnitt erfolgte in DaVinci Resolve Studio. Mithilfe integrierter KI-Funktionen wurden aus mehreren Videotakes automatisch die besten Passagen ausgewählt und inhaltlich mit dem Skript synchronisiert. Das beschleunigte den Workflow erheblich.
Die Sprachaufnahmen wurden mithilfe von Adobe Podcast bearbeitet, um ein klares, professionelles Klangbild im Stil hochwertiger Podcasts zu erzeugen – inklusive Entfernung von Rauschen und Hintergrundgeräuschen.
Da die Aufnahmen vor einer schlichten schwarzen Wand entstanden, wurde der Hintergrund visuell aufgewertet: Mit Photoshop Generative Fill wurden passende Requisiten per Textprompt erzeugt und gezielt integriert – für ein deutlich ansprechenderes Erscheinungsbild.
Zur Generierung von Erklärgrafiken in einheitlichem Stil kam der neue ChatGPT Image Generator mit Referenzframe zum Einsatz. Damit konnten visuelle Elemente effizient erstellt und konsistent im gesamten Video eingesetzt werden.
Besondere Sequenzen – wie etwa die Szene mit dem „schwebenden Kopf“ – wurden mithilfe von Runway ML erstellt. Dadurch ließen sich kreative Effekte integrieren, ohne aufwendige Hollywood Postproduction.
Für ergänzende Sequenzen war kein erneutes Filmen erforderlich. Stattdessen wurden die bereits vorhandenen Moderationsaufnahmen genutzt, um in HeyGen einen Voice- und Video-Avatar zu trainieren.
Ergänzende Textpassagen oder einfache Handy-Audioaufnahmen wurden anschliessend auf HeyGen hochgeladen – und das Ergebnis waren vollständig synthetisierte Sätze in Studioqualität, gesprochen vom KI-Avatar.
Die meisten Musiktracks wurden in SUNO geprompted und erzeugt.
Auch für die Übersetzung und Lokalisierung kam HeyGens LipSync-Übersetzung zum Einsatz. Diese bietet aktuell eine der besten Kombinationen aus realistischer Mimik, emotionaler Stimmführung und natürlicher Sprache.
Tipp: Es empfiehlt sich, den automatisch generierten Übersetzungstext vor der Generierung mit der integrierten Proofread-Option zu prüfen und gegebenenfalls anzupassen, um Tonalität und Genauigkeit sicherzustellen.
Dank KI-Unterstützung können heute hochwertige Videoproduktionen äußerst effizient umgesetzt werden – mit minimalem personellen und technischen Aufwand.
Ist es heutzutage möglich, auf einen echten Moderator ganz zu verzichten und stattdessen ausschließlich einen KI-Avatar einzusetzen? Ja – technisch ist das längst realisierbar. Wir haben uns jedoch bewusst dagegen entschieden. Um echte Emotionen, Persönlichkeit und Humor zu vermitteln – und den Zuschauer:innen das Gefühl zu geben, bei dieser Learning-Reihe von einem echten Menschen begleitet zu werden – setzen wir weiterhin auf authentische Moderation durch eine reale Person.