artikel
10. Juni 2025
Ganze Videoformate mit KI konzipieren und erstellen
AI-Challenge
Künstliche Intelligenz
Digitalisierung
Virtuelle Welten (AR/VR/MR)
Du möchtest eine hochwertige, mehrsprachige Videoserie produzieren? Doch dir fehlen die zeitlichen Ressourcen, ein Redaktions- und Produktionsteam, professionelle Studiohintergründe, Requisiten, teures Studioequipment, Grafiker:innen, Dolmetscher:innen – und erst recht ein Hollywood-Team für Spezialeffekte.
Die neue Learning-Videoserie der ÖW zeigt, wie sich mit Hilfe von KI eine professionelle, skalierbare und mehrsprachige Videoreihe effizient erstellen lässt.
Worum geht’s?
Der Use Case ist die kürzlich gestartete, mehrsprachige You Tube Learning-Videoreihe der Österreich Werbung "Learning with Lorin", welche speziell zur Wissensvermittlung im Bereich Content Creation dient. Die Serie bietet praxisnahe Tipps und technische Tricks, anschauliche Erklärgrafiken und eine gute Portion Humor.
Untenstehend sind die YouTube Links einer der Folgen der Videoreihe in deutscher und englischer Fassung.
Da zeitliche, personelle und technische Ressourcen begrenzt waren, kamen verschiedene KI-Tools zum Einsatz – von der Ideengenerierung über das Skripting bis hin zu Schnitt und Postproduktion. So konnte die Produktionszeit um ein Vielfaches reduziert werden.
Verwendet wurden KI-gestützte Lösungen für virtuelle Studiohintergründe, Audioverbesserung, Videoclones, Stimmensynthese, einheitlich generierte Grafiken sowie humorvolle Spezialeffekte.
Die Produktion der Videos erfolgt zunächst in deutscher Sprache. Da das Wissen auch unseren internationalen Marktbüros zur Verfügung stehen soll, werden die Folgen mittels KI zusätzlich ins Englische übersetzt – inklusive synchronisierter Lippenbewegung und passender Stimme.
Welchen Mehrwert bringt der Use Case?
1) Reduktion der Produktionszeit
Die Produktionszeit konnte in allen Umsetzungsphasen (Konzeption, Produktion, Postproduktion) signifikant verkürzt werden.
2) Einsparung personeller Ressourcen
Die gesamte Videoreihe wurde ohne klassisches Produktions- oder Redaktionsteam realisiert. Auch die Beauftragung von Grafikdesigner:innen war nicht erforderlich. Alle Inhalte wurden von nur einer Person erstellt, die zugleich als Moderator fungierte – neben ihren regulären Aufgaben im Tagesgeschäft.
3) Steigerung der Audio- und Videoästhetik durch KI
Statt eines einheitlichen langweiligen Hintergrunds kamen generative KI-Bildergänzungen zum Einsatz, um die Sequenzen visuell aufzuwerten – inklusive virtueller Hintergründe und Requisiten, Grafiken und animierter Spezialeffekte.
Durch KI generierte Musik erspart man sich Kosten für Musiklizenzen.
Das Ergebnis: eine moderne, ansprechende Ästhetik ohne klassischen Studioaufwand.
4) Flexibilität in der Postproduktion
Ergänzungen oder Erweiterungen im Schnitt konnten ohne zusätzliche Dreharbeiten realisiert werden.
Dank KI-generierter Video- und Stimmklone ließen sich neue Passagen einfügen – flexibel, konsistent und zeitsparend.
5) Erweiterung des Zielpublikums durch mehrsprachige Umsetzung
Durch KI-gestützte Übersetzung mit Lipsync können die produzierten Videos in mehreren Sprachen unter Beibehaltung der Originalemotione angeboten werden – synchron zur Originalbewegung und mit passender Stimme.
6) Vielseitigkeit der eingesetzten KI-Tools
Die verwendeten Tools sind nicht nur auf Videoserien beschränkt, sondern lassen sich auch für andere multimediale Formate einsetzen – etwa für Podcasts, Videostatements, Visuals oder Präsentationen.
Sie funktionieren sowohl stand-alone als auch in Kombination – je nach Projektbedarf.
Funktionsweise und die zugrunde liegende Technologie
1) Konzeption und Redaktion
Die Konzeption eines inhaltlichen Redaktionsplans sowie die Strukturierung und Erstellung der Skripte erfolgten mit Unterstützung von ChatGPT.
Besonders hilfreich ist hier natürlich die fachliche Expertise im Themenfeld der Videoserie sowie präzises Prompting – beides trägt maßgeblich zur inhaltlichen Qualität und Relevanz bei.
2) Videoschnitt
Der Schnitt erfolgte in DaVinci Resolve Studio. Mithilfe integrierter KI-Funktionen wurden aus mehreren Videotakes automatisch die besten Passagen ausgewählt und inhaltlich mit dem Skript synchronisiert. Das beschleunigte den Workflow erheblich.
3) Optimierung der Sprachaufnahmen
Die Sprachaufnahmen wurden mithilfe von Adobe Podcast bearbeitet, um ein klares, professionelles Klangbild im Stil hochwertiger Podcasts zu erzeugen – inklusive Entfernung von Rauschen und Hintergrundgeräuschen.
4) Visuelle Aufwertung des Hintergrunds
Da die Aufnahmen vor einer schlichten schwarzen Wand entstanden, wurde der Hintergrund visuell aufgewertet: Mit Photoshop Generative Fill wurden passende Requisiten per Textprompt erzeugt und gezielt integriert – für ein deutlich ansprechenderes Erscheinungsbild.
5) Erstellung konsistenter Grafiken
Zur Generierung von Erklärgrafiken in einheitlichem Stil kam der neue ChatGPT Image Generator mit Referenzframe zum Einsatz. Damit konnten visuelle Elemente effizient erstellt und konsistent im gesamten Video eingesetzt werden.
6) Spezialeffekte
Besondere Sequenzen – wie etwa die Szene mit dem „schwebenden Kopf“ – wurden mithilfe von Runway ML erstellt. Dadurch ließen sich kreative Effekte integrieren, ohne aufwendige Hollywood Postproduction.
7) KI-gestützte Sprach- und Videoklone (Avatare)
Für ergänzende Sequenzen war kein erneutes Filmen erforderlich. Stattdessen wurden die bereits vorhandenen Moderationsaufnahmen genutzt, um in HeyGen einen Voice- und Video-Avatar zu trainieren.
Ergänzende Textpassagen oder einfache Handy-Audioaufnahmen wurden anschliessend auf HeyGen hochgeladen – und das Ergebnis waren vollständig synthetisierte Sätze in Studioqualität, gesprochen vom KI-Avatar.
8) KI-generierte Musik
Die meisten Musiktracks wurden in SUNO geprompted und erzeugt.
9) Mehrsprachige Übersetzung mit synchronisierten Mundbewegungen
Auch für die Übersetzung und Lokalisierung kam HeyGens LipSync-Übersetzung zum Einsatz. Diese bietet aktuell eine der besten Kombinationen aus realistischer Mimik, emotionaler Stimmführung und natürlicher Sprache.
Tipp: Es empfiehlt sich, den automatisch generierten Übersetzungstext vor der Generierung mit der integrierten Proofread-Option zu prüfen und gegebenenfalls anzupassen, um Tonalität und Genauigkeit sicherzustellen.
Fazit
Dank KI-Unterstützung können heute hochwertige Videoproduktionen äußerst effizient umgesetzt werden – mit minimalem personellen und technischen Aufwand.
Ist es heutzutage möglich, auf einen echten Moderator ganz zu verzichten und stattdessen ausschließlich einen KI-Avatar einzusetzen? Ja – technisch ist das längst realisierbar. Wir haben uns jedoch bewusst dagegen entschieden. Um echte Emotionen, Persönlichkeit und Humor zu vermitteln – und den Zuschauer:innen das Gefühl zu geben, bei dieser Learning-Reihe von einem echten Menschen begleitet zu werden – setzen wir weiterhin auf authentische Moderation durch eine reale Person.