CTA - Eine Initiative der Österreich Werbung
LwL Thumbnail.JPG©Lorin Canaj

artikel

10. Juni 2025

Ganze Videoformate mit KI konzipieren und erstellen

AI-Challenge

Künstliche Intelligenz

Digitalisierung

Virtuelle Welten (AR/VR/MR)

Du möchtest eine hochwertige, mehrsprachige Videoserie produzieren? Doch dir fehlen die zeitlichen Ressourcen, ein Redaktions- und Produktionsteam, professionelle Studiohintergründe, Requisiten, teures Studioequipment, Grafiker:innen, Dolmetscher:innen – und erst recht ein Hollywood-Team für Spezialeffekte.

Die neue Learning-Videoserie der ÖW zeigt, wie sich mit Hilfe von KI eine professionelle, skalierbare und mehrsprachige Videoreihe effizient erstellen lässt.

Worum geht’s?

Der Use Case ist die kürzlich gestartete, mehrsprachige You Tube Learning-Videoreihe der Österreich Werbung "Learning with Lorin", welche speziell zur Wissensvermittlung im Bereich Content Creation dient. Die Serie bietet praxisnahe Tipps und technische Tricks, anschauliche Erklärgrafiken und eine gute Portion Humor.

 

Untenstehend sind die YouTube Links einer der Folgen der Videoreihe in deutscher und englischer Fassung.

Da zeitliche, personelle und technische Ressourcen begrenzt waren, kamen verschiedene KI-Tools zum Einsatz – von der Ideengenerierung über das Skripting bis hin zu Schnitt und Postproduktion. So konnte die Produktionszeit um ein Vielfaches reduziert werden.

Verwendet wurden KI-gestützte Lösungen für virtuelle Studiohintergründe, Audioverbesserung, Videoclones, Stimmensynthese, einheitlich generierte Grafiken sowie humorvolle Spezialeffekte.

Die Produktion der Videos erfolgt zunächst in deutscher Sprache. Da das Wissen auch unseren internationalen Marktbüros zur Verfügung stehen soll, werden die Folgen mittels KI zusätzlich ins Englische übersetzt – inklusive synchronisierter Lippenbewegung und passender Stimme.

Welchen Mehrwert bringt der Use Case?

1) Reduktion der Produktionszeit

Die Produktionszeit konnte in allen Umsetzungsphasen (Konzeption, Produktion, Postproduktion) signifikant verkürzt werden.

2) Einsparung personeller Ressourcen

Die gesamte Videoreihe wurde ohne klassisches Produktions- oder Redaktionsteam realisiert. Auch die Beauftragung von Grafikdesigner:innen war nicht erforderlich. Alle Inhalte wurden von nur einer Person erstellt, die zugleich als Moderator fungierte – neben ihren regulären Aufgaben im Tagesgeschäft.

3) Steigerung der Audio- und Videoästhetik durch KI

Statt eines einheitlichen langweiligen Hintergrunds kamen generative KI-Bildergänzungen zum Einsatz, um die Sequenzen visuell aufzuwerten – inklusive virtueller Hintergründe und Requisiten, Grafiken und animierter Spezialeffekte.

Durch KI generierte Musik erspart man sich Kosten für Musiklizenzen.

Das Ergebnis: eine moderne, ansprechende Ästhetik ohne klassischen Studioaufwand.

4) Flexibilität in der Postproduktion

Ergänzungen oder Erweiterungen im Schnitt konnten ohne zusätzliche Dreharbeiten realisiert werden.

Dank KI-generierter Video- und Stimmklone ließen sich neue Passagen einfügen – flexibel, konsistent und zeitsparend.

5) Erweiterung des Zielpublikums durch mehrsprachige Umsetzung

Durch KI-gestützte Übersetzung mit Lipsync können die produzierten Videos in mehreren Sprachen unter Beibehaltung der Originalemotione angeboten werden – synchron zur Originalbewegung und mit passender Stimme.

6) Vielseitigkeit der eingesetzten KI-Tools

Die verwendeten Tools sind nicht nur auf Videoserien beschränkt, sondern lassen sich auch für andere multimediale Formate einsetzen – etwa für Podcasts, Videostatements, Visuals oder Präsentationen.

Sie funktionieren sowohl stand-alone als auch in Kombination – je nach Projektbedarf.

Funktionsweise und die zugrunde liegende Technologie

1) Konzeption und Redaktion

Die Konzeption eines inhaltlichen Redaktionsplans sowie die Strukturierung und Erstellung der Skripte erfolgten mit Unterstützung von ChatGPT.

Besonders hilfreich ist hier natürlich die fachliche Expertise im Themenfeld der Videoserie sowie präzises Prompting – beides trägt maßgeblich zur inhaltlichen Qualität und Relevanz bei.

2) Videoschnitt

Der Schnitt erfolgte in DaVinci Resolve Studio. Mithilfe integrierter KI-Funktionen wurden aus mehreren Videotakes automatisch die besten Passagen ausgewählt und inhaltlich mit dem Skript synchronisiert. Das beschleunigte den Workflow erheblich.

3) Optimierung der Sprachaufnahmen

Die Sprachaufnahmen wurden mithilfe von Adobe Podcast bearbeitet, um ein klares, professionelles Klangbild im Stil hochwertiger Podcasts zu erzeugen – inklusive Entfernung von Rauschen und Hintergrundgeräuschen.

4) Visuelle Aufwertung des Hintergrunds

Da die Aufnahmen vor einer schlichten schwarzen Wand entstanden, wurde der Hintergrund visuell aufgewertet: Mit Photoshop Generative Fill wurden passende Requisiten per Textprompt erzeugt und gezielt integriert – für ein deutlich ansprechenderes Erscheinungsbild.

5) Erstellung konsistenter Grafiken

Zur Generierung von Erklärgrafiken in einheitlichem Stil kam der neue ChatGPT Image Generator mit Referenzframe zum Einsatz. Damit konnten visuelle Elemente effizient erstellt und konsistent im gesamten Video eingesetzt werden.

6) Spezialeffekte

Besondere Sequenzen – wie etwa die Szene mit dem „schwebenden Kopf“ – wurden mithilfe von Runway ML erstellt. Dadurch ließen sich kreative Effekte integrieren, ohne aufwendige Hollywood Postproduction.

7) KI-gestützte Sprach- und Videoklone (Avatare)

Für ergänzende Sequenzen war kein erneutes Filmen erforderlich. Stattdessen wurden die bereits vorhandenen Moderationsaufnahmen genutzt, um in HeyGen einen Voice- und Video-Avatar zu trainieren.

Ergänzende Textpassagen oder einfache Handy-Audioaufnahmen wurden anschliessend auf HeyGen hochgeladen – und das Ergebnis waren vollständig synthetisierte Sätze in Studioqualität, gesprochen vom KI-Avatar.

8) KI-generierte Musik

Die meisten Musiktracks wurden in SUNO geprompted und erzeugt.

9) Mehrsprachige Übersetzung mit synchronisierten Mundbewegungen

Auch für die Übersetzung und Lokalisierung kam HeyGens LipSync-Übersetzung zum Einsatz. Diese bietet aktuell eine der besten Kombinationen aus realistischer Mimik, emotionaler Stimmführung und natürlicher Sprache.

Tipp: Es empfiehlt sich, den automatisch generierten Übersetzungstext vor der Generierung mit der integrierten Proofread-Option zu prüfen und gegebenenfalls anzupassen, um Tonalität und Genauigkeit sicherzustellen.

Fazit

Dank KI-Unterstützung können heute hochwertige Videoproduktionen äußerst effizient umgesetzt werden – mit minimalem personellen und technischen Aufwand.

Ist es heutzutage möglich, auf einen echten Moderator ganz zu verzichten und stattdessen ausschließlich einen KI-Avatar einzusetzen? Ja – technisch ist das längst realisierbar. Wir haben uns jedoch bewusst dagegen entschieden. Um echte Emotionen, Persönlichkeit und Humor zu vermitteln – und den Zuschauer:innen das Gefühl zu geben, bei dieser Learning-Reihe von einem echten Menschen begleitet zu werden – setzen wir weiterhin auf authentische Moderation durch eine reale Person.

call to action

Die Zukunft

des Tourismus

aktiv mitgestalten.

Du möchtest selbst Beiträge einreichen oder im Forum mitdiskutieren? Registriere dich jetzt.

Jetzt registrieren
Ähnliches

Das könnte dir auch gefallen

Achtung: Ungespeicherte Änderungen

Bitte sichere deinen Beitrag als Entwurf, da ungespeicherte Änderungen nicht wiederhergestellt werden können, wenn du die Seite verlässt.