©Christina Schwarzenbergerartikel
11. Feb. 2026
Künstliche Intelligenz
Digitalisierung
Marketing ist oft schwer greifbar. Vieles passiert im Hintergrund, wirkt langfristig und lässt sich nicht immer in ein paar Folien erklären. Genau vor dieser Herausforderung stand ich bei unserer Jahresabschlusssammlung. Die Lösung: ein Video, vollständig mit KI erstellt. Das Ziel war, komplexe Inhalte verständlich und gleichzeitig unterhaltsam für die Sitzung aufzubereiten. Eine visuelle Geschichte statt eines Berichts.
Der Einstieg in das Video erfolgt mit einem HeyGen-Avatar von mir. Die Stimme ist tatsächlich selbst eingesprochen, dadurch blieb das Video persönlich und glaubwürdig, obwohl die Darstellung KI-basiert war.
Der eigentliche Kern war die Erstellung der einzelnen Szenen. Für jede Sequenz habe ich mit ChatGPT zunächst den Start-Frame und den End-Frame der Cartoon-Version (ohne Hintergrund) generiert. Wichtig war mir dabei, dass Stil und Figur über alle Szenen hinweg konsistent bleiben. Auch die Hintergrundbilder habe ich mit ChatGPT erstellt, um eine einheitliche visuelle Welt zu behalten.
Die beiden Frames habe ich anschließend in Krea geladen. Dort verbindet die KI Start und Endpunkt automatisch und erzeugt die Bewegung dazwischen. So entstehen kurze Videosequenzen, die ruhig, logisch und nachvollziehbar wirken.
Die fertigen Sequenzen habe ich danach in CapCut zu einem Gesamtvideo zusammengeschnitten. Insgesamt habe ich mit sechs Bearbeitungsebenen gearbeitet, um Hintergrundbild, Animation, Stimme, Hintergrundgeräusche und Struktur sauber übereinander aufzubauen. Tipp: Gerade Hintergrundgeräusche helfen, das Video realistischer und lebendiger wirken zu lassen.
Der Aufwand war dabei enorm. An dem fertigen Video mit einer Länge von einer Minute habe ich etwa acht Stunden gearbeitet.
Für Voice-Cloning habe ich zusätzlich ElevenLabs getestet. Das Ergebnis klang leider nicht wie meine eigene Stimme, deshalb habe ich mich bewusst entschieden, die Tonspur selbst einzusprechen. Gerade bei internen Inhalten bleibt Authentizität entscheidend.
Die Cartoon-Version hatte einen klaren Vorteil: Sie ist verständlich – leichter bei der konsistenten Generierung und reduziert Komplexität.
In der Umsetzung ist es deutlich leichter, den Charakter sauber zu generieren und den Hintergrund separat in einer Ebene aufzubauen. Das vereinfacht Animation, Konsistenz und Schnitt. Dezente Hintergrundgeräusche können zusätzlich helfen, Szenen lebendiger wirken zu lassen.
Nicht alles muss automatisiert werden. Eine echte Stimme, persönliche Perspektive oder kleine Unperfektheiten machen Inhalte glaubwürdig und nahbar.
... das erklärt sich von selbst. 😉
Habt ihr selbst schon mal ein KI-Video erstellt und wenn ja: Wie waren eure Erfahrungen damit? 😊