Vom Bericht zum KI-Video: Wie komplexes Marketing verständlich wird

;

Der Produktionsprozess 🎥

Vom Einzelbild zum fertigen Video

Der Einstieg in das Video erfolgt mit einem HeyGen-Avatar von mir. Die Stimme ist tatsächlich selbst eingesprochen, dadurch blieb das Video persönlich und glaubwürdig, obwohl die Darstellung KI-basiert war.

Der eigentliche Kern war die Erstellung der einzelnen Szenen. Für jede Sequenz habe ich mit ChatGPT zunächst den Start-Frame und den End-Frame der Cartoon-Version (ohne Hintergrund) generiert. Wichtig war mir dabei, dass Stil und Figur über alle Szenen hinweg konsistent bleiben. Auch die Hintergrundbilder habe ich mit ChatGPT erstellt, um eine einheitliche visuelle Welt zu behalten.

Die beiden Frames habe ich anschließend in Krea geladen. Dort verbindet die KI Start und Endpunkt automatisch und erzeugt die Bewegung dazwischen. So entstehen kurze Videosequenzen, die ruhig, logisch und nachvollziehbar wirken.

Die fertigen Sequenzen habe ich danach in CapCut zu einem Gesamtvideo zusammengeschnitten. Insgesamt habe ich mit sechs Bearbeitungsebenen gearbeitet, um Hintergrundbild, Animation, Stimme, Hintergrundgeräusche und Struktur sauber übereinander aufzubauen. Tipp: Gerade Hintergrundgeräusche helfen, das Video realistischer und lebendiger wirken zu lassen.

Der Aufwand war dabei enorm. An dem fertigen Video mit einer Länge von einer Minute habe ich etwa acht Stunden gearbeitet.

Für die Umsetzung des Projektes habe ich folgende Tools genutzt:

HeyGen für Avatar (Pro-Testversion).
ChatGPT für Charakterdesign und Hintergründe (Abo).
Krea für die Verbindung von Start- und Endframes zu bewegten Sequenzen (Abo).
CapCut für Schnitt, Struktur und Zusammenführung zum Gesamtvideo (Pro-Testversion).

Für Voice-Cloning habe ich zusätzlich ElevenLabs getestet. Das Ergebnis klang leider nicht wie meine eigene Stimme, deshalb habe ich mich bewusst entschieden, die Tonspur selbst einzusprechen. Gerade bei internen Inhalten bleibt Authentizität entscheidend.

Learnings für alle, die selbst starten wollen 👋🏻

1. Klarer visueller Stil

Die Cartoon-Version hatte einen klaren Vorteil: Sie ist verständlich – leichter bei der konsistenten Generierung und reduziert Komplexität.

2. Technisch einfach arbeiten

In der Umsetzung ist es deutlich leichter, den Charakter sauber zu generieren und den Hintergrund separat in einer Ebene aufzubauen. Das vereinfacht Animation, Konsistenz und Schnitt. Dezente Hintergrundgeräusche können zusätzlich helfen, Szenen lebendiger wirken zu lassen.

3. Authentizität behalten

Nicht alles muss automatisiert werden. Eine echte Stimme, persönliche Perspektive oder kleine Unperfektheiten machen Inhalte glaubwürdig und nahbar.