Leitfaden zum Verfassen von KI-Videoprompts: Vom Anfänger bis zur Kinoqualität

TL;DR

Hervorragende KI-Videos entstehen aus hervorragenden Eingabeaufforderungen. Dieser Leitfaden vermittelt Ihnen eine universelle Formel für Video-Eingabeaufforderungen – ein aus sieben Elementen bestehendes Rahmenwerk, das auf alle gängigen KI-Videoplattformen anwendbar ist:

[Thema] + [Handlung] + [Kulisse] + [Kamerabewegung] + [Beleuchtung] + [Stil] + [Ton]

Sie lernen: Die Hauptgründe für das Auftreten von Prompt-Fehlern (und wie man sie sofort behebt), eine umfassende Kamera-Sprachreferenz mit über 15 Kameratechniken, eine Atmosphäre-Keyword-Bibliothek, die in vier Dimensionen organisiert ist: Beleuchtung/Farbkorrektur/Textur/Stimmung, fünf progressive Prompt-Beispiele von grundlegender bis zu kinoreifer Qualität, wie man Sounddesign in Prompts integriert und plattformspezifische Optimierungstechniken für Seedance, Sora, Kling, Runway und Veo 3.

Dies ist keine Anleitung für ein Tool, sondern eine Methodik. Die Fähigkeiten zum Verfassen von Video-Prompts lassen sich auf verschiedene Plattformen übertragen: Einmal gelernt, lassen sie sich überall anwenden.

Automatisch generierte Eingabeaufforderungen →

Kontrastierende Demonstration: Vage KI-Videovorgaben führen zu langweiligen, generischen Ergebnissen, während strukturierte, filmreife Vorgaben zu professionellen Videoausgaben führen. — Das gleiche Konzept, aber völlig unterschiedliche Ergebnisse. Die Eingabeaufforderung auf der linken Seite lautet: „Eine Frau, die im Regen spazieren geht.“ Die Eingabeaufforderung auf der rechten Seite gibt die Kamerabewegung, die Beleuchtungsrichtung, die Atmosphäre und den Ton vor – worauf das KI-Modell mit filmischer Qualität reagiert.

Warum die meisten KI-Videoprompts scheitern (und wie man sie reparieren kann)

Unabhängig davon, welchen KI-Videogenerator Sie verwenden – Seedance, Sora, Keeling, Runway, Veo 3 – das Grundprinzip bleibt dasselbe: Je präziser und strukturell vollständiger die Texteingabe ist, desto besser lässt sich das Ergebnis steuern und desto filmischer wird es. Die meisten Menschen schreiben Prompts, als würden sie einem Freund ein Foto beschreiben, aber ein Video ist kein Foto. Ein Video beinhaltet Bewegung, Zeit, Kameraverhalten, atmosphärische Entwicklung und Ton.

Im Folgenden sind die fünf häufigsten Ursachen für einen sofortigen Ausfall aufgeführt, jeweils mit einer sofortigen Lösung.

Zu vage – das Problem des „schönen Sonnenuntergangs“

Der häufigste Fehler bei der Eingabeaufforderung. Sie schreiben „ein wunderschöner Sonnenuntergang am Meer“ und erhalten einen technisch korrekten, aber emotional leeren Ausschnitt, der an Standard-Bildschirmschoner erinnert.

Das Problem ist nicht, dass KI keinen Sonnenuntergang darstellen kann, sondern dass „Schönheit“ und „Sonnenuntergang“ die einzigen Informationen sind, die Sie bereitgestellt haben. Nachdem die KI in ihren Trainingsdaten Millionen von Sonnenuntergängen gesehen hat, wählt sie den statistischen Mittelwert aus – und der Mittelwert ist naturgemäß mittelmäßig.

Vor der Änderung	Nach der Änderung
Ein wunderschöner Sonnenuntergang über dem Meer	Das Licht der goldenen Stunde ergießt sich über die ruhige Pazifikküste, Wellen schlagen gegen vulkanisches Gestein, die Sonne steht zwei Fingerbreit über dem Horizont, der Himmel wechselt von tiefem Bernstein am Horizont über Lachsrosa zu blassem Lavendel am Zenit, lange Schatten strecken sich zur Kamera hin Die Sonne steht zwei Fingerbreit über dem Horizont, der Himmel verläuft von tiefem Bernstein am Horizont über Lachsrosa bis hin zu blassem Lavendel am Zenit, lange Schatten strecken sich zur Kamera hin)

Vor der Änderung

Nach der Änderung

Ein wunderschöner Sonnenuntergang über dem Meer

Das Licht der goldenen Stunde ergießt sich über die ruhige Pazifikküste, Wellen schlagen gegen vulkanisches Gestein, die Sonne steht zwei Fingerbreit über dem Horizont, der Himmel wechselt von tiefem Bernstein am Horizont über Lachsrosa zu blassem Lavendel am Zenit, lange Schatten strecken sich zur Kamera hin Die Sonne steht zwei Fingerbreit über dem Horizont, der Himmel verläuft von tiefem Bernstein am Horizont über Lachsrosa bis hin zu blassem Lavendel am Zenit, lange Schatten strecken sich zur Kamera hin)

Korrekturmethode: Ersetzen Sie Adjektive („schön“, „erstaunlich“, „atemberaubend“) durch konkrete, beobachtbare Details – Farbe, Position, Textur, räumliche Beziehungen.

Fehlen von Bewegungsanweisungen – Probleme mit statischen Bildern

Sie haben eine sehr detaillierte Szenenbeschreibung verfasst, doch die KI hat ein Bild generiert, das wie ein Foto mit einem leichten Push-Pull-Effekt aussieht – weil Sie einen Moment beschrieben haben, keine Bewegung.

Video ist zeitabhängig. Ohne explizite Bewegungsanweisungen greift die KI standardmäßig auf die konservativste Interpretation zurück: langsame Vorwärtsbewegung oder leichte Parallaxe. Technisch gesehen handelt es sich zwar tatsächlich um ein „Video“, aber es entspricht nicht Ihren Vorstellungen.

| Vor der Modifikation | Nach der Modifikation | |--------|------- -| | Ein roter Oldtimer-Sportwagen steht auf einer Bergstraße, nebliger Morgen, filmreif (一辆复古红色跑车停在山路上，薄雾清晨，电影感) | Ein roter Porsche 911 Oldtimer beschleunigt auf einer kurvigen Bergstraße, die Reifen greifen auf dem nassen Asphalt, Nebelschwaden ziehen um das Fahrzeug herum, die Kamera fährt in Höhe der Stoßstange mit, Bäume verschwimmen im Vordergrund |

Korrekturmethode: Jede Videoanweisung muss mindestens ein Verb enthalten, das die körperliche Bewegung des Motivs beschreibt, sowie einen Satzteil, der die Kamerabewegung beschreibt. Das Motiv bewegt sich, die Kamera bewegt sich – zusammen erzeugen sie visuelle Energie.

3. Die widersprüchliche Anweisung – Das Paradoxon „Nahaufnahme + Totale“

Diese Situation kommt häufiger vor, als man denkt, insbesondere wenn Menschen Filmbegriffe aneinanderreihen, die sie zwar gehört haben, aber nicht vollständig verstehen. „Extreme Nahaufnahme einer Frau, die eine weite Wüste durchquert, Totale, episches Gefühl“ enthält zwei widersprüchliche kompositorische Vorgaben. Die KI wird versuchen, einen Mittelwert zu finden, und ein Bild erzeugen, das weder nah noch fern ist, sondern einfach nur chaotisch.

Vor der Überarbeitung	Nach der Überarbeitung
Nahaufnahme einer Frau, die eine weite Wüste durchquert, weitläufige Totale, epische Dimension	Extreme Nahaufnahme der Augen einer Frau, in denen sich das Licht der Wüste spiegelt, Sandpartikel, die das Licht der goldenen Stunde auf ihren Wimpern einfangen, geringe Tiefenschärfe, wobei das weite Dünenfeld hinter ihr zu einem bernsteinfarbenen Farbverlauf verschwimmt (Extreme Nahaufnahme der Augen einer Frau, in denen sich das Licht der Wüste spiegelt; Sandpartikel, die das Licht der goldenen Stunde auf ihren Wimpern einfangen; Geringe Tiefenschärfe, die die weitläufigen Dünen hinter ihr in einen bernsteinfarbenen Farbverlauf verwandelt)

Vor der Überarbeitung

Nach der Überarbeitung

Nahaufnahme einer Frau, die eine weite Wüste durchquert, weitläufige Totale, epische Dimension

Extreme Nahaufnahme der Augen einer Frau, in denen sich das Licht der Wüste spiegelt, Sandpartikel, die das Licht der goldenen Stunde auf ihren Wimpern einfangen, geringe Tiefenschärfe, wobei das weite Dünenfeld hinter ihr zu einem bernsteinfarbenen Farbverlauf verschwimmt (Extreme Nahaufnahme der Augen einer Frau, in denen sich das Licht der Wüste spiegelt; Sandpartikel, die das Licht der goldenen Stunde auf ihren Wimpern einfangen; Geringe Tiefenschärfe, die die weitläufigen Dünen hinter ihr in einen bernsteinfarbenen Farbverlauf verwandelt)

Befestigungsmethode: Wählen Sie eine Kameraposition pro Aufnahme. Wenn Sie Nahaufnahmen und Totalen benötigen, schreiben Sie zwei separate Aufnahmen und verbinden Sie diese mit einem Übergang. Für Mehrfachaufnahmen unterstützen Plattformen wie Seedance das Storyboard-Timeline-Format, mit dem Sie jede Aufnahme einzeln festlegen können.

Mangelnde Atmosphäre – Ein Vakuum aus Licht, Schatten und Emotionen

Ihre Eingabe beschreibt ein Subjekt, das an einem bestimmten Ort eine Handlung ausführt. Damit sind drei der sieben Dimensionen abgedeckt. Ohne Vorgaben zu Beleuchtung, Farbpalette, atmosphärischen Effekten oder stilistischer Ausrichtung füllt die KI die Lücken mit neutralen Standardeinstellungen: flache, gleichmäßige Beleuchtung, gedämpfte Farben und keine besondere Stimmung. Das Ergebnis ähnelt hochauflösendem Überwachungsmaterial.

| Vor der Überarbeitung | Nach der Überarbeitung | |--------|------- -| | Ein Mann sitzt allein in einem Café | Ein Mann in den Vierzigern sitzt allein in einer schwach beleuchteten Ecknische, das warme bernsteinfarbene Licht einer einzelnen Pendelleuchte fängt den Dampf ein, der aus seiner Kaffeetasse aufsteigt, Regenstreifen laufen hinter ihm am Fenster herunter und werfen wellige Schattenmuster auf sein Gesicht, gedämpfte Farbpalette in Blaugrün und Kupfer, melancholische Atmosphäre |

Korrekturmethode: Berücksichtigen Sie die Lichtrichtung, die Farbtemperatur, atmosphärische Effekte (Nebel, Regen, Staub, Dampf) und Stimmungswörter. Diese vier Ergänzungen verwandeln „eine Szene“ in „ein Gefühl“.

Fehlen von Sounddesign – Das Problem mit Stummfilmen

Bis 2026 werden die meisten KI-Videoplattformen die Audioerzeugung unterstützen – Hintergrundmusik, Umgebungsgeräusche und sogar Dialoge mit Lippensynchronisation. Dennoch erstellen die meisten Nutzer völlig stille Prompts und behandeln Video-Prompts ausschließlich als visuelle Anweisungen.

Der Ton macht die Hälfte des Erlebnisses aus. Eine Waldszene ohne Vogelgezwitscher und das Rascheln von Blättern wirkt künstlich. Actionsequenzen ohne Wirkungseffekte wirken substanzlos. Produktvorführungen ohne Musik ähneln PowerPoint-Präsentationen.

| Vor der Änderung | Nach der Änderung | |------- -|--------| | Eine Katze springt vom Bücherregal und landet auf dem Sofa | Eine rotbraune Katze springt elegant von der Spitze eines hohen Eichenholz-Bücherregals, streckt sich in der Luft und landet sanft auf einem Samtsofa, dessen Polster unter ihrem Gewicht nachgeben. Geräusche: leises Aufschlagen der Pfoten auf dem Stoff, ein einzelnes Buch, das auf dem Regal verrutscht, leise Umgebungsgeräusche mit entferntem Regen gegen die Fenster Geräusche: leises Aufschlagen der Pfoten auf dem Stoff, ein einzelnes Buch gleitet auf dem Regal, leise Umgebungsgeräusche mit entferntem Regen gegen die Fenster) |

Lösung: Fügen Sie am Ende der Eingabeaufforderung eine Zeile mit Audioanweisungen hinzu, in der Sie den Stil der Hintergrundmusik, Umgebungsgeräusche und etwaige Dialoge oder Erzählungen angeben. Ausführliche Anweisungen finden Sie im Abschnitt [Sounddesign](#Einbindung von Sounddesign in Eingabeaufforderungen) weiter unten.

Universelle Video-Eingabeaufforderungsformel

Unabhängig von der verwendeten Plattform enthält jede effektive Videoaufforderung dieselben sieben Elemente. Einige sind unverzichtbar (in jeder Aufforderung erforderlich), während andere optional sind (sie erhöhen die Wirksamkeit, sind aber nicht zwingend erforderlich). Die Formel lautet:

[Thema] + [Aktion] + [Umgebung] + [Kamera] + [Beleuchtung] + [Stil] + [Ton]

Visuelle Aufschlüsselung der sieben wesentlichen Elemente generischer Video-Prompt-Formeln, die Thema, Handlung, Kulisse, Kamerabewegung, Beleuchtung, Stil und Ton veranschaulichen – zusammen mit Beispiel-Schlüsselwörtern. — Die sieben Schlüsselelemente einer universellen Video-Prompt-Formel. Jedes Element fügt der endgültigen Ausgabe eine zusätzliche Kontrolldimension hinzu.

Im Folgenden werden wir jedes Element einzeln aufschlüsseln, begleitet von einer Stichwortbibliothek und Beispielsätzen.

Element Eins: Betreff (erforderlich)

Das Subjekt ist das Objekt des Blicks des Publikums. Dies sollte der konkreteste Teil der Vorgabe sein – nicht „eine Frau“, sondern „eine Frau in den Sechzigern, mit silbernem Haar, das locker zu einem Knoten zusammengebunden ist, tiefen Lachfalten an den Augenwinkeln und einer verblichenen Jeansschürze“.

Stichwortbibliothek:

| Kategorie | Beispiel (englische Eingabeaufforderung) | |------|------------------ -| | Charaktere | ein junger Mann in den Zwanzigern, eine ältere Frau, ein Kind im Alter von etwa fünf Jahren, ein Tänzer, ein Koch, ein Soldat | | Tiere | ein Golden Retriever, ein Schneeleopard, ein Kolibri, ein Koi-Fisch, ein Monarchfalter | | Gegenstände | eine alte Schreibmaschine, ein Kristallparfümflakon, ein ledergebundenes Tagebuch, eine Keramikvase | | Fahrzeuge | ein mattschwarzes Motorrad, ein Holzsegelboot, ein verwitterter Pick-up, ein Hochgeschwindigkeitszug | | Abstrakt | Lichtpartikel, Tintentropfen im Wasser, geometrische Formen, flüssiges Metall |

Beispielsätze:

„Eine Barista in den Dreißigern mit tätowierten Armen und einer mit Mehl bestäubten schwarzen Schürze“
Ein verwitterter bronzener Kompass, der offen auf einer Seekarte liegt - Tausende von Papierlaternen, jede davon leuchtet warm bernsteinfarben durch eine Kerze im Inneren

Element Zwei: Aktion (erforderlich)

Die Handlung ist das, was sich entfaltet – was das Motiv tut und wie sich die Szene im Laufe der Zeit entwickelt. Dies ist die Trennlinie zwischen Video- und Bildvorgaben. Ohne Handlung bleibt Ihnen nichts weiter als ein bewegtes Foto.

Stichwortbibliothek:

| Bewegungsart | Beispiel (englische Eingabeaufforderung) | |--------- -|-------------------| | Menschliche Bewegung | Gehen, Laufen, langsames Drehen, Ausstrecken, Vorbeugen, Ausatmen, Blinzeln | | Relativ zur Kamerabewegung | Annäherung an die Kamera, Entfernen von der Kamera, Überqueren des Bildausschnitts von links nach rechts | | Objektbewegung | Drehen, Fallen, Schweben, Zerbrechen, Zusammenbauen, Entfalten, Schmelzen | | Umgebungsbewegung | Wind weht durch Gras, Wolken ziehen vorbei, Regen fällt, Blätter treiben, Flut kommt herein | | Übergangsprozesse | Tag wird zur Nacht, Blume blüht, Eis bildet sich, Farbe verteilt sich, Licht verschiebt sich |

Beispielsätze:

„Langsam bückt sie sich, hebt ein heruntergefallenes Herbstblatt auf und dreht es zwischen ihren Fingern.“
Die Kompassnadel zittert und schwingt dann entschlossen nach Norden
Laternen heben sich nacheinander vom Boden ab und steigen mit unterschiedlicher Geschwindigkeit in den dunklen Himmel auf

Element Drei: Umwelt (wesentlich)

Die Kulisse ist der Ort, an dem sich die Szene abspielt. Beschreiben Sie sowohl die unmittelbare Kulisse (Vordergrund) als auch den weiteren Hintergrund. Geben Sie gegebenenfalls auch das Wetter, die Tageszeit und die Jahreszeit an.

Stichwortbibliothek:

| Szenentyp | Beispiel (englische Eingabeaufforderung) | |----------|------------------ -| | Natur | dichter Wald, Wüstendünen, Meeresklippe, Almwiese, Vulkanstrand, Bambushain | | Stadt | enge Gasse in Tokio, brutalistischer Betonplatz, Dachgarten, U-Bahnsteig, neonbeleuchtete Allee | | Innenraum | kerzenbeleuchtete Bibliothek, industrielles Loft, Gewächshaus, Vintage-Dunkelkammer, Marmoratrium | | Fantasie | schwebende Inseln, Kristallhöhle, biolumineszentes Riff, Tempelruine, Wolkenstadt | | Zeit/Wetter | Dämmerung vor Sonnenaufgang, bewölkter Mittag, Gewitter, erster Schnee, feuchter Sommerabend |

Beispielsätze:

„In einer schmalen Seitenstraße in Kyoto, gesäumt von Steinlaternen auf beiden Seiten, treiben Kirschblütenblätter über nasse Kopfsteinpflastersteine.“
„In einer höhlenartigen, verlassenen Kathedrale dringen staubige Lichtstrahlen durch zerbrochene Buntglasfenster.“
„Am Rande einer vulkanischen Klippe in der blauen Stunde steigt schwefelhaltiger Dampf aus den Rissen im schwarzen Felsgestein auf.“

Element Vier: Kamerabewegung (wichtig)

Anweisungen zur Kamerarichtung geben dem KI-Betrachter Hinweise dazu, wie er eine Szene wahrnehmen soll, darunter Komposition (wie nah), Winkel (von wo aus) und Bewegung (wie sich der Blickwinkel im Laufe der Zeit verändert). Die Sprache der Kamerarichtung ist der wichtigste Hebel zur Verbesserung der Prompt-Qualität – wir gehen darauf im folgenden Abschnitt näher ein.

Schnellzugriff auf die Stichwortbibliothek:

| Aspekt | Englische Terminologie und chinesische Entsprechung | |------|------------------ -| | Bildausschnitt | Extremnahaufnahme, Nahaufnahme, Halbnahaufnahme, Totale, Weitwinkelaufnahme, Extremweitwinkelaufnahme (extreme Totale) | | Blickwinkel | Augenhöhe, niedriger Blickwinkel, hoher Blickwinkel, Vogelperspektive, Froschperspektive, Dutch Angle | | Bewegung | Kamerafahrt vorwärts/rückwärts, Schwenk nach links/rechts, Neigung nach oben/unten, Kamerafahrt, Orbit, Kran (Höhe) | | Objektiv | 24 mm Weitwinkel, 50 mm Standard, 85 mm Porträt, 200 mm Tele, Makroobjektiv, anamorphotisch |

Element Fünf: Beleuchtung (wichtig)

Licht und Schatten bestimmen die Stimmung jedes Bildes. Professionelle Fotografen verbringen Stunden damit, die Beleuchtung einzurichten. Beim prompten Schreiben können ein paar gut gewählte Worte denselben Grad an Kontrolle ausüben.

Stichwortbibliothek:

| Beleuchtungsart (Englisch/Chinesisch) | Visuelle Effekte | |--------------------- -|----------| | Goldene Stunde | Warme Farbtöne, langgezogene Schatten, orange-bernsteinfarbene Töne, besonders vorteilhaft für Porträts | | Blaue Stunde | Kühle Farbtöne, melancholische Atmosphäre, tiefblauer Himmel mit anhaltender Wärme am Horizont | | Gegenlicht | Konturierte Kanten, Silhouetteneffekt, starke Trennung vom Hintergrund | | Seitenlicht | Halb beleuchtetes, halb beschattetes Gesicht; hoher Kontrast, dramatischer Effekt | | Rembrandt-Beleuchtung | Dreieckige Glanzlichter unter dem beschatteten Auge; klassischer Porträteffekt | | Volumetrische Beleuchtung | Sichtbare Lichtstrahlen, die Staub, Nebel oder Rauch durchdringen | | Tyndall-Effekt | Lichtstreuung innerhalb von Partikeln, wodurch deutliche Lichtstrahlen in Nebel oder Staub entstehen | | Neon | Farbige künstliche Lichtquellen, Reflexionen auf nassen Oberflächen, Cyberpunk-Ästhetik |

Element Sechs: Stil (empfohlen)

Der Stil bestimmt die visuelle Sprache, die von der KI verwendet wird – sei es Film, dokumentarischer Realismus, Animation, Ölgemälde oder anderes. Ohne eine Stildefinition verwendet die KI standardmäßig einen generischen realistischen Stil.

Stichwortbibliothek:

| Stil (Englisch/Chinesisch) | Visuelle Merkmale | |----------------- -|----------| | Kino | Geringe Tiefenschärfe, filmreife Farbkorrektur, Breitbildformat 2,39:1 | | Dokumentarfilm | Handkamera-Effekt, natürliche Beleuchtung, beobachtende Bildkomposition | | Werbespot | Klar, hell, produktorientiert, präzise Beleuchtung, flüssige Bewegungen | | Anime | Cell-Shading-Stil, lebhafte Farben, übertriebene Bewegungen, dynamische Linien | | Film Noir | Kontrastreiches Monochrom, Schatten von Jalousien, zurückhaltende Beleuchtung | | Tuschemalerei | Schwarze Tusche auf weißem Grund, fließende Farbverläufe, Minimalismus, östliche Ästhetik | | Vintage-Film | Filmkorn, leicht entsättigt, warme Töne, weichgezeichnete Kanten | | Cyberpunk | Neonlicht, hoher Kontrast, holografische Elemente, urban-apokalyptische Atmosphäre |

Element Sieben: Klang (optional)

Sound fügt eine auditive Dimension hinzu. Zwar unterstützen nicht alle Plattformen die Audioerzeugung, doch die Einbindung von Sounddesign in Prompts ist nicht nur zukunftsweisend, sondern verstärkt oft auch die visuelle Wirkung – da KI Audio-Cues nutzt, um den emotionalen Ton und das Tempo der Visualisierungen zu beeinflussen.

Stichwortbibliothek:

Soundtyp	Beispiel (englische Eingabeaufforderung)
Musikstil	Orchester, Lo-Fi-Hip-Hop, Ambient-Elektronik, Jazz-Piano, Akustikgitarre, Filmmusik (Filmmusik)
Umgebungsgeräusche	Regen auf Glas, Wind in den Bäumen, Stadtverkehr, Meeresrauschen, Knistern eines Feuers
Action-Soundeffekte	Schritte auf Kies, quietschende Tür, zerbrechendes Glas, aufheulender Motor
Stimmen	geflüsterte Erzählung, Dialog, Atmen, Lachen

Die Sprache des Films: Die Geheimwaffe

Die Sprache des Films ist die wichtigste Fähigkeit, die Sie als Autor von Videoprompts entwickeln können. Wenn Sie „langsam heranfahren“ statt „heranzoomen“ schreiben, sprechen Sie die Muttersprache der KI-Modelle – denn diese Modelle wurden anhand von Millionen Stunden professionell gedrehtem Filmmaterial trainiert, in dem Kamerabewegungen bestimmte Namen und eindeutige visuelle Effekte haben.

Dieser Abschnitt dient als umfassende Referenzanleitung. Wir empfehlen Ihnen, ihn mit einem Lesezeichen zu versehen.

Referenzhandbuch zu Kamerabewegungen Veranschaulichung der Namen, Bewegungsbahnen und emotionalen Wirkungen von zwölf verschiedenen Kamerabewegungen, darunter: Push-/Pull-Aufnahmen, Schwenkaufnahmen, Kamerafahrten, Dolly-Aufnahmen, Höhenaufnahmen und Handaufnahmen. — Kamerabewegungen sind nicht austauschbar – jede erzeugt eine bestimmte emotionale Wirkung. Die Kenntnis der richtigen Fachbegriffe wird die Wirkung Ihrer Anweisungen verändern.

Kernkinematografie

Dolly In / Dolly Out (Push Shot / Pull Shot)

Die Kamera bewegt sich physisch näher an das Motiv heran (Push) oder weiter davon weg (Pull). Im Gegensatz zum Zoomen verändert sich dabei die Perspektive – Objekte im Vordergrund erscheinen proportional größer, wodurch ein Gefühl von Tiefe und physischer Nähe entsteht.

Emotionale Wirkung: Fördert Intimität, Konzentration und Offenbarung. Ruft Isolation, Kontext und Abschied hervor.
Einsatzzweck: Für emotionale Nahaufnahmen, charakteristische Momente und aufschlussreiche Details. Zurückziehen, um Größe zu demonstrieren, abzuschließen oder sich vom Motiv zu entfernen.
Schlüsselbegriff: „Die Kamera fährt langsam von einer Nahaufnahme zu einer extremen Nahaufnahme der Hände des Motivs.“

Nach links schwenken / Nach rechts schwenken (horizontales Schwenken)

Die Kamera bleibt stationär und dreht sich horizontal, als würde man den Kopf drehen. Der Blickpunkt schweift über die Szene.

Emotionale Wirkung: Erkundung, Entdeckung, seitliche Kameraführung, Verbindung zweier Elemente innerhalb einer Szene.
Verwendungszweck: Darstellung von Landschaften, Verfolgung bewegter Charaktere, Demonstration räumlicher Weite.
Auslösephrase: „Langsame Schwenkbewegung nach rechts über die Werkstatt, wobei Reihen handgefertigter Instrumente an der Wand sichtbar werden.“

Neigen nach oben/unten (vertikales Schwenken/Neigen)

Die Kamera bleibt stationär und dreht sich vertikal – als würde sie nicken. Eine Aufwärtsbewegung zeigt die Höhe, eine Abwärtsbewegung zeigt die Details am Boden.

Emotionale Wirkung: Eine Aufwärtsneigung ruft Ehrfurcht, Erhabenheit und Sehnsucht hervor. Eine Abwärtsneigung vermittelt ein Gefühl von Bodenständigkeit, Entdeckung und Vertrautheit mit der Oberfläche.
Verwendungszweck: Eine Aufwärtsneigung wird für hoch aufragende Strukturen, sich erhobende Figuren oder die Darstellung des Himmels verwendet. Abwärts gerichtete Schwenks zeigen Objekte auf einem Tisch oder den Übergang vom Himmel zum Boden.
Stichwort: „Die Kamera schwenkt von den Wurzeln des alten Baumes nach oben und folgt dem massiven Stamm bis zur Baumkrone.“

Tracking Shot (Follow Shot/Side Tracking Shot)

Die Kamera bewegt sich parallel zum Motiv und hält dabei einen konstanten Abstand und Winkel ein, als wäre sie auf einer Schiene montiert, die parallel zum Weg des Motivs verläuft.

Emotionale Wirkung: Kameradschaft, Reise, Eintauchen. Das Publikum reist gemeinsam mit der Figur.
Verwendungszweck: Für Charaktere, die gehen oder laufen, Räume durchqueren oder Produkte entlang von Oberflächen präsentieren.
Auslösephrase: „Die Kamera folgt der Läuferin auf Schulterhöhe und hält mit ihr Schritt, während sie durch die Gasse sprintet.“

Orbit / Bogen (kreisförmige Kamerafahrt)

Die Kamera dreht sich um das Motiv herum, während es im Bildausschnitt zentriert bleibt. Dabei kann es sich um eine vollständige 360-Grad-Drehung oder einen Teilbogen handeln.

Emotionaler Effekt: Heroische Präsenz, Gefühl von Macht, Präsentationsqualität, dreidimensionale Darstellung.
Verwendungszweck: Produktvorführungen (Präsentation aus allen Blickwinkeln), Hero Shots, dramatische Charaktervorstellungen, entscheidende Momente.
Stichwort: „Kamera umkreist den Schachspieler um 180 Grad, beginnend von hinten und endend frontal.“

Kran hoch / Kran runter (Hebebild / Auslegerbild)

Vertikale Kamerabewegungen – physisches Anheben oder Absenken – werden in der Regel mit Neigungen kombiniert, um das Motiv im Bildausschnitt zu halten.

Emotionale Wirkung: Aufsteigen erzeugt ein Gefühl der Transzendenz, Befreiung und erweiterten Perspektive. Absteigen fördert Bodenständigkeit, Ankunft und fokussierte Aufmerksamkeit.
Wann verwenden: Aufsteigen für Schlussfolgerungen, Momente des Triumphs oder Übergänge zu Luftperspektiven. Absteigende Aufnahmen werden für Eröffnungen, Ankünfte und Übergänge von Weitwinkelaufnahmen zu intimen Kompositionen verwendet.
Stichwort: „Die Kamera schwenkt vom Boden aus nach oben, erhebt sich über die Menschenmenge und zeigt das gesamte Ausmaß des Festivals.“

Handheld (Handheld-Objektiv)

Das Objektiv weist ein leichtes organisches Wackeln auf, da es nicht auf einem Stativ oder Stabilisator montiert ist. Dies simuliert das Gefühl eines menschlichen Fotografen, der die Kamera aus der Hand hält.

Emotionale Wirkung: Unmittelbarkeit, Dringlichkeit, dokumentarische Authentizität, Spannung, Intimität.
Verwendungszweck: Actionsequenzen, emotionale Dialoge, Dokumentarstil, Horrorfilme, alle Szenen, die ein immersives Gefühl erfordern.
Auslösephrase: „Handkamera folgt der Figur durch den überfüllten Markt, leicht wackelig.“

Steadicam / Gimbal (Steadicam/Stabilisatorobjektiv)

Sanfte, schwebende Kamerabewegungen gleiten durch den Raum. Im Gegensatz zu Handaufnahmen gibt es kein Verwackeln – die Bewegung ist flüssig und kontinuierlich.

Emotionaler Effekt: Traumhaft, elegant, immersiv, entspannte Erkundung.
Einsatzbereich: Navigation durch architektonische Räume, Verfolgung von Charakteren durch komplexe Umgebungen, Single-Take-Aufnahmen, luxuriöse und ästhetische Kinematografie.
Stichwort: „Die Steadicam gleitet hinter der Tänzerin her, während sie sich durch den leeren Ballsaal bewegt.“

Fortgeschrittene Techniken der Kinematografie

Hitchcock-Zoom (Dolly-Zoom / Vertigo-Effekt)

Wenn die Kamera heranzoomt, erhöht sich die Brennweite (oder umgekehrt). Das Motiv bleibt gleich groß, aber der Hintergrund wird stark verzerrt – entweder gestreckt oder gestaucht.

Emotionale Wirkung: Desorientierung, Erleuchtung, Angst, die Welt dreht sich um einen festen Punkt.
Stichwort: „Dolly-Zoom auf das Gesicht der Figur – die Kamera schwenkt heran, während das Objektiv herauszoomt, der Hintergrund entfernt sich und erzeugt einen Schwindel-Effekt.“

Whip Pan

Extrem schnelle horizontale Schwenkbewegung, wodurch das gesamte Bild während der Bewegung unscharf erscheint. Wird häufig als Übergang zwischen zwei Szenen eingesetzt.

Emotionale Wirkung: Energie, Überraschung, Dringlichkeit, komödiantischer Rhythmus.
Stichwort: Schneller Schwenk vom Gesicht des Redners zur Reaktion des Publikums, Bewegungsunschärfe während des Übergangs

Rack Focus (Fokus ziehen)

Der Fokus verschiebt sich innerhalb einer einzigen Aufnahme von einer Tiefenebene zur anderen. Der Vordergrund wird unscharf, während der Hintergrund scharf wird, oder umgekehrt.

Emotionale Wirkung: Lenkt die Aufmerksamkeit um, offenbart Informationen, verbindet Elemente im Vordergrund und Hintergrund.
Auslösephrase: „Fokus von den unscharfen Blumen im Vordergrund auf das Gesicht der Frau im Hintergrund verlagern“

Dutch Angle (schräger Winkel)

Die Linse neigt sich entlang der Rollachse und erzeugt einen diagonalen Horizont. Die Welt erscheint verzerrt.

Emotionale Wirkung: Unbehagen, Instabilität, Spannung, stilisiertes Drama, Raserei.
Stichwort: „Dutch Angle-Nahaufnahme des Gesichts des Detektivs, 15-Grad-Neigung, hartes Seitenlicht“

Geschwindigkeitsrampe (Zeitrampe)

Die Wiedergabegeschwindigkeit variiert innerhalb einer einzelnen Aufnahme – typischerweise verlangsamt sie sich an entscheidenden Stellen, bevor sie wieder beschleunigt wird.

Emotionale Wirkung: Betonung, Wirkung, dramatische Untermalung bestimmter Momente.
Auslösephrase: „Die Bewegung verlangsamt sich im Moment des Aufpralls zu Zeitlupe und beschleunigt sich dann wieder auf Echtzeit.“

One-Take (lange Einstellung)

Kontinuierliche Aufnahmen ohne Schnitt. Die Kamera durchquert Räume, folgt Bewegungen und entdeckt Elemente, wobei sie durchgehend eine einzige, ununterbrochene Perspektive beibehält.

Emotionale Wirkung: Immersion, Echtzeit-Erlebnis, Gefühl technischer Meisterschaft, anhaltender Spannungsaufbau.
Prompt-Phrase: „Kontinuierliche One-Take-Aufnahme: Die Kamera kommt durch die Eingangstür herein, gleitet durch den Flur und gelangt in den Garten.“

Erste Person / POV

Die Kamera repräsentiert die Augen der Figur. Das Publikum sieht, was die Figur sieht, einschließlich ihrer Hände, die ins Bild kommen.

Emotionale Wirkung: Ultimatives Eintauchen, subjektives Erlebnis, Spielästhetik.
Auslösephrase: First-Person-Perspektive: Hände drücken eine schwere Holztür auf und geben den Blick auf eine sonnenbeschienene Wiese frei

Informationen zu den einzigartigen Kamerasteuerungsfunktionen von Seedance und deren Kombination innerhalb der Storyboard-Zeitleiste finden Sie im Seedance Prompt Guide.

Stichwortbibliothek „Atmosphäre“

Die Atmosphäre ist der Schlüssel, um technisch einwandfreie Videos in emotional bewegende Werke zu verwandeln. Sie macht den Unterschied zwischen „einem Raum” und „einem Raum, der Gefühle weckt”. Diese Stichwortbibliothek ist in vier Dimensionen unterteilt – Beleuchtung, Farbpalette, Textur und Stimmung –, sodass Sie diese miteinander kombinieren können, um genau die gewünschte Stimmung zu erzeugen.

AI-Video-Prompt-Stichwort-Referenztabelle für Atmosphäre, kategorisiert nach vier Dimensionen: Beleuchtung, Farbpalette, Textur und Stimmung, begleitet von visuellen Beispielen. — Atmosphere Keyword Library: Wählen Sie aus jeder Dimension ein Stichwort aus, um die emotionale Signatur Ihres Videos zu definieren.

Schlüsselwörter zu Licht und Schatten

Die Beleuchtung bildet die Grundlage für die Atmosphäre. Eine Änderung der Beleuchtung in einem Prompt kann die Stimmung komplett verändern, während alle anderen Elemente unverändert bleiben.

| Stichworte (Englisch/Chinesisch) | Visuelle Effekte | Geeignete Szenarien | |-------|----------|--------- -| | Goldene Stunde | Warmes bernsteinfarbenes Licht, weiche, langgestreckte Schatten, schmeichelhafte Hauttöne | Romantik, Nostalgie, Reisen, Schönheit | | Blaue Stunde | Tiefblaues Umgebungslicht, warme Restfarben am Horizont | Melancholie, Kontemplation, Übergang, urbane Stimmung | | Gegenlicht | Motiv wird durch hintere Lichtquelle umrandet, Gesichtsschatten oder Silhouetten | Drama, Mystery, heroische Aufnahmen, ästhetischer Reiz | | Seitenlicht | Starkes gerichtetes Licht von einer Seite, halb beleuchtet, halb im Schatten | Spannung, Charakter-Nahaufnahmen, dramatische Porträts | | Rembrandt-Beleuchtung | Klassische Porträtbeleuchtung – eine Seite beleuchtet, mit einem kleinen dreieckigen Lichtfleck unter dem Auge auf der Schattenseite | Porträts, Eleganz, klassisches Ambiente | | Volumetrische Beleuchtung | Sichtbare Lichtstrahlen, die durch Staub, Nebel oder Rauch hindurchgehen | Heiligkeit, Theater, Waldszenen, Bühnenbeleuchtung | | Tyndall-Effekt | Lichtstreuung innerhalb feiner Partikel, die durch Nebel deutliche Strahlen bilden | Natürlich, Morgendämmerungsszenen, ätherisch, traumhaft | | Neon | Künstliche farbige Lichtquellen, typischerweise rosa, blau, cyan, magenta | Cyberpunk, Nachtleben, urban, zeitgenössisch | | Kerzenlicht | Warmes, flackerndes, orange-bernsteinfarbener Punktlichtquelle | Intimität, Geschichte, Abendessenszenen, Gemütlichkeit | | Silhouette | Motiv vollständig abgedunkelt, nur durch Umrisse vor hellem Hintergrund definiert | Geheimnis, Anonymität, visuelle Wirkung, Erzählung | | Biolumineszenz | Selbstleuchtende organische Lichtquelle, typischerweise blaugrün | Fantasie, Unterwasserwelt, fremde Welten, traumhaft |

Farbtöne – Stichworte

Das Farbschema bestimmt die emotionale Temperatur der gesamten Komposition. Warme Farbtöne wirken einladend, kühle Farbtöne wirken distanziert. Eine hohe Sättigung wirkt lebhaft, eine niedrige Sättigung wirkt gedämpft.

| Schlüsselwörter (Englisch/Chinesisch) | Visuelle Effekte | Emotionale Resonanz | |-------|----------|--------- -| | Warme Farbpalette | Dominierende Bernstein-, Orange-, Gold- und Rottöne | Behaglichkeit, Nostalgie, Intimität, Herbst | | Kühle Farbpalette | Dominierende Blau-, Cyan- und Schieferfarbtöne | Distanz, Ruhe, Melancholie, Winter, Technologie | | Hohe Sättigung | Lebendige, intensive, kräftige Farben | Energie, Jugend, Fantasie, Popkultur | | Entsättigt | Sanfte, verblasste, pastellartige Farben | Melancholie, Realismus, Erinnerung, Retro | | Türkis und Orange | Klassische Filmfarbkorrektur – kühle Schatten, warme Lichter | Hollywood-Blockbuster, Werbung, Kino | | Cyberpunk-Palette | Neonpink, Elektroblau, tiefes Violett vor dunklem Hintergrund | Futuristisch, Nachtleben, digital, Avantgarde | | Vintage | Leicht verblasst, warme Farbtöne, aufgehellte Schatten | Nostalgie, 70er- und 80er-Jahre, Indie-Filme, Erinnerungen | | Erdtöne | Braun, Grün, Ocker, Terrakotta | Natur, Verwurzelung, organisch, Dokumentarfilm | | Kodachrome | Satte Grün- und Rottöne, warme Hauttöne, tiefes Schwarz | Fotojournalismus, 1960er- und 1970er-Jahre, amerikanische Ästhetik |

Textur/Bildqualität Stichworte

Die Textur bestimmt die visuelle Oberfläche eines Videos – ob es einem 35-mm-Film, einer auf Hochglanz polierten Werbung, einem Dokumentarfilm oder einem Ölgemälde ähnelt.

| Schlüsselwörter (Englisch/Chinesisch) | Visuelle Effekte | Anwendbare Szenarien | |-------|--------- -|----------| | Kino | Breitbildgefühl, geringe Schärfentiefe, filmische Farbpalette | Erzählung, Drama, Storytelling | | Dokumentarfilm | Natürliche Beleuchtung, leicht unvollkommene Kompositionen | Realismus, Nachrichten, Bildung | | Werbung | Klare, helle, präzise Beleuchtung, sanfte Kamerabewegungen | Produktpräsentation, Werbung, Unternehmensvideos | | Filmkorn | Organische Rauschtextur über dem Filmmaterial | Retro, analog, Indie, warm | | Anamorph | Horizontale Linsenreflexe, elliptisches Bokeh, subtile Randverzerrung | Filmisches Drama, Science-Fiction, episches Gefühl | | Ölgemälde-Textur | Sichtbare Pinselstrich-Texturen, reichhaltiger Impasto-Effekt | Kunst, Fantasy, Traumlandschaften, Klassik | | Tuschewaschung | Schwarze Tuscheverläufe auf weißem Hintergrund, fließende organische Formen | Orientalische Ästhetik, Minimalismus, Ruhe | | 8 mm / Super 8 | Starke Körnung, Lichtlecks, instabiles Filmmaterial, verblasste Farben | Erinnerungen, Rückblenden, Heimvideos, Nostalgie |

Emotionale Schlüsselwörter

Emotionale Schlüsselwörter geben der KI ihre emotionale Ausrichtung vor. Sie beeinflussen alles – das Tempo, die Farbwahl, das Kameraverhalten und die Gesamtstimmung.

| Schlüsselwörter (Englisch/Chinesisch) | Ausgelöste Emotionen | Paarungsvorschläge | |-------|----------- -|----------| | Gemütlich | Wärme, Komfort, Geborgenheit, Zuhause | Kerzenlicht, warme Farbtöne, Innenaufnahmen | | Angespannt | Angst, Vorfreude, bevorstehende Ereignisse | Seitenbeleuchtung, Handaufnahmen, enge Bildausschnitte | | Spannend | Angst, Unsicherheit, langsamer Aufbau | Gedämpftes Licht, langsamer Verlauf, geringe Sättigung | | Fröhlich | Glück, Feier, Leichtigkeit | Goldene Stunde, hohe Sättigung, lange Einstellungen | | Melancholisch | Traurigkeit, Sehnsucht, Schönheit in der Trauer | Blaue Stunde, kühle Farbtöne, Zeitlupe | | Episch | Grandiosität, Heldentum, Ehrfurcht gebietend | Weitwinkelaufnahmen, Dolly-Aufnahmen, Orchestermusik | | Heilend | Ruhe, Erholung, sanfte Heilung | Sanfte Beleuchtung, Pastelltöne, natürliche Farbtöne, langsames Tempo | | Horror | Angst, Unheimlichkeit, Unbehagen | Tiefe Schatten, Dutch Angles, geringe Sättigung, Stille | | Romantik | Liebe, Sehnsucht, Zärtlichkeit, Intimität | Gegenlicht, warme Töne, geringe Schärfentiefe, Nahaufnahmen | | Energisch | Geschwindigkeit, Aufregung, Adrenalin | Verwackelte Kamera, variable Geschwindigkeit, hohe Sättigung, Weitwinkel | | Nostalgisch | Sehnsucht nach der Vergangenheit, bittersüße Erinnerungen | Filmkorn, Vintage-Töne, überbelichtete Lichter |

Atmosphärische Schlüsselwortkombinationen: Drei Beispiele

Die wahre Kraft liegt darin, ein oder zwei Schlüsselwörter aus jeder Dimension auszuwählen und sie zu kombinieren. Die folgenden drei Kombinationen schaffen völlig unterschiedliche Stimmungen für dasselbe Motiv – eine Frau, die am Fenster steht:

Kombination 1: Warme Nostalgie

Gegenlicht in der goldenen Stunde, warme Farbpalette mit Bernstein- und Honigtönen, Filmkornstruktur, nostalgische Stimmung

Kombination Zwei: Kühle Spannung

Seitenlicht aus einer einzigen Quelle, kühle Blaugrün-Palette, klare digitale Textur, angespannte Stimmung

Kombination Drei: Ätherisch und traumhaft

Tyndall-Effekt-Lichtstrahlen durch transparente Vorhänge, Pastellfarben, Aquarelltextur, heilende Stimmung

Dasselbe Thema, drei völlig unterschiedliche Videos. Das Schlüsselwort für die Atmosphäre ist das Bedienfeld.

Von einzelnen Phrasen zu filmischen Eingabeaufforderungen: 5 fortgeschrittene Beispiele

Der beste Weg, um das Verfassen von Prompts zu lernen, besteht darin, den Entwicklungsprozess von Prompts zu beobachten. Jedes der folgenden Beispiele entwickelt sich von der grundlegenden Version V1 (die die meisten Menschen schreiben) über V2 (mit zusätzlichen Spezifikationen und Kamerabewegungen) bis hin zu V3 (ein vollständig spezifizierter, filmreifer Prompt). Beachten Sie die Änderungen, die auf jeder Stufe vorgenommen werden, und warum.

Weitere Beispiele für gebrauchsfertige Video-Prompts finden Sie unter 10 praktische KI-Video-Prompts.

Dreistufiger Vergleich der Prompt-Entwicklung, der die grundlegenden Prompts von V1, die erweiterten Prompts von V2 (mit Kamerabewegungen und Lichteffekten) und die kinoreifen Prompts von V3 (vollständig spezifiziert) zeigt, wobei jeder eine entsprechende Verbesserung der Videoqualität demonstriert. — Schnelle Evolution in der Praxis. V1 liefert der KI praktisch keine Informationen. V3 gibt ihr alles – die Ergebnisse liegen Welten auseinander.

Beispiel 1: Porträt/Stimmung – „Frau, die im Regen geht“

V1 – Basisversion (18 Wörter)

A woman walking in the rain at night in a city, cinematic, beautiful

Das Ergebnis: eine generische Frau, eine generische Stadt, generischer Regen, flache Beleuchtung, keine emotionale Resonanz. Die KI füllt jede Lücke mit statistischen Durchschnittswerten.

V2 – Verbesserte Version (62 Wörter)

A young Asian woman in a long dark coat walks slowly through a rain-soaked Tokyo backstreet at night. Neon signs reflect in the wet pavement, casting pink and blue light. She carries a transparent umbrella. Camera tracks beside her at shoulder height. Shallow depth of field. Melancholic mood.

Was wurde verbessert: Spezifische Identität des Motivs, spezifischer Standort, spezifische Lichtquelle, Kameraposition, emotionale Ausrichtung. Die KI verfügt nun über ausreichende Informationen, um einzigartige Bilder zu generieren.

V3 – Filmreife Qualität (138 Wörter)

A woman in her late 20s, Japanese, long black hair partially wet and clinging to her neck, wearing an oversized charcoal wool coat over a cream turtleneck, walks alone through a narrow Shinjuku backstreet at 2am. Rain falls in fine sheets, catching neon light from izakaya signs overhead — warm amber kanji characters and cold blue beer advertisements. The wet asphalt mirrors everything, creating a double world beneath her feet. She carries a transparent vinyl umbrella, water beading and streaming down its surface.

Camera: tracking shot at shoulder height, moving alongside her at walking pace, shallow depth of field at f/1.4, foreground rain droplets occasionally crossing the lens out of focus.

Lighting: practical neon sources only — no fill light. Rim light from signs behind her outlines her coat collar and umbrella edge. Her face catches intermittent warm light as she passes each shopfront.

Style: cinematic, Kodak Vision3 500T film stock, slight grain, teal-and-amber color grade, Wong Kar-wai atmosphere.

Ton: Regen auf der Oberfläche eines Regenschirms, gedämpfter Jazz aus einer Bar in der Ferne, ihre Schritte auf nassem Stein, kein Dialog, keine Musik.

(Eine Japanerin in den Zwanzigern, mit langen schwarzen Haaren, die teilweise durchnässt sind und an ihrem Nacken kleben, trägt einen übergroßen anthrazitfarbenen Wollmantel über einem cremefarbenen Rollkragenpullover und geht um 2 Uhr morgens allein durch die engen Gassen von Shinjuku. Feine Regentropfen fingen das Neonlicht der Izakaya-Schilder über ihr ein – warme bernsteinfarbene japanische Schriftzeichen und kühle blaue Bierwerbung. Der feuchte Asphalt spiegelte alles wider und schuf eine Spiegelwelt unter ihren Füßen. Sie hielt einen durchsichtigen Plastikregenschirm in der Hand, an dessen Oberfläche sich Wassertropfen sammelten und heruntertropften.)

Warum V3 funktioniert: Jedes Element der Formel ist explizit definiert. Es gibt keinen Raum für Vermutungen seitens der KI – wenn die KI nicht rät, rendert sie genau das, was Sie beschreiben.

Beispiel 2: Produktpräsentation – „Die Uhr auf dem Schreibtisch“

V1 – Basisversion (14 Wörter)

A luxury watch sitting on a table, product shot, high quality, 4K

V2 – Überarbeitete Ausgabe (58 Wörter)

A stainless steel dive watch with a dark blue dial rests on a slab of raw gray marble. Camera orbits slowly around the watch, 15 degrees above. Single key light from the upper left creates a defined shadow. The watch's crystal catches the light and creates a brief flare. Commercial style, clean background.

V3 – Kinoqualität (126 Wörter)

A stainless steel dive watch with a sunburst navy-blue dial and ceramic bezel sits on a rough-cut block of Carrara marble, positioned at the golden-ratio intersection of the frame. The second hand sweeps continuously. Micro water droplets bead on the crystal surface and the steel bracelet links, catching light.

Camera: begins in macro extreme close-up on the dial — the indices and lume dots fill the frame — then slowly dollies out while simultaneously orbiting clockwise, completing a 270-degree arc over 8 seconds until the full watch and marble base are revealed in a three-quarter beauty shot.

Lighting: single hard key light at 10 o'clock position, 45 degrees above. No fill — deep shadows on the right side. A subtle rim light from behind separates the watch from the dark charcoal background.

Style: high-end commercial, ultra-sharp 8K downscaled to 4K, zero grain, clinical precision. Color: cool steel tones with warm gold accents from the lume.

Geräusch: fast völlige Stille – nur das leise mechanische Ticken des Uhrwerks, ein einziger klarer Glockenschlag im Moment der Leuchtrakete.

（Eine Taucheruhr aus Edelstahl mit sonnengestrahlten marineblauen Zifferblatt und Keramiklünette ruht auf einem Block aus grob behauenem Carrara-Marmor, der am Schnittpunkt des goldenen Schnitts des Rahmens positioniert ist. Der Sekundenzeiger setzt seine Bewegung fort. Winzige Tröpfchen kondensieren auf der Kristalloberfläche und den Gliedern des Stahlarmbands und fangen das Licht ein.)

Beispiel 3: Malerische Reise – „Berge bei Sonnenaufgang“

V1 – Basisversion (12 Wörter)

Beautiful mountains at sunrise, drone shot, epic landscape, cinematic

V2 – Überarbeitete Ausgabe (55 Wörter)

Snow-capped mountain peaks emerging from a sea of clouds at sunrise. The first rays of sun paint the peaks golden while the valleys remain in blue shadow. Camera cranes up slowly from the cloud layer, revealing the full mountain range. Wide angle, epic scale, warm-to-cool color gradient.

V3 – Kinoqualität (134 Wörter)

The Dolomites at sunrise in late autumn. Jagged limestone spires — the Tre Cime di Lavaredo — pierce through a thick layer of valley clouds, their east-facing faces catching the first horizontal rays of sun and turning from cold blue-gray to blazing amber-gold. The cloud layer below is a rolling ocean of soft white and pale peach, filling the valleys completely.

Camera: starts buried inside the cloud layer — visibility near zero, soft white diffusion everywhere — then cranes upward at a steady pace, breaking through the cloud surface to reveal the peaks and the vast sky above. The transition from claustrophobic fog to infinite horizon takes 4 seconds. Continue rising to a high aerial wide shot. 24mm wide angle lens.

Lighting: first light of day — sun at 5 degrees above the eastern horizon, casting extreme raking light across the mountain faces. Golden hour warmth on lit surfaces, blue hour coolness in shadowed areas. Volumetric light beams visible where sun cuts between peaks.

Style: National Geographic cinematic, IMAX-quality, ultra-wide dynamic range, vivid but natural color, no filters.

Ton: Wind in der Höhe – ein anhaltendes leises Flüstern mit gelegentlichen Böen, keine Musik, keine menschlichen Geräusche. Die Stille verstärkt die Größe.

（Spätherbstlicher Sonnenaufgang in den Dolomiten. Zackige Kalksteinspitzen – die Drei Zinnen – durchbrechen die dichten Talwolken, ihre Ostflanken fangen die ersten horizontalen Sonnenstrahlen ein und wechseln von kaltem Blaugrau zu feurigem Bernsteingold.）

Beispiel 4: Actionszene – „Kampfsportler schlägt zu“

V1 – Basisversion (15 Wörter)

A martial artist doing a spinning kick, action movie style, slow motion

V2 – Erweiterte Version (64 Wörter)

A female martial artist in a dark training hall performs a spinning back kick. Her bare foot connects with a hanging heavy bag, sending it swinging violently. Camera captures the kick from a low angle, slightly slow motion at the point of impact, then returns to real-time as she recovers her stance. Side lighting creates dramatic shadows.

V3 – Kinoqualität (141 Wörter)

A woman in her 30s, lean and muscular, wearing a fitted black tank top and loose gray training pants, stands in a dimly lit martial arts gym. Worn wooden floor, heavy bags hanging in rows, chalk dust suspended in the air. She explodes from stillness — a spinning hook kick that arcs through 360 degrees, her back heel striking a leather heavy bag at head height.

Camera: starts medium shot at 45-degree angle. As the spin begins, camera speed-ramps to 240fps slow motion — her hair whips in an arc, chalk dust traces the path of her foot, the bag surface ripples visibly on impact. Hold for one beat, then ramp back to real-time as she plants her foot. Slight handheld energy.

Lighting: single harsh side light from camera-left, no fill. Chalk dust and sweat particles glow in the light beam.

Style: David Fincher / Fight Club aesthetic — desaturated, greenish-teal undertone, high contrast, gritty. Anamorphic lens with subtle horizontal flares.

Ton: Stille vor dem Tritt – Umgebungsgeräusche aus dem Fitnessstudio, ein Einatmen. Der Tritt: explosives Knallen des Stoffes, schwerer Aufprall des Leders, Kettenrasseln. Ihr scharfes Ausatmen beim Kontakt. Keine Musik.

（Eine Frau in den Dreißigern, schlank und muskulös, gekleidet in ein eng anliegendes schwarzes Trikot und eine lockere graue Trainingshose, steht in einer schwach beleuchteten Kampfsporthalle. Abgenutzte Holzdielen, Reihen von hängenden Boxsäcken, Staub in der Luft. Sie explodiert aus der Stille heraus – ein 360-Grad-Haken-Kick, die Ferse trifft den Ledersack in Kopfhöhe.)

Beispiel 5: Emotionale Erzählung – „Großmutter und Enkel“

V1 – Basisversion (16 Wörter)

A grandmother and her grandchild spending time together, heartwarming, emotional, beautiful moment

V2 – Verbesserte Version (71 Wörter)

An elderly grandmother with silver hair and weathered hands teaches her 5-year-old granddaughter how to knead bread dough in a sunlit country kitchen. The child stands on a wooden step stool, flour on her cheeks, laughing. The grandmother guides her small hands through the dough. Golden morning light through a window. Warm color palette. Intimate, cozy atmosphere.

V3 – Filmische Qualität (147 Wörter)

A Japanese grandmother in her 80s, silver hair in a soft bun, deep expression lines around smiling eyes, wearing an indigo apron over a cream linen blouse, stands beside her granddaughter — age 4 or 5, round cheeks, short black hair with a red clip — at a low wooden table in a traditional kitchen. Shoji screen doors are slid open to a small garden where morning light enters. They are making mochi together. The grandmother's large, weathered hands wrap around the child's tiny ones, guiding them to fold and press the soft rice dough. Flour dust floats in the shaft of sunlight between them.

Camera: close-up on their four hands working the dough — the contrast of old and young skin. Slowly dolly out to a medium shot including both faces. Rack focus between them — first sharp on the grandmother's eyes, then pulling to the child's smile. 85mm portrait lens, f/2.0, creamy bokeh.

Lighting: natural morning sunlight from the garden, soft and directional, Tyndall effect through the flour dust. No artificial light. The light creates a warm halo around the grandmother's silver hair.

Style: Hirokazu Kore-eda film quality — observational, unhurried, documentary intimacy with cinematic beauty. Kodachrome-inspired color. 16:9.

Ton: das leise rhythmische Geräusch von Händen, die Teig kneten, Vögel draußen im Garten, ein entferntes Windspiel, das gelegentliche Kichern des Kindes, die Großmutter, die leise eine Volksmelodie summt. Keine Musik – nur Geräusche aus der Handlung.

(Eine über achtzigjährige japanische Großmutter mit silbernem Haar, das zu einem lockeren Knoten zusammengebunden ist, tiefen Ausdrucksfalten um ihre lächelnden Augen und einer indigoblauen Schürze über einem cremefarbenen Leinenhemd. Sie steht neben ihrer vier- oder fünfjährigen Enkelin – mit runden Wangen und kurzen schwarzen Haaren, die mit einer roten Haarspange festgesteckt sind – an dem niedrigen Holztisch in der traditionellen Küche. Shoji-Türen gleiten zu dem kleinen Garten hin auf, in den das Morgenlicht hereinströmt. Gemeinsam machen sie Mochi. Die großen, von den Jahren gezeichneten Hände der Großmutter umschließen die kleinen Hände des Kindes und führen sie, während sie den weichen Klebreisteig falten und kneten. Mehlstaub schwebte im Sonnenstrahl zwischen ihnen. Eine filmische Qualität à la Hirokazu Kore-eda – beobachtend, gemächlich, dokumentarisch-intimt und filmisch schön.

Sounddesign in die Eingabeaufforderung integrieren

Das Sounddesign ist der am meisten übersehene Aspekt beim Verfassen von Video-Prompts. Bis 2026 unterstützten Plattformen wie Seedance, Veo 3 und Keling die synchrone Audioerzeugung für Videos – der Qualitätsunterschied zwischen Prompts mit und ohne Soundeffekte war erheblich.

Stellen Sie sich Folgendes vor: Eine wunderschöne Waldszene ohne Umgebungsgeräusche wirkt wie eine GIF-Animation. Fügen Sie Vogelgezwitscher, das Rascheln von Blättern und das ferne Plätschern eines Baches hinzu, und schon wird es zu einem Ort, den man sofort betreten möchte.

Sounddesign-Format

Fügen Sie Sprachbefehle am Ende der Eingabeaufforderung in einem separaten Absatz oder einer separaten Zeile hinzu, die drei Ebenen abdecken:

Erste Ebene: Hintergrundmusik – Allgemeine Stimmung und Stil

Background music: slow ambient piano, minor key, sparse notes with reverb
（背景音乐：缓慢的氛围钢琴，小调，稀疏的音符带混响）

Zweite Ebene: Umgebungsgeräusche – Festlegen der Hintergrundgeräusche der Szene

Ambient: light rain on leaves, distant thunder rolls, wet road traffic hum
（环境音：轻柔的雨打树叶声、远处的雷声滚动、湿路上的交通嗡嗡声）

Dritte Ebene: Action-Soundeffekte und Dialoge – Spezifische Geräusche, die mit Ereignissen im Video verbunden sind

SFX: footsteps on wet pavement, umbrella opening with a click
Dialogue: none
（音效：湿路面上的脚步声、雨伞咔嗒打开的声音。对话：无）

Audio-Stichwortverzeichnis

Musikstile für unterschiedliche Emotionen:

Stimmung	Musikalische Ausrichtung (englische Eingabeaufforderung)
Ruhig	Ambient, sanftes Klavier, akustische Gitarre mit Fingerpicking, Lo-Fi
Angespannt	Tiefer Drone, dissonante Streicher, minimalistischer perkussiver Puls
Fröhlich	Optimistische Akustikgitarre, Ukulele, leichte Percussion, Dur-Tonart
Episch	Orchestrales Crescendo, Taiko-Trommeln, Fanfaren der Blechbläser, Chor
Romantisch	Streichquartett, sanfter Jazz, Bossa Nova
Geheimnisvoll	Dunkler Ambient, halliges Klavier, entfernte Glockentöne
Energisch	Elektronischer Beat, treibende Trommeln, basslastig, Uptempo
Melancholisch	Solo-Cello, langsames Klavier in Moll, spärliche Gitarre

Umgebungsgeräusche:

| Umgebung | Soundschichten (englische Sprachansagen) | |------|--------------------- -| | Wald | Vogelgezwitscher, raschelnde Blätter, entfernter Specht, Bach | | Städtische Nacht | Verkehrslärm, entfernte Sirenen, Neonlicht, Schritte | | Ozean | Brechende Wellen, Möwen, Wind, entfernte Bootsmotoren | | Café | Kaffeemaschine, gedämpftes Gespräch, Löffel auf Keramik, Jazz | | Regentag | Regenintensität (leichtes Prasseln / starker Regenguss), Donner, Tropfen | | Werkstatt | Werkzeuggeräusche, Holzspäne, Maschinenbrummen, Radio im Hintergrund |

Wann man Schweigen einsetzen sollte

Stille ist nicht das Fehlen von Sounddesign – sie ist eine bewusste Entscheidung. Strategische Stille kann Folgendes bewirken:

Wirkungsmoment: Die Stille vor einem dramatischen Moment verstärkt diesen Moment
Gefühl für Größe: Nur das Rauschen des Windes über weite Landschaften vermittelt ein Gefühl von Unermesslichkeit
Spannung: Das Weglassen erwarteter Geräusche erzeugt Unbehagen⟧NLBR⟧ - Fokus: Stille lenkt die gesamte Aufmerksamkeit auf das Visuelle

Geben Sie in der Eingabeaufforderung ausdrücklich an: „Ton: Stille – keine Musik, keine Umgebungsgeräusche, nur die Atmung der Testperson.“

Weitere Informationen zur Audioerzeugung bei der Produktion von KI-Musikvideos finden Sie im Leitfaden zum KI-Musikvideo-Generator.

Plattformspezifische Prompt-Techniken

Die universelle Formel ist allgemein gültig, aber jede KI-Videoplattform hat ihre eigenen Besonderheiten bei der Interpretation von Eingabeaufforderungen. Wenn du die Eingabeaufforderungen speziell für die von dir verwendete Plattform optimierst, kannst du die Ergebnisse deutlich verbessern.

Seedance

Vorteile: Storyboard-Zeitleistenformat, Mehrfachaufnahmen, Bild-zu-Video-Konvertierung, integrierter Prompt-Generator.

Optimierungstechniken:

Verwenden Sie für komplexe Sequenzen eine Storyboard-Zeitleiste – unterteilen Sie Videos in mit Zeitstempeln versehene Aufnahmen:

 Shot 1 (0-3s): [描述]
 Shot 2 (3-6s): [描述]
 Shot 3 (6-10s): [描述]

– Sorgen Sie für stilistische und charakterliche Konsistenz, indem Sie hochgeladene Bilder mit @Image1, @Image2 referenzieren. – Filmische Sprache führt zu hervorragenden Ergebnissen – verwenden Sie spezifische Begriffe (Dolly, Track, Orbit) anstelle von vagen Beschreibungen („bewegen sich in Richtung“).

Integriert Sounddesign – Seedance kümmert sich um die Audio-Cues
Effizientester Workflow: Verwenden Sie den Video Prompt Generator, um aus einfachen Ideen strukturierte Prompts zu erstellen, und verfeinern Sie diese dann manuell.

Seedances umfassender plattformspezifischer Prompt-Leitfaden (mit über 50 Beispielen), siehe Seedance Prompt Guide.

Sora（OpenAI）

Vorteile: Physikalisch realistisches Verhalten, natürliche Bewegungen und natürliches Sprachverständnis bei längeren Texten.

Optimierungstechniken:

Verwenden Sie flüssige, beschreibende Absätze anstelle von strukturierten Listen – Sora ist besonders gut darin, natürliche Sprache zu analysieren.
Betonen Sie physikalische Details: Schwerkraft, Gewicht, Materialeigenschaften, Strömungsdynamik.
Beschreiben Sie, wie sich etwas „ sich anfühlt” – Beschreibungen von Textur und Material verbessern die physikalische Genauigkeit
Geben Sie Seitenverhältnisse und Dauerangaben an
Beschreiben Sie physikalische Details: „Schwerer Stoff schwingt bei jedem Schritt und hängt aufgrund seines Eigengewichts nach” liefert bessere Ergebnisse als „schwebender Rock”.

Ke Ling Kling (Kuaishou)

Vorteile: Hohe Generierungsgeschwindigkeit, robuste Bewegungsleistung und hervorragende Gesichtskonsistenz.

Optimierungstipps:

Halten Sie die Eingabeaufforderungen kurz – Keli reagiert besser auf fokussierte, handlungsorientierte Eingabeaufforderungen (50–80 Wörter sind optimal).
Beginnen Sie mit einer Handlung: „Ein Tänzer springt und dreht sich“, anstatt die Bewegung nach einer langen Szenenbeschreibung zu erwähnen.
Geben Sie die Bewegungsrichtung klar an: „bewegt sich von links nach rechts“, „nähert sich der Kamera“, „wendet sich ab“
Keeling ist besonders gut im Umgang mit menschlichen Bewegungen und Gesichtsausdrücken – nutzen Sie dies für emotionale Eingabeaufforderungen in Nahaufnahme
Anweisungen zur Kamerabewegung sind effektiv, aber jedes Stichwort sollte nur ein oder zwei eindeutige Kameraaktionen enthalten.

Universelle Bedeutung, universelle Form / Runway (Gen-3 Alpha / Gen-4)

Optimierungstechniken für Tongyi Wanshang: – Unterstützt die direkte Eingabe chinesischer Eingabeaufforderungen und liefert im Vergleich zur Übersetzung hervorragende Ergebnisse. – Zeigt ein ausgezeichnetes Verständnis traditioneller chinesischer ästhetischer Elemente – Tuschemalerei, nationaler Stil, historische Kostümszenen. – Erzielt effektive Ergebnisse mit prägnanten und klaren Stil-Tags.

Techniken zur Optimierung von Runway: – Kombinieren Sie Textbeschreibungen mit Stil-Tags – Runway verfügt über ein robustes Stilverständnis – Beschreiben Sie Bewegungen mithilfe von Raumvektoren: „Bewegung von unten links nach oben rechts“ – Wenn Sie Motion Brush verwenden, konzentrieren Sie sich bei der Text Eingabe auf die Gesamtszene und den Stil, während Sie den Pinsel für bestimmte Bewegungsbereiche einsetzen – Runway zeigt ein ausgezeichnetes Verständnis für Beschreibungen des künstlerischen Stils – „im Stil eines Films von Terrence Malick“ - Wenn Sie den Motion Brush verwenden, konzentrieren Sie sich auf die Gesamtszene und den Stil und verfeinern Sie mit dem Pinsel bestimmte Bewegungsbereiche

Runway ist hervorragend darin, künstlerische Stilbeschreibungen zu interpretieren – „im Stil eines Terrence-Malick-Films” liefert ausgezeichnete Ergebnisse
Behalten Sie den Fokus bei – generieren Sie pro Eingabeaufforderung eine eindeutige Szene statt einer Mehrfachaufnahme-Sequenz

Veo 3（Google DeepMind）

Vorteile: Audioverständnis, physikalische Simulation, Kinoqualität, erweiterte Sequenzen.

Optimierungstechniken:

Fügen Sie detaillierte Audiobeschreibungen hinzu – Veo 3 generiert synchronisierten Ton aus Text
Beschreiben Sie physikalische Interaktionen detailliert: wie Objekte kollidieren, Materialien sich verformen und Licht mit Oberflächen interagiert
Verwenden Sie filmische Fachbegriffe – die Trainingsdaten von Veo 3 bevorzugen stark professionelles Filmemachen
Dauer und Tempo angeben: „Die Szene entfaltet sich langsam über 10 Sekunden.“
Physikalische Beschreibungen verstärken die Wirkung erheblich: „Wasser spritzt beim Aufprall nach oben, Tropfen fangen das Gegenlicht ein“ statt nur „spritzt“.

Einen detaillierten Vergleich zwischen Seedance und Sora hinsichtlich der Prompt-Interpretation und der Ausgabequalität finden Sie unter Seedance vs. Sora Vergleich.

Oder lassen Sie KI die Eingabeaufforderungen für Sie schreiben.

Sie haben gerade das vollständige Framework für die Erstellung von Video-Prompts von Grund auf fertiggestellt. Dieses Wissen ist von unschätzbarem Wert – es versetzt Sie in die Lage, die Qualität von Prompts besser zu beurteilen, und gibt Ihnen die vollständige Kontrolle über jedes Detail. Sie müssen jedoch nicht jedes Mal jeden Prompt manuell schreiben.

Das Workflow-Diagramm veranschaulicht einen hybriden Ansatz: Die KI generiert eine erste strukturierte Eingabeaufforderung, die anschließend von Menschen überprüft und hinsichtlich bestimmter Elemente optimiert wird. Die verfeinerte Eingabeaufforderung erzeugt anschließend das endgültige Video. — Hybrider Arbeitsablauf: Überlassen Sie der KI die strukturelle und technische Terminologie und bringen Sie dann in der Optimierungsphase Ihre kreative Perspektive ein.

Wann sollte man handschriftlich schreiben und wann KI verwenden?

Szenario	Bester Ansatz
Sie haben eine genaue kreative Vision und wissen genau, was Sie wollen	Handschrift – Sie sind schneller und genauer als beim Bearbeiten von KI-Entwürfen
Sie haben eine grobe Vorstellung, benötigen aber Struktur	KI-Generierung → Manuelle Verfeinerung
Sie müssen schnell mehrere Varianten einer Eingabeaufforderung generieren	KI-Batch-Generierung → Wählen Sie die beste aus und verfeinern Sie sie
Sie lernen und möchten die Strukturen von Eingabeaufforderungen studieren	KI-Generierung → Lesen und analysieren Sie – so bauen Sie Ihren Wortschatz auf
Sie müssen bestimmte Referenzbilder abgleichen	Handschriftlich – beschreiben Sie genau, was Sie in der Referenz sehen

Hybrid-Workflow (empfohlen)

Der effizienteste Workflow für das schnelle Schreiben kombiniert KI-Generierung mit menschlicher Verfeinerung:

Beginnen Sie mit KI. Gehen Sie zu Seedance Video Prompt Generator, beschreiben Sie Ihre Idee in ein oder zwei Sätzen, wählen Sie einen Stil aus und generieren Sie.
Überprüfen Sie das Ergebnis kritisch. Die KI generiert eine strukturierte Eingabeaufforderung, die Angaben zu Kamerabewegungen, Zeitachsen, Beleuchtung und Ton enthält. Lesen Sie diese sorgfältig durch. Entsprechen die Kamerabewegungen dem von Ihnen gewünschten emotionalen Ton? Schafft die Beleuchtungsrichtung die beabsichtigte Atmosphäre? Gibt es Details, die Sie ändern möchten?
Manuelle Optimierung. Hier kommen Ihre Kenntnisse über Formeln, Filmsprache und atmosphärische Schlüsselwörter ins Spiel. Ersetzen Sie die von der KI ausgewählten Aufnahmen durch solche, die Ihrer Vision besser entsprechen. Passen Sie die Beleuchtungsschlüsselwörter an. Fügen Sie spezifische Details hinzu, die die KI nicht kennen kann – charakteristische Merkmale, markenspezifische Anforderungen, emotionale Nuancen.
Video generieren. Senden Sie die optimierte Eingabe an den Videogenerator. Die Ergebnisse sind weitaus besser als vollständig manuelle Eingaben von Anfängern oder vollständig KI-generierte, ungeprüfte Eingaben.

Eine umfassende Anleitung zur Verwendung von Tools zur Generierung von KI-Prompts finden Sie im AI Video Prompt Generator Guide.

Filmische Effekte: Meisterschaft durch Integration

Lassen Sie uns eine abschließende Aufforderung formulieren, die alle in diesem Leitfaden behandelten Aspekte – Formeln, filmische Sprache, atmosphärische Schlüsselwörter, Sounddesign – nutzt, um einen wirklich filmischen Effekt zu erzielen.

Kreativbrief: Ein einsamer Astronaut entdeckt Pflanzenleben auf dem Mars.

Atemberaubende KI-Videoaufnahmen in Kinoqualität zeigen einen einsamen Astronauten, der inmitten der purpurroten Marslandschaft kniet und eine kleine grüne Pflanze entdeckt, die mit dramatischer Seitenbeleuchtung und volumetrischen Staubeffekten dargestellt wird. — Vollständig spezifizierte filmische Eingabeaufforderungen liefern Ergebnisse, als wären sie von einem Filmemacher inszeniert worden – denn genau das sind sie auch. Jedes Element dient der Erzählung.

Vollständige Eingabeaufforderung:

Subject: A solitary astronaut in a dusty, sun-bleached EVA suit — visor partially reflective, scratched from use, mission patches barely legible. The suit is not pristine Hollywood white; it is a working tool, weathered by months on the Martian surface.

Action: The astronaut crouches beside a small crack in the rust-red basalt. Inside the crack, a single tiny green sprout — two delicate leaves, almost translucent — pushes up through the red soil. The astronaut's gloved hand reaches toward it, hesitates, trembles slightly, then gently touches the soil beside it.

Environment: The Martian surface — a flat, rust-red plain scattered with dark basalt rocks, stretching to low eroded hills on the horizon. The sky is a pale butterscotch-pink. Dust devils move in the far distance. The scene feels vast and achingly empty — except for this one tiny green thing.

Camera: Opens with an extreme wide shot — the astronaut is a small figure in the immense Martian landscape. Slow dolly in over 4 seconds to a medium shot. As the astronaut crouches, camera drops to ground level and continues to a close-up of the gloved hand and the sprout. Rack focus: pull from the hand to the astronaut's visor, where we see the sprout's reflection. 65mm lens, anamorphic.

Lighting: Late Martian afternoon — low sun from camera-right, casting long amber-red shadows. The side light sculpts the EVA suit's texture. The sprout's translucent leaves glow with subsurface scattering as sunlight passes through them — the only green in a world of red. Volumetric dust particles drift through the light beam.

Style: Ridley Scott's The Martian meets Terrence Malick's The Tree of Life. Cinematic, anamorphic, muted Martian color palette with the single point of vivid green as deliberate contrast. Subtle film grain.

Sound: Wind — thin, high-pitched Martian wind, unlike Earth wind. The astronaut's breathing inside the suit — measured at first, then quickening. A single sustained low note from a cello enters as the hand reaches for the sprout. No dialogue. No narration.

Ein einsamer Astronaut, gekleidet in einen staubbedeckten, von der Sonne ausgeblichenen EVA-Anzug – das Visier halb reflektierend, mit Gebrauchsspuren übersät, das Missionsabzeichen auf dem Arm kaum noch zu erkennen. Dieser Anzug ist nicht makellos weiß wie in Hollywood, sondern ein Arbeitswerkzeug, das durch monatelangen Einsatz auf der Marsoberfläche verwittert ist. Der Astronaut kauert neben einer schmalen Spalte im rostrotem Basalt und beobachtet einen winzigen grünen Spross – zwei zarte, fast durchsichtige Blätter –, der aus der purpurroten Erde sprießt. Eine behandschuhte Hand streckt sich aus, zögert, zittert leicht und berührt dann sanft die Erde daneben.

Diese Vorgabe umfasst alle sieben formelhaften Elemente, spezifische filmische Sprache (extreme Totale, Kamerafahrt, Fokusverschiebung), atmosphärische Schlüsselwörter (volumetrische Beleuchtung, Subsurface Scattering, anamorphotische Linse), Sounddesign (Umgebungsgeräusche wie Wind, Atemgeräusche, einsame Cellotöne) und stilistische Referenzen (Ridley Scott, Terrence Malick). Jedes Detail dient dem emotionalen Bogen: Einsamkeit → Entdeckung → Ehrfurcht.

Dies ist das Video-Prompt-Engineering-Projekt.

Häufig gestellte Fragen

Wie lang sollten KI-Videoprompts sein?

Es gibt keinen universellen Standard für die Länge. Die angemessene Länge hängt von der Komplexität Ihres kreativen Konzepts und der verwendeten Plattform ab. Level V1 (15–30 Wörter) liefert universelle Ergebnisse auf jeder Plattform. Level V2 (50–80 Wörter) stellt den optimalen Bereich für die meisten Plattformen dar – ausreichend spezifisch, ohne das Modell zu überlasten. Level V3 (100–200 Wörter) liefert die am besten kontrollierbaren Ergebnisse auf Plattformen, die lange Eingabeaufforderungen unterstützen, wie Seedance und Sora. Bei der Verwendung von Keeling sollten Sie sich an etwa 50–80 Wörter halten. Die entscheidende Kennzahl ist nicht die Wortzahl, sondern ob jedes Element der Formel umfassend berücksichtigt wird.

Ist ein fotografischer Hintergrund unerlässlich, um wirkungsvolle Video-Prompts zu erstellen?

Das ist zwar nicht unbedingt notwendig, aber es ist sehr hilfreich, wenn man es versteht – und dieser Leitfaden hat Ihnen gerade das grundlegende Wissen vermittelt. Sie brauchen keinen Filmabschluss; Sie müssen lediglich die Namen von 10 bis 15 Arten von Kamerabewegungen kennen, die emotionale Wirkung verschiedener Beleuchtungsstile verstehen und über das Vokabular verfügen, um die Atmosphäre zu beschreiben. Setzen Sie Lesezeichen für die Abschnitte „Sprache der Kamerabewegungen“ (#Sprache der Kamerabewegungen – Geheimwaffe) und „Bibliothek mit Schlüsselwörtern zur Atmosphäre“ (#Bibliothek mit Schlüsselwörtern zur Atmosphäre) und schauen Sie immer wieder darin nach, bis Ihnen diese Begriffe in Fleisch und Blut übergegangen sind.

Kann dieselbe Eingabeaufforderung auf verschiedenen KI-Videoplattformen verwendet werden?

Selbstverständlich – die universelle Formel gilt universell. Allerdings interpretiert jede Plattform Prompts unterschiedlich. Für Sora optimierte Prompts (lang, flüssig, mit Schwerpunkt auf Physik) müssen für Keeling (kürzer, actionorientiert) möglicherweise umstrukturiert werden. Im Abschnitt Plattformspezifische Techniken wird detailliert beschrieben, wie Sie diese anpassen können. Die Kernformel bleibt unverändert, nur das Darstellungsformat wird angepasst.

Was unterscheidet diesen Leitfaden vom Seedance-Prompt-Leitfaden?

Der Seedance Prompt Guide ist plattformspezifisch – er vermittelt Ihnen das Storyboard-Format von Seedance, Bildreferenzen und über 50 gebrauchsfertige Prompts. Dieser Leitfaden ist universell – er vermittelt Ihnen die grundlegenden Fähigkeiten des Prompt-Schreibens, die auf jede Plattform anwendbar sind. Betrachten Sie diesen Leitfaden als Ihr Lehrbuch und den Seedance-Leitfaden als Ihr praktisches Handbuch für ein bestimmtes Tool.

Wie beschreibt man Kamerabewegungen, wenn man mit der Terminologie der Kinematografie nicht vertraut ist?

Beschreiben Sie zunächst, was das Publikum sehen und fühlen soll. „Die Kamera nähert sich langsam dem Gesicht der Person“ ist eine Kamerafahrt in „Die Kamera folgt der Person, die von der Seite geht“ ist eine Kamerafahrt. KI-Plattformen verstehen Beschreibungen in natürlicher Sprache recht gut. Das Erlernen von Fachbegriffen (unter Verwendung der oben genannten [Referenz zur Kamerabewegungssprache](#camera movement language secret weapon)) führt jedoch zu deutlich besseren Ergebnissen, da KI-Modelle anhand von Videos trainiert werden, die genau mit diesen Fachbegriffen beschrieben sind.

Sollten umgekehrte Eingabeaufforderungen (was nicht enthalten sein sollte) enthalten sein?

Bestimmte Plattformen unterstützen umgekehrte Eingabeaufforderungen – Anweisungen, die angeben, was zu vermeiden ist. Diese können nützlich sein: „Keine Textüberlagerungen, keine Wasserzeichen, keine unscharfen Bilder“. Die meisten modernen KI-Videogeneratoren gehen jedoch durch positive Vorgaben effektiver mit Qualitätsproblemen um. Anstatt „keine schlechte Beleuchtung“ zu schreiben, geben Sie „Rembrandt-Beleuchtung von links vor der Kamera“ an. Anstelle von „keine verwackelten Aufnahmen“ geben Sie „gleichmäßige Steadicam-Bewegung“ an. Positive Vorgaben führen die KI zu Ihrem gewünschten Ergebnis; negative Vorgaben sagen ihr lediglich, was zu vermeiden ist, und überlassen Alternativen dem Zufall.

Wie kann man die Konsistenz der Charaktere über mehrere Eingabeaufforderungen hinweg gewährleisten?

Die Wahrung der Konsistenz der Charaktere über mehrere KI-Videogenerationen hinweg stellt eine der größten Herausforderungen beim Verfassen von Prompts dar. Drei Strategien haben sich als hilfreich erwiesen: (1) Verwenden Sie eine äußerst detaillierte Charakterbeschreibung und wiederholen Sie diese wortwörtlich zwischen den Prompts – „eine Frau Ende 20, Japanerin, langes schwarzes Haar, übergroßer anthrazitfarbener Wollmantel, cremefarbener Rollkragenpullover“. (2) Verwenden Sie Bild-zu-Video-Workflows – laden Sie Referenzbilder der Charaktere für die KI-Animation hoch. Seedance unterstützt dies über @Image-Referenzen. (3) Generieren Sie nach Möglichkeit alle Clips für denselben Charakter in einer einzigen Sitzung, wobei Sie identische Seeds oder Stileinstellungen verwenden.

Gibt es ein Tool, das mir beim Verfassen von Video-Prompts helfen kann?

Ja. Der Video Prompt Generator von Seedance akzeptiert Beschreibungen in natürlicher Sprache, um vollständige, strukturierte Shotlist-Prompts zu generieren, die Kamerabewegungen, Zeitpläne, Beleuchtung und Sounddesign umfassen. Detaillierte Anweisungen zur Verwendung finden Sie im AI Video Prompt Generator Guide. Empfohlener Arbeitsablauf: KI-Generierung → manuelle Verfeinerung → Videoproduktion.

Beginnen Sie noch heute, bessere Video-Prompts zu schreiben

Sie verfügen nun über ein umfassendes Toolkit: die Sieben-Elemente-Formel, eine Referenz zur Sprache der Kinematografie mit über 15 Kamerabewegungstechniken, eine vierdimensionale Bibliothek mit Schlüsselwörtern zur Atmosphäre mit mehr als 50 Begriffen, fünf progressive Beispiele, die die Entwicklung von grundlegenden zu kinematografischen Standards veranschaulichen, Methoden zum Sounddesign und plattformspezifische Optimierungstechniken.

Der Unterschied zwischen Amateur- und Profi-KI-Videoausgaben liegt nicht in den Tools, sondern in den Eingabeaufforderungen. Und das Verfassen von Eingabeaufforderungen ist eine Fähigkeit, die sich mit der Übung verbessert.

Drei Möglichkeiten, um zu beginnen:

Üben Sie die Formel. Wählen Sie ein beliebiges Thema aus und erstellen Sie Entwürfe V1 → V2 → V3. Vergleichen Sie die Ergebnisse. Die Verbesserung wird sofort sichtbar und deutlich sein.
Verwenden Sie einen Prompt-Generator. Überlassen Sie der KI die Struktur und nutzen Sie dann Ihr Wissen über Kamerabewegungen und Atmosphäre, um das Ergebnis zu verfeinern. Probieren Sie den Video-Prompt-Generator aus →
Erstellen Sie Ihr erstes Video. Nehmen Sie Ihre beste Eingabe und erstellen Sie jetzt ein Video. Öffnen Sie den Videogenerator →

Weitere schnelle Inspirationen und gebrauchsfertige Beispiele:

10 praktische KI-Video-Prompts – Getestete Prompts mit V1→V2→V3-Iterationen
Vollständiger Leitfaden zu Text-zu-Video-KI – Die Technologie hinter den Tools verstehen
Leitfaden zum AI Video Prompt Generator – Lassen Sie AI Prompts für Sie schreiben
Seedance Prompt Guide – Über 50 Seedance-spezifische Prompts

Entdecken Sie Seedance 2.0 →

Das beste KI-Video, das Sie jemals erstellen werden, beginnt mit der nächsten Eingabeaufforderung, die Sie schreiben.

Leitfaden zum Verfassen von KI-Videoprompts: Vom Anfänger bis zur Kinoqualität

Inhaltsverzeichnis