10 wirklich effektive KI-Videoprompts: einschließlich Iterationsprozess und Effektvergleiche (2026)

Feb. 17, 2026

Zusammenfassung

Die überwiegende Mehrheit der KI-Videoprompts liefert schlechte Ergebnisse, was hauptsächlich auf drei Gründe zurückzuführen ist: übermäßige Unklarheit, widersprüchliche Anweisungen und unzureichende Bewegungsbeschreibungen. Dieser Artikel verwendet 10 Prompts aus realen Szenarien, um effektive Schreibtechniken zu demonstrieren – jeder davon wurde von der rudimentären Version V1 bis zur fein abgestimmten Version V3 iteriert, wobei klar dargestellt wird, was geändert wurde, warum und wo die Mängel lagen. Alle Prompts können kopiert und in gängige Generatoren wie Seedance, Sora, Kling und Runway eingefügt werden. Nach der Lektüre beherrschen Sie die Kernstruktur von Prompts und verfügen über eine praktische Bibliothek mit Szenarien wie Filmporträts, Produktwerbung, Animation, Lebensmittel, Mode, Sport, Bild-zu-Video-Generierung und Marken-TVCs. Öffnen Sie Seedance jetzt, um diese Prompts auszuprobieren →

Hinweis: Derzeit unterstützen fast alle gängigen KI-Videogeneratoren (einschließlich inländischer Angebote wie KeLing und JiMeng) die Eingabe von englischen Eingabeaufforderungen, wobei englische Eingabeaufforderungen in der Regel zu besseren Ergebnissen führen. Die Beispiele für Eingabeaufforderungen in diesem Artikel behalten ihr englisches Original bei und werden durch chinesische Erläuterungen ergänzt, damit Sie die Absicht hinter jeder Eingabeaufforderung verstehen können, bevor Sie sie kopieren und direkt verwenden.

Vergleich: Unterschiede in der Qualität von KI-generierten Videos zwischen unscharfen und optimierten Eingabeaufforderungen

Das gleiche kreative Konzept kann bei einer vagen Vorgabe ganz andere Ergebnisse liefern als bei einer genau abgestimmten Vorgabe.


Warum die meisten KI-Videoprompts nicht gut funktionieren

Sie geben einen Text in ein KI-Videotool ein, klicken auf „Generieren“ und stellen fest, dass das Ergebnis überhaupt nicht Ihren Vorstellungen entspricht. Fast jeder hat diese Diskrepanz schon einmal erlebt, und die Gründe dafür sind eigentlich vorhersehbar und lösbar.

Die drei häufigsten Fehlermuster

  1. Die Beschreibung ist viel zu vage. Aufforderungen wie „ein wunderschöner Sonnenuntergang“ geben der KI praktisch keinerlei Anhaltspunkte – der Ort der Aufnahme, das Motiv, das wechselnde Licht oder die beabsichtigte Stimmung fehlen völlig. Eine so allgemeine Aufforderung kann nur zu mittelmäßigen, schnell vergessenen Bildern führen.

2. Widersprüchliche Anweisungen. „Eine extreme Nahaufnahme mit Weitwinkel einer Person, die in Zeitlupe schnell sprintet“ – Nahaufnahme und Weitwinkel widersprechen sich ebenso wie Zeitlupe und Zeitraffer. Die KI versucht, diese unmöglichen Anweisungen gleichzeitig zu erfüllen, was zu einem chaotischen Bild führt.

  1. Keine Bewegungsbeschreibung. Text-zu-Video ist nicht gleich Text-zu-Bild. Wenn Sie lediglich eine statische Szene beschreiben, ohne der KI mitzuteilen, was sich bewegt oder wie es sich bewegt, geben viele Generatoren ein Standbild mit einem subtilen Atmungseffekt aus. Sie müssen der KI ausdrücklich mitteilen, wie sich die Bewegung innerhalb der Szene darstellt.

Die drei Säulen guter Prompts

Ein hervorragender KI-Videoprompt besteht aus drei Kernelementen:

  • Ein klar definiertes Motiv: Die KI weiß genau, was sie darstellen soll. Nicht „eine Person“, sondern „eine Frau in den Dreißigern mit silbergestreiftem schwarzem Haar, die eine abgenutzte Lederjacke trägt“.
  • Explizite Bewegung: Innerhalb des Bildausschnitts passiert etwas. Das Motiv bewegt sich, die Kamera bewegt sich, Partikel treiben dahin, Stoffe wehen, das Licht verändert sich. Bewegung ist es, was einem Video seine Bedeutung verleiht.
  • Definierte Atmosphäre: Beleuchtung, Farbtemperatur, Stimmung und Stil sind keine optionalen Extras, sondern entscheidende Faktoren, die darüber bestimmen, ob das Filmmaterial lediglich eine „technische Demo“ oder ein „professionelles Werk“ ist.

Iteratives Denken

Die besten Autoren von Prompts erstellen niemals auf Anhieb einen perfekten Prompt, sondern verlassen sich auf Iteration. Jeder Prompt in diesem Artikel folgt einem progressiven Drei-Versionen-Ansatz:

  • V1 —— Grundlegender Versuch. Was die meisten Menschen zunächst eingeben. Erzeugt Bilder, bleibt jedoch allgemein und lässt Kontrolle vermissen.
  • V2 —— Detaillierte Verfeinerung. Bezieht spezifische Einstellungen, Beleuchtung, Kamerabewegungen oder Stimmungen mit ein. Deutlich verbesserte Ergebnisse.
  • V3 —— Endgültige Iteration. Motiv, Bewegung, Atmosphäre, Bildausschnitt, Beleuchtung und Modifikatoren für die visuelle Qualität sind sorgfältig ausgearbeitet. Alle Elemente wirken zusammen, um ein vollständiges, überzeugendes Bild zu erzeugen.

Dieser iterative Prozess lehrt Sie weit mehr, als es eine einzelne „perfekte Eingabeaufforderung“ jemals könnte. Sie werden verstehen lernen, welche Veränderungen jede Ergänzung mit sich bringt und warum dies wichtig ist.


Die Anatomie von KI-Videoprompts

Alle hervorragenden Aufforderungen folgen derselben Formel:

[主体 Subject] + [动作/运动 Action] + [风格/情绪 Style] + [运镜 Camera] + [光线 Lighting] + [画质 Quality]

Jedes Element hat seine eigene spezifische Rolle:

| Element | Steuerelemente | Beispiel | |------|-------- -|------| | Motiv | Wer/was ist im Bild zu sehen | „Eine junge Frau mit wallendem kastanienbraunem Haar in einem anthrazitfarbenen Wollmantel“ | | Handlung | Was passiert, was bewegt sich | „geht langsam durch den fallenden Schnee, ihr Atem ist in der kalten Luft sichtbar“ | | Stil | Visuelle Ästhetik und emotionaler Ton | „melancholisch, gedämpfte Erdtöne, Indie-Film-Ästhetik“ | | Kamera | Bildkomposition und Bewegung | „Mittlere Kamerafahrt von der Seite, langsame Dollyfahrt“ | | Beleuchtung | Lichtquelle, Textur, Richtung | „Bewölktes Winterlicht, weiche, diffuse Schatten, kühle Blautöne“ | | Qualität | Technische Spezifikationen | „8K, geringe Schärfentiefe, anamorphotisches Objektiv, Filmkorn“ |

Nicht jede Eingabeaufforderung muss alle sechs Elemente enthalten, aber je mehr Sie abdecken, desto größer ist Ihre Kontrolle über die generierte Ausgabe. Im Folgenden veranschaulichen zehn reale Szenarien die praktische Wirksamkeit dieser Methodik.


Aufforderung Nr. 1: Filmische Porträts – „Fotografien, die zum Leben erweckt werden“

Einstellung

Ein filmisches Porträt, als wäre es aus einem preisgekrönten Film entnommen. Das Motiv posiert nicht – sie lebt den Moment. Der Wind zerzaust ihr Haar, ihr Gesichtsausdruck hat eine gewisse Schwere, und das Licht modelliert ihre Gesichtszüge wie in einem Gemälde der Renaissance.

V1 – Erste Versuche

A woman looking at camera

Das ist es, was die meisten Anfänger eingeben. Das Ergebnis ist ein langweiliges, passfotoähnliches Frontalporträt: neutraler Gesichtsausdruck, Standardbeleuchtung, völlig ohne jegliches Gefühl für Umgebung oder Erzählung. Die KI erhält keine Informationen über Emotionen, Szenen oder visuellen Stil, sodass Sie lediglich eine zufällige Ausgabe erhalten.

V2 – Weitere Details

A woman with dark curly hair looks directly at the camera with a slight
smile. Wind blows her hair across her face. She stands in a golden wheat
field at sunset. Warm light on her skin.

Es wurden bedeutende Fortschritte erzielt. Die Szene (Weizenfeld), die Zeit (Sonnenuntergang), die physische Interaktion (Wind, der das Haar zerzaust) und der Ausdruck (Lächeln) sind nun vorhanden. Allerdings fehlen noch spezifische Kameraparameter, die genaue Lichtrichtung und Bildqualitätsmodifikatoren.

V3 – Endgültige Fassung

Cinematic close-up portrait of a woman in her late 20s with dark curly
hair and deep brown eyes. She gazes directly into the camera with quiet
intensity, lips slightly parted. A warm breeze lifts strands of hair
across her face. She stands in a vast golden wheat field stretching to
the horizon. Golden hour backlighting creates a luminous halo around her
hair and shoulders. Warm amber fill light from a reflector below. Slow,
subtle dolly in. Shallow depth of field, f/1.4, 85mm lens. Gentle lens
flare from the low sun. Film grain, anamorphic bokeh. Ultra-realistic
cinematic 4K quality.
Dreistufiger iterativer Vergleich von Filmporträt-Prompts: Entwicklung von der Ausgangsbasis zu optimierten Effekten

Der iterative Prozess von V1 bis V3: Das gleiche Konzept entwickelte sich von einem gewöhnlichen Porträt zu einem Porträt in Kinoqualität mit Beleuchtung, Kamerabewegung und atmosphärischer Tiefe.

Warum diese Aufforderung wirksam ist

  • 85-mm-Objektiv + Blende f/1,4 sorgen für eine KI-generierte komprimierte Perspektive und eine cremige Hintergrundunschärfe – die charakteristische Textur professioneller Porträtfotografie.
  • Gegenlicht + bernsteinfarbenes Fülllicht erzeugen dreidimensionale Beleuchtungsebenen. Das Gegenlicht hebt das Motiv vom Hintergrund ab, während das Fülllicht verhindert, dass das Gesicht zu einer Silhouette wird.
  • Langsame Kamerafahrt sorgt für eine subtile Bewegung, ohne vom Motiv abzulenken, und erzeugt das Gefühl, vom Bild angezogen zu werden.
  • „Ruhige Intensität, leicht geöffnete Lippen” gibt der KI ein emotionales Ziel vor, anstatt nur eine physische Beschreibung zu liefern.

Varianten

Variante A – Stadtporträts in der regnerischen Nacht:

Cinematic close-up of a man in his 30s with a shaved head and stubble,
standing still on a rain-soaked city street at night. Rain streams down
his face. He stares into the distance with exhausted resolve. Neon signs
reflect pink and blue on the wet pavement behind him. Shallow depth of
field. Slow push-in. Anamorphic lens flares. Cool blue tones with warm
neon accents. Ultra-realistic 4K, film grain.

Variante B – Porträt eines alten Mannes im Schnee:

Tight close-up of an elderly woman with silver hair and deep laugh lines,
eyes glistening with emotion. She stands outdoors in gently falling snow.
Snowflakes settle on her dark wool shawl. Overcast soft light. A single
warm tear traces down her weathered cheek. Extremely shallow depth of
field. Static camera, no movement. 85mm lens. Muted, desaturated color
palette. Cinematic 4K, photorealistic.

Aufforderung Nr. 2: Produktpräsentation – „Der schwebende Luxus“

Einstellung

Eine Flasche Premium-Parfüm, präsentiert wie ein Schmuckstück – schwebend, sich drehend, das Licht einfangend. Für solche Aufnahmen mussten Marken traditionell Zehntausende von Pfund für die Anmietung professioneller Studios ausgeben. Mit der richtigen Eingabe kann KI in Sekundenschnelle Produktvideos in kommerzieller Qualität erstellen. Egal, ob Sie E-Commerce-Verkäufer oder Markeninhaber sind, diese Bilder erzielen außergewöhnlich hohe Konversionsraten auf TikTok und Xiaohongshu.

V1 – Erste Versuche

A perfume bottle on a table

Ergebnis: Eine Flasche unauffälliges Parfüm steht auf einem beliebigen Tisch. Kein Drama, keine Anziehungskraft, kein Kaufimpuls. Wenn man der KI eine mittelmäßige Anweisung gibt, kann sie nur ein mittelmäßiges Bild liefern.

V2 – Weitere Details

A luxury glass perfume bottle with gold accents floating in mid-air against
a dark background. Soft light reflects off the glass surface. The bottle
slowly rotates. Professional product photography style.

Deutliche Fortschritte. Zu den Merkmalen gehören Levitationseffekte, Kontrast zu einem dunklen Hintergrund, Lichtreflexionen und stilistische Referenzen. Durch präzise Beleuchtungsarrangements, atmosphärische Elemente und Kamerabewegungen sind jedoch weitere Verbesserungen möglich.

V3 – Endgültige Version

A luxury crystal perfume bottle with faceted edges and a gold cap floats
weightlessly in a void of deep matte black. The bottle rotates slowly on
its vertical axis, completing a quarter turn. Razor-sharp caustic light
refractions dance across the glass surface. Two opposing strip lights --
one warm amber, one cool white -- create dramatic dual-tone reflections on
the faceted crystal. Tiny golden particles drift lazily through the air
around the bottle. A single droplet of amber liquid clings to the bottle's
shoulder, catching the light. Smooth orbiting camera movement. Extreme
product close-up. 8K commercial quality, ultra-sharp focus throughout,
professional studio lighting.
Produktpräsentation: Vergleich dreistufiger Iterationen Entwicklung der Rendering-Qualität von Parfümflakons von der Basis- bis zur kommerziellen Qualität

V1 bis V3: Eine Flasche Parfüm verwandelt sich von einem gewöhnlichen Tischfoto in ein Produktdisplay in Werbequalität mit professioneller Beleuchtung und stimmungsvollen Details.

Warum diese Aufforderung wirksam ist

  • Der rein schwarze Hintergrund in „Mattschwarz“ eliminiert alle Ablenkungen und lenkt die Aufmerksamkeit auf das Produkt. Dies ist gängige Praxis in der Luxusfotografie.
  • Zwei Lichtstreifen (warmes Bernstein + kühles Weiß) erzeugen mehrfarbige Reflexionen, die Glaswaren einen Hauch von Eleganz verleihen. Eine einzige Lichtquelle würde das fertige Produkt billig und flach erscheinen lassen.
  • „Kaustische Lichtbrechungen” ist ein Fachbegriff, den KI-Modelle gut verstehen. Er löst komplexe Lichtmuster aus, die von transparenten Objekten erzeugt werden.
  • Goldene Partikel verleihen der Umgebung Tiefe, ohne mit dem Produkt um Aufmerksamkeit zu konkurrieren.

Varianten

Variante A – Einführung eines Technologieprodukts:

A matte black wireless earbud case floats against a gradient of deep
navy to black. The case slowly opens, revealing pearl-white earbuds inside.
Volumetric blue light emanates from within the case. Tiny light particles
drift upward. Orbiting camera. Edge-lit rim lighting in electric blue.
Ultra-clean, Apple-style product aesthetic. 8K, ultra-sharp.

Variante B – Werbung für Kosmetikprodukte:

A rose-gold lipstick tube rotates slowly against soft pink studio
backdrop. The cap twists off and separates, floating beside the tube.
Creamy lipstick bullet catches soft ring light. Rose petals in soft focus
drift across the foreground. Smooth macro close-up. Beauty commercial
lighting with soft key and gentle fill. Ultra-realistic 4K.

Aufforderung Nr. 3: Natur-Epos – „Atmosphärische Luftaufnahmen“

Einstellung

Eine atemberaubend epische Landschaftsaufnahme – wie man sie in den Eröffnungssequenzen von Naturdokumentationen oder Filmen im Stil von „Der Herr der Ringe“ erwarten würde. Im Mittelpunkt solcher Bilder stehen ein Gefühl für Größe, atmosphärische Tiefe und schiere Erhabenheit. Als Eröffnung für Landschaftsvideos auf Bilibili oder Douyin sorgt sie für eine immense visuelle Wirkung.

V1 – Erste Versuche

Mountains with clouds

Sie erhalten Berge. Sie erhalten Wolken. Sie erhalten keine Ehrfurcht. Der KI fehlt jegliche Orientierung in Bezug auf Zeit, Wetterdynamik, Größengefühl, Bildausschnitt oder Stimmung, was zu einem standardmäßigen Desktop-Hintergrundbild führt.

V2 – Weitere Details

Dramatic mountain range at sunrise with clouds flowing through the valleys.
Golden light hits the peaks. Aerial drone shot slowly moving forward.
Mist and fog in the valleys below. Epic landscape photography.

Deutlich verbessert. Mit Zeitangabe (Sonnenaufgang), Lichtrichtung, atmosphärischen Effekten, Kamerabewegung und stilistischen Referenzen. Um jedoch eine wirklich kinoreife Qualität zu erreichen, sind noch spezifische geografische Referenzen, dynamische Wetterbedingungen und Schlüsselwörter für die visuelle Wiedergabetreue auf Produktionsniveau erforderlich.

V3 – Endgültige Fassung

Epic aerial establishing shot of a jagged snow-capped mountain range
resembling the Dolomites at dawn. The camera drifts slowly forward over
a sea of low-lying clouds that fill the valleys like white rivers.
Golden-pink alpenglow illuminates the highest peaks while the valleys
remain in cool blue shadow. Wisps of cloud catch on rocky spires and
trail into the wind. A single eagle soars far below the camera, its
wings outstretched against the cloud sea. Volumetric god rays break
through a gap between two peaks. Slow, majestic forward dolly. IMAX
quality, ultra-wide 21:9 aspect ratio, photorealistic, extreme detail
in rock textures and snow patterns. 8K resolution.
Dreistufiger iterativer Vergleich von Naturlandschaften: Gebirgszüge von grundlegender bis zu IMAX-tauglicher Bildqualität

V1 bis V3: Gewöhnliche Bergpanoramen verwandeln sich in IMAX-taugliche Einstellungsaufnahmen mit volumetrischer Beleuchtung, fließenden Wolken und einem Gefühl monumentaler Größe.

Warum diese Aufforderung wirksam ist

  • „Ähnlich wie die Dolomiten“ gibt der KI einen konkreten geografischen Bezugspunkt. Die reale Topografie liefert kohärentere geologische Strukturen als abstrakte „Berge“.
  • „Alpenglühen“ bezeichnet ein bestimmtes Lichtphänomen, bei dem Berggipfel vor Sonnenaufgang in warmem Rosa leuchten. Die Trainingsdaten der KI umfassen umfangreiche Naturfotografien, sodass sie diesen Begriff verstehen kann.
  • Ein Adler dient als lebende Größenreferenz. Ohne ihn könnte die Szene wie ein Miniaturmodell wirken. Ein Vogel, der in einer weiten Landschaft schwebt, vermittelt ein Gefühl von „Unermesslichkeit“.
  • „Gottesstrahlen, die durch eine Lücke brechen“ schaffen einen visuellen Blickpunkt innerhalb der Komposition und lenken den Blick des Betrachters.

Varianten

Variante A – Sturm im Anzug:

Dramatic time-lapse-style shot of a vast Icelandic black sand desert.
Towering cumulonimbus storm clouds roll in from the horizon, their bases
dark and heavy with rain. Lightning flickers within the cloud mass.
A solitary volcanic peak stands defiant in the middle distance. The light
shifts from warm gold to ominous green-grey as the storm advances.
Wide-angle static camera. 4K cinematic, photorealistic.

Variante B – Tropische Ruhe:

Aerial overhead shot drifting slowly over a turquoise tropical lagoon.
Crystal-clear water reveals coral reefs and white sand below. A small
wooden boat with a red sail drifts lazily across the lagoon. Palm trees
line the crescent beach. Gentle ripples catch sunlight and create dancing
caustic patterns on the seabed. Golden afternoon light. Smooth, dreamlike
camera movement. 4K ultra-realistic, vivid but natural colors.

Aufforderung Nr. 4: Urbane Straßenszenen – „Der Puls der Stadt“

Einstellung

Eine pulsierende Stadtstraße bei Nacht. Regen, Neonlichter, Reflexionen auf dem Boden und die Bewegungen der Passanten verschmelzen zu einem eindringlichen Erlebnis, als stünde man um zwei Uhr morgens an einer Straßenecke. Solche Szenen sind in der Kategorie „Urban Stroll“ (Stadtbummel) auf Douyin und Bilibili äußerst beliebt.

V1 – Erste Versuche

A city street at night

Ergebnis: Eine verschwommene Ansammlung dunkler Gebäude, vielleicht mit ein paar Lichtern. Keine Atmosphäre, keine Erzählung, keine visuelle Besonderheit. „Stadtnachtlandschaft“ könnte eine ruhige Vorstadtstraße oder der Times Square sein – die KI ist völlig unfähig, dies zu unterscheiden.

V2 – Weitere Details

A rainy city street at night with neon signs reflecting on the wet
pavement. People walk with umbrellas. A taxi passes through a puddle,
splashing water. Colorful lights everywhere. Cinematic look.

Mit Wetter, Reflexionen, Charakteraktivitäten und Fahrzeugen beginnt die Szene zum Leben zu erwachen. Um jedoch wirklich zu glänzen, müssen ein bestimmter ästhetischer Stil, das Verhalten der Kamera und die Beleuchtungshierarchie festgelegt werden.

V3 – Endgültige Fassung

A rain-soaked Tokyo side street at night. The narrow road glistens with
reflections of dozens of vertical neon signs in Japanese characters --
hot pink, electric blue, acid green. A lone figure in a black trench coat
walks away from the camera, their silhouette dark against the neon glow.
Steam rises from a ramen shop's exhaust vent on the left. A bicycle
leans against a vending machine glowing soft white. Rain falls steadily,
each drop catching neon color as it descends. Slow tracking shot following
the figure from behind. Shallow depth of field: the figure is sharp, the
distant neon blurs into bokeh circles. Wet pavement acts as a mirror,
doubling every light source. Anamorphic lens flares. Blade Runner meets
Lost in Translation atmosphere. 4K cinematic, film grain, moody cool
blue-purple color grade.
Städtische Straßenszenen Aufforderung: Vergleich dreistufiger Iterationen Von einfachen Nachtlandschaften zu filmreifen Neonregen-Nächten

V1 bis V3: Die verschwommene Nachtszene verwandelt sich in eine neonbeleuchtete Regenszene mit sorgfältiger Komposition, dynamischen Wettereffekten und filmischen Anspielungen.

Warum diese Aufforderung wirksam ist

  • „Tokyo side street“ verankert die KI in einem bestimmten visuellen Vokabular: enge Gassen, dicht gedrängte vertikale Beschilderung, Verkaufsautomaten. Dem Oberbegriff „Stadt“ fehlt diese Kohärenz.
  • „Einsame Gestalt in schwarzem Trenchcoat geht davon“ bietet einen narrativen Schwerpunkt und eine Flugbahn für Kamerafahrten.
  • „Nasser Asphalt wirkt wie ein Spiegel“ weist die KI ausdrücklich an, einen Reflexion-Multiplikationseffekt zu erzeugen – das visuell wirkungsvollste Element in der Kinematografie einer regnerischen Nacht.
  • Filmreferenzen (Blade Runner + Lost in Translation) geben der KI ein präzises ästhetisches Ziel vor, das weitaus effektiver ist als die vage Anweisung „filmisch“.

Varianten

Variante A – Marktstraße tagsüber:

Bustling narrow market street in Marrakech at midday. Colorful fabric
awnings in saffron, cobalt, and crimson create dappled shade patterns on
the ground. Merchants arrange pyramids of spices in copper bowls. Dust
motes float in shafts of sunlight. A cat sits atop a stack of woven
rugs. Steady handheld camera walking slowly through the market. Warm,
saturated color palette. Documentary-style 4K, natural lighting.

Variante B – Zukunftsmetropole:

A massive elevated highway cuts through a futuristic megalopolis at dusk.
Flying vehicles stream along neon-lit lanes above and below. Holographic
advertisements flicker on the sides of impossibly tall buildings.
A distant megastructure disappears into clouds. Rain falls sideways in
the wind. Low-angle wide shot from a pedestrian bridge. Teal and orange
color palette. Cyberpunk 2077 aesthetic. 4K ultra-detailed.

Aufforderung Nr. 5: Anime und Fantasy – „Der letzte Kampf des Samurai“

Einstellung

Ein Samurai im Anime-Stil steht entschlossen vor einer aussichtslosen Schlacht. Kirschblütenblätter, Energieeffekte und ein dramatischer Himmel verbinden sich zu einer Szene, die einem Keyframe aus einem hochkarätigen Animationsfilm gleicht. Für Leser, die häufig Anime auf Bilibili schauen, haben solche Bilder eine tiefe Bedeutung.

V1 – Erste Versuche

An anime character with a sword

Ergebnis: Eine steife, generische Figur, die ein Messer hält. Keine dynamische Pose, keine Umgebung, keine stilistische Definition. „Anime“ ist eine breite Kategorie, die Dutzende von Unterstilen umfasst; KI gibt standardmäßig nur den gängigsten Stil aus.

V2 – Weitere Details

A female anime warrior in ornate samurai armor stands on a cliff edge
holding a glowing katana. Cherry blossoms fall around her. A dramatic
sunset sky behind her. Detailed anime art style with clean line work.

Es wurden bedeutende Fortschritte erzielt. Spezifische Details für Rüstungen und Waffen (einschließlich Beleuchtung), Umgebungselemente (Kirschblüten, Klippen) und den Himmel wurden festgelegt. Allerdings sind weitere Verfeinerungen in Bezug auf visuelle Effekte, die genaue Festlegung des Kunststils und die Einbindung von Bewegung erforderlich.

V3 – Endgültige Fassung

A fierce female samurai warrior stands at the edge of a shattered cliff
overlooking a burning battlefield far below. She wears battle-worn
crimson and black lacquered armor with gold filigree, one shoulder plate
cracked. Her long white hair whips violently in a supernatural wind.
She grips a katana that radiates crackling blue-white energy along its
blade. Cherry blossom petals swirl upward in a vortex around her. The
sky is a dramatic gradient from blood-red at the horizon through deep
violet to black overhead. Lightning forks across the clouds. The camera
slowly orbits around her in a dramatic reveal. High-detail cel-shaded
anime style with dynamic ink-line edges. Ufotable studio quality.
Vibrant color palette. 4K ultra-detailed.
Dreistufiger iterativer Vergleich von Anime-Charakter-Prompts: von grundlegenden bis hin zu studienbasierten Animationsgrafiken

V1 bis V3: Gewöhnliche Anime-Charaktere wurden in Keyframes in Studioqualität verwandelt, die übernatürliche Effekte, umgebungsbezogene Erzählungen und kinoreife Kameraführung bieten.

Warum diese Aufforderung wirksam ist

  • „Ufotable-Studioqualität“ bezieht sich auf das Animationsstudio, das für seine visuellen Effekte bekannt ist (Demon Slayer, Fate-Reihe). Das KI-Modell versteht die unverwechselbare Ästhetik des Studios.
  • Details zu Kampfspuren („eine Schulterplatte ist gesprungen“) verstärken die narrative Tiefe. Dieser Krieger hat Kämpfe erlebt und erzählt eine Geschichte ohne Dialoge.
  • „Kirschblütenblätter wirbeln in einem Strudel nach oben“ gibt eine eindeutige Bewegungsrichtung vor. „Fallende Kirschblüten“ sind ein statisches Klischee, während der Aufwärtswirbel auf übernatürliche Kräfte hindeutet.
  • „Knisternde blau-weiße Energie entlang der Klinge“ führt dynamische Lichteffekte ein – ein entscheidendes Element, das die Anime-Szene von einer Illustration zu einer Animation erhebt.

Varianten

Variante A – Dunkler Fantasy-Magier:

A hooded dark elf sorcerer floats cross-legged above a stone altar in
an ancient underground temple. Runes carved into the floor pulse with
deep emerald light. Dozens of ancient tomes orbit slowly around the
sorcerer, their pages fluttering. Dark energy coils from the sorcerer's
outstretched hands like living smoke. Candlelight flickers on obsidian
walls. Slow push-in camera. Dark Souls meets Studio Ghibli aesthetic.
Painterly digital art style. 4K ultra-detailed.

Variante B – Mech-Pilot:

Dramatic low-angle shot of a massive humanoid mech standing in a
destroyed cityscape. Rain pours down its scarred titanium armor. The
cockpit glows warm amber. One hand grips a massive energy cannon, still
smoking from a recent shot. Sparks shower from a damaged joint. The
pilot is visible as a small silhouette through the cockpit glass.
Lightning illuminates the scene. Gundam-inspired mecha design.
Cel-shaded anime with hyper-detailed mechanical rendering. 4K.

Aufforderung Nr. 6: Kulinarische Nahaufnahme – „Der perfekte Ausschank“

Einstellung

Eine Nahaufnahme von Kaffee, der eingegossen wird, so lebendig, dass man sein Aroma fast durch den Bildschirm riechen kann. Jede Lebensmittelwerbung setzt auf solche Aufnahmen: langsam fließende Flüssigkeit, aufsteigender Dampf, warme Farbtöne, die den Appetit anregen. Bei professionellen Produktionen erfordern solche Aufnahmen spezielle Vorrichtungen und Makroobjektive. Mit KI müssen Sie es nur beschreiben. Perfekt für die Inhalte von Food-Bloggern auf Plattformen wie Xiaohongshu und Douyin.

V1 – Erste Versuche

Coffee being poured

Ergebnis: Braune Flüssigkeit in eine Tasse gegossen. Keine sensorischen Schichten, keine Anziehungskraft, keine Nahaufnahmen, kein Dampf. Die KI behandelte dies eher als eine funktionale Handlung denn als ein sensorisches Erlebnis.

V2 – Weitere Details

A close-up of rich dark coffee being poured from a ceramic pitcher into
a white cup. Steam rises from the cup. Warm morning light from a window
illuminates the scene. Cozy kitchen background. Slow motion pour.

Nahaufnahmen, bestimmte Gefäße, Dampf, gerichtete Beleuchtung und Zeitlupe tragen zu einer verlockenden Optik bei. Um jedoch eine Qualität zu erreichen, die den Anforderungen der Lebensmittelwerbung entspricht, sind Details auf Makroebene und eine präzise Kontrolle über Textur, Lichtinteraktion und Bewegungsdynamik erforderlich.

V3 – Endgültige Fassung

Extreme macro close-up of dark espresso being poured in slow motion from
a brushed copper Turkish coffee pot into a handmade ceramic cup with a
crackle-glaze finish. The liquid cascades in a thick, syrupy ribbon,
creating a swirling crema pattern as it hits the surface. Delicate
wisps of steam curl and dance upward, backlit by warm golden morning
light streaming through a frosted window to the right. Individual micro-
bubbles form and pop on the crema surface. A cinnamon stick and star
anise rest on the saucer beside the cup. Shallow depth of field with the
pour in razor-sharp focus and the background melting into warm bokeh.
The camera slowly drifts downward to follow the pour. Food commercial
cinematography. Warm amber-brown color grade. 8K ultra-realistic,
appetizing, sensory.
Food Close-Up Prompt: Dreistufiger Iterationsvergleich – Kaffee einschenken von einfacher bis werbewirksamer Bildqualität

V1 bis V3: Gewöhnliche Kaffee-Pour-overs verwandeln sich in Makroaufnahmen in Lebensmittelwerbequalität mit dynamischer Dampfentwicklung, komplexen Crema-Mustern und verführerischen Lichteffekten.

Warum diese Aufforderung wirksam ist

  • „Sirupartiges Band“ beschreibt eine bestimmte viskose Textur, die ein Gefühl von Qualität vermittelt. Dünne, wässrige Ströme wirken billig, während dicke, kontrollierte Ströme Luxus vermitteln.
  • „Mikrobläschen bilden sich und platzen auf der Crema“ lenkt die KI auf Oberflächendetails, die nur in der Makrofotografie von Lebensmitteln sichtbar sind. Diese Granularität steht für professionelle Handwerkskunst.
  • Hintergrundbeleuchteter Dampf ist die „verführerischste“ visuelle Technik in der Lebensmittelfotografie. Dampf wird nur bei Gegenlicht sichtbar; durch die ausdrückliche Erwähnung dieser Tatsache wird sichergestellt, dass die KI die Lichtquellen korrekt positioniert.
  • Requisiten (Zimtstangen, Sternanis) fügen einen sensorischen Kontext hinzu, sodass die Betrachter die Szene fast riechen können.

Varianten

Variante A – Schokoladenwasserfall:

Extreme slow motion close-up of liquid dark chocolate pouring over a
stack of fresh strawberries on a marble slab. The chocolate flows in
thick rivulets over the red fruit, glistening under warm studio
spotlights. A dusting of gold leaf catches the light. Chocolate drips
from the edge of the marble in slow motion. Macro lens, razor-sharp
focus on the pour point. Dark moody background. Luxury food commercial
quality. 4K ultra-realistic.

Variante B – Craft Beer:

Close-up of an amber craft beer being poured into a tulip glass at a
45-degree angle. Golden liquid flows down the inside of the glass,
building a creamy white head of foam. Tiny bubbles stream upward through
the beer. Warm backlight makes the liquid glow like amber. Condensation
forms on the outside of the cold glass. A wooden bar surface with
scattered hops visible in soft focus. Slow motion. 4K commercial quality.

Aufforderung Nr. 7: Mode und Schönheit – „Runway Moments“

Einstellung

Ein modischer Moment – fließende Stoffe, skulpturale Beleuchtung und ein beeindruckendes Gefühl von Opulenz. Dies ist kein zufälliger Schnappschuss, sondern eine Absichtserklärung. Ob für modeorientierte Inhalte auf Xiaohongshu oder Werbefilme für Marken – solche Bilder ziehen sofort die Aufmerksamkeit auf sich.

V1 – Erste Versuche

A model walking

Eine Person geht. Es gibt keine Details zur Kleidung, keine Kulisse, keine stimmungsvolle Beleuchtung, keine filmische Qualität. Die KI-Ausgabe zeigt einen gewöhnlichen Fußgänger (im wörtlichen Sinne), der keinerlei Sinn für Mode hat.

V2 – Weitere Details

A tall female model walks down a minimalist white runway in a flowing
red silk gown. The dress moves dramatically with each step. Bright
fashion show lighting from above. Audience blurred in the background.
Editorial photography style.

Mit den Kleidungsstücken, der Kulisse, der Stoffbewegung und der Beleuchtungsrichtung lässt sich eine erkennbare Laufstegszene erstellen. Um jedoch Kinoqualität zu erreichen, sind auch Stoffphysik-Effekte, präzise Beleuchtungstechniken und filmreife Kameraführung erforderlich.

V3 – Endgültige Fassung

A statuesque model strides confidently down a stark white runway in a
floor-length haute couture gown of flowing crimson organza layered over
structured black satin. The sheer fabric billows dramatically behind
her like a wave, catching air with each powerful step. Her expression
is fierce and unwavering. A sharp wind machine effect lifts the fabric
into a sculptural shape to her left. Overhead fashion spotlights create
hard, defined shadows on the runway floor. Rim lighting from behind
outlines her silhouette in white. The front row audience is a blurred
mosaic of camera flashes. Low-angle tracking shot from runway level,
moving with her pace. Shallow depth of field. Vogue editorial style.
Alexander McQueen show energy. 4K cinematic, crisp detail on fabric
textures, high-fashion color grading with deep blacks and saturated
red.
Dreistufige Entwicklung der Mode-Laufsteg-Prompts: vom einfachen Catwalk zu den redaktionellen Standards der Haute Couture

V1 bis V3: Gewöhnliches Gehen verwandelt sich in Haute-Couture-Momente mit skulpturalen Stoffen, dramatischer Beleuchtung und handwerklichem Können auf Laufstegniveau.

Warum diese Aufforderung wirksam ist

  • „Karmesinrote Organza über strukturiertem schwarzem Satin“ präsentiert der KI zwei kontrastierende Stoffe: durchscheinend und fließend gegenüber steif und dunkel. Dieser Kontrast sorgt für visuelle Komplexität.
  • „Windmaschinen-Effekt“ ist ein Begriff, der das KI-Modell mit der Modefotografie in Verbindung bringt und den charakteristischen Effekt von wehenden Stoffen auslöst.
  • „Low-Angle-Tracking-Shot aus Laufsteghöhe“ positioniert die Kamera auf der Höhe eines echten Modefotografen und verleiht dem Model ein Gefühl von Kraft und Präsenz.
  • „Alexander McQueen Show Energy” bezieht sich auf das Designhaus, das für seine dramatischen, beeindruckenden Laufstegpräsentationen bekannt ist, und liefert der KI einen emotionalen und ästhetischen Maßstab.

Varianten

Variante A – Streetstyle-Shooting:

A woman in an oversized camel cashmere coat, vintage denim, and white
sneakers walks along a cobblestone Parisian street in autumn. Fallen
leaves blow past her feet. She adjusts round sunglasses with one hand.
The camera tracks alongside her at walking speed. Soft, overcast Parisian
light. Muted earth-tone color palette. The Row meets Celine aesthetic.
Natural, effortless, editorial. 4K, film grain, shallow depth of field.

Variante B – Beauty Close-Up:

Extreme close-up beauty shot of a model's face with flawless dewy skin,
bold graphic black eyeliner, and glossy burgundy lips. She slowly turns
her head from profile to three-quarter view. Light catches the highlight
on her cheekbone. Her expression shifts from serene to subtly powerful.
Ring light reflected in her eyes. Clean white background. Beauty
editorial lighting with soft key and sharp catch light. 4K ultra-sharp,
skin texture visible.

Aufforderung Nr. 8: Action und Sport – „Standbilder“

Einstellung

Der Höhepunkt sportlicher Höchstleistungen, präsentiert mit der Wirkung einer Super-Bowl-Übertragung. Dieser Bruchteil einer Sekunde voller Schweiß, angespannter Muskeln und maximaler Kraftentfaltung. Sportfotografie erfordert perfektes Timing; Sportvideos lassen diesen Moment länger nachwirken.

V1 – Erste Versuche

A person playing basketball

Eine Figur dribbelt. Es gibt keine besonderen Aktionen, keine Höhepunkte, kein sportliches Drama. Die KI weiß nicht, ob sie einen Korbleger, Dribbling oder das Binden von Schnürsenkeln zeigen soll.

V2 – Weitere Details

A basketball player in mid-air going for a slam dunk. Sweat flies off
his body. Arena lights are bright. Crowd in the background cheering.
Dramatic angle. Slow motion.

Die KI umfasst nun spezifische Aktionen (Dunks), körperliche Details (Schweiß), Umgebungen (Sportarenen) und zeitliche Elemente (Zeitlupe). Sie kann erkennbare Sportmomente generieren. Um jedoch Standards in Sendequalität zu erreichen, sind präzise menschliche anatomische Details, Lichtdesign und Teilchenphysik erforderlich.

V3 – Endgültige Fassung

Ultra-dramatic slow motion capture of a muscular basketball player at
the apex of a powerful one-handed slam dunk. His body is fully extended,
arm reaching above the rim, fingers gripping the ball as it meets the
net. Every muscle fiber in his forearm is visible. Individual droplets of
sweat spray off his shaved head and outstretched arm, frozen in mid-air
and catching arena light like tiny prisms. The orange ball compresses
slightly against the backboard glass. Below, defenders look up
helplessly with blurred motion. Overhead arena lights create sharp
downward shadows and brilliant rim lighting on the player's shoulders.
The crowd is a bokeh wall of color and camera flashes. Low-angle shot
from below the basket looking up. Extreme slow motion, 1000fps feel.
8K ultra-sharp, hyper-realistic detail in skin texture, fabric wrinkles,
and sweat droplets. ESPN broadcast cinematic quality.
Dreistufiger iterativer Vergleich von Sportbewegungsaufforderungen: Basketball-Slam Dunk von grundlegenden bis zu broadcasttauglichen Visualisierungen

V1 bis V3: Gewöhnliche Basketballszenen werden in Standbilder in Sendequalität verwandelt, die mit Effekten wie Schweißpartikelphysik, anatomischen Details und Arena-Beleuchtungsdesign aufwarten.

Warum diese Aufforderung wirksam ist

  • „Der Höhepunkt eines kraftvollen einhändigen Slam Dunk“ fängt diesen Millisekunden-Moment maximaler visueller Spannung ein. Der Höhepunkt ist immer der Frame mit der größten Wirkung. – „Einzelne Schweißtropfen ... in der Luft eingefroren, die das Licht der Arena wie winzige Prismen einfangen“ gibt der KI ein konkretes Ziel für das Partikelverhalten vor. Diese mikroskopischen Details machen Zeitlupensequenzen authentischer.
  • „Niedriger Blickwinkel von unterhalb des Korbs nach oben“ ist der typische Übertragungswinkel für Dunks, der das Gefühl von Höhe und Kraft maximiert.
  • „1000 fps-Gefühl“ gibt der KI Anweisungen zum gewünschten Zeitlupentempo und bezieht sich dabei auf echte Hochgeschwindigkeitskamera-Parameter, die die KI mit bestimmten visuellen Merkmalen in Verbindung bringen kann.

Varianten

Variante A – Fußball-Schussmoment:

Extreme slow motion of a soccer striker's foot connecting with the ball
in a full-power volley shot. The boot compresses the ball's surface on
impact. Grass and mud spray upward from the follow-through. The
goalkeeper dives desperately in the background, fingers outstretched.
Side-angle shot at ground level. Rain falls in frozen droplets. Stadium
floodlights create god rays through the rain. 4K ultra-realistic,
hyper-detailed.

Variante B – Box-Auswirkung:

Ultra slow motion close-up of a boxer's right hook connecting with a
heavy bag. The leather surface of the bag deforms dramatically on impact,
creating a ripple wave across its surface. Sweat explodes outward from
the glove in a mist. The boxer's wrapped knuckles and taped wrist are
in razor-sharp focus. Gym environment with hard overhead fluorescent
lighting. Dust particles hang in the air. Low-angle. Gritty, raw
aesthetic. 4K cinematic.

Aufforderung Nr. 9: TuSheng-Video – „Fotos zum Leben erwecken“

Einstellung

Diese Eingabeaufforderung unterscheidet sich von den vorherigen acht. Es handelt sich nicht um die Umwandlung von Text in Video, sondern um Bild-zu-Video (I2V) – laden Sie ein vorhandenes Foto hoch und weisen Sie die KI an, welche Bewegung hinzugefügt werden soll. Dieser Arbeitsablauf erweist sich als außerordentlich leistungsstark, um Porträtfotos, Produktbilder und künstlerische Werke zum Leben zu erwecken. Die Herausforderung besteht darin, Anweisungen zu geben, die sowohl die Essenz des Originalbildes bewahren als auch natürlich wirkende Bewegungen einführen.

Den vollständigen Workflow für die Umwandlung von Bildern in Videos finden Sie in unserem ausführlichen Tutorial zur Umwandlung von Bildern in Videos.

V1 – Erste Versuche

Make the person move

Dies ist der häufigste Fehler bei generativen Videos. „Move“ ist keine Bewegungsanweisung. Die KI kann dazu führen, dass Charaktere schwanken, Gesichter verzerrt werden, Arme zufällig schwingen oder bizarre Ganzkörperbewegungen hinzugefügt werden. Mehrdeutige I2V-Eingabeaufforderungen führen zu unnatürlichen, unheimlichen Ergebnissen.

V2 – Weitere Details

The woman slowly turns her head to the right and smiles gently. Her hair
shifts naturally with the movement. Soft breeze moves the fabric of her
dress slightly.

Die KI umfasst nun bestimmte Bewegungen (Drehen des Kopfes), Richtungen (nach rechts), Veränderungen des Gesichtsausdrucks (Lächeln) und sekundäre Bewegungen (Haare, Stoff). Das Ergebnis wirkt deutlich natürlicher. Es könnte jedoch durch subtile atmosphärische Veränderungen, Kamerabewegungen und präzise Anpassungen der Bewegungsgeschwindigkeit noch weiter verfeinert werden.

V3 – Endgültige Fassung

The woman slowly turns her head from looking slightly left to gazing
directly into the camera. Her expression transitions from contemplative
to a warm, knowing smile. A gentle breeze lifts wisps of her hair across
her forehead. She subtly exhales, her shoulders relaxing slightly
downward. The fabric of her linen blouse ripples faintly at the collar.
Background leaves on a tree behind her sway gently with the breeze. Warm
afternoon light intensifies slightly as if a cloud has passed, deepening
the golden tones on her skin. Very slow, almost imperceptible dolly in.
Natural, lifelike motion -- no exaggerated movement. Maintain the
photographic quality of the original image. Smooth 24fps.
Dreistufiger iterativer Vergleich von TuSheng Video-Anweisungen: Dynamische Effekte für Porträtfotos von einfach bis natürlich

V1 bis V3: „make the person move” erzeugt unnatürliche Artefakte, während die fein abgestimmte I2V-Eingabeaufforderung durch spezifische, nuancierte Bewegungsanweisungen natürliche, fotorealistische Videos aus statischen Fotos generiert.

Warum diese Aufforderung wirksam ist

  • Definierte Bewegungsrichtung (vom Blick leicht nach links bis zum direkten Blick in die Kamera) vermeidet zufällige Bewegungen. Die KI erkennt sowohl den Anfangs- als auch den Endzustand.
  • Mehrstufige Bewegung: Drehen des Kopfes (große Stufe), Lächeln (mittlere Stufe), Haarschwingen (kleine Stufe), Flattern des Hemdkragens (Mikrostufe), Rascheln der Blätter im Hintergrund (Umgebungsstufe). Die Überlagerung mehrerer Bewegungsskalen schafft Natürlichkeit.
  • „Als ob eine Wolke vorbeigezogen wäre” gibt der KI die Erlaubnis, die Beleuchtung subtil anzupassen und so Lebendigkeit zu verleihen, ohne den etablierten visuellen Ton des Originalbildes zu verändern.
  • „Keine übertriebenen Bewegungen” ist für I2V von größter Bedeutung. Ohne diese Einschränkung neigen KI-Modelle zu übertriebenen Animationen, was zu einem Uncanny-Valley-Effekt führt. Zurückhaltung ist der Grundstein für überzeugendes I2V.

Varianten

Variante A – Landschaftsfotos, die in Videos umgewandelt wurden:

Clouds drift slowly from left to right across the sky. Water in the lake
ripples gently with a breeze. Grass in the foreground sways. A flock of
birds crosses the distant sky. The light subtly shifts as if time is
passing -- a slow golden hour transition. Very slow, meditative motion.
Maintain the photographic color grade and sharpness of the original.

Variante B – Produktbild zu Video:

The watch face catches a moving light source that slowly sweeps from
left to right, creating a traveling highlight across the polished metal
bezel and glass face. The second hand ticks smoothly. Subtle reflections
shift on the brushed steel bracelet links. Background remains perfectly
still. Macro-level detail preserved. Smooth, professional product
motion.

Aufforderung Nr. 10: Markenbildung und Marketing – „Fernsehwerbung in Kinoqualität“

Einstellung

Eine Luxusmarkenwerbung, die in einer einzigen Einstellung eine Mikrogeschichte erzählt. Dies ist nicht nur ein Produktvideo, sondern ein Lifestyle-Manifest. Die Uhr, ihr Träger, dieser Moment, die Welt, in der er lebt – all dies vermittelt gleichzeitig die Werte der Marke. Eine ausführliche Anleitung zur Verwendung von KI-Videos für E-Commerce und Produktmarketing finden Sie in unserem E-Commerce-Produktvideo-Tutorial.

V1 – Erste Versuche

A luxury watch advertisement

Ergebnis: Eine Uhr, die vor einem weißen Hintergrund schwebt oder flach auf einem Tisch liegt. Kein Kontext, kein Anspruch, keine Geschichte. Das ist ein Bild aus einem Produktkatalog, kein Werbefilm.

V2 – Weitere Details

A man wearing a luxury silver watch leans against a yacht railing at
sunset. The camera focuses on the watch on his wrist. Ocean in the
background. Warm golden light. Premium feel. Commercial style.

Mit Kontext (Yacht), Lifestyle (Luxus), Fokuspunkt (Armbanduhr) und Zeit (Sonnenuntergang) lassen sich eindrucksvolle Bilder schaffen. Doch für Werbung in höchster Qualität sind präzises Storytelling, choreografierte Bewegungen und Details auf Produktionsniveau erforderlich.

V3 – Endgültige Fassung

A distinguished man in his 40s in a perfectly tailored navy linen suit
stands at the polished teak railing of a luxury sailing yacht at golden
hour. He gazes at the horizon with quiet confidence. The camera starts
as a wide establishing shot showing the yacht slicing through
crystalline Mediterranean water, then slowly pushes in to a medium
close-up, finally settling on an extreme close-up of the brushed
titanium dive watch on his left wrist. The watch face reflects the
orange-gold sky. His fingers tap once on the railing -- the watch catches
the light. Sea spray glitters in the air behind him, backlit by the low
sun. The yacht's white sails billow softly overhead. Wind ruffles his
hair and the lapels of his jacket. Warm amber key light from the setting
sun. Cool blue fill light from the reflected ocean. Cinematic
commercial quality. Omega or Rolex brand film aesthetic. Anamorphic
lens, shallow depth of field transitioning with the push-in. 4K,
ultra-premium production value.
Dreistufiger iterativer Vergleich von Markenwerbung: Luxusuhrenwerbung, die sich von einer grundlegenden zu einer TVC-ähnlichen Produktionsqualität entwickelt

V1 bis V3: Die generische „Luxusuhrenwerbung“ entwickelte sich zu einem Markenfilm mit narrativen Kamerabewegungen, Lifestyle-Kontexten und erstklassiger Produktionsqualität.

Warum diese Aufforderung wirksam ist

  • Der narrative Verlauf der Aufnahme (Weitwinkel → Mittelaufnahme → Nahaufnahme) schafft eine narrative Struktur innerhalb eines einzigen Bildes. Zunächst wird die Kulisse etabliert, dann wird der Fokus auf das Motiv gelegt und schließlich auf das Produkt gerichtet. Dies entspricht dem üblichen Erzählbogen für Werbung für Luxusgüter.
  • „Die Finger tippen einmal auf das Geländer“ ist eine subtile, aber bewusste Handlung der Figur, die den Blick des Zuschauers auf natürliche Weise auf die Uhr lenkt, ohne dass das Handgelenk explizit gezeigt werden muss.
  • Doppelte Beleuchtung (bernsteinfarbenes Hauptlicht + blaues Fülllicht) simuliert die authentische Beleuchtung einer Meereslandschaft zur goldenen Stunde. Diese Kombination bildet das charakteristische Bild der Werbung für den Yacht-Lifestyle.
  • „Die Ästhetik der Filme der Marken Omega oder Rolex” liefert der KI eine präzise Referenz für die Produktionsqualität – sie vermittelt das Budgetniveau, die Richtung der Farbkorrektur und die allgemeine visuelle Philosophie.

Varianten

Variante A – Werbung für eine Parfümmarke:

A woman in a flowing white silk dress walks barefoot through a sunlit
lavender field in Provence. She trails one hand through the lavender
tops as she walks, releasing a visible shimmer of pollen. A crystal
perfume bottle sits on a weathered stone wall in the foreground, the
lavender field reflected in its surface. The camera starts on the bottle,
racks focus to the woman approaching, then returns to the bottle as she
passes. Golden afternoon light. Soft lens flare. Chanel No. 5 campaign
aesthetic. Airy, dreamlike, aspirational. 4K cinematic.

Variante B – Werbung für eine Automarke:

A matte black luxury sedan glides silently along a winding coastal
highway carved into dramatic sea cliffs at dusk. The last light of day
reflects off the car's polished roofline. Headlights carve through
gathering twilight. The camera tracks alongside the vehicle from a low
drone angle, keeping pace. Ocean waves crash against rocks far below.
Subtle interior glow visible through tinted windows. Smooth, powerful,
inevitable. Mercedes or Audi brand film quality. 4K cinematic,
anamorphic, teal and orange color grade.

Kurzanleitung: 10 Eingabeaufforderungen – Übersicht

| # | Szene | Kernelemente der Eingabeaufforderung | Empfohlenes Modell | Optimales Verhältnis | |---|------|---------------- -|---------|---------| | 1 | Filmisches Porträt | Frau, Weizenfeld, goldene Stunde, 85 mm, Nahaufnahme | Seedance 2.0 | 16:9 | | 2 | Produktpräsentation | Kristallparfümflasche, zwei Lichtstreifen, Winkelobjektiv | Seedance 2.0 / 1.0 Pro | 16:9 oder 1:1 | | 3 | Natürliche Epik | Dolomiten im Morgengrauen, Wolkenmeer, Adler, Tyndall-Effekt, IMAX | Seedance 2.0 | 21:9 | | 4 | Urbane Straßenszenen | Regnerische Nacht in Tokio, Neonreflexionen, einsame Silhouette, Follow Shot | Seedance 2.0 | 16:9 oder 9:16 | | 5 | Anime-Fantasie | Kriegerin, Energieklinge, Kirschblüten, Umgebung enthüllt sich | Seedance 2.0 | 16:9 | | 6 | Kulinarische Nahaufnahmen | Espresso-Makro, Dampf, Fetttröpfchen, Zeitlupe | Seedance 1.0 Pro | 16:9 oder 1:1 | | 7 | Mode & Schönheit | Haute-Couture-Laufsteg, fliegender Tüll, Low-Angle-Tracking | Seedance 2.0 | 9:16 oder 16:9 | | 8 | Action & Sport | Slam Dunks, Schweißtropfen, Aufnahmen aus niedriger Perspektive unter dem Korb, 1000 fps | Seedance 2.0 | 16:9 | | 9 | Bildhaftes Video | Porträtanimation, mehrschichtige Bewegung, subtile Lichtübergänge | Seedance 2.0 (I2V) | Quellenbildabgleich | | 10 | Markenmarketing | Yachting-Lifestyle, Panorama- bis Nahaufnahmen, zweifarbige Beleuchtung | Seedance 2.0 | 16:9 oder 21:9 |

Wir empfehlen Ihnen, diese Tabelle für spätere Referenzzwecke mit einem Lesezeichen zu versehen. Jede Eingabeaufforderung in diesem Artikel kann direkt kopiert und eingefügt werden – passen Sie einfach die Details entsprechend Ihrem spezifischen Projekt an. Diese Eingabeaufforderungen sind ebenso effektiv bei inländischen Tools (wie Kling oder Jiemeng), wo Sie die englischen Eingabeaufforderungen direkt einfügen können.


Fünf Kerntechniken zur Optimierung von Eingabeaufforderungen

Diese fünf Prinzipien gelten für jeden KI-Videogenerator. Wenn Sie sie beherrschen, können Sie Ihre Fähigkeiten zum Verfassen von Prompts schneller verbessern.

  1. Beginnen Sie mit Kürze und fügen Sie nach und nach Details hinzu.

Versuchen Sie nicht, auf Anhieb einen perfekten hundert Wörter langen Prompt zu schreiben. Beginnen Sie mit 15 bis 20 Wörtern, generieren und bewerten Sie diese und fügen Sie dann nach und nach weitere Details hinzu. Dieser iterative Ansatz hilft Ihnen zu verstehen, welche Ergänzungen die größte Wirkung haben. Einige Details verbessern das Ergebnis erheblich, während andere kaum oder gar keinen Unterschied machen. Das erfahren Sie nur, wenn Sie es ausprobieren.

  1. Ändern Sie jeweils nur eine Variable.

Wenn Sie von V1 zu V2 iterieren, widerstehen Sie dem Drang, alles gleichzeitig zu ändern. Wenn Sie die Beleuchtung, die Kamerawinkel, die Motive und die Szenen auf einmal ändern, können Sie nicht feststellen, welche Änderung das Ergebnis verbessert (oder verschlechtert) hat. Ändern Sie pro Iteration nur ein Element. Das erfordert Geduld, aber es hilft Ihnen dabei, ein echtes Verständnis dafür zu entwickeln, wie der Generator Sprache interpretiert.

  1. Speichern Sie Ihren „Golden Prompt“

Wenn eine Eingabeaufforderung zu hervorragenden Ergebnissen führt, speichern Sie sie sofort. Erstellen Sie Ihre persönliche Bibliothek mit Eingabeaufforderungen, sortiert nach Themen: Porträts, Produkte, Landschaften, Abstraktes und so weiter. Mit der Zeit wird diese Sammlung zu Ihrem wertvollsten kreativen Kapital. Sie werden Strukturen wiederverwenden, Themen austauschen und bewährte Elemente neu kombinieren. Erwägen Sie die Verwendung eines Notiztools (wie Notion oder Notes), um Ihre Bibliothek mit Eingabeaufforderungen nach Kategorien zu organisieren.

4. Das Objektiv ist wichtiger als die Beschreibung des Motivs.

Dies ist eine kontraintuitive Wahrheit: Anweisungen zu Kamera und Beleuchtung haben oft mehr Gewicht als Beschreibungen des Motivs. Eine detaillierte Beschreibung des Motivs in Verbindung mit den Standardeinstellungen der Kamera führt zu mittelmäßigen Ergebnissen. Umgekehrt kann ein einfaches Motiv in Verbindung mit präzisen Kamerabewegungen, der Auswahl des Objektivs und der Beleuchtungsgestaltung die Erwartungen übertreffen. Wenn die Länge Ihrer Anleitung begrenzt ist, investieren Sie Ihre Worte eher in „wie man fotografiert“ als in „was man fotografiert“.

  1. Verwenden Sie negative Formulierungen, um unerwünschte Elemente auszuschließen.

Viele KI-Videogeneratoren reagieren gut auf ausschließende Formulierungen. Durch die Einbindung von Formulierungen wie „keine Textüberlagerungen“, „keine Wasserzeichen“, „flache Beleuchtung vermeiden“ und „keine statische Kamera“ kann das Modell häufige Fehler vermeiden. Dies erweist sich als besonders nützlich, wenn Sie auf ein wiederkehrendes Problem bei mehreren Generierungen stoßen. Beschreiben Sie nicht nur, was Sie wollen, sondern geben Sie auch an, was Sie nicht wollen.


Häufig gestellte Fragen

Was macht einen guten KI-Videoprompt aus?

Eine effektive KI-Videovorgabe weist drei Kernmerkmale auf: Spezifität, Struktur und Einbeziehung von Bewegungsbeschreibungen. Sie sollte eine klare Beschreibung des Motivs, explizite Handlungen oder Bewegungen, eine atmosphärische Szenengestaltung, Anweisungen zur Bildgestaltung (Bildgröße und Bewegungsart), Lichtrichtung und Modifikatoren für die visuelle Qualität enthalten. Das oberste Prinzip ist die Spezifität – „eine Frau mit silbernem schwarzem Haar in einem anthrazitfarbenen Mantel, die durch fallenden Schnee läuft” ist durchweg besser als „eine Frau im Freien”. Ebenso wichtig ist die Einbeziehung von Bewegungsbeschreibungen. Video-Prompts müssen der KI explizit mitteilen, was sich bewegt und wie es sich bewegt, da die Ausgabe sonst fast statischen Bildern ähnelt.

Wie lang sollte eine KI-Videoprompt sein?

Der ideale Bereich liegt bei 40 bis 80 englischen Wörtern. Bei weniger als 20 Wörtern hat die KI zu viel Spielraum, was zu unvorhersehbaren, generischen Ergebnissen führt. Bei mehr als 150 Wörtern kann es zu Widersprüchen kommen oder das Modell verwirrt werden. Bei den meisten Generatoren erzielt ein fokussierter Absatz mit 50 bis 70 Wörtern, der das Thema, die Bewegung, die Kamerawinkel, die Beleuchtung und die Bildqualität abdeckt, die besten Ergebnisse. Die Qualität der Details ist wichtiger als die Wortzahl.

Können diese Eingabeaufforderungen mit anderen KI-Videotools verwendet werden?

Selbstverständlich. Jede Eingabeaufforderung in diesem Artikel kann in gängigen Text-zu-Video-Tools wie Seedance, Sora, Kling, Runway, Pika und HaiLuo (海螺) verwendet werden. Die Grundprinzipien – spezifische Themen, klare Bewegungen, Kamerarichtungen und Beleuchtungsbeschreibungen – bleiben universell. Allerdings interpretieren verschiedene Modelle Sprache leicht unterschiedlich, sodass Prompts, die auf Seedance zu beeindruckenden Ergebnissen führen, auf anderen Plattformen möglicherweise einer Feinabstimmung bedürfen. Betrachten Sie diese Prompts als leistungsstarke Ausgangspunkte und passen Sie sie dann entsprechend Ihrem spezifischen Tool an. Es ist erwähnenswert, dass selbst bei inländischen Tools wie Kling oder Jiemeng die Verwendung englischer Prompts oft zu besseren Ergebnissen führt.

Warum weicht meine generierte Ausgabe vom Beispiel ab?

Die KI-Videogenerierung beinhaltet Zufälligkeit. Dieselbe Eingabe führt bei jeder Ausführung zu unterschiedlichen Ergebnissen, selbst wenn dasselbe Modell und identische Einstellungen verwendet werden. Dies ist beabsichtigt – es ermöglicht kreatives Experimentieren. Wenn das Ergebnis von den Erwartungen abweicht, generieren Sie 3-5 Varianten mit derselben Eingabe, bevor Sie entscheiden, ob Sie diese ändern möchten. Oftmals erzeugt das Modell innerhalb weniger Versuche eine hervorragende Version. Überprüfen Sie gleichzeitig Ihre Einstellungen für das Seitenverhältnis und die Modellversion, da diese einen erheblichen Einfluss auf das Ergebnis haben.

Wie beschreibt man Kamerabewegungen in der Eingabeaufforderung?

Verwenden Sie authentische filmische Fachbegriffe. KI-Modelle werden anhand umfangreicher realer Film- und Fotografie-Texte trainiert, sodass sie Fachjargon verstehen können. Zu den gängigen Kamerabewegungen gehören: langsame Kamerafahrt, Kamerafahrt, Orbit, Kranaufnahme, Schwenken, Neigen, Whip Pan. Geben Sie immer die Geschwindigkeit an: langsame Kamerafahrt, sanfte Kreisbewegung, schnelle Schwenkbewegung. Für eine möglichst präzise Steuerung der Aufnahmen nutzen Sie die Referenzvideo-Funktion von Seedance 2.0, indem Sie einen Clip mit der gewünschten Kamerabewegung als Referenz hochladen.

Ist eine umgekehrte Eingabeaufforderung erforderlich?

Je nach Generator. Einige KI-Videotools verfügen über spezielle Eingabefelder für umgekehrte Eingabeaufforderungen. Tools ohne diese Funktion sind völlig akzeptabel. Wenn umgekehrte Eingabeaufforderungen verfügbar sind, erweisen sie sich als äußerst effektiv, um bestimmte Probleme auszuschließen: „kein Text“, „keine Wasserzeichen“, „keine unscharfen Gesichter“, „keine statische Kamera“. Ohne ein spezielles Feld fügen Sie negative Beschreibungen in Ihre Haupteingabeaufforderung ein: „flache Beleuchtung vermeiden“ oder „keine sichtbaren Artefakte“. Verzichten Sie darauf, Dutzende von Ausschlusskriterien in der umgekehrten Eingabe aufzulisten – konzentrieren Sie sich stattdessen auf 2-3 spezifische Probleme, die in früheren Generationen aufgetreten sind.

Wie viele Iterationen sollte eine Eingabeaufforderung durchlaufen?

Drei bis fünf Iterationen stellen den optimalen Bereich für praktische Projekte dar. Das hier beschriebene V1- bis V3-Framework ist nicht willkürlich definiert, sondern entspricht einem echten Arbeitsablauf. V1 legt das Konzept fest, V2 verfeinert die Details und V3 verbessert die Ausgabequalität. Über V3 hinaus umfassen Anpassungen in der Regel nur noch geringfügige Elemente. Sollten fünf Iterationen immer noch keine zufriedenstellenden Ergebnisse liefern, liegt das Problem wahrscheinlich nicht an der Eingabeaufforderung, sondern spiegelt möglicherweise die inhärenten Einschränkungen des Modells bei der Verarbeitung solcher spezifischen Inhalte wider. Versuchen Sie einen anderen Ansatz, um das Szenario darzustellen, anstatt der gleichen Eingabeaufforderung weitere Wörter hinzuzufügen.

Welcher KI-Videogenerator bietet die beste Prompt-Steuerung?

Seedance 2.0 bietet derzeit die umfassendsten Funktionen zur Prompt-Steuerung aus folgenden Gründen: Es unterstützt sowohl die Text-zu-Video- als auch die Bild-zu-Video-Generierung mit hervorragender Konsistenz der Ergebnisse. Schlüsselwörter für Kamerabewegungen werden zuverlässig ausgeführt. Beleuchtungsanweisungen werden präzise in Ausgabeeffekte umgesetzt. Es unterstützt mehrere Seitenverhältnisse (16:9, 9:16, 1:1, 3:4, 4:3, 21:9) mit Auflösungen bis zu 2K. Die Konsistenz der Charaktere gewährleistet die visuelle Kontinuität über mehrere Generationen desselben Charakters hinweg. Einen umfassenden Vergleich der Generatoren finden Sie in unserem Vergleich der besten KI-Videogeneratoren 2026.


Schlussfolgerung

Das Erstellen effektiver KI-Videoprompts ist eine erlernbare Fähigkeit, keine natürliche Begabung. Die zehn Prompts in diesem Artikel zeigen ein einheitliches Muster: Beginnen Sie einfach, fügen Sie nach und nach Details hinzu und legen Sie stets größten Wert auf Kamerawinkel, Beleuchtung und Bewegung.

Jede Eingabeaufforderung kann kopiert und direkt verwendet werden. Nehmen Sie eine beliebige V3-Eingabeaufforderung und fügen Sie sie als Ausgangspunkt in Ihren Generator ein. Wiederholen Sie dann den Vorgang – ändern Sie das Thema, passen Sie die Beleuchtung an, verändern Sie den Kamerawinkel. Mit jeder Generierung lernt das Modell, Sprache zu interpretieren. Diese Eingabeaufforderungen funktionieren am besten mit Seedance, können aber auch direkt mit englischen Eingabeaufforderungen in heimischen Tools wie Keeling und Jiemeng verwendet werden.

Der effektivste Weg, sich zu verbessern, besteht darin, zu generieren und zu beobachten, was in großem Maßstab effektiv funktioniert. Speichern Sie Ihre besten Eingabeaufforderungen und bauen Sie eine Bibliothek mit Materialien auf. Nach einer gewissen Zeit werden Sie ein Gespür dafür entwickeln, welche Sprache welche Ergebnisse liefert. Erwägen Sie, Ihren Prozess der Eingabeaufforderungsiteration auf Plattformen wie Xiaohongshu oder Bilibili zu teilen – die Community der KI-Videokünstler wächst rasant, und Ihre praktischen Erfahrungen sind für andere von großem Wert.

Öffnen Sie Seedance, um diese Eingabeaufforderungen auszuprobieren → – Registrieren Sie sich, um kostenlose Credits zu erhalten, keine Kreditkarte erforderlich.

Möchten Sie tiefer einsteigen? Unser vollständiger Seedance-Prompt-Leitfaden enthält über 50 zusätzliche Prompts, die alle Szenario-Kategorien abdecken.


Weiterführende Informationen: Entdecken Sie unseren Seedance Complete Prompt Guide (über 50 Beispiele). Sind Sie neu bei Seedance? Beginnen Sie mit unserem Seedance Complete Tutorial. Möchten Sie vorhandene Fotos in Videos umwandeln? Sehen Sie sich unser AI-Tutorial „Bild zu Video“ an. Verwenden Sie AI-Videos für den E-Commerce? Lesen Sie unseren Leitfaden zur Produktion von Produktvideos. Planen Sie Marketingkampagnen? Sehen Sie sich unseren AI-Leitfaden zum Videomarketing an.

Seedance 2.0 KI

Seedance 2.0 KI

KI-Video und kreative Technologie