Guide de rédaction de scripts vidéo IA : du niveau débutant à la qualité cinématographique

Feb 22, 2026

TL;DR

Les superbes vidéos IA sont le fruit de superbes invites. Ce guide vous enseigne une formule universelle d'invite vidéo, un cadre en sept éléments applicable à toutes les plateformes vidéo IA courantes :

[Sujet] + [Action] + [Cadrage] + [Mouvement de caméra] + [Éclairage] + [Style] + [Son]

Vous apprendrez : Les principales causes des échecs des invites (et comment les résoudre instantanément), un guide complet du langage des caméras couvrant plus de 15 techniques de caméra, une bibliothèque de mots-clés d'ambiance organisée en quatre dimensions : éclairage/étalonnage des couleurs/texture/ambiance, cinq exemples d'invites progressives, du niveau débutant à la qualité cinématographique, comment intégrer la conception sonore dans les invites, et des techniques d'optimisation spécifiques aux plateformes Seedance, Sora, Kling, Runway et Veo 3.

Il ne s'agit pas d'un tutoriel sur un outil, mais d'une méthodologie. Les compétences en rédaction de scripts vidéo peuvent être transférées d'une plateforme à l'autre ; apprenez-les une fois, et vous pourrez les appliquer partout.

Générer automatiquement des invites →

Démonstration comparative : les invites vidéo vagues générées par l'IA produisent des résultats fades et génériques, tandis que les invites structurées et de qualité cinématographique produisent des vidéos de qualité professionnelle.

Le même concept, mais des résultats totalement différents. La consigne à gauche indique : « Une femme marchant sous la pluie ». La consigne à droite précise le mouvement de la caméra, la direction de l'éclairage, l'atmosphère et le son. Le modèle d'IA répond avec des résultats de qualité cinématographique.


Pourquoi la plupart des invites vidéo IA échouent (et comment y remédier)

Quel que soit le générateur de vidéos IA que vous utilisez (Seedance, Sora, Keeling, Runway ou Veo 3), le principe de base reste le même : plus votre texte est précis et complet sur le plan structurel, plus le résultat sera contrôlable et cinématographique. La plupart des gens rédigent leurs invites comme s'ils décrivaient une photo à un ami, mais une vidéo n'est pas une photo. Une vidéo implique du mouvement, du temps, le comportement de la caméra, l'évolution de l'atmosphère et le son.

Vous trouverez ci-dessous les cinq causes les plus courantes de défaillance du disque dur, accompagnées chacune d'une solution immédiate.

  1. Trop vague — le problème du « magnifique coucher de soleil »

L'échec le plus courant. Vous écrivez « un magnifique coucher de soleil au bord de la mer » et obtenez un extrait techniquement correct, mais émotionnellement vide, qui ressemble à un économiseur d'écran standard.

Le problème n'est pas que l'IA ne puisse pas rendre un coucher de soleil, mais que « beauté » et « coucher de soleil » sont les seules informations que vous lui avez fournies. Ayant rencontré des millions de couchers de soleil dans ses données d'entraînement, l'IA sélectionne la moyenne statistique, et la moyenne, par nature, est médiocre.

Avant modificationAprès modification
Un magnifique coucher de soleil sur l'océanLa lumière dorée de l'heure creuse se répand sur une côte pacifique calme, les vagues viennent lécher les rochers volcaniques, le soleil est à deux doigts au-dessus de l'horizon, le ciel passe d'un ambre profond à l'horizon à un rose saumon puis à un lavande pâle au zénith, de longues ombres s'étirent vers l'appareil photo le soleil suspendu à deux doigts au-dessus de l'horizon, le ciel passant d'un ambre profond à l'horizon à un rose saumon puis à un lavande pâle au zénith, de longues ombres s'étirant vers l'appareil photo)

Méthode de correction : Remplacer les adjectifs (« beau », « incroyable », « magnifique ») par des détails spécifiques et observables : couleur, position, texture, relations spatiales.

  1. Absence d'instructions de mouvement — problèmes liés aux images statiques

Vous avez rédigé une description très détaillée de la scène, mais l'IA a généré une image qui ressemble à une photographie avec un léger effet push-pull, car vous avez décrit un instant et non un mouvement.

La vidéo dépend du temps. Sans instructions explicites concernant le mouvement, l'IA opte par défaut pour l'interprétation la plus conservatrice : un défilement lent ou un léger parallaxe. Techniquement, il s'agit bien d'une « vidéo », mais ce n'est pas ce que vous souhaitez.

| Avant modification | Après modification | |--------|------- -| | Une voiture de sport rouge vintage garée sur une route de montagne, un matin brumeux, cinématographique (一辆复古红色跑车停在山路上,薄雾清晨,电影感) | Une Porsche 911 rouge vintage accélère sur une route de montagne sinueuse, ses pneus adhérant à l'asphalte humide, la brume se dissipant autour de la carrosserie, la caméra la suivant à hauteur du pare-chocs, les arbres défilant flous au premier plan |

Méthode de correction : chaque invite vidéo nécessite au moins un verbe décrivant le mouvement physique du sujet et une phrase décrivant le mouvement de la caméra. Le sujet bouge, la caméra bouge : ensemble, ils créent une énergie visuelle.

3. La directive contradictoire — Le paradoxe « gros plan + plan large »

Cette situation est plus courante que vous ne l'imaginez, en particulier lorsque les gens enchaînent des termes cinématographiques qu'ils ont entendus mais qu'ils ne comprennent pas tout à fait. « Gros plan extrême d'une femme traversant un vaste désert, plein cadre, ambiance épique » contient deux directives de composition contradictoires. L'IA tentera de trouver un équilibre, ce qui donnera une image qui n'est ni proche ni éloignée, mais simplement chaotique.

Avant révisionAprès révision
Gros plan d'une femme traversant un vaste désert, plan d'ensemble, échelle épiqueGros plan extrême sur les yeux d'une femme reflétant la lumière du désert, des particules de sable capturant le soleil couchant sur ses cils, faible profondeur de champ avec le vaste champ de dunes flou derrière elle dans un dégradé ambré profondeur de champ réduite rendant les dunes étendues derrière elle en un dégradé ambré)

Méthode de correction : sélectionnez une position de caméra par plan. Si vous avez besoin de gros plans et de plans larges, écrivez deux plans distincts et reliez-les à l'aide d'une transition. Pour les séquences à plusieurs plans, des plateformes telles que Seedance prennent en charge le format de storyboard chronologique, qui vous permet de spécifier chaque plan indépendamment.

  1. Manque d'atmosphère — Un vide de lumière, d'ombres et d'émotions

Votre description indique qu'un sujet effectue une action à un endroit précis. Cela couvre trois des sept dimensions. Sans indications sur l'éclairage, la palette de couleurs, les effets atmosphériques ou le style, l'IA comblera les lacunes avec des paramètres neutres par défaut : éclairage plat et uniforme, couleurs sourdes et ambiance neutre. Le résultat ressemble à une vidéo de surveillance haute définition.

| Avant révision | Après révision | |--------|------- -| | Un homme assis seul dans un café | Un homme d'une quarantaine d'années est assis seul dans un coin sombre, la lumière ambrée d'une lampe suspendue éclairant la vapeur qui s'élève de sa tasse de café, la pluie ruisselant sur la fenêtre derrière lui projetant des ombres ondulées sur son visage, palette de couleurs sourdes bleu sarcelle et cuivre, atmosphère mélancolique |

Méthode de correction : intégrer la direction de la lumière, la température de couleur, les effets atmosphériques (brouillard, pluie, poussière, vapeur) et les mots évocateurs. Ces quatre ajouts transforment « une scène » en « une émotion ».

  1. Absence de conception sonore — Le problème des films muets

D'ici 2026, la plupart des plateformes vidéo basées sur l'IA prendront en charge la génération audio : musique de fond, effets sonores ambiants et même dialogues avec synchronisation labiale. Pourtant, la majorité des utilisateurs créent des invites qui restent entièrement silencieuses, car ils perçoivent les invites vidéo uniquement comme des instructions visuelles.

Le son représente la moitié de l'expérience. Une scène dans la forêt sans chant d'oiseaux ni bruissement de feuilles semble artificielle. Les séquences d'action sans effets sonores manquent de substance. Les démonstrations de produits sans musique ressemblent à des présentations PowerPoint.

| Avant modification | Après modification | |------- -|--------| | Un chat sautant d'une bibliothèque sur un canapé | Un chat roux saute gracieusement du haut d'une grande bibliothèque en chêne, s'étirant dans les airs, avant d'atterrir doucement sur un coussin de canapé en velours qui s'enfonce sous son poids. Son : impact doux des pattes sur le tissu, un seul livre glissant sur l'étagère, bruit ambiant calme de la pièce avec le bruit lointain de la pluie contre les fenêtres Son : impact doux des pattes sur le tissu, un livre glissant sur l'étagère, bruit ambiant discret de la pièce avec le bruit lointain de la pluie contre les fenêtres) |

Solution : ajoutez une ligne d'instructions audio à la fin de l'invite, en précisant le style de musique de fond, les effets sonores ambiants et tout dialogue ou narration. Nous fournissons des conseils détaillés dans la section [Conception sonore](#Intégrer la conception sonore dans les invites) ci-dessous.


Formule universelle pour les invites vidéo

Quelle que soit la plateforme que vous utilisez, toute invite vidéo efficace contient les sept mêmes éléments. Certains sont essentiels (obligatoires dans chaque invite), tandis que d'autres sont facultatifs (ils améliorent l'efficacité, mais ne sont pas obligatoires). La formule :

[Sujet] + [Action] + [Environnement] + [Caméra] + [Éclairage] + [Style] + [Son]

Schéma visuel détaillant les sept éléments essentiels des formules génériques d'invite vidéo, illustrant le sujet, l'action, le décor, le mouvement de caméra, l'éclairage, le style et les composants sonores, accompagnés d'exemples de mots-clés.

Les sept éléments clés d'une formule universelle d'invite vidéo. Chaque élément ajoute une dimension supplémentaire de contrôle au résultat final.

Ci-dessous, nous allons décomposer chaque élément tour à tour, accompagné d'une bibliothèque de mots-clés et d'exemples de phrases.

Élément 1 : Objet (obligatoire)

Le sujet est l'objet du regard du public. Cela devrait être la partie la plus précise de la consigne : pas « une femme », mais « une femme dans la soixantaine, aux cheveux argentés légèrement relevés en chignon, avec de profondes rides d'expression au coin des yeux, portant un tablier en jean délavé ».

Bibliothèque de mots-clés :

| Catégorie | Exemple (invite en anglais) | |------|------------------ -| | Personnages | un jeune homme d'une vingtaine d'années, une femme âgée, un enfant d'environ cinq ans, une danseuse, un chef cuisinier, un soldat | | Animaux | un golden retriever, un léopard des neiges, un colibri, un poisson koi, un papillon monarque | | Objets | une machine à écrire vintage, un flacon de parfum en cristal, un journal relié en cuir, un vase en céramique | | Véhicules | une moto noir mat, un voilier en bois, une camionnette usée, un train à grande vitesse | | Abstrait | particules de lumière, gouttelettes d'encre dans l'eau, formes géométriques, métal liquide |

Exemples de phrases :

  • « Une barista d'une trentaine d'années, avec des tatouages sur les bras et un tablier noir recouvert de farine »
  • « Une boussole en bronze patinée, ouverte sur une carte marine » - « Des milliers de lanternes en papier, chacune diffusant une lumière ambrée et chaleureuse provenant d'une bougie à l'intérieur »

Élément deux : Action (obligatoire)

L'action est ce qui se déroule : ce que fait le sujet et comment la scène évolue au fil du temps. C'est ce qui distingue les invites vidéo des invites image. Sans action, vous n'avez rien de plus qu'une photographie animée.

Bibliothèque de mots-clés :

| Type de mouvement | Exemple (invite en anglais) | |--------- -|-------------------| | Mouvement humain | marcher, courir, tourner lentement, tendre le bras, se pencher en avant, expirer, cligner des yeux | | Par rapport au mouvement de la caméra | s'approcher de la caméra, s'éloigner de la caméra, traverser le cadre de gauche à droite | | Mouvement d'objet | tourner, tomber, flotter, se briser, s'assembler, se déployer, fondre | | Mouvement environnemental | vent soufflant dans l'herbe, nuages roulant, pluie tombant, feuilles dérivant, marée montante | | Processus de transition | jour se transformant en nuit, fleur s'épanouissant, glace se formant, peinture s'étalant, lumière changeant |

Exemples de phrases :

  • « Elle se penche lentement, ramasse une feuille d'automne tombée au sol et la tourne entre ses doigts. »
  • « L'aiguille de la boussole tremble, puis pivote résolument vers le nord. »
  • « Les lanternes s'élèvent une à une du sol, s'élevant dans le ciel sombre à des vitesses différentes. »

Élément trois : Environnement (essentiel)

Le décor est le lieu où se déroule la scène. Décrivez à la fois le décor immédiat (premier plan) et l'arrière-plan plus large. Indiquez la météo, l'heure de la journée et la saison, le cas échéant.

Bibliothèque de mots-clés :

| Type de scène | Exemple (invite en anglais) | |----------|------------------ -| | Nature | forêt dense, dunes désertiques, falaise océanique, prairie alpine, plage volcanique, bosquet de bambous | | Urbain | ruelle étroite de Tokyo, place en béton brutaliste, jardin sur les toits, quai de métro, avenue éclairée par des néons | | Intérieur | bibliothèque éclairée à la bougie, loft industriel, serre, chambre noire vintage, atrium en marbre | | Fantastique | îles flottantes, caverne de cristal, récif bioluminescent, temple en ruines, ville dans les nuages | | Temps/Météo | crépuscule avant l'aube, midi couvert, orage, première neige, soirée d'été humide |

Exemples de phrases :

  • « Dans une ruelle étroite de Kyoto, des lanternes en pierre bordent les deux côtés, des pétales de fleurs de cerisier flottent sur les pavés humides. »
  • « À l'intérieur d'une cathédrale abandonnée et caverneuse, des rayons de lumière poussiéreux transperçaient les vitraux brisés. »
  • « Au bord d'une falaise volcanique à l'heure bleue, de la vapeur sulfureuse s'échappe des fissures de la roche noire. »

Élément n° 4 : Travail de caméra (important)

Les instructions relatives à la direction de la caméra guident le spectateur IA dans sa perception d'une scène, en englobant la composition (à quelle distance), l'angle (d'où) et le mouvement (comment le point de vue évolue au fil du temps). Le langage relatif à la direction de la caméra représente le levier le plus important pour améliorer la qualité des invites. Nous explorons ce sujet en profondeur dans la section dédiée ci-dessous.

Bibliothèque de mots-clés rapides :

| Aspect | Terminologie anglaise et équivalent chinois | |------|------------------ -| | Cadrage | gros plan extrême, gros plan, plan moyen, plan d'ensemble, plan large, plan très large (très grand plan) | | Angle | niveau des yeux, angle bas, angle haut, vue à vol d'oiseau, vue à ras du sol, angle hollandais | | Mouvement | travelling avant/arrière, panoramique gauche/droite, inclinaison vers le haut/bas, travelling, orbite, grue (élévation) | | Objectif | grand angle 24 mm, standard 50 mm, portrait 85 mm, téléobjectif 200 mm, objectif macro, anamorphique |

Élément n° 5 : Éclairage (important)

La lumière et l'ombre définissent l'ambiance de chaque image. Les photographes professionnels passent des heures à régler l'éclairage. En rédaction rapide, quelques mots précis peuvent permettre d'obtenir le même niveau de contrôle.

Bibliothèque de mots-clés :

| Type d'éclairage (anglais/chinois) | Effets visuels | |--------------------- -|----------| | Heure dorée | Tons chauds, ombres longues, teintes orange-ambre, flatteuses pour les portraits | | Heure bleue | Tons froids, atmosphère mélancolique, ciel bleu profond avec une chaleur persistante à l'horizon | | Contre-jour | Contours nets, effet silhouette, séparation nette de l'arrière-plan | | Lumière latérale | Visage à moitié éclairé, à moitié ombragé ; contraste élevé, effet dramatique | | Éclairage Rembrandt | Reflets triangulaires sous l'œil ombragé ; effet portrait classique | | Éclairage volumétrique | Faisceaux visibles pénétrant la poussière, la brume ou la fumée | | Effet Tyndall | Diffusion de la lumière dans les particules, produisant des faisceaux distincts dans la brume ou la poussière | | Néon | Sources de lumière artificielle colorée, reflets sur surface humide, esthétique cyberpunk |

Élément six : Style (recommandé)

Le style dicte le langage visuel utilisé par l'IA, qu'il s'agisse de pellicule cinématographique, de réalisme documentaire, d'animation, de peinture à l'huile ou autre. Sans déclaration de style, l'IA utilise par défaut un style photoréaliste générique.

Bibliothèque de mots-clés :

| Style (anglais/chinois) | Caractéristiques visuelles | |----------------- -|----------| | Cinématographique | Faible profondeur de champ, étalonnage des couleurs de qualité cinématographique, format d'image panoramique 2,39:1 | | Documentaire | Impression de caméra à main, éclairage naturel, cadrage observationnel | | Publicitaire | Éclairage net, lumineux, centré sur le produit, précis, mouvements fluides | | Anime | Style cell-shading, couleurs vives, mouvements exagérés, lignes dynamiques | | Film noir | Monochrome à contraste élevé, ombres de stores vénitiens, éclairage discret | | Encre de Chine | Encre noire sur fond blanc, dégradés fluides, minimalisme, esthétique orientale | | Film vintage | Grain de film, légèrement désaturé, tons chauds, contours flous | | Cyberpunk | Négon, contraste élevé, éléments holographiques, atmosphère urbaine apocalyptique |

Élément sept : le son (facultatif)

Le son ajoute une dimension auditive. Bien que toutes les plateformes ne prennent pas en charge la génération audio, l'intégration de la conception sonore dans les invites est non seulement avant-gardiste, mais améliore souvent l'impact visuel, car l'IA utilise des repères audio pour influencer le ton émotionnel et le rythme des visuels.

Bibliothèque de mots-clés :

Type de sonExemple (invite en anglais)
Style musicalorchestral, hip-hop lo-fi, électronique ambiant, piano jazz, guitare acoustique, musique de film (musique de film)
Effets sonores ambiantspluie sur une vitre, vent dans les arbres, bruit de la circulation urbaine, vagues de l'océan, crépitement du feu
Effets sonores d'actionpas sur du gravier, grincement de porte, bris de verre, vrombissement de moteur
Voixnarration chuchotée, dialogue, respiration, rire

Le langage cinématographique : l'arme secrète

Le langage cinématographique est la compétence la plus influente que vous pouvez cultiver en tant que rédacteur de scripts vidéo. Lorsque vous écrivez « dolly in slowly » plutôt que « zoom in », vous utilisez le vocabulaire natif des modèles d'IA, car ces modèles sont entraînés à partir de millions d'heures d'images tournées par des professionnels, où les mouvements de caméra possèdent des noms spécifiques et des effets visuels distincts.

Cette section sert de guide de référence complet. Nous vous recommandons de l'ajouter à vos favoris.

Guide de référence sur les mouvements de caméra Illustrant les noms, les trajectoires et les effets émotionnels de douze mouvements de caméra distincts, notamment : les plans en push/pull, les panoramiques, les travellings, les travellings sur chariot, les plans en élévation et les plans à la main.

Les mouvements de caméra ne sont pas interchangeables : chacun produit un effet émotionnel distinct. Connaître la terminologie correcte transformera l'impact de vos indications.

Cinématographie de base

Dolly In / Dolly Out (poussée / traction)

La caméra se rapproche physiquement du sujet (push) ou s'en éloigne (pull). Contrairement au zoom, la perspective change : les objets au premier plan apparaissent proportionnellement plus grands, créant une impression de profondeur et de proximité physique.

  • Effet émotionnel : Pousse à favoriser l'intimité, la concentration et la révélation. Attire pour évoquer l'isolement, le contexte et la séparation.
  • Quand l'utiliser : Poussez pour des gros plans émotionnels, des moments forts des personnages et des détails révélateurs. Reculez pour montrer l'échelle, conclure ou vous éloigner du sujet.
  • Phrase clé : « La caméra effectue un travelling avant lent depuis un plan moyen jusqu'à un gros plan extrême sur les mains du sujet. »

Panoramique gauche / Panoramique droit (panoramique horizontal)

La caméra reste fixe et pivote horizontalement, comme si vous tourniez la tête. Le point de vue balaye la scène.

  • Effet émotionnel : exploration, découverte, mouvement de suivi latéral, liaison entre deux éléments d'une scène.
  • Quand l'utiliser : pour mettre en valeur des paysages, suivre des personnages en mouvement, montrer l'étendue spatiale.
  • Phrase clé : « Panoramique lent vers la droite à travers l'atelier, révélant des rangées d'instruments artisanaux accrochés au mur ».

Inclinaison vers le haut / inclinaison vers le bas (panoramique/inclinaison verticale)

La caméra reste fixe et pivote verticalement, comme si elle hochait la tête. Un panoramique vers le haut révèle la hauteur ; un panoramique vers le bas montre les détails au niveau du sol.

  • Effet émotionnel : une inclinaison vers le haut évoque la crainte, la grandeur et le désir. Une inclinaison vers le bas crée un sentiment d'ancrage, de découverte et d'intimité avec la surface.
  • Quand l'utiliser : une inclinaison vers le haut est utilisée pour les structures imposantes, les personnages se levant ou révélant le ciel. Les inclinaisons vers le bas révèlent des objets sur une table ou la transition entre le ciel et le sol.
  • Phrase clé : « La caméra s'élève depuis les racines de l'arbre ancien, suivant le tronc massif jusqu'à la canopée. »

Tracking Shot (suivi de caméra/suivi latéral)

La caméra se déplace parallèlement au sujet, en maintenant une distance et un angle constants, comme si elle était montée sur un rail parallèle à la trajectoire du sujet.

  • Effet émotionnel : Compagnie, voyage, immersion. Le public voyage aux côtés du sujet.
  • Quand l'utiliser : pour les personnages qui marchent ou courent, traversent des espaces ou présentent des produits le long de surfaces.
  • Phrase clé : « La caméra suit la coureuse à hauteur d'épaule, gardant le rythme alors qu'elle sprinte dans la ruelle. »

Orbite / Arc (prise de vue circulaire)

La caméra tourne autour du sujet tout en le gardant centré dans le cadre. Il peut s'agir d'une rotation complète à 360 degrés ou d'un arc partiel.

  • Effet émotionnel : présence héroïque, sentiment de puissance, mise en valeur, affichage en trois dimensions.
  • Quand l'utiliser : démonstrations de produits (présentation sous tous les angles), plans héroïques, présentations dramatiques de personnages, moments décisifs.
  • Phrase clé : « La caméra effectue une rotation de 180 degrés autour du joueur d'échecs, en commençant par l'arrière et en terminant de face. »

Grue vers le haut / Grue vers le bas (prise de vue en élévation / prise de vue avec flèche)

Le mouvement vertical de la caméra (élévation ou abaissement physique) est généralement combiné à une inclinaison afin de maintenir le sujet dans le cadre.

  • Effet émotionnel : L'ascension crée un sentiment de transcendance, de libération et d'élargissement de la perspective. La descente évoque l'ancrage, l'arrivée et la concentration.
  • Quand l'utiliser : L'ascension pour les conclusions, les moments de triomphe ou les transitions vers des perspectives aériennes. Les plans descendants sont utilisés pour les ouvertures, les arrivées et les transitions entre les plans larges et les compositions intimistes.
  • Phrase clé : « La caméra s'élève du sol, s'élevant au-dessus de la foule, révélant toute l'ampleur du festival. »

Appareil photo portable (objectif portable)

L'objectif présente un léger tremblement organique, car il n'est pas monté sur un trépied ou un stabilisateur. Cela simule la sensation d'un photographe humain tenant l'appareil photo à la main.

  • Effet émotionnel : immédiateté, urgence, authenticité documentaire, tension, intimité.
  • Quand l'utiliser : séquences d'action, dialogues émotionnels, styles documentaires, films d'horreur, toute scène nécessitant une sensation d'immersion.
  • Phrase clé : « La caméra à l'épaule suit le personnage à travers le marché bondé, légèrement instable ».

Steadicam / Cardan (Steadicam/Stabilisateur d'objectif)

Les mouvements fluides et flottants de la caméra glissent dans l'espace. Contrairement aux prises de vue à la main, il n'y a pas de tremblements : le mouvement est fluide et continu.

  • Effet émotionnel : Exploration onirique, élégante, immersive et détendue.
  • Quand l'utiliser : Navigation dans des espaces architecturaux, suivi de personnages dans des environnements complexes, plans séquences, cinématographie luxueuse et esthétique.
  • Phrase clé : « La Steadicam glisse derrière la danseuse alors qu'elle se déplace dans la salle de bal vide. »

Techniques avancées de mouvement de caméra

Zoom Hitchcock (zoom dolly / effet Vertigo)

Lorsque l'appareil photo effectue un zoom avant, la distance focale augmente (ou inversement). Le sujet reste de la même taille, mais l'arrière-plan subit une distorsion spectaculaire, soit en s'étirant, soit en se compressant.

  • Effet émotionnel : désorientation, révélation, effroi, le monde qui tourne autour d'un point fixe.
  • Phrase clé : « Zoom avant sur le visage du personnage — la caméra se rapproche tandis que l'objectif effectue un zoom arrière, l'arrière-plan s'éloignant, créant un effet de vertige ».

Whip Pan

Panoramique horizontal extrêmement rapide, qui rend l'ensemble du cadre flou pendant le mouvement. Couramment utilisé comme transition entre deux scènes.

  • Effet émotionnel : Énergie, surprise, urgence, rythme comique.
  • Phrase clé : « Panoramique rapide du visage de l'orateur vers la réaction du public, flou de mouvement pendant la transition ».

Mise au point sur rack (mise au point manuelle)

La mise au point passe d'un plan de profondeur à un autre au sein d'une même prise de vue. Le premier plan devient flou tandis que l'arrière-plan devient net, ou inversement.

  • Effet émotionnel : redirige l'attention, révèle des informations, relie les éléments au premier plan et à l'arrière-plan.
  • Phrase clé : « Faites passer la mise au point des fleurs floues au premier plan au visage de la femme à l'arrière-plan ».

Angle néerlandais (angle incliné)

L'objectif s'incline le long de l'axe horizontal, créant ainsi un horizon diagonal. Le monde apparaît alors déformé.

  • Effet émotionnel : malaise, instabilité, tension, drame stylisé, frénésie.
  • Phrase clé : « Gros plan en angle néerlandais sur le visage du détective, inclinaison de 15 degrés, éclairage latéral intense ».

Rampe de vitesse (rampe temporelle)

La vitesse de lecture varie au sein d'un même plan, ralentissant généralement aux moments clés avant d'accélérer à nouveau.

  • Effet émotionnel : accentuation, impact, dramatisation de moments spécifiques.
  • Phrase clé : « Le mouvement passe au ralenti au moment de l'impact, puis accélère pour revenir à la vitesse normale ».

Plan unique (long plan)

Tournage continu sans montage. La caméra traverse les espaces, suit les mouvements et découvre des éléments, tout en conservant une perspective unique et ininterrompue tout au long du film.

  • Effet émotionnel : immersion, expérience en temps réel, sentiment de maîtrise technique, tension soutenue.
  • Phrase clé : « Plan séquence continu : la caméra entre par la porte d'entrée, glisse dans le couloir et arrive dans le jardin ».

Première personne / Point de vue

La caméra représente les yeux du personnage. Le public voit ce que voit le personnage, y compris ses mains qui entrent dans le cadre.

  • Effet émotionnel : immersion totale, expérience subjective, esthétique du jeu.
  • Phrase d'invite : « Point de vue à la première personne : des mains poussent une lourde porte en bois, révélant une prairie ensoleillée. »

Pour découvrir les fonctionnalités uniques de contrôle de caméra de Seedance et savoir comment les combiner dans la timeline du storyboard, veuillez consulter le Guide Seedance Prompt.


Bibliothèque de mots-clés sur l'atmosphère

L'atmosphère est la clé pour transformer une vidéo techniquement parfaite en une œuvre qui touche émotionnellement. C'est ce qui fait la différence entre « une pièce » et « une pièce qui vous fait ressentir quelque chose ». Cette bibliothèque de mots-clés est organisée en quatre dimensions : éclairage, palette de couleurs, texture et ambiance. Elle vous permet de mélanger et d'assortir les éléments pour créer précisément l'ambiance que vous souhaitez.

Tableau de référence des mots-clés pour les invites vidéo IA pour l'atmosphère, classés selon quatre dimensions : éclairage, tonalité des couleurs, texture et ambiance, accompagnés d'exemples visuels.

Bibliothèque de mots-clés « Atmosphère » : sélectionnez un mot-clé dans chaque dimension pour définir la signature émotionnelle de votre vidéo.

Mots clés de lumière et d'ombre

L'éclairage est à la base de l'ambiance. Modifier l'éclairage dans une scène peut complètement transformer l'atmosphère tout en laissant tous les autres éléments inchangés.

| Mots-clés (anglais/chinois) | Effets visuels | Scénarios adaptés | |-------|----------|--------- -| | Golden hour | Lumière ambrée chaude, ombres douces et allongées, teints flatteurs | Romance, nostalgie, voyage, beauté | | Blue hour | Lumière ambiante bleu profond, teintes chaudes résiduelles à l'horizon | Mélancolie, contemplation, transition, ambiance urbaine | | Contre-jour | Sujet souligné par une source lumineuse arrière, ombres faciales ou silhouettes | Drame, mystère, clichés héroïques, attrait esthétique | | Lumière latérale | Lumière directionnelle forte d'un côté, moitié éclairée, moitié ombragée | Tension, gros plans de personnages, portraits dramatiques | | Éclairage Rembrandt | Éclairage classique pour les portraits : un côté éclairé, avec une petite zone claire triangulaire sous l'œil du côté ombragé | Portraits, élégance, ambiance classique | | Éclairage volumétrique | Faisceaux lumineux visibles traversant la poussière, la brume ou la fumée | Sacré, théâtre, scènes forestières, éclairage de scène | | Effet Tyndall | La lumière se diffuse dans de fines particules, formant des faisceaux distincts dans la brume | Naturel, scènes de l'aube, éthéré, onirique | | Néon | Sources lumineuses artificielles colorées, généralement roses, bleues, cyan, magenta | Cyberpunk, vie nocturne, urbain, contemporain | | Lumière de bougie | Chaude, vacillante, orange-ambre | Intimité, histoire, scènes de dîner, confort | | Silhouette | Sujet entièrement assombri, défini uniquement par son contour sur un fond clair | Mystère, anonymat, impact visuel, narration | | Bioluminescent | Source lumineuse organique auto-éclairante, généralement bleu-vert | Fantastique, sous-marin, mondes extraterrestres, onirique |

Mots-clés relatifs aux nuances de couleurs

La palette de couleurs détermine la température émotionnelle de l'ensemble de la composition. Les tons chauds sont accueillants, tandis que les tons froids sont distants. Une saturation élevée donne une impression de dynamisme, tandis qu'une saturation faible donne une impression de sobriété.

| Mots-clés (anglais/chinois) | Effets visuels | Résonance émotionnelle | |-------|----------|--------- -| | Palette chaude | Dominance des tons ambrés, orange, dorés et rougeâtres | Confort, nostalgie, intimité, automne | | Palette froide | Dominance des tons bleus, cyan et ardoise | Distance, tranquillité, mélancolie, hiver, technologie | | Saturation élevée | Couleurs vives, intenses et fortes | Énergie, jeunesse, fantaisie, culture pop | | Désaturé | Couleurs douces, délavées, pastel | Mélancolie, réalisme, réminiscence, vintage | | Bleu sarcelle et orange | Étalonnage classique des couleurs des films : ombres froides, reflets chauds | Superproductions hollywoodiennes, publicités, cinéma | | Palette cyberpunk | Rose fluo, bleu électrique, violet foncé sur fond sombre | Futuriste, vie nocturne, numérique, avant-gardiste | | Vintage | Légèrement délavé, tons chauds, ombres rehaussées | Nostalgie, années 70-80, films indépendants, réminiscence | | Tons terreux | Marron, vert, ocre, terracotta | Nature, enracinement, organique, documentaire | | Kodachrome | Verts et rouges riches, tons chauds pour la peau, noirs profonds | Photojournalisme, années 60-70, esthétique américaine |

Mots-clés relatifs à la texture/qualité d'image

La texture définit la surface visuelle d'une vidéo, qu'elle ressemble à un film 35 mm, à une publicité soignée, à un documentaire ou à une peinture à l'huile.

| Mots-clés (anglais/chinois) | Effets visuels | Scénarios applicables | |-------|--------- -|----------| | Cinématographique | Effet grand écran, faible profondeur de champ, étalonnage cinématographique | Narration, drame, récit | | Documentaire | Éclairage naturel, compositions légèrement imparfaites | Réalisme, actualités, éducation | | Publicité | Éclairage net, lumineux et précis, mouvements de caméra fluides | Présentation de produits, publicité, entreprise | | Grain de film | Texture de bruit organique superposée aux images | Rétro, analogique, indépendant, chaleureux | | Anamorphique | Reflets horizontaux, bokeh elliptique, distorsion subtile des contours | Drame cinématographique, science-fiction, atmosphère épique | | Texture peinture à l'huile | Textures de coups de pinceau visibles, riche effet d'empâtement | Art, fantastique, paysages oniriques, classique | | Lavage à l'encre | Dégradés d'encre noire sur fond blanc, fluide et organique | Esthétique orientale, minimalisme, tranquillité | | 8 mm / Super 8 | Grain épais, fuites de lumière, images instables, couleurs fanées | Souvenirs, flashbacks, films amateurs, nostalgie |

Mots-clés émotionnels

Les mots-clés émotionnels fournissent à l'IA son orientation émotionnelle. Ils influencent tout : le rythme, les choix de couleurs, le comportement de la caméra et l'ambiance générale.

| Mots-clés (anglais/chinois) | Émotions suscitées | Suggestions d'associations | |-------|----------- -|----------| | Confortable | Chaleur, confort, sécurité, maison | Lumière de bougie, tons chauds, scènes d'intérieur | | Tendu | Anxiété, anticipation, événements imminents | Éclairage latéral, prises de vue à la main, cadrage serré | | Suspense | Peur, incertitude, montée progressive | Éclairage tamisé, progression lente, faible saturation | | Joie | Bonheur, célébration, légèreté | Heure dorée, saturation élevée, plans larges | | Mélancolique | Tristesse, nostalgie, beauté dans la douleur | Heure bleue, tons froids, ralenti | | Épique | Grandiosité, héroïsme, impressionnant | Grands angles, travellings, musiques orchestrales | | Apaisant | Tranquillité, rétablissement, guérison douce | Éclairage doux, teintes pastel, tons naturels, rythme lent | | Horreur | Peur, étrangeté, malaise | Ombres profondes, angles hollandais, faible saturation, silence | | Romantique | Amour, désir, tendresse, intimité | Contre-jour, tons chauds, faible profondeur de champ, gros plans | | Énergique | Vitesse, excitation, adrénaline | Caméra tremblante, vitesse variable, saturation élevée, grand angle | | Nostalgique | Nostalgie du passé, souvenirs doux-amers | Grain de film, tons vintage, hautes lumières surexposées |

Combinaisons de mots-clés liés à l'atmosphère : trois exemples

Le véritable pouvoir réside dans la sélection d'un ou deux mots-clés dans chaque dimension et dans leur combinaison. Les trois combinaisons suivantes créent des atmosphères totalement différentes pour le même sujet, « une femme debout à la fenêtre » :

Combinaison n° 1 : Nostalgie chaleureuse

Contre-jour à l'heure dorée, palette chaleureuse avec des tons ambrés et miel, texture granuleuse, ambiance nostalgique

Combinaison n° 2 : Tension glaciale

Lumière latérale provenant d'une seule source, palette de couleurs bleu sarcelle froide, texture numérique épurée, ambiance tendue

Combinaison n° 3 : Éthéré et onirique

Effet Tyndall des rayons lumineux à travers des rideaux transparents, palette pastel, texture aquarelle, ambiance apaisante

Même sujet, trois vidéos totalement différentes. Le mot-clé de l'ambiance est le panneau de contrôle.


Des phrases simples aux invites cinématiques : 5 exemples avancés

La meilleure façon d'apprendre à rédiger des prompts est d'observer leur processus d'évolution. Chaque exemple ci-dessous progresse depuis la version de base V1 (celle que la plupart des gens écrivent) vers la version V2 (qui ajoute des détails et des mouvements de caméra), pour aboutir à la version V3 (un prompt complet et de qualité cinématographique). Notez les changements qui se produisent à chaque niveau et les raisons pour lesquelles ils sont mis en œuvre.

Pour plus d'exemples de suggestions vidéo prêtes à l'emploi, consultez 10 suggestions vidéo pratiques basées sur l'IA.

Comparaison de l'évolution des invites en trois étapes, présentant les invites de base V1, les invites améliorées V2 (intégrant les mouvements de caméra et les effets d'éclairage) et les invites de qualité cinématographique V3 (entièrement spécifiées), chacune démontrant les améliorations correspondantes en termes de qualité vidéo.

Évolution rapide dans la pratique. La version V1 ne fournit pratiquement aucune information à l'IA. La version V3 lui fournit toutes les informations nécessaires : les résultats sont diamétralement opposés.

Exemple 1 : Portrait/Ambiance — « Femme marchant sous la pluie »

V1 — Édition de base (18 mots)

A woman walking in the rain at night in a city, cinematic, beautiful

Vous obtenez : une femme générique, une ville générique, une pluie générique, un éclairage plat, aucune résonance émotionnelle. L'IA comble chaque vide avec des moyennes statistiques.

V2 — Version améliorée (62 mots)

A young Asian woman in a long dark coat walks slowly through a rain-soaked Tokyo backstreet at night. Neon signs reflect in the wet pavement, casting pink and blue light. She carries a transparent umbrella. Camera tracks beside her at shoulder height. Shallow depth of field. Melancholic mood.

Ce qui a été amélioré : identité spécifique du sujet, emplacement spécifique, source lumineuse spécifique, position de la caméra, orientation émotionnelle. L'IA dispose désormais de suffisamment d'informations pour générer des images uniques.

V3 — Qualité cinématographique (138 mots)

A woman in her late 20s, Japanese, long black hair partially wet and clinging to her neck, wearing an oversized charcoal wool coat over a cream turtleneck, walks alone through a narrow Shinjuku backstreet at 2am. Rain falls in fine sheets, catching neon light from izakaya signs overhead — warm amber kanji characters and cold blue beer advertisements. The wet asphalt mirrors everything, creating a double world beneath her feet. She carries a transparent vinyl umbrella, water beading and streaming down its surface.

Camera: tracking shot at shoulder height, moving alongside her at walking pace, shallow depth of field at f/1.4, foreground rain droplets occasionally crossing the lens out of focus.

Lighting: practical neon sources only — no fill light. Rim light from signs behind her outlines her coat collar and umbrella edge. Her face catches intermittent warm light as she passes each shopfront.

Style: cinematic, Kodak Vision3 500T film stock, slight grain, teal-and-amber color grade, Wong Kar-wai atmosphere.

Son : pluie sur la surface d'un parapluie, jazz lointain et étouffé provenant d'un bar, ses pas sur la pierre mouillée, pas de dialogue, pas de musique.

(Une Japonaise d'une vingtaine d'années, aux longs cheveux noirs partiellement trempés et collés à son cou, vêtue d'un manteau en laine gris anthracite trop grand par-dessus un pull à col roulé de couleur crème, marche seule dans les ruelles étroites de Shinjuku à 2 heures du matin. De fins fils de pluie capturent la lueur néon des enseignes des izakaya au-dessus de sa tête : des caractères japonais ambrés chaleureux et des publicités pour de la bière bleu froid. Le bitume humide reflète tout, créant un monde miroir sous ses pieds. Elle tient un parapluie en plastique transparent, des gouttelettes se condensant et ruisselant sur sa surface.)

Pourquoi V3 fonctionne : chaque élément de la formule est explicitement défini. L'IA n'a aucune marge de manœuvre pour deviner : lorsqu'elle ne devine pas, elle rend précisément ce que vous décrivez.

Exemple 2 : Présentation du produit — « La montre sur le bureau »

V1 — Édition de base (14 mots)

A luxury watch sitting on a table, product shot, high quality, 4K

V2 — Édition révisée (58 mots)

A stainless steel dive watch with a dark blue dial rests on a slab of raw gray marble. Camera orbits slowly around the watch, 15 degrees above. Single key light from the upper left creates a defined shadow. The watch's crystal catches the light and creates a brief flare. Commercial style, clean background.

V3 — Qualité cinématographique (126 mots)

A stainless steel dive watch with a sunburst navy-blue dial and ceramic bezel sits on a rough-cut block of Carrara marble, positioned at the golden-ratio intersection of the frame. The second hand sweeps continuously. Micro water droplets bead on the crystal surface and the steel bracelet links, catching light.

Camera: begins in macro extreme close-up on the dial — the indices and lume dots fill the frame — then slowly dollies out while simultaneously orbiting clockwise, completing a 270-degree arc over 8 seconds until the full watch and marble base are revealed in a three-quarter beauty shot.

Lighting: single hard key light at 10 o'clock position, 45 degrees above. No fill — deep shadows on the right side. A subtle rim light from behind separates the watch from the dark charcoal background.

Style: high-end commercial, ultra-sharp 8K downscaled to 4K, zero grain, clinical precision. Color: cool steel tones with warm gold accents from the lume.

Son : quasi silence — seul le faible tic-tac mécanique du mouvement, un seul carillon clair au moment de l'éclat.

(Une montre de plongée en acier inoxydable, cadran bleu marine soleil avec lunette en céramique, repose sur un bloc de marbre de Carrare grossièrement taillé, placé à l'intersection du nombre d'or du cadre. L'aiguille des secondes continue son mouvement. De minuscules gouttelettes se condensent sur la surface du verre et les maillons du bracelet en acier, captant la lumière.)

Exemple 3 : Voyage panoramique — « Montagnes au lever du soleil »

V1 — Édition de base (12 mots)

Beautiful mountains at sunrise, drone shot, epic landscape, cinematic

V2 — Édition révisée (55 mots)

Snow-capped mountain peaks emerging from a sea of clouds at sunrise. The first rays of sun paint the peaks golden while the valleys remain in blue shadow. Camera cranes up slowly from the cloud layer, revealing the full mountain range. Wide angle, epic scale, warm-to-cool color gradient.

V3 — Qualité cinématographique (134 mots)

The Dolomites at sunrise in late autumn. Jagged limestone spires — the Tre Cime di Lavaredo — pierce through a thick layer of valley clouds, their east-facing faces catching the first horizontal rays of sun and turning from cold blue-gray to blazing amber-gold. The cloud layer below is a rolling ocean of soft white and pale peach, filling the valleys completely.

Camera: starts buried inside the cloud layer — visibility near zero, soft white diffusion everywhere — then cranes upward at a steady pace, breaking through the cloud surface to reveal the peaks and the vast sky above. The transition from claustrophobic fog to infinite horizon takes 4 seconds. Continue rising to a high aerial wide shot. 24mm wide angle lens.

Lighting: first light of day — sun at 5 degrees above the eastern horizon, casting extreme raking light across the mountain faces. Golden hour warmth on lit surfaces, blue hour coolness in shadowed areas. Volumetric light beams visible where sun cuts between peaks.

Style: National Geographic cinematic, IMAX-quality, ultra-wide dynamic range, vivid but natural color, no filters.

Son : vent en altitude — un murmure grave et soutenu ponctué de rafales occasionnelles, sans musique ni bruits humains. Le silence amplifie l'ampleur.

(Lever de soleil à la fin de l'automne dans les Dolomites. Des pics calcaires déchiquetés — les Trois Cimes — transpercent les épais nuages de la vallée, leurs faces orientales captant les premiers rayons horizontaux du soleil, passant d'un bleu-gris froid à un ambre doré ardent.)

Exemple 4 : Scène d'action — « Un artiste martial frappe avec son poing »

V1 — Édition de base (15 mots)

A martial artist doing a spinning kick, action movie style, slow motion

V2 — Version améliorée (64 mots)

A female martial artist in a dark training hall performs a spinning back kick. Her bare foot connects with a hanging heavy bag, sending it swinging violently. Camera captures the kick from a low angle, slightly slow motion at the point of impact, then returns to real-time as she recovers her stance. Side lighting creates dramatic shadows.

V3 — Qualité cinématographique (141 mots)

A woman in her 30s, lean and muscular, wearing a fitted black tank top and loose gray training pants, stands in a dimly lit martial arts gym. Worn wooden floor, heavy bags hanging in rows, chalk dust suspended in the air. She explodes from stillness — a spinning hook kick that arcs through 360 degrees, her back heel striking a leather heavy bag at head height.

Camera: starts medium shot at 45-degree angle. As the spin begins, camera speed-ramps to 240fps slow motion — her hair whips in an arc, chalk dust traces the path of her foot, the bag surface ripples visibly on impact. Hold for one beat, then ramp back to real-time as she plants her foot. Slight handheld energy.

Lighting: single harsh side light from camera-left, no fill. Chalk dust and sweat particles glow in the light beam.

Style: David Fincher / Fight Club aesthetic — desaturated, greenish-teal undertone, high contrast, gritty. Anamorphic lens with subtle horizontal flares.

Son : silence avant le coup de pied — bourdonnement ambiant de la salle de sport, inspiration. Le coup de pied : claquement explosif du tissu, impact lourd du cuir, cliquetis de la chaîne. Son expiration brusque au moment du contact. Pas de musique.

(Une femme d'une trentaine d'années, mince et musclée, vêtue d'un gilet noir moulant et d'un pantalon de survêtement gris ample, se tient debout dans une salle d'arts martiaux faiblement éclairée. Plancher en bois usé, rangées de sacs de frappe suspendus, poussière en suspension dans l'air. Elle explose dans l'immobilité — un coup de pied circulaire à 360 degrés, le talon frappant le sac en cuir à hauteur de tête.)

Exemple 5 : Récit émotionnel — « Grand-mère et petit-fils »

V1 — Édition de base (16 mots)

A grandmother and her grandchild spending time together, heartwarming, emotional, beautiful moment

V2 — Version améliorée (71 mots)

An elderly grandmother with silver hair and weathered hands teaches her 5-year-old granddaughter how to knead bread dough in a sunlit country kitchen. The child stands on a wooden step stool, flour on her cheeks, laughing. The grandmother guides her small hands through the dough. Golden morning light through a window. Warm color palette. Intimate, cozy atmosphere.

V3 — Qualité cinématographique (147 mots)

A Japanese grandmother in her 80s, silver hair in a soft bun, deep expression lines around smiling eyes, wearing an indigo apron over a cream linen blouse, stands beside her granddaughter — age 4 or 5, round cheeks, short black hair with a red clip — at a low wooden table in a traditional kitchen. Shoji screen doors are slid open to a small garden where morning light enters. They are making mochi together. The grandmother's large, weathered hands wrap around the child's tiny ones, guiding them to fold and press the soft rice dough. Flour dust floats in the shaft of sunlight between them.

Camera: close-up on their four hands working the dough — the contrast of old and young skin. Slowly dolly out to a medium shot including both faces. Rack focus between them — first sharp on the grandmother's eyes, then pulling to the child's smile. 85mm portrait lens, f/2.0, creamy bokeh.

Lighting: natural morning sunlight from the garden, soft and directional, Tyndall effect through the flour dust. No artificial light. The light creates a warm halo around the grandmother's silver hair.

Style: Hirokazu Kore-eda film quality — observational, unhurried, documentary intimacy with cinematic beauty. Kodachrome-inspired color. 16:9.

Son : le doux bruit rythmique des mains qui pétrissent la pâte, les oiseaux dans le jardin, un carillon éolien lointain, les rires occasionnels de l'enfant, la grand-mère qui fredonne une mélodie folklorique. Pas de musique, seulement des sons diégétiques.

(Une grand-mère japonaise octogénaire, aux cheveux argentés rassemblés en un chignon lâche, aux rides profondes autour des yeux souriants, vêtue d'un tablier bleu indigo sur une chemise en lin couleur crème. Elle se tient à côté de sa petite-fille de quatre ou cinq ans, aux joues rondes et aux cheveux noirs courts retenus par une barrette rouge, devant la table basse en bois de la cuisine traditionnelle. Les portes shoji s'ouvrent sur le petit jardin, où la lumière du matin inonde la pièce. Ensemble, elles préparent des mochi. Les grandes mains de la grand-mère, marquées par les années, enveloppent les petites mains de l'enfant, les guidant pour plier et presser la pâte de riz gluant. La poussière de farine flottait dans le rayon de soleil entre elles. Cette scène avait une qualité cinématographique à la Hirokazu Kore-eda : une intimité observatrice, sans précipitation, semblable à celle d'un documentaire, mêlée à une beauté cinématographique.


Intégrez la conception sonore dans l'invite.

La conception sonore représente la dimension la plus négligée dans la rédaction de scripts vidéo. En 2026, des plateformes telles que Seedance, Veo 3 et Keeling prenaient toutes en charge la génération audio synchrone pour les vidéos. La différence de qualité entre les scripts intégrant des repères sonores et ceux qui n'en comportaient pas s'est avérée considérable.

Imaginez ceci : une magnifique scène forestière sans sons ambiants ressemble à une animation GIF. Ajoutez-y le chant des oiseaux, le bruissement des feuilles et le murmure lointain d'un ruisseau, et vous obtenez un endroit où vous avez envie de vous plonger.

Format de conception sonore

Ajoutez les commandes vocales à la fin de l'invite dans un paragraphe ou une ligne séparé(e), en couvrant trois niveaux :

Première couche : musique de fond — Ambiance générale et style

Background music: slow ambient piano, minor key, sparse notes with reverb
(背景音乐:缓慢的氛围钢琴,小调,稀疏的音符带混响)

Deuxième couche : effets sonores ambiants — Établir les sons d'arrière-plan de la scène

Ambient: light rain on leaves, distant thunder rolls, wet road traffic hum
(环境音:轻柔的雨打树叶声、远处的雷声滚动、湿路上的交通嗡嗡声)

Troisième couche : effets sonores d'action et dialogues — Sons spécifiques associés aux événements de la vidéo.

SFX: footsteps on wet pavement, umbrella opening with a click
Dialogue: none
(音效:湿路面上的脚步声、雨伞咔嗒打开的声音。对话:无)

Référence des mots-clés audio

Styles musicaux pour différentes émotions :

AmbianceDirection musicale (invite en anglais)
TranquilleAmbient, piano doux, guitare acoustique fingerpicking, lo-fi
TenduBourdonnement grave, cordes dissonantes, pulsation percussive minimale
JoyeuxAcoustique entraînante, ukulélé, percussions légères, tonalité majeure
ÉpiqueCrescendo orchestral, tambours taiko, fanfare de cuivres, chœur
RomantiqueQuatuor à cordes, jazz doux, bossa nova
MystérieuxAmbiance sombre, piano avec beaucoup de réverbération, sons de cloches lointains
ÉnergiqueRythme électronique, batterie entraînante, basses puissantes, tempo rapide
MélancoliqueVioloncelle solo, piano lent en mineur, guitare clairsemée

Bruits ambiants :

| Environnement | Couches sonores (invites en anglais) | |------|--------------------- -| | Forêt | Chant d'oiseaux, bruissement des feuilles, pic-bois lointain, ruisseau | | Nuit urbaine | Bruit de la circulation, sirènes lointaines, bourdonnement des néons, bruits de pas | | Océan | Vagues déferlantes, mouettes, vent, moteur de bateau lointain | | Café intérieur | Machine à café, murmures, cuillère sur la céramique, jazz | | Jour de pluie | Intensité de la pluie (pluie fine / forte averse), tonnerre, gouttes | | Atelier | Bruits d'outils, copeaux de bois, bourdonnement des machines, radio en arrière-plan |

Quand utiliser le silence

Le silence n'est pas l'absence de conception sonore, c'est un choix délibéré. Un silence stratégique peut créer :

  • Moment d'impact : le silence qui précède un moment dramatique amplifie ce moment
  • Sens de l'échelle : seul le bruit du vent soufflant sur de vastes paysages traduit l'immensité
  • Tension : supprimer les sons attendus crée un sentiment de malaise
  • Concentration : le silence attire toute l'attention sur l'aspect visuel

Dans l'invite, indiquez explicitement : « Son : silence — pas de musique, pas de bruits ambiants, seulement la respiration du sujet. »

Pour plus d'informations sur la génération audio dans la production de vidéos musicales IA, veuillez vous reporter au Guide du générateur de vidéos musicales IA.


Techniques d'invite spécifiques à la plateforme

La formule universelle s'applique de manière universelle, mais chaque plateforme vidéo IA possède ses propres caractéristiques distinctes dans l'interprétation des invites. L'optimisation des invites spécifiquement pour la plateforme que vous utilisez peut améliorer considérablement les résultats.

Comparaison des optimisations rapides pour le même concept vidéo sur cinq plateformes vidéo IA distinctes (Seedance, Sora, Keeling, Runway et Veo 3)

Le même concept – « Femme marchant sous la pluie la nuit » – optimisé pour cinq plateformes distinctes. Même formule, accent différent.

Seedance

Avantages : Format chronologique du storyboard, séquences multi-prises, conversion d'images en vidéos, [générateur de suggestions] intégré.

Techniques d'optimisation :

  • Utilisez une structure de storyboard chronologique pour les séquences complexes — divisez les vidéos en plans horodatés :
 Shot 1 (0-3s): [描述]
 Shot 2 (3-6s): [描述]
 Shot 3 (6-10s): [描述]
  • Maintenez la cohérence stylistique et des personnages en référençant les images téléchargées avec @Image1, @Image2
  • Le langage cinématographique s'avère très efficace : utilisez une terminologie spécifique (chariot, rail, orbite) plutôt que des descriptions vagues (« se déplacer vers »).
  • Intègre la conception sonore — Seedance gère les repères audio
  • Flux de travail le plus efficace : utilisez le générateur de suggestions vidéo pour créer des suggestions structurées à partir d'idées simples, puis affinez-les manuellement.

Guide complet des invites spécifiques à la plateforme Seedance (avec plus de 50 exemples), voir Guide des invites Seedance.

Sora(OpenAI)

Avantages : comportement physiquement réaliste, mouvements naturels et compréhension naturelle du langage dans les textes longs.

Techniques d'optimisation :

  • Utilisez des paragraphes fluides et descriptifs plutôt que des listes structurées — Sora excelle dans l'analyse du langage naturel
  • Mettez l'accent sur les détails physiques : gravité, poids, propriétés des matériaux, dynamique des fluides
  • Décrivez comment quelque chose « sensation qu'il procure » - Les descriptions de la texture et des matériaux améliorent la fidélité physique
  • Précisez les proportions et la durée
  • Détaillez les propriétés physiques : « Le tissu lourd ondule à chaque pas, ralenti par son propre poids » donne de meilleurs résultats que « jupe flottante ».

Ke Ling Kling (Kuaishou)

Avantages : vitesse de génération rapide, performances de mouvement et de déplacement robustes, excellente cohérence faciale.

Conseils d'optimisation :

  • Rédigez des invites concises : Keli réagit mieux aux invites ciblées et axées sur l'action (50 à 80 mots est la longueur optimale).
  • Commencez par l'action : « Un danseur saute et tourne » plutôt que de mentionner le mouvement après de longues descriptions de scène.
  • Précisez clairement la direction du mouvement : « se déplace de gauche à droite », « s'approche de la caméra », « se détourne ».
  • Keeling excelle dans la restitution des mouvements humains et des expressions faciales. Tirez parti de cette capacité pour les invites émotionnelles en gros plan.
  • Les instructions relatives aux mouvements de caméra sont efficaces, mais chaque indication doit se limiter à une ou deux actions distinctes de la caméra.

Signification universelle, formes infinies / Piste (Gen-3 Alpha / Gen-4)

Techniques d'optimisation pour Tongyi Wanshang :

  • Prend en charge la saisie directe de commandes en chinois, donnant des résultats supérieurs à ceux obtenus par traduction
  • Fait preuve d'une excellente compréhension des éléments esthétiques traditionnels chinois : aquarelle, style national et costumes d'époque
  • Obtient des résultats efficaces grâce à des balises de style concises et explicites

Techniques d'optimisation de Runway :

  • Combiner les descriptions textuelles avec des balises de style — Runway possède une solide compréhension du style
  • Décrire le mouvement à l'aide de vecteurs spatiaux : « mouvement du bas à gauche vers le haut à droite »
  • Lorsque vous utilisez Motion Brush, concentrez-vous sur la scène et le style dans leur ensemble, tout en utilisant le pinceau pour traiter des zones de mouvement spécifiques
  • Runway fait preuve d'une excellente compréhension des descriptions de style artistique — « dans le style d'un film de Terrence Malick » - Lorsque vous utilisez le pinceau de mouvement, concentrez-vous sur la scène et le style dans leur ensemble, puis utilisez le pinceau pour affiner des zones de mouvement spécifiques
  • Runway excelle dans l'interprétation des descriptions de style artistique - « dans le style d'un film de Terrence Malick » donne d'excellents résultats
  • Maintenez l'attention sur la prompt - générez une scène distincte par prompt plutôt que des séquences multi-plans

Veo 3(Google DeepMind)

Avantages : compréhension audio, simulation physique, qualité cinématographique, séquences prolongées.

Techniques d'optimisation :

  • Inclure des descriptions audio détaillées — Veo 3 génère un son synchronisé à partir du texte
  • Décrire en détail les interactions physiques : comment les objets entrent en collision, comment les matériaux se déforment et comment la lumière interagit avec les surfaces
  • Utiliser la terminologie cinématographique — Les données d'entraînement de Veo 3 privilégient largement la réalisation cinématographique professionnelle
  • Précisez la durée et le rythme : « la scène se déroule lentement pendant 10 secondes »
  • Les descriptions physiques renforcent considérablement l'impact : « l'eau éclabousse vers le haut lors de l'impact, les gouttelettes captant la lumière arrière » plutôt que simplement « éclabousse ».

Pour une comparaison détaillée entre Seedance et Sora en termes d'interprétation rapide et de qualité de sortie, veuillez vous reporter à Comparaison entre Seedance et Sora.


Ou laissez l'IA rédiger des invites à votre place

Vous venez d'apprendre toutes les étapes nécessaires à la création de prompts vidéo à partir de zéro. Ces connaissances sont extrêmement précieuses : elles vous permettent de mieux juger de la qualité des prompts et vous donnent un contrôle total sur chaque détail. Cependant, vous n'avez pas besoin d'écrire manuellement chaque prompt à chaque fois.

Le diagramme du flux de travail illustre une approche hybride : l'IA génère une invite structurée initiale, qui est ensuite révisée et optimisée par des humains pour des éléments spécifiques. L'invite affinée produit ensuite la vidéo finale.

Flux de travail hybride : laissez l'IA gérer la terminologie structurelle et technique, puis apportez votre touche créative lors de la phase d'optimisation.

Quand écrire à la main ou utiliser l'IA ?

ScénarioMeilleure approche
Vous avez une vision créative précise et savez exactement ce que vous voulezÉcriture manuscrite — vous serez plus rapide et plus précis qu'en modifiant des brouillons générés par l'IA
Vous avez une idée générale, mais avez besoin d'une structureGénération par l'IA → Raffinement manuel
Vous avez besoin de générer rapidement plusieurs variantes de promptGénération par lots par l'IA → Sélectionnez et affinez les meilleures
Vous êtes en phase d'apprentissage et souhaitez étudier les structures de promptGénération par l'IA → Lisez et analysez — c'est ainsi que vous enrichirez votre vocabulaire
Vous devez correspondre à des images de référence spécifiquesÉcriture manuscrite — décrivez précisément ce que vous voyez dans la référence

Flux de travail hybride (recommandé)

Le processus de rédaction rapide le plus efficace combine la génération par IA et le perfectionnement humain :

  1. Commencez par l'IA. Rendez-vous sur Seedance Video Prompt Generator, décrivez votre idée en une ou deux phrases, sélectionnez un style et lancez la génération.

  2. Examinez attentivement le résultat. L'IA générera une invite structurée contenant le langage des mouvements de caméra, les timelines, l'éclairage et le son. Lisez-la attentivement. Les mouvements de caméra correspondent-ils au ton émotionnel que vous souhaitez créer ? La direction de l'éclairage crée-t-elle l'atmosphère souhaitée ? Y a-t-il des détails que vous souhaitez modifier ?

  3. Optimisation manuelle. C'est là que vos connaissances en matière de formules, de langage cinématographique et de mots-clés atmosphériques entrent en jeu. Remplacez les plans sélectionnés par l'IA par des plans plus conformes à votre vision. Ajustez les mots-clés d'éclairage. Ajoutez des détails spécifiques que l'IA ne peut pas connaître : traits de caractère spécifiques, exigences spécifiques à la marque, nuances émotionnelles.

  4. Générez la vidéo. Envoyez la commande optimisée au générateur de vidéo. Les résultats seront bien meilleurs que ceux obtenus avec des commandes entièrement manuelles créées par des novices ou des commandes générées par l'IA sans vérification.

Vous trouverez un guide complet sur l'utilisation des générateurs de prompts IA dans le Guide du générateur de prompts vidéo IA.


Effets cinématographiques : la maîtrise par l'intégration

Créons une invite finale qui utilise tous les éléments abordés dans ce guide (formules, langage cinématographique, mots-clés évocateurs, conception sonore) afin de produire un effet véritablement cinématographique.

Brief créatif : Un astronaute solitaire découvre la vie végétale sur Mars.

Une vidéo époustouflante de qualité cinématographique, générée par l'IA, montre un astronaute solitaire agenouillé au milieu du sol rougeâtre de Mars, découvrant une petite plante verte, rendue avec un éclairage latéral spectaculaire et des effets de poussière volumétriques.

Des invites cinématiques entièrement spécifiées donnent des résultats comme si elles avaient été réalisées par un cinéaste, car c'est précisément ce qu'elles sont. Chaque élément sert le récit.

Invite complète :

Subject: A solitary astronaut in a dusty, sun-bleached EVA suit — visor partially reflective, scratched from use, mission patches barely legible. The suit is not pristine Hollywood white; it is a working tool, weathered by months on the Martian surface.

Action: The astronaut crouches beside a small crack in the rust-red basalt. Inside the crack, a single tiny green sprout — two delicate leaves, almost translucent — pushes up through the red soil. The astronaut's gloved hand reaches toward it, hesitates, trembles slightly, then gently touches the soil beside it.

Environment: The Martian surface — a flat, rust-red plain scattered with dark basalt rocks, stretching to low eroded hills on the horizon. The sky is a pale butterscotch-pink. Dust devils move in the far distance. The scene feels vast and achingly empty — except for this one tiny green thing.

Camera: Opens with an extreme wide shot — the astronaut is a small figure in the immense Martian landscape. Slow dolly in over 4 seconds to a medium shot. As the astronaut crouches, camera drops to ground level and continues to a close-up of the gloved hand and the sprout. Rack focus: pull from the hand to the astronaut's visor, where we see the sprout's reflection. 65mm lens, anamorphic.

Lighting: Late Martian afternoon — low sun from camera-right, casting long amber-red shadows. The side light sculpts the EVA suit's texture. The sprout's translucent leaves glow with subsurface scattering as sunlight passes through them — the only green in a world of red. Volumetric dust particles drift through the light beam.

Style: Ridley Scott's The Martian meets Terrence Malick's The Tree of Life. Cinematic, anamorphic, muted Martian color palette with the single point of vivid green as deliberate contrast. Subtle film grain.

Sound: Wind — thin, high-pitched Martian wind, unlike Earth wind. The astronaut's breathing inside the suit — measured at first, then quickening. A single sustained low note from a cello enters as the hand reaches for the sprout. No dialogue. No narration.

Un astronaute solitaire, vêtu d'une combinaison spatiale EVA incrustée de poussière et décolorée par le soleil, la visière semi-réfléchissante, portant les traces d'utilisation, l'écusson de la mission à peine discernable. Cette combinaison n'est pas d'un blanc immaculé comme à Hollywood ; c'est un outil de travail, usé par des mois passés à la surface de Mars. Accroupi à côté d'une étroite fissure dans le basalte rouge rouille, l'astronaute observe une petite pousse verte - deux feuilles minces, presque translucides - émergeant du sol cramoisi. Une main gantée se tend vers elle, hésite, tremble légèrement, puis touche doucement la terre à côté.

Cette invite intègre les sept éléments formels, le langage cinématographique spécifique (plan très long, travelling, changement de focalisation), les mots-clés atmosphériques (éclairage volumétrique, diffusion sous-superficielle, lentille anamorphique), la conception sonore (vent ambiant, bruits de respiration, note de violoncelle solitaire) et les références stylistiques (Ridley Scott, Terrence Malick). Chaque détail sert l'arc émotionnel : solitude → découverte → émerveillement.

Il s'agit du projet d'ingénierie vidéo.


Foire aux questions

Quelle doit être la durée des invites vidéo IA ?

Il n'existe pas de norme universelle en matière de longueur. La longueur appropriée dépend de la complexité de votre concept créatif et de la plateforme utilisée. Le niveau V1 (15 à 30 mots) donne des résultats universels sur toutes les plateformes. Le niveau V2 (50 à 80 mots) représente la plage optimale pour la plupart des plateformes : suffisamment spécifique sans surcharger le modèle. Le niveau V3 (100 à 200 mots) donne les résultats les plus contrôlables sur les plateformes prenant en charge les invites longues, telles que Seedance et Sora. Lorsque vous utilisez Keeling, conservez environ 50 à 80 mots. Le critère essentiel n'est pas le nombre de mots, mais le fait que chaque élément de la formule soit traité de manière exhaustive.

Une formation en photographie est-elle indispensable pour créer des invites vidéo efficaces ?

Ce n'est pas indispensable, mais cela vous sera extrêmement utile, et ce guide vient de vous enseigner les connaissances fondamentales. Vous n'avez pas besoin d'un diplôme en cinéma ; ce dont vous avez besoin, c'est de connaître les noms de 10 à 15 types de mouvements de caméra, de comprendre l'impact émotionnel des différents styles d'éclairage et de posséder le vocabulaire nécessaire pour décrire l'atmosphère. Ajoutez les sections [Langage des mouvements de caméra](#Langage des mouvements de caméra Arme secrète) et [Bibliothèque de mots-clés sur l'atmosphère](#Bibliothèque de mots-clés sur l'atmosphère) à vos favoris et consultez-les régulièrement jusqu'à ce que ces termes deviennent une seconde nature.

La même invite peut-elle être utilisée sur différentes plateformes vidéo IA ?

Bien sûr, la formule universelle s'applique universellement. Cependant, chaque plateforme interprète les invites différemment. Les invites optimisées pour Sora (longues, fluides, mettant l'accent sur la physique) peuvent nécessiter une restructuration pour Keeling (plus courtes, axées sur l'action). La section Techniques spécifiques à la plateforme détaille comment s'adapter. La formule de base reste inchangée ; seul le format de présentation est adapté.

Qu'est-ce qui distingue ce guide du guide Seedance prompt ?

Le Guide Seedance Prompt est spécifique à la plateforme : il vous enseigne le format de storyboard de Seedance, les références d'images et plus de 50 prompts prêts à l'emploi. Ce guide est universel : il vous enseigne les compétences fondamentales de la rédaction de prompts applicables à n'importe quelle plateforme. Considérez ce guide comme votre manuel scolaire et le guide Seedance comme votre manuel pratique pour un outil spécifique.

Comment décrire le mouvement d'une caméra si l'on ne connaît pas la terminologie cinématographique ?

Commencez par décrire ce que vous voulez que le public voie et ressente. « La caméra s'approche lentement du visage du sujet » correspond à un travelling avant . « La caméra suit la personne qui marche depuis le côté » est un travelling. Les plateformes d'IA comprennent assez bien les descriptions en langage naturel. Cependant, l'apprentissage de la terminologie technique (à l'aide du [guide des mouvements de caméra](#camera movement language secret weapon) ci-dessus) donne des résultats nettement meilleurs, car les modèles d'IA sont entraînés sur des vidéos décrites précisément à l'aide de ces termes professionnels.

Faut-il inclure les invites inversées (ce qu'il ne faut pas inclure) ?

Certaines plateformes prennent en charge les invites inversées, c'est-à-dire des instructions précisant ce qu'il faut éviter. Elles peuvent s'avérer utiles : « Pas de superposition de texte, pas de filigrane, pas d'images floues ». Cependant, la plupart des générateurs vidéo IA modernes gèrent plus efficacement les problèmes de qualité grâce à des spécifications positives. Plutôt que d'écrire « pas de mauvais éclairage », spécifiez « éclairage Rembrandt depuis la gauche de la caméra ». Au lieu de « pas de plans tremblants », indiquez « mouvement fluide de la steadicam ». Les invites positives guident l'IA vers le résultat souhaité ; les invites négatives se contentent de lui indiquer ce qu'il faut éviter, laissant les alternatives au hasard.

Comment maintenir la cohérence des personnages dans plusieurs invites ?

Maintenir la cohérence des personnages entre plusieurs générations de vidéos IA est l'un des aspects les plus difficiles de la rédaction de prompts. Trois stratégies s'avèrent utiles : (1) Utiliser des descriptions de personnages extrêmement précises, en les répétant mot pour mot entre les prompts — « une femme d'une vingtaine d'années, japonaise, cheveux longs noirs, manteau oversize en laine anthracite, col roulé crème ». (2) Utiliser des flux de travail image-vidéo : télécharger des images de référence des personnages pour l'animation IA. Seedance prend en charge cette fonctionnalité via les références @Image. (3) Générer tous les clips pour le même personnage au cours d'une seule session, dans la mesure du possible, en utilisant des graines ou des paramètres de style identiques.

Existe-t-il un outil qui peut m'aider à rédiger des invites vidéo ?

Oui. Le [générateur de suggestions vidéo] de Seedance accepte les descriptions en langage naturel pour générer des suggestions complètes et structurées de listes de plans, comprenant le langage des mouvements de caméra, les calendriers, l'éclairage et la conception sonore. Pour obtenir des instructions détaillées sur son utilisation, consultez le [guide du générateur de suggestions vidéo IA]. Flux de travail recommandé : génération IA → affinement manuel → production vidéo.


Commencez dès aujourd'hui à rédiger de meilleures invites vidéo

Vous disposez désormais d'une boîte à outils complète : la formule en sept éléments, un référentiel de mouvements de caméra comprenant plus de 15 techniques, une bibliothèque de mots-clés en quatre dimensions couvrant plus de 50 termes, cinq exemples progressifs illustrant l'évolution des normes fondamentales vers les normes cinématographiques, une méthodologie de conception sonore et des techniques d'optimisation spécifiques à chaque plateforme.

La différence entre les vidéos créées par des amateurs et celles créées par des professionnels n'est pas une question d'outils, mais de prompts. Et la rédaction de prompts est une compétence qui s'améliore avec la pratique.

Trois façons de commencer :

  1. Mettez la formule en pratique. Choisissez n'importe quel sujet et rédigez les versions V1 → V2 → V3. Comparez les résultats obtenus. L'amélioration sera immédiate et significative.

  2. Utilisez un générateur de prompts. Laissez l'IA s'occuper de la structure, puis appliquez vos connaissances en matière de mouvements de caméra et d'ambiance pour affiner le résultat. Essayez le générateur de prompts vidéo →

  3. Créez votre première vidéo. Choisissez votre meilleure suggestion et créez une vidéo dès maintenant. Ouvrez le générateur de vidéos →

Inspiration plus rapide et exemples prêts à l'emploi :

Découvrez Seedance 2.0 →

La meilleure vidéo IA que vous créerez jamais commence par la prochaine invite que vous écrirez.

Seedance 2.0 IA

Seedance 2.0 IA

Vidéo IA et technologie créative