什么样的AI视频prompt才算好？

好的AI视频prompt具备三个核心特征：具体、有结构、包含运动描述。它应该包含清晰的主体描述、明确的动作或运动、氛围性场景设定、镜头指令、光线方向和画质修饰词。最重要的原则是具体性，同时必须包含运动描述，告诉AI什么在动、怎么动。

AI视频prompt应该多长？

理想区间是40到80个英文单词。少于20个词给AI太多自由度，产出不可预测的泛泛结果。超过150个词则可能自相矛盾或给模型造成困惑。一段涵盖主体、运动、镜头、灯光和画质的50-70词集中段落能产出最好的结果。

这些prompt可以用在其他AI视频工具上吗？

可以。每条prompt都可以在Seedance、Sora、可灵（Kling）、Runway、Pika、海螺（HaiLuo）等主流文生视频工具上使用。核心原则——具体的主体、明确的运动、镜头指令和灯光描述——是通用的。不同模型对语言的理解方式略有差异，建议把这些prompt当作起点并根据具体工具进行迭代。

为什么我的生成结果和示例不同？

AI视频生成包含随机性。同一条prompt每次生成都会产出不同结果。如果结果和预期不同，用同一条prompt生成3-5个变体，再决定是否需要修改prompt。同时检查画面比例和模型版本设置，这些会显著影响输出。

如何在prompt中描述镜头运动？

使用真实的电影摄影术语。AI模型理解专业术语：slow dolly in（缓慢推进）、tracking shot（跟踪镜头）、orbiting（环绕）、crane shot（升降镜头）、pan（水平摇镜）、tilt（垂直摇镜）、whip pan（甩镜头）。务必指定速度：slow dolly、gentle orbit、rapid whip pan。

需要使用反向prompt吗？

取决于生成器。有些工具有专门的反向prompt输入框，对排除特定问题非常有效：no text、no watermarks、no blurry faces。没有专门输入框时，可以在主prompt中加入否定性描述。不要写几十条排除项，专注于2-3个具体问题。

一条prompt应该迭代多少次？

三到五次是实际项目中的最佳区间。V1确立概念，V2细化细节，V3打磨制作品质。如果五次迭代仍未产出满意结果，问题很可能不在prompt，而是模型对这类内容的能力局限。尝试换一个方法来呈现场景。

哪个AI视频生成器的prompt控制力最好？

Seedance 2.0目前提供最全面的prompt控制力。支持文生视频和图生视频，镜头运动关键词被可靠执行，灯光指令准确转化，支持多种画面比例（16:9、9:16、1:1、3:4、4:3、21:9），分辨率可达2K，并支持角色一致性功能。

10 indicaciones de vídeo con IA realmente eficaces: incluyendo el proceso de iteración y comparaciones de efectos (2026)

Resumen

La gran mayoría de las indicaciones de vídeo de IA producen resultados insatisfactorios, principalmente por tres razones: excesiva vaguedad, instrucciones contradictorias y descripciones de movimiento insuficientes. Este artículo emplea 10 indicaciones de escenarios del mundo real para demostrar técnicas de redacción eficaces, cada una de ellas iterada desde la rudimentaria V1 hasta la V3, finamente ajustada, ilustrando claramente qué se modificó, por qué y dónde radicaban las deficiencias. Todas las indicaciones están listas para copiar y pegar en generadores convencionales como Seedance, Sora, Kling y Runway. Después de leerlo, dominará la estructura básica de las indicaciones y obtendrá una biblioteca práctica que abarca escenarios como retratos cinematográficos, anuncios de productos, animación, comida, moda, deportes, generación de imágenes a vídeo y anuncios de televisión de marcas. Abra Seedance ahora para probar estas indicaciones →

Nota: En la actualidad, casi todos los generadores de vídeo con IA convencionales (incluidos los nacionales, como KeLing y JiMeng) admiten entradas de comandos en inglés, y los comandos en inglés suelen ofrecer resultados superiores. Los ejemplos de comandos que se incluyen en este artículo conservan su inglés original y se acompañan de explicaciones en chino, lo que le permite copiarlos y utilizarlos directamente una vez que comprenda la intención de diseño que hay detrás de cada comando.

Comparación: Diferencias en la calidad de los vídeos generados por IA entre indicaciones vagas e indicaciones optimizadas. — El mismo concepto creativo puede dar resultados muy diferentes entre una indicación vaga y una bien definida.

Por qué la mayoría de las indicaciones de vídeo con IA no funcionan bien

Introduces una frase en una herramienta de vídeo con IA, haces clic en «Generar» y te das cuenta de que el resultado no se parece en nada a la imagen que tenías en mente. Casi todo el mundo ha experimentado esta discrepancia, y las razones subyacentes son, en realidad, predecibles y solucionables.

Los tres patrones de fallo más comunes

La descripción es demasiado vaga. Indicaciones como «una hermosa puesta de sol» no proporcionan prácticamente ninguna orientación a la IA: dónde se coloca la cámara, cuál es el tema principal, cómo cambia la luz o qué ambiente se pretende transmitir. Faltan todos estos elementos. Una indicación vaga solo puede dar lugar a imágenes mediocres y olvidables.

2. Instrucciones contradictorias. «Un primer plano extremo con gran angular de una persona corriendo a cámara lenta y rápida»: el primer plano y el gran angular son contradictorios, al igual que la cámara lenta y la cámara rápida. La IA intenta cumplir simultáneamente estas directrices imposibles, lo que da como resultado una imagen caótica.

Sin descripción del movimiento. El texto a vídeo no es lo mismo que el texto a imagen. Si solo describes una escena estática sin informar a la IA de qué se mueve o cómo se mueve, muchos generadores producirán una imagen fija con un sutil efecto de respiración. Debes indicar explícitamente a la IA cómo se produce el movimiento dentro de la escena.

Los tres pilares de las buenas indicaciones

Un excelente mensaje de vídeo de IA consta de tres elementos fundamentales:

Un sujeto definido: la IA sabe exactamente qué representar. No «una persona», sino «una mujer de unos treinta años con cabello negro con mechas plateadas que lleva una chaqueta de cuero desgastada».
Movimiento claro: algo está sucediendo dentro del encuadre. El sujeto se mueve, la cámara se mueve, las partículas flotan, la tela se ondula, la luz cambia. El movimiento es lo que da sentido al vídeo.
Atmósfera definida: la iluminación, la temperatura del color, el ambiente y el estilo no son extras opcionales, sino lo que distingue una «demostración técnica» de una «obra profesional».

Pensamiento iterativo

Los mejores redactores de indicaciones nunca crean una indicación perfecta de una sola vez; se basan en la iteración. Cada indicación de este artículo sigue un enfoque progresivo de tres versiones:

V1 —— Intento básico. Lo que la mayoría de la gente introduce inicialmente. Genera imágenes, pero sigue siendo genérico y carece de control.
V2 —— Mejora detallada. Incorpora ajustes específicos, iluminación, movimiento de cámara o ambiente. Resultados notablemente mejorados.
V3 —— Versión final. Se aplican modificadores de sujeto, movimiento, atmósfera, encuadre, iluminación y calidad visual. Cada elemento funciona en conjunto para producir una imagen completa y atractiva.

Este proceso iterativo te enseña mucho más de lo que cualquier «indicación perfecta» podría enseñarte. Llegarás a comprender los cambios que aporta cada adición y por qué son importantes.

La anatomía de las indicaciones de vídeo de IA

Todas las indicaciones excelentes siguen la misma fórmula:

[主体 Subject] + [动作/运动 Action] + [风格/情绪 Style] + [运镜 Camera] + [光线 Lighting] + [画质 Quality]

Cada elemento tiene su función específica:

| Elemento | Controles | Ejemplo | |------|-------- -|------| | Sujeto | Quién o qué aparece en el encuadre | «Una joven con una melena castaña rojiza y un abrigo de lana gris carbón» | | Acción | Qué está sucediendo, qué se mueve | «camina lentamente bajo la nieve que cae, con el aliento visible en el aire frío» | | Estilo | Estética visual y tono emocional | «melancólico, tonos tierra apagados, estética de película independiente» | | Cámara | Composición y movimiento de la toma | «Toma de seguimiento medio desde un lado, dolly lento» | | Iluminación | Fuentes de luz, textura, dirección | «Luz invernal nublada, sombras suaves y difusas, tonos azules fríos» | | Calidad | Especificaciones técnicas | «8K, profundidad de campo reducida, lente anamórfica, grano de película» |

No todas las indicaciones requieren que se incluyan los seis elementos, pero cuantos más se incluyan, mayor será el control que se tendrá sobre el resultado generado. A continuación, se presentan diez situaciones reales que demuestran la eficacia práctica de esta metodología.

Indicación n.º 1: Retratos cinematográficos — «Fotografías que cobran vida»

Configuración

Un retrato cinematográfico, como si fuera una captura de una película premiada. La protagonista no está posando, sino viviendo un momento. El viento le agita el cabello, su expresión transmite cierta solemnidad y la luz esculpe sus rasgos como en un cuadro renacentista.

V1 — Primeros intentos

A woman looking at camera

Esto es lo que suelen introducir la mayoría de los principiantes. El resultado es un retrato frontal insulso, similar a una foto de pasaporte: expresión neutra, iluminación predeterminada, totalmente desprovisto de cualquier sentido de ambientación o narrativa. La IA no recibe información sobre emociones, escenas o estilos visuales, por lo que lo que se obtiene es simplemente un resultado aleatorio.

V2 — Detalles adicionales

A woman with dark curly hair looks directly at the camera with a slight
smile. Wind blows her hair across her face. She stands in a golden wheat
field at sunset. Warm light on her skin.

Se han logrado avances significativos. Ahora se aprecian la escena (campo de trigo), la hora (atardecer), la interacción física (el viento que agita el cabello) y la expresión (sonrisa). Sin embargo, siguen sin aparecer los parámetros específicos de la cámara, la dirección precisa de la luz y los modificadores de la calidad de la imagen.

V3 — Versión final

Cinematic close-up portrait of a woman in her late 20s with dark curly
hair and deep brown eyes. She gazes directly into the camera with quiet
intensity, lips slightly parted. A warm breeze lifts strands of hair
across her face. She stands in a vast golden wheat field stretching to
the horizon. Golden hour backlighting creates a luminous halo around her
hair and shoulders. Warm amber fill light from a reflector below. Slow,
subtle dolly in. Shallow depth of field, f/1.4, 85mm lens. Gentle lens
flare from the low sun. Film grain, anamorphic bokeh. Ultra-realistic
cinematic 4K quality.

Comparación iterativa en tres etapas de indicaciones para retratos cinematográficos: evolución desde la línea de base hasta los efectos optimizados. — El proceso iterativo de V1 a V3: el mismo concepto evolucionó desde un retrato ordinario hasta un retrato con calidad cinematográfica, con iluminación, movimiento de cámara y profundidad atmosférica.

Por qué esta indicación es eficaz

Lente de 85 mm + apertura f/1,4 indica una perspectiva comprimida generada por IA y un desenfoque cremoso del fondo, la textura característica de los retratos profesionales.
La retroiluminación + la luz de relleno ámbar crean capas de iluminación tridimensionales. La retroiluminación separa al sujeto del fondo, mientras que la luz de relleno evita que el rostro se convierta en una silueta.
La lenta entrada en plano introduce un movimiento sutil sin distraer la atención del sujeto, creando una sensación de atracción hacia el encuadre.
«Intensidad tranquila, labios ligeramente entreabiertos» proporciona a la IA un objetivo emocional en lugar de una mera descripción física.

Variantes

Variación A — Retratos urbanos en una noche lluviosa:

Cinematic close-up of a man in his 30s with a shaved head and stubble,
standing still on a rain-soaked city street at night. Rain streams down
his face. He stares into the distance with exhausted resolve. Neon signs
reflect pink and blue on the wet pavement behind him. Shallow depth of
field. Slow push-in. Anamorphic lens flares. Cool blue tones with warm
neon accents. Ultra-realistic 4K, film grain.

Variante B — Retrato de un anciano en la nieve:

Tight close-up of an elderly woman with silver hair and deep laugh lines,
eyes glistening with emotion. She stands outdoors in gently falling snow.
Snowflakes settle on her dark wool shawl. Overcast soft light. A single
warm tear traces down her weathered cheek. Extremely shallow depth of
field. Static camera, no movement. 85mm lens. Muted, desaturated color
palette. Cinematic 4K, photorealistic.

Indicación n.º 2: Presentación del producto — «El lujo flotante»

Configuración

Una botella de perfume de alta gama presentada como si fuera una joya: suspendida, girando, captando la luz. Tradicionalmente, este tipo de fotografías requerían que las marcas gastaran decenas de miles de libras en contratar estudios profesionales. Con las indicaciones adecuadas, la IA puede generar vídeos de productos de calidad comercial en cuestión de segundos. Tanto si eres un vendedor de comercio electrónico como el propietario de una marca, estas imágenes consiguen tasas de conversión excepcionalmente altas en TikTok y Xiaohongshu.

V1 — Primeros intentos

A perfume bottle on a table

Resultado: una botella de perfume sin nada especial sobre una mesa anodina. Sin dramatismo, sin atractivo, sin ganas de comprarlo. Cuando le das a la IA una instrucción mediocre, solo puede ofrecer una imagen mediocre.

V2 — Detalles adicionales

A luxury glass perfume bottle with gold accents floating in mid-air against
a dark background. Soft light reflects off the glass surface. The bottle
slowly rotates. Professional product photography style.

Progreso significativo. Entre las características destacan los efectos de levitación, el contraste con un fondo oscuro, los reflejos de luz y las referencias estilísticas. Sin embargo, es posible mejorar aún más mediante una disposición precisa de la iluminación, elementos atmosféricos y movimientos de cámara.

V3 — Versión final

A luxury crystal perfume bottle with faceted edges and a gold cap floats
weightlessly in a void of deep matte black. The bottle rotates slowly on
its vertical axis, completing a quarter turn. Razor-sharp caustic light
refractions dance across the glass surface. Two opposing strip lights --
one warm amber, one cool white -- create dramatic dual-tone reflections on
the faceted crystal. Tiny golden particles drift lazily through the air
around the bottle. A single droplet of amber liquid clings to the bottle's
shoulder, catching the light. Smooth orbiting camera movement. Extreme
product close-up. 8K commercial quality, ultra-sharp focus throughout,
professional studio lighting.

Presentación del producto: Comparación de tres etapas de iteración Evolución de la calidad de renderización de frascos de perfume, desde el nivel básico hasta el comercial — V1 a V3: Una botella de perfume pasa de ser una simple instantánea tomada sobre una mesa a convertirse en un producto comercial con iluminación profesional y detalles atmosféricos.

Por qué esta indicación es eficaz

El fondo negro mate elimina todas las distracciones y centra la atención en el producto. Se trata de una práctica habitual en la fotografía de lujo.
Las dos tiras de luz (ámbar cálido + blanco frío) crean reflejos multitonales que aportan sofisticación a la cristalería. Una sola fuente de luz haría que el producto acabado pareciera barato y plano.
«Refracciones de luz cáusticas» es un término técnico bien conocido por los modelos de IA. Desencadena intrincados patrones de luz generados por objetos transparentes.
Las partículas doradas añaden profundidad al entorno sin competir por la atención con el producto.

Variantes

Variante A — Lanzamiento de un producto tecnológico:

A matte black wireless earbud case floats against a gradient of deep
navy to black. The case slowly opens, revealing pearl-white earbuds inside.
Volumetric blue light emanates from within the case. Tiny light particles
drift upward. Orbiting camera. Edge-lit rim lighting in electric blue.
Ultra-clean, Apple-style product aesthetic. 8K, ultra-sharp.

Variante B — Publicidad de productos cosméticos:

A rose-gold lipstick tube rotates slowly against soft pink studio
backdrop. The cap twists off and separates, floating beside the tube.
Creamy lipstick bullet catches soft ring light. Rose petals in soft focus
drift across the foreground. Smooth macro close-up. Beauty commercial
lighting with soft key and gentle fill. Ultra-realistic 4K.

Indicación n.º 3: Épica natural — «Tomas aéreas atmosféricas»

Configuración

Una impresionante toma panorámica épica, del tipo que esperarías ver en las secuencias iniciales de documentales sobre la naturaleza o películas al estilo de El señor de los anillos. En el corazón de estas imágenes se encuentra una sensación de escala, profundidad atmosférica y grandeza absoluta. Utilizada como apertura para vídeos panorámicos en Bilibili o Douyin, ofrece un impacto visual inmenso.

V1 — Primeros intentos

Mountains with clouds

Tendrás montañas. Tendrás nubes. No tendrás asombro. La IA carece de orientación sobre el tiempo, la dinámica meteorológica, el sentido de la escala, el encuadre o el estado de ánimo, lo que da como resultado un fondo de escritorio predeterminado del sistema.

V2 — Detalles adicionales

Dramatic mountain range at sunrise with clouds flowing through the valleys.
Golden light hits the peaks. Aerial drone shot slowly moving forward.
Mist and fog in the valleys below. Epic landscape photography.

Mejora significativa. Con el tiempo (amanecer), la dirección de la iluminación, los efectos atmosféricos, el movimiento de la cámara y las referencias estilísticas en su sitio. Sin embargo, para lograr una calidad verdaderamente cinematográfica, aún se requieren referencias geográficas específicas, condiciones meteorológicas dinámicas y palabras clave de fidelidad visual a nivel de producción.

V3 — Versión final

Epic aerial establishing shot of a jagged snow-capped mountain range
resembling the Dolomites at dawn. The camera drifts slowly forward over
a sea of low-lying clouds that fill the valleys like white rivers.
Golden-pink alpenglow illuminates the highest peaks while the valleys
remain in cool blue shadow. Wisps of cloud catch on rocky spires and
trail into the wind. A single eagle soars far below the camera, its
wings outstretched against the cloud sea. Volumetric god rays break
through a gap between two peaks. Slow, majestic forward dolly. IMAX
quality, ultra-wide 21:9 aspect ratio, photorealistic, extreme detail
in rock textures and snow patterns. 8K resolution.

Comparación iterativa en tres etapas de estímulos de paisajes naturales: cordilleras, desde la fidelidad visual básica hasta la calidad IMAX. — V1 a V3: Las vistas montañosas ordinarias se transforman en tomas panorámicas con calidad IMAX, con iluminación volumétrica, nubes fluidas y una sensación de escala monumental.

Por qué esta indicación es eficaz

«Similar a los Dolomitas» proporciona a la IA una referencia geográfica específica. La topografía real produce estructuras geológicas más coherentes que las «montañas» abstractas.
«Resplandor alpino» denota un fenómeno lumínico específico, en el que las cimas de las montañas brillan con un cálido color rosa antes del amanecer. Los datos de entrenamiento de la IA incluyen una amplia colección de fotografías naturales, lo que le permite comprender este término.
Un águila proporciona una referencia de escala viva. Sin ella, la escena podría parecer una maqueta en miniatura. Un pájaro volando en un paisaje vasto transmite una sensación de «inmensidad».
«Rayos divinos atravesando una abertura» crea un punto focal visual dentro de la composición, guiando la mirada del espectador.

Variantes

Variante A — Se acerca una tormenta:

Dramatic time-lapse-style shot of a vast Icelandic black sand desert.
Towering cumulonimbus storm clouds roll in from the horizon, their bases
dark and heavy with rain. Lightning flickers within the cloud mass.
A solitary volcanic peak stands defiant in the middle distance. The light
shifts from warm gold to ominous green-grey as the storm advances.
Wide-angle static camera. 4K cinematic, photorealistic.

Variante B — Tranquilidad tropical:

Aerial overhead shot drifting slowly over a turquoise tropical lagoon.
Crystal-clear water reveals coral reefs and white sand below. A small
wooden boat with a red sail drifts lazily across the lagoon. Palm trees
line the crescent beach. Gentle ripples catch sunlight and create dancing
caustic patterns on the seabed. Golden afternoon light. Smooth, dreamlike
camera movement. 4K ultra-realistic, vivid but natural colors.

Indicación n.º 4: Escenas urbanas callejeras — «El pulso de la ciudad»

Configuración

Una animada calle de la ciudad por la noche. La lluvia, las luces de neón, los reflejos en el suelo y el movimiento de los peatones se entrelazan para crear una sensación envolvente, como si estuvieras parado en una esquina a las dos de la madrugada. Este tipo de escenas son muy populares en la categoría de vídeos «paseos urbanos» de Douyin y Bilibili.

V1 — Primeros intentos

A city street at night

Resultado: una masa borrosa de edificios oscuros, tal vez con algunas luces. Sin atmósfera, sin narrativa, sin distinción visual. El «paisaje nocturno de la ciudad» podría ser una tranquila calle suburbana o Times Square: la IA es totalmente incapaz de discernir la diferencia.

V2 — Detalles adicionales

A rainy city street at night with neon signs reflecting on the wet
pavement. People walk with umbrellas. A taxi passes through a puddle,
splashing water. Colorful lights everywhere. Cinematic look.

Con el clima, los reflejos, la actividad de los personajes y los vehículos en su lugar, la escena comienza a cobrar vida. Sin embargo, para que realmente brille, es necesario definir un estilo estético específico, el comportamiento de la cámara y la jerarquía de iluminación.

V3 — Versión final

A rain-soaked Tokyo side street at night. The narrow road glistens with
reflections of dozens of vertical neon signs in Japanese characters --
hot pink, electric blue, acid green. A lone figure in a black trench coat
walks away from the camera, their silhouette dark against the neon glow.
Steam rises from a ramen shop's exhaust vent on the left. A bicycle
leans against a vending machine glowing soft white. Rain falls steadily,
each drop catching neon color as it descends. Slow tracking shot following
the figure from behind. Shallow depth of field: the figure is sharp, the
distant neon blurs into bokeh circles. Wet pavement acts as a mirror,
doubling every light source. Anamorphic lens flares. Blade Runner meets
Lost in Translation atmosphere. 4K cinematic, film grain, moody cool
blue-purple color grade.

Escenas urbanas callejeras: comparación de tres etapas de iteración, desde paisajes nocturnos básicos hasta noches lluviosas con neones cinematográficos. — V1 a V3: La nebulosa escena nocturna se transforma en una escena de calle lluviosa iluminada por neones, con una composición meticulosa, efectos meteorológicos dinámicos y referencias cinematográficas.

Por qué esta indicación es eficaz

«Calle secundaria de Tokio» ancla la IA a un léxico visual específico: calles estrechas, carteles verticales muy densos, máquinas expendedoras. La «ciudad» genérica carece de esta coherencia.
«Una figura solitaria con una gabardina negra se aleja» proporciona un punto focal narrativo y una trayectoria para las tomas de seguimiento.
«El pavimento mojado actúa como un espejo» indica explícitamente a la IA que genere un efecto de multiplicación de reflejos, el elemento más impactante visualmente en la cinematografía de una noche lluviosa.
Las referencias cinematográficas (Blade Runner + Lost in Translation) proporcionan a la IA un objetivo estético preciso, mucho más eficaz que la vaga directiva «cinematográfico».

Variantes

Variante A — Calle del mercado durante el día:

Bustling narrow market street in Marrakech at midday. Colorful fabric
awnings in saffron, cobalt, and crimson create dappled shade patterns on
the ground. Merchants arrange pyramids of spices in copper bowls. Dust
motes float in shafts of sunlight. A cat sits atop a stack of woven
rugs. Steady handheld camera walking slowly through the market. Warm,
saturated color palette. Documentary-style 4K, natural lighting.

Variante B — Metrópolis del futuro:

A massive elevated highway cuts through a futuristic megalopolis at dusk.
Flying vehicles stream along neon-lit lanes above and below. Holographic
advertisements flicker on the sides of impossibly tall buildings.
A distant megastructure disappears into clouds. Rain falls sideways in
the wind. Low-angle wide shot from a pedestrian bridge. Teal and orange
color palette. Cyberpunk 2077 aesthetic. 4K ultra-detailed.

Sugerencia n.º 5: Anime y fantasía — «La última batalla del samurái»

Configuración

Un samurái al estilo anime se mantiene firme ante una batalla imposible. Los pétalos de cerezo, los efectos energéticos y un cielo dramático se combinan para formar una escena que se asemeja a un fotograma clave de una película animada de alto presupuesto. Para los lectores que ven anime con frecuencia en Bilibili, estas imágenes tienen un profundo impacto.

V1 — Primeros intentos

An anime character with a sword

Resultado: un personaje rígido y genérico sosteniendo un cuchillo. Sin pose dinámica, sin entorno, sin definición estilística. «Anime» es una categoría amplia que abarca docenas de subestilos; la IA solo generará por defecto la variedad más común.

V2 — Detalles adicionales

A female anime warrior in ornate samurai armor stands on a cliff edge
holding a glowing katana. Cherry blossoms fall around her. A dramatic
sunset sky behind her. Detailed anime art style with clean line work.

Se han logrado avances significativos. Se han establecido detalles específicos para las armaduras y el armamento (incluidos los efectos luminosos), los elementos ambientales (flores de cerezo, acantilados) y el cielo. Sin embargo, es necesario seguir trabajando para mejorar los efectos visuales, definir un estilo artístico preciso e incorporar el movimiento.

V3 — Versión final

A fierce female samurai warrior stands at the edge of a shattered cliff
overlooking a burning battlefield far below. She wears battle-worn
crimson and black lacquered armor with gold filigree, one shoulder plate
cracked. Her long white hair whips violently in a supernatural wind.
She grips a katana that radiates crackling blue-white energy along its
blade. Cherry blossom petals swirl upward in a vortex around her. The
sky is a dramatic gradient from blood-red at the horizon through deep
violet to black overhead. Lightning forks across the clouds. The camera
slowly orbits around her in a dramatic reveal. High-detail cel-shaded
anime style with dynamic ink-line edges. Ufotable studio quality.
Vibrant color palette. 4K ultra-detailed.

Comparación iterativa en tres etapas de las indicaciones de los personajes de anime: desde los fundamentos hasta los efectos visuales de animación a nivel de estudio. — V1 a V3: Personajes de anime comunes transformados en fotogramas clave con calidad de estudio, con efectos sobrenaturales, narración ambiental y trabajo de cámara cinematográfico.

Por qué esta indicación es eficaz

«Calidad del estudio Ufotable» hace referencia al estudio de animación famoso por sus efectos visuales (Demon Slayer, serie Fate). El modelo de IA comprende la estética distintiva del estudio.
Los detalles de las cicatrices de batalla («una hombrera rota») aumentan la profundidad narrativa. Este guerrero ha visto combate, contando una historia sin diálogo.
«Pétalos de cerezo revoloteando en un vórtice» proporciona una dirección explícita del movimiento. «Las flores de cerezo cayendo» es un cliché estático, mientras que el vórtice ascendente sugiere fuerzas sobrenaturales.
«Energía azul y blanca crepitando a lo largo de la espada» introduce efectos de luz dinámicos, un elemento crucial que eleva la escena del anime de la ilustración a la animación.

Variantes

Variante A — Mago de fantasía oscura:

A hooded dark elf sorcerer floats cross-legged above a stone altar in
an ancient underground temple. Runes carved into the floor pulse with
deep emerald light. Dozens of ancient tomes orbit slowly around the
sorcerer, their pages fluttering. Dark energy coils from the sorcerer's
outstretched hands like living smoke. Candlelight flickers on obsidian
walls. Slow push-in camera. Dark Souls meets Studio Ghibli aesthetic.
Painterly digital art style. 4K ultra-detailed.

Variante B — Piloto mecánico:

Dramatic low-angle shot of a massive humanoid mech standing in a
destroyed cityscape. Rain pours down its scarred titanium armor. The
cockpit glows warm amber. One hand grips a massive energy cannon, still
smoking from a recent shot. Sparks shower from a damaged joint. The
pilot is visible as a small silhouette through the cockpit glass.
Lightning illuminates the scene. Gundam-inspired mecha design.
Cel-shaded anime with hyper-detailed mechanical rendering. 4K.

Indicación n.º 6: Primer plano culinario — «El vertido perfecto»

Configuración

Un primer plano de café siendo servido, tan vívido que casi se puede oler su aroma a través de la pantalla. Todos los anuncios de comida se basan en tomas como esta: líquido cayendo lentamente, vapor elevándose en volutas, tonos cálidos que despiertan el apetito. En la producción profesional, este tipo de tomas requieren equipos especializados y lentes macro. Con la IA, solo hay que describirlo. Perfecto para el contenido de los blogueros gastronómicos en plataformas como Xiaohongshu y Douyin.

V1 — Primeros intentos

Coffee being poured

Resultado: líquido marrón vertido en una taza. Sin capas sensoriales, sin atractivo, sin detalles en primer plano, sin vapor. La IA lo trató como una acción funcional en lugar de una experiencia sensorial.

V2 — Detalles adicionales

A close-up of rich dark coffee being poured from a ceramic pitcher into
a white cup. Steam rises from the cup. Warm morning light from a window
illuminates the scene. Cozy kitchen background. Slow motion pour.

Los primeros planos, los recipientes específicos, el vapor, la iluminación direccional y la cámara lenta contribuyen a crear una imagen atractiva. Sin embargo, para lograr una calidad digna de la publicidad alimentaria se requiere un nivel de detalle minucioso y un control preciso de la textura, la interacción de la luz y la dinámica del movimiento.

V3 — Versión final

Extreme macro close-up of dark espresso being poured in slow motion from
a brushed copper Turkish coffee pot into a handmade ceramic cup with a
crackle-glaze finish. The liquid cascades in a thick, syrupy ribbon,
creating a swirling crema pattern as it hits the surface. Delicate
wisps of steam curl and dance upward, backlit by warm golden morning
light streaming through a frosted window to the right. Individual micro-
bubbles form and pop on the crema surface. A cinnamon stick and star
anise rest on the saucer beside the cup. Shallow depth of field with the
pour in razor-sharp focus and the background melting into warm bokeh.
The camera slowly drifts downward to follow the pour. Food commercial
cinematography. Warm amber-brown color grade. 8K ultra-realistic,
appetizing, sensory.

Primer plano de comida: comparación de tres etapas de iteración: vertido de café, desde la calidad visual básica hasta la calidad publicitaria. — V1 a V3: Las cafeteras de goteo normales se transforman en fotografías macro dignas de anuncios publicitarios de alimentos, con vapor dinámico, intrincados patrones de crema y una iluminación seductora.

Por qué esta indicación es eficaz

«Cinta almibarada» describe una textura viscosa específica que transmite calidad. Los chorros finos y acuosos parecen baratos, mientras que los flujos espesos y controlados parecen lujosos.
«Se forman y estallan microburbujas en la crema» empuja a la IA hacia detalles superficiales solo visibles en la fotografía macro de alimentos. Esta granularidad denota una producción de nivel profesional.
El vapor retroiluminado es la técnica visual más «seductora» en la fotografía de alimentos. El vapor solo se hace visible con la luz de fondo; indicarlo explícitamente garantiza que la IA coloque correctamente las fuentes de luz.
Los accesorios (ramas de canela, anís estrellado) añaden contexto sensorial, permitiendo a los espectadores casi oler la escena.

Variantes

Variante A — Cascada de chocolate:

Extreme slow motion close-up of liquid dark chocolate pouring over a
stack of fresh strawberries on a marble slab. The chocolate flows in
thick rivulets over the red fruit, glistening under warm studio
spotlights. A dusting of gold leaf catches the light. Chocolate drips
from the edge of the marble in slow motion. Macro lens, razor-sharp
focus on the pour point. Dark moody background. Luxury food commercial
quality. 4K ultra-realistic.

Variante B — Cerveza artesanal:

Close-up of an amber craft beer being poured into a tulip glass at a
45-degree angle. Golden liquid flows down the inside of the glass,
building a creamy white head of foam. Tiny bubbles stream upward through
the beer. Warm backlight makes the liquid glow like amber. Condensation
forms on the outside of the cold glass. A wooden bar surface with
scattered hops visible in soft focus. Slow motion. 4K commercial quality.

Sugerencia n.º 7: Moda y belleza – «Momentos en la pasarela»

Configuración

Un momento editorial de moda: telas ondulantes, iluminación escultural y una imponente sensación de opulencia. No se trata de una instantánea casual, sino de una declaración de intenciones. Ya sea para contenidos centrados en la moda en Xiaohongshu o para vídeos promocionales de marcas, este tipo de imágenes captan la atención al instante.

V1 — Primeros intentos

A model walking

Una persona está caminando. No hay detalles sobre la ropa, ni escenario, ni iluminación atmosférica, ni calidad cinematográfica. El resultado de la IA muestra a un peatón corriente (en el sentido literal), carente de cualquier sentido de la moda.

V2 — Detalles adicionales

A tall female model walks down a minimalist white runway in a flowing
red silk gown. The dress moves dramatically with each step. Bright
fashion show lighting from above. Audience blurred in the background.
Editorial photography style.

Una vez definidos los elementos (vestuario, escenario, movimiento de los tejidos e iluminación), se puede generar una escena reconocible de pasarela. Sin embargo, para alcanzar la calidad de un largometraje, se requieren elementos adicionales: efectos físicos de los tejidos, técnicas de iluminación precisas y trabajo cinematográfico de cámara.

V3 — Versión final

A statuesque model strides confidently down a stark white runway in a
floor-length haute couture gown of flowing crimson organza layered over
structured black satin. The sheer fabric billows dramatically behind
her like a wave, catching air with each powerful step. Her expression
is fierce and unwavering. A sharp wind machine effect lifts the fabric
into a sculptural shape to her left. Overhead fashion spotlights create
hard, defined shadows on the runway floor. Rim lighting from behind
outlines her silhouette in white. The front row audience is a blurred
mosaic of camera flashes. Low-angle tracking shot from runway level,
moving with her pace. Shallow depth of field. Vogue editorial style.
Alexander McQueen show energy. 4K cinematic, crisp detail on fabric
textures, high-fashion color grading with deep blacks and saturated
red.

Evolución en tres etapas de las tendencias de las pasarelas de moda: desde la pasarela básica hasta los estándares editoriales de la alta costura. — V1 a V3: El caminar cotidiano se transforma en momentos de alta costura con tejidos esculturales, iluminación espectacular y artesanía digna de las pasarelas.

Por qué esta indicación es eficaz

«Organza carmesí sobre satén negro estructurado» presenta a la IA dos tejidos contrastantes: transparente y etéreo frente a rígido y oscuro. Este contraste crea complejidad visual.
«Efecto máquina de viento» es un término que vincula el modelo de IA con la producción de fotografía de moda, desencadenando el característico efecto de movimiento de la tela.
«Toma de seguimiento en ángulo bajo desde el nivel de la pasarela» coloca la cámara a la altura de un fotógrafo de moda real, lo que confiere a la modelo una sensación de poder y presencia.
«La energía de los desfiles de Alexander McQueen» hace referencia a la casa de diseño famosa por sus desfiles dramáticos e impactantes, lo que proporciona a la IA un punto de referencia emocional y estético.

Variantes

Variante A — Sesión fotográfica de estilo urbano:

A woman in an oversized camel cashmere coat, vintage denim, and white
sneakers walks along a cobblestone Parisian street in autumn. Fallen
leaves blow past her feet. She adjusts round sunglasses with one hand.
The camera tracks alongside her at walking speed. Soft, overcast Parisian
light. Muted earth-tone color palette. The Row meets Celine aesthetic.
Natural, effortless, editorial. 4K, film grain, shallow depth of field.

Variante B — Primer plano de belleza:

Extreme close-up beauty shot of a model's face with flawless dewy skin,
bold graphic black eyeliner, and glossy burgundy lips. She slowly turns
her head from profile to three-quarter view. Light catches the highlight
on her cheekbone. Her expression shifts from serene to subtly powerful.
Ring light reflected in her eyes. Clean white background. Beauty
editorial lighting with soft key and sharp catch light. 4K ultra-sharp,
skin texture visible.

Indicación n.º 8: Acción y deporte — «Momentos congelados»

Configuración

El momento culminante de la destreza atlética, transmitido con el impacto de una retransmisión de la Super Bowl. Esa fracción de segundo de sudor, músculos tensos y máximo esfuerzo. La fotografía deportiva exige una sincronización perfecta; el vídeo deportivo permite que ese momento se prolongue más tiempo.

V1 — Primeros intentos

A person playing basketball

Una figura está regateando. No hay acciones específicas, ni momentos álgidos, ni sensación de dramatismo deportivo. La IA no sabe si mostrar una bandeja, un regate o atarse los cordones de los zapatos.

V2 — Detalles adicionales

A basketball player in mid-air going for a slam dunk. Sweat flies off
his body. Arena lights are bright. Crowd in the background cheering.
Dramatic angle. Slow motion.

La IA ahora incorpora acciones específicas (mates), detalles corporales (sudor), escenarios (pistas deportivas) y modificadores temporales (cámara lenta). Es capaz de generar momentos deportivos reconocibles. Sin embargo, para alcanzar los estándares de calidad de las retransmisiones se requieren detalles anatómicos humanos precisos, diseño de iluminación y física de partículas.

V3 — Versión final

Ultra-dramatic slow motion capture of a muscular basketball player at
the apex of a powerful one-handed slam dunk. His body is fully extended,
arm reaching above the rim, fingers gripping the ball as it meets the
net. Every muscle fiber in his forearm is visible. Individual droplets of
sweat spray off his shaved head and outstretched arm, frozen in mid-air
and catching arena light like tiny prisms. The orange ball compresses
slightly against the backboard glass. Below, defenders look up
helplessly with blurred motion. Overhead arena lights create sharp
downward shadows and brilliant rim lighting on the player's shoulders.
The crowd is a bokeh wall of color and camera flashes. Low-angle shot
from below the basket looking up. Extreme slow motion, 1000fps feel.
8K ultra-sharp, hyper-realistic detail in skin texture, fabric wrinkles,
and sweat droplets. ESPN broadcast cinematic quality.

Comparación iterativa en tres etapas de indicaciones de movimientos deportivos: mate de baloncesto, desde imágenes básicas hasta imágenes con calidad de retransmisión. — V1 a V3: El juego de baloncesto habitual se transforma en imágenes congeladas con calidad de retransmisión, con efectos físicos de partículas de sudor, detalles anatómicos y una iluminación del estadio meticulosamente diseñada.

Por qué esta indicación es eficaz

«El punto álgido de un potente mate con una sola mano» captura ese milisegundo de máxima tensión visual. El fotograma del punto álgido es siempre el más impactante.
«Gotas individuales de sudor... congeladas en el aire, captando la luz del estadio como pequeños prismas» proporciona a la IA un objetivo concreto para el comportamiento de las partículas. Estos detalles microscópicos hacen que el efecto de cámara lenta sea más auténtico.
«Ángulo bajo desde debajo de la canasta mirando hacia arriba» constituye el ángulo de retransmisión icónico para los mates, maximizando la sensación de altura y potencia.
«Sensación de 1000 fps» indica a la IA el ritmo de cámara lenta deseado, haciendo referencia a los parámetros reales de las cámaras de alta velocidad que la IA puede asociar con características visuales específicas.

Variantes

Variante A — Momento de disparo en fútbol:

Extreme slow motion of a soccer striker's foot connecting with the ball
in a full-power volley shot. The boot compresses the ball's surface on
impact. Grass and mud spray upward from the follow-through. The
goalkeeper dives desperately in the background, fingers outstretched.
Side-angle shot at ground level. Rain falls in frozen droplets. Stadium
floodlights create god rays through the rain. 4K ultra-realistic,
hyper-detailed.

Variante B — Impacto del boxeo:

Ultra slow motion close-up of a boxer's right hook connecting with a
heavy bag. The leather surface of the bag deforms dramatically on impact,
creating a ripple wave across its surface. Sweat explodes outward from
the glove in a mist. The boxer's wrapped knuckles and taped wrist are
in razor-sharp focus. Gym environment with hard overhead fluorescent
lighting. Dust particles hang in the air. Low-angle. Gritty, raw
aesthetic. 4K cinematic.

Indicación n.º 9: Vídeo de TuSheng — «Dar vida a las fotografías»

Preparando el escenario

Esta indicación difiere de las ocho anteriores. No se trata de texto a vídeo, sino de imagen a vídeo (I2V): se sube una fotografía existente y se indica a la IA qué movimiento añadir. Este flujo de trabajo resulta excepcionalmente potente para dar vida a fotografías de retratos, imágenes de productos y obras artísticas. El reto consiste en proporcionar instrucciones que conserven la esencia de la imagen original e introduzcan un movimiento de aspecto natural.

Para obtener información completa sobre el flujo de trabajo de imagen a vídeo, consulte nuestro Tutorial detallado de imagen a vídeo.

V1 — Primeros intentos

Make the person move

Este es el error más común en el vídeo generativo. «Mover» no es un comando de movimiento. La IA puede hacer que los personajes se balanceen, que los rostros se distorsionen, que los brazos se agiten aleatoriamente o que se añadan movimientos extraños en todo el cuerpo. Las indicaciones ambiguas de I2V producen resultados poco naturales, similares al valle inquietante.

V2 — Detalles adicionales

The woman slowly turns her head to the right and smiles gently. Her hair
shifts naturally with the movement. Soft breeze moves the fabric of her
dress slightly.

La IA ahora incorpora movimientos específicos (girar la cabeza), dirección (hacia la derecha), cambios en la expresión facial (sonreír) y movimientos secundarios (cabello, tela). El resultado parece considerablemente más natural. Sin embargo, podría optimizarse aún más mediante sutiles cambios atmosféricos, movimientos de cámara y velocidades de movimiento precisas.

V3 — Versión final

The woman slowly turns her head from looking slightly left to gazing
directly into the camera. Her expression transitions from contemplative
to a warm, knowing smile. A gentle breeze lifts wisps of her hair across
her forehead. She subtly exhales, her shoulders relaxing slightly
downward. The fabric of her linen blouse ripples faintly at the collar.
Background leaves on a tree behind her sway gently with the breeze. Warm
afternoon light intensifies slightly as if a cloud has passed, deepening
the golden tones on her skin. Very slow, almost imperceptible dolly in.
Natural, lifelike motion -- no exaggerated movement. Maintain the
photographic quality of the original image. Smooth 24fps.

Comparación iterativa en tres etapas de Tusheng Video: efectos dinámicos para fotografías de retratos, desde básicos hasta naturales. — V1 a V3: «hacer que la persona se mueva» produce artefactos poco naturales, mientras que la indicación I2V, finamente ajustada, crea vídeos naturales y realistas a partir de fotografías estáticas mediante instrucciones de movimiento específicas y matizadas.

Por qué esta indicación es eficaz

Dirección de movimiento definida (desde mirar ligeramente hacia la izquierda hasta mirar directamente a la cámara) evita movimientos aleatorios. La IA reconoce tanto el estado inicial como el final.
Movimiento en capas a múltiples escalas: girar la cabeza (a gran escala), sonreír (a escala media), movimiento del cabello (a pequeña escala), movimiento del cuello de la camisa (a microescala), movimiento del follaje del fondo (a escala ambiental). La superposición de múltiples escalas de movimiento crea naturalismo.
«Como si hubiera pasado una nube» permite a la IA ajustar sutilmente la iluminación, añadiendo vitalidad sin alterar el tono visual establecido de la imagen original.
«Sin movimientos exagerados» es fundamental para I2V. Sin esta restricción, los modelos de IA tienden a una animación excesiva, lo que induce efectos de valle inquietante. La moderación es la piedra angular de un I2V convincente.

Variantes

Variante A — Fotografías paisajísticas en vídeo:

Clouds drift slowly from left to right across the sky. Water in the lake
ripples gently with a breeze. Grass in the foreground sways. A flock of
birds crosses the distant sky. The light subtly shifts as if time is
passing -- a slow golden hour transition. Very slow, meditative motion.
Maintain the photographic color grade and sharpness of the original.

Variante B — Imagen del producto en vídeo:

The watch face catches a moving light source that slowly sweeps from
left to right, creating a traveling highlight across the polished metal
bezel and glass face. The second hand ticks smoothly. Subtle reflections
shift on the brushed steel bracelet links. Background remains perfectly
still. Macro-level detail preserved. Smooth, professional product
motion.

Sugerencia n.º 10: Marca y marketing — «Cinematografía al nivel de los anuncios de televisión»

Preparando el escenario

Un anuncio de una marca de lujo que cuenta una microhistoria en una sola toma. No se trata simplemente de un vídeo del producto, sino de un manifiesto de estilo de vida. El reloj, su portador, ese momento, el mundo en el que vive... todo ello transmite simultáneamente los valores de la marca. Para obtener una guía detallada sobre el uso del vídeo con IA para el comercio electrónico y el marketing de productos, consulte nuestro Tutorial sobre vídeos de productos para comercio electrónico.

V1 — Primeros intentos

A luxury watch advertisement

Resultado: un reloj flotando sobre un fondo blanco o apoyado sobre una mesa. Sin contexto, sin aspiración, sin narrativa. Es una imagen de catálogo de productos, no un anuncio publicitario.

V2 — Detalles adicionales

A man wearing a luxury silver watch leans against a yacht railing at
sunset. The camera focuses on the watch on his wrist. Ocean in the
background. Warm golden light. Premium feel. Commercial style.

Con el contexto (yate), el estilo de vida (lujo), el punto focal (reloj de pulsera) y el momento (puesta de sol), se pueden crear imágenes evocadoras. Sin embargo, la calidad publicitaria exige una narración precisa, movimientos coreografiados y detalles a nivel de producción.

V3 — Versión final

A distinguished man in his 40s in a perfectly tailored navy linen suit
stands at the polished teak railing of a luxury sailing yacht at golden
hour. He gazes at the horizon with quiet confidence. The camera starts
as a wide establishing shot showing the yacht slicing through
crystalline Mediterranean water, then slowly pushes in to a medium
close-up, finally settling on an extreme close-up of the brushed
titanium dive watch on his left wrist. The watch face reflects the
orange-gold sky. His fingers tap once on the railing -- the watch catches
the light. Sea spray glitters in the air behind him, backlit by the low
sun. The yacht's white sails billow softly overhead. Wind ruffles his
hair and the lapels of his jacket. Warm amber key light from the setting
sun. Cool blue fill light from the reflected ocean. Cinematic
commercial quality. Omega or Rolex brand film aesthetic. Anamorphic
lens, shallow depth of field transitioning with the push-in. 4K,
ultra-premium production value.

V1 a V3: El «anuncio genérico de relojes de lujo» evolucionó hasta convertirse en un vídeo promocional de la marca con movimientos narrativos de cámara, contextos de estilo de vida y una calidad de producción de primer nivel.

Por qué esta indicación es eficaz

La trayectoria narrativa de la toma (plano general → plano medio → primer plano) crea una estructura narrativa dentro de una sola toma. Primero se establece el escenario, luego se enfoca al sujeto y, finalmente, se fija la atención en el producto. Esto constituye el arco narrativo estándar de la publicidad de artículos de lujo.
«Los dedos tocan una vez la barandilla» es una acción sutil pero deliberada del personaje que dirige de forma natural la mirada del espectador hacia el reloj, evitando la incomodidad de mostrar explícitamente la muñeca.
La iluminación dual (luz principal ámbar + luz de relleno azul) simula la auténtica iluminación del paisaje marino durante la hora dorada. Esta combinación constituye una imagen icónica para la publicidad del estilo de vida náutico.
«Estética cinematográfica de las marcas Omega o Rolex» proporciona a la IA una referencia precisa para la calidad de la producción, transmitiendo el nivel de presupuesto, la dirección del etalonaje y la filosofía visual general.

Variantes

Variante A — Anuncio de una marca de perfumes:

A woman in a flowing white silk dress walks barefoot through a sunlit
lavender field in Provence. She trails one hand through the lavender
tops as she walks, releasing a visible shimmer of pollen. A crystal
perfume bottle sits on a weathered stone wall in the foreground, the
lavender field reflected in its surface. The camera starts on the bottle,
racks focus to the woman approaching, then returns to the bottle as she
passes. Golden afternoon light. Soft lens flare. Chanel No. 5 campaign
aesthetic. Airy, dreamlike, aspirational. 4K cinematic.

Variante B — Anuncio de marca automovilística:

A matte black luxury sedan glides silently along a winding coastal
highway carved into dramatic sea cliffs at dusk. The last light of day
reflects off the car's polished roofline. Headlights carve through
gathering twilight. The camera tracks alongside the vehicle from a low
drone angle, keeping pace. Ocean waves crash against rocks far below.
Subtle interior glow visible through tinted windows. Smooth, powerful,
inevitable. Mercedes or Audi brand film quality. 4K cinematic,
anamorphic, teal and orange color grade.

Guía de referencia rápida: Descripción general de las 10 indicaciones

| # | Escena | Elementos principales | Modelo recomendado | Proporción óptima | |---|------|---------------- -|---------|---------| | 1 | Retrato cinematográfico | Mujer, campo de trigo, hora dorada, 85 mm, primer plano | Seedance 2.0 | 16:9 | | 2 | Presentación de producto | Frasco de perfume de cristal, dos tiras de luz, lente envolvente | Seedance 2.0 / 1.0 Pro | 16:9 o 1:1 | | 3 | Épica natural | Dolomitas al amanecer, mar de nubes, águila, efecto Tyndall, IMAX | Seedance 2.0 | 21:9 | | 4 | Escenas urbanas | Noche lluviosa en Tokio, reflejos de neón, silueta solitaria, seguimiento | Seedance 2.0 | 16:9 o 9:16 | | 5 | Fantasía anime | Guerrera, espada de energía, flores de cerezo, revelación del entorno | Seedance 2.0 | 16:9 | | 6 | Primeros planos culinarios | Macro de espresso, vapor, detalle de grasa, cámara lenta | Seedance 1.0 Pro | 16:9 o 1:1 | | 7 | Moda y belleza | Pasarela de alta costura, tul en vuelo, seguimiento en ángulo bajo | Seedance 2.0 | 9:16 o 16:9 | | 8 | Acción y deportes | Mates, gotas de sudor, tomas en ángulo bajo desde debajo de la canasta, 1000 fps | Seedance 2.0 | 16:9 | | 9 | Imagen a vídeo | Animación de retratos, movimiento en capas, transiciones de luz sutiles | Seedance 2.0 (I2V) | Coincidencia de imágenes de origen | | 10 | Marketing de marca | Estilo de vida náutico, narrativa panorámica a primer plano, iluminación de dos tonos | Seedance 2.0 | 16:9 o 21:9 |

Recomendamos marcar esta tabla como favorita para consultarla en el futuro. Cada indicación de este artículo se puede copiar y pegar directamente para su uso; solo hay que ajustar los detalles según el proyecto específico. Estas indicaciones son igualmente eficaces en herramientas nacionales (como Kling o Jiemeng), donde se pueden pegar directamente las indicaciones en inglés.

Cinco técnicas básicas para optimizar las indicaciones

Estos cinco principios se aplican a cualquier generador de vídeo con IA; dominarlos acelerará tus habilidades para escribir guiones.

Comience con brevedad y añada detalles gradualmente.

No intentes escribir un texto perfecto de cien palabras de una sola vez. Empieza con 15-20 palabras, genera, evalúa y luego añade un nivel de detalle cada vez. Este enfoque iterativo te ayudará a comprender qué añadidos tienen mayor impacto. Algunos detalles mejorarán significativamente el resultado, mientras que otros apenas marcarán la diferencia. Nunca lo sabrás a menos que lo pruebes.

Modifique solo una variable a la vez.

Al pasar de la versión V1 a la V2, resista la tentación de cambiar todo al mismo tiempo. Si modifica la iluminación, los ángulos de cámara, los sujetos y las escenas de una sola vez, no podrá determinar qué cambio ha mejorado (o empeorado) el resultado. Modifique solo un elemento por iteración. Esto requiere paciencia, pero le ayudará a comprender realmente cómo interpreta el lenguaje el generador.

Guarda tu «Golden Prompt» (mensaje dorado).

Cuando una sugerencia dé resultados sobresalientes, guárdala inmediatamente. Crea tu propia biblioteca de sugerencias clasificada por temas: retratos, productos, paisajes, abstractos, etc. Con el tiempo, esta colección se convertirá en tu activo creativo más valioso. Reutilizarás estructuras, cambiarás temas y recombinarás elementos probados. Considera la posibilidad de utilizar una herramienta para tomar notas (como Notion o Notes) para organizar tu biblioteca de sugerencias por categorías.

4. La lente es más importante que la descripción del sujeto.

Esta es una verdad contraria a la intuición: las instrucciones sobre la cámara y la iluminación suelen tener más peso que las descripciones del sujeto. Una descripción detallada del sujeto, combinada con un trabajo de cámara predeterminado, da resultados mediocres. Por el contrario, un sujeto sencillo, combinado con un movimiento preciso de la cámara, una selección adecuada de lentes y un diseño de iluminación, puede superar las expectativas. Cuando la longitud de la indicación sea limitada, invierta sus palabras en «cómo fotografiar» en lugar de «qué fotografiar».

Utiliza frases negativas para excluir elementos no deseados.

Muchos generadores de vídeo con IA responden bien al lenguaje excluyente. Incluir frases como «sin superposiciones de texto», «sin marcas de agua», «evitar la iluminación plana» y «sin cámara estática» puede ayudar al modelo a evitar errores comunes. Esto resulta especialmente útil cuando se encuentra un problema recurrente en varias generaciones. No se limite a describir lo que quiere, especifique también lo que no quiere.

Preguntas frecuentes

¿Qué constituye una buena indicación de vídeo de IA?

Una indicación de vídeo eficaz para la IA posee tres características fundamentales: especificidad, estructura e inclusión de la descripción del movimiento. Debe contener una descripción clara del sujeto, acciones o movimientos explícitos, la ambientación de la escena, instrucciones de encuadre (tamaño de la toma y tipo de movimiento), dirección de la luz y modificadores de la calidad visual. El principio fundamental es la especificidad: «una mujer con cabello negro con mechas plateadas y un abrigo gris oscuro caminando bajo la nieve» siempre da mejores resultados que «una mujer al aire libre». Igualmente crucial es la inclusión de la descripción del movimiento. Las indicaciones de vídeo deben indicar explícitamente a la IA qué se mueve y cómo se mueve; de lo contrario, el resultado se parecerá a una imagen casi estática.

¿Cuánto tiempo debe durar una indicación de vídeo de IA?

El rango ideal es de 40 a 80 palabras en inglés. Menos de 20 palabras otorgan a la IA una libertad excesiva, lo que da lugar a resultados genéricos e impredecibles. Superar las 150 palabras puede dar lugar a contradicciones o confundir al modelo. Para la mayoría de los generadores, un párrafo conciso de entre 50 y 70 palabras que cubra el tema, el movimiento, los ángulos de cámara, la iluminación y la calidad de la imagen produce los mejores resultados. La calidad de los detalles es más importante que el recuento de palabras.

¿Se pueden utilizar estas indicaciones con otras herramientas de vídeo basadas en IA?

Por supuesto. Cada indicación de este artículo se puede utilizar en las principales herramientas de conversión de texto a vídeo, como Seedance, Sora, Kling, Runway, Pika y HaiLuo (海螺). Los principios básicos (temas específicos, movimientos claros, dirección de la cámara y descripciones de la iluminación) siguen siendo universales. Sin embargo, los diferentes modelos interpretan el lenguaje de forma ligeramente diferente, por lo que las indicaciones que producen resultados impresionantes en Seedance pueden requerir un ajuste en otras plataformas. Considere estas indicaciones como puntos de partida potentes y luego repítalas en función de su herramienta específica. Cabe señalar que, incluso con herramientas nacionales como Kling o Jiemeng, el uso de indicaciones en inglés suele producir resultados superiores.

¿Por qué mis resultados generados difieren de los ejemplos?

La generación de vídeos mediante IA incorpora aleatoriedad. La misma indicación producirá resultados diferentes cada vez que se ejecute, incluso cuando se utilice el mismo modelo y una configuración idéntica. Esto es intencionado, ya que permite la exploración creativa. Si el resultado difiere de lo esperado, genere entre 3 y 5 variantes utilizando la misma indicación antes de decidir si modificarla. A menudo, el modelo producirá una versión excelente en pocos intentos. Al mismo tiempo, compruebe la configuración de la relación de aspecto y la versión del modelo, ya que estas afectan significativamente al resultado.

¿Cómo describir el movimiento de la cámara en la indicación?

Utiliza terminología cinematográfica auténtica. Los modelos de IA se entrenan con una gran cantidad de textos reales sobre cine y fotografía, lo que les permite comprender la jerga profesional. Los movimientos de cámara más comunes son: dolly lento, travelling, órbita, grúa, panorámica, inclinación y whip pan. Especifique siempre la velocidad: dolly lento, órbita suave, whip pan rápido. Para un control más preciso de la toma, utilice la función de vídeo de referencia de Seedance 2.0 cargando un clip que contenga el movimiento de cámara deseado como referencia.

¿Es necesario un aviso inverso?

Depende del generador. Algunas herramientas de vídeo con IA cuentan con campos de entrada específicos para indicaciones inversas. Las herramientas que carecen de esta funcionalidad son perfectamente aceptables. Cuando las indicaciones inversas están disponibles, resultan muy eficaces para excluir problemas específicos: «sin texto», «sin marcas de agua», «sin caras borrosas», «sin cámara estática». Si no hay un campo específico, incorpore descripciones negativas en su indicación principal: «evitar la iluminación plana» o «sin artefactos visibles». Evite enumerar docenas de criterios de exclusión en la indicación inversa; en su lugar, céntrese en 2-3 problemas específicos encontrados en generaciones anteriores.

¿Cuántas iteraciones debe sufrir un prompt?

De tres a cinco iteraciones representan el rango óptimo para proyectos prácticos. El marco V1 a V3 descrito aquí no se define de forma arbitraria, sino que se corresponde con un flujo de trabajo real. V1 establece el concepto, V2 refina los detalles y V3 perfecciona la calidad de la producción. Más allá de V3, los ajustes suelen afectar solo a elementos menores. Si tras cinco iteraciones aún no se obtienen resultados satisfactorios, es probable que el problema no radique en la indicación, sino en las limitaciones inherentes del modelo a la hora de manejar este tipo de contenido específico. Intente presentar el escenario de otra manera en lugar de añadir más palabras a la misma indicación.

¿Qué generador de vídeos con IA ofrece el mejor control de comandos?

Seedance 2.0 ofrece actualmente las capacidades de control de comandos más completas por las siguientes razones: admite la generación de texto a vídeo e imagen a vídeo con una excelente consistencia en los resultados. Las palabras clave de movimiento de cámara se ejecutan de forma fiable. Las instrucciones de iluminación se traducen con precisión en efectos de salida. Admite múltiples relaciones de aspecto (16:9, 9:16, 1:1, 3:4, 4:3, 21:9) con resoluciones de hasta 2K. La coherencia de los personajes garantiza la continuidad visual entre múltiples generaciones del mismo personaje. Para obtener una comparación exhaustiva de los generadores, consulte nuestra Comparación de los mejores generadores de vídeo con IA de 2026.

Conclusión

Crear indicaciones eficaces para vídeos con IA es una habilidad que se puede aprender, no un don natural. Las diez indicaciones de este artículo siguen un patrón coherente: empezar de forma sencilla, añadir detalles poco a poco y dar siempre prioridad a los ángulos de cámara, la iluminación y el movimiento por encima de todo lo demás.

Cada indicación se puede copiar y utilizar directamente. Tome cualquier indicación V3 y péguela en su generador como punto de partida. A continuación, repita el proceso: cambie los sujetos, la iluminación o los ángulos de cámara. Cada generación enseña al modelo cómo interpretar el lenguaje. Estas indicaciones funcionan mejor en Seedance, aunque también se pueden utilizar directamente con indicaciones en inglés en herramientas nacionales como Keeling y Jiemeng.

La forma más eficaz de mejorar es generar y observar lo que funciona eficazmente a gran escala. Guarda tus mejores indicaciones y crea una biblioteca de materiales. Con el tiempo, desarrollarás una intuición sobre qué lenguaje produce qué resultados. Considera la posibilidad de compartir tu proceso de iteración de indicaciones en plataformas como Xiaohongshu o Bilibili: la comunidad de creadores de vídeos con IA está creciendo rápidamente, y tu experiencia práctica tiene un gran valor para los demás.

Abre Seedance para probar estas sugerencias → — Regístrate para recibir créditos gratis, sin necesidad de tarjeta de crédito.

¿Quieres profundizar más? Nuestra Guía completa de indicaciones para Seedance incluye más de 50 indicaciones adicionales que cubren todas las categorías de escenarios.

Más información: Explore nuestra Guía completa de Seedance (más de 50 ejemplos). ¿Es nuevo en Seedance? Comience con nuestro Tutorial completo sobre cómo usar Seedance. ¿Quiere convertir fotos existentes en vídeos? Eche un vistazo a nuestro Tutorial de IA para convertir imágenes en vídeos. ¿Utiliza vídeos de IA para el comercio electrónico? Lea nuestra Guía de producción de vídeos de productos. ¿Está planificando campañas de marketing? Consulte nuestra Guía de marketing con vídeos de IA.

10 indicaciones de vídeo con IA realmente eficaces: incluyendo el proceso de iteración y comparaciones de efectos (2026)

Índice