Guía para escribir guiones de vídeo con IA: de principiante a calidad cinematográfica

Feb 22, 2026

TL;DR

Los vídeos de IA excelentes se basan en indicaciones excelentes. Esta guía te enseña una fórmula universal para crear indicaciones de vídeo: un marco de siete elementos aplicable a todas las plataformas de vídeo de IA principales:

[Tema] + [Acción] + [Escenario] + [Movimiento de cámara] + [Iluminación] + [Estilo] + [Sonido]

Aprenderás: Las principales razones por las que se producen fallos en las indicaciones (y cómo solucionarlos al instante), una referencia completa del lenguaje de la cámara que abarca más de 15 técnicas de cámara, una biblioteca de palabras clave atmosféricas organizada en cuatro dimensiones: iluminación, paleta de colores, textura y ambiente, cinco ejemplos de indicaciones progresivas desde el nivel básico hasta el cinematográfico, cómo incorporar el diseño de sonido en las indicaciones y técnicas de optimización específicas para las plataformas Seedance, Sora, Kling, Runway y Veo 3.

Esto no es un tutorial sobre herramientas, sino una metodología. Las habilidades para escribir guiones de vídeo son transferibles entre plataformas; apréndelas una vez y aplícalas en todas partes.

Mensaje generado automáticamente →

Demostración contrastante: las indicaciones vagas para vídeos de IA producen resultados insulsos y genéricos, mientras que las indicaciones estructuradas y de calidad cinematográfica producen vídeos de calidad profesional.

El mismo concepto, pero con resultados totalmente diferentes. La indicación de la izquierda dice: «Una mujer caminando bajo la lluvia». La indicación de la derecha especifica el movimiento de la cámara, la dirección de la iluminación, la atmósfera y el sonido, a lo que el modelo de IA responde con calidad cinematográfica.


Por qué fallan la mayoría de las indicaciones de vídeo de IA (y cómo solucionarlo)

Independientemente del generador de vídeo con IA que utilices (Seedance, Sora, Keeling, Runway o Veo 3), el principio básico sigue siendo el mismo: cuanto más preciso y completo sea el texto que introduzcas, más controlable y cinematográfico será el resultado. La mayoría de la gente escribe las indicaciones como si describiera una fotografía a un amigo, pero un vídeo no es una fotografía. El vídeo implica movimiento, tiempo, comportamiento de la cámara, evolución atmosférica y sonido.

A continuación se indican las cinco causas más comunes de fallo repentino, cada una de ellas acompañada de una solución inmediata.

  1. Demasiado vago: el problema de la «hermosa puesta de sol».

El fallo más común. Escribes «una hermosa puesta de sol junto al mar» y recibes un fragmento técnicamente preciso, pero emocionalmente vacío, que se asemeja a los salvapantallas de archivo.

El problema no es que la IA no pueda representar una puesta de sol, sino que «belleza» y «puesta de sol» son la única información que le has proporcionado. Tras haber encontrado millones de puestas de sol en sus datos de entrenamiento, la IA selecciona la media estadística, y la media, por su propia naturaleza, es mediocre.

Antes de la modificaciónDespués de la modificación
Una hermosa puesta de sol sobre el océanoLa luz de la hora dorada se derrama sobre la tranquila costa del Pacífico, las olas rompen contra las rocas volcánicas, el sol se encuentra a dos dedos de distancia sobre el horizonte, el cielo cambia de color desde un ámbar intenso en el horizonte hasta un rosa salmón y un lavanda pálido en el cenit, y largas sombras se extienden hacia la cámara El sol suspendido a dos dedos por encima del horizonte, el cielo cambiando de color ámbar intenso en el horizonte a rosa salmón y lavanda pálido en el cenit, largas sombras que se extienden hacia la cámara)

Método de corrección: Sustituya los adjetivos («hermoso», «sorprendente», «impresionante») por detalles específicos y observables: color, posición, textura, relaciones espaciales.

  1. Ausencia de instrucciones de movimiento: problemas con las imágenes estáticas.

Escribiste una descripción de la escena muy detallada, pero la IA generó una imagen que parece una fotografía con un ligero efecto push-pull, porque describiste un momento, no un movimiento.

El vídeo depende del tiempo. Sin instrucciones de movimiento explícitas, la IA recurre por defecto a la interpretación más conservadora: progresión lenta o ligero paralaje. Técnicamente, se trata efectivamente de «vídeo», pero no es lo que usted desea.

| Antes de la modificación | Después de la modificación | |--------|------- -| | Un deportivo rojo vintage aparcado en una carretera de montaña, una mañana brumosa, cinematográfico (一辆复古红色跑车停在山路上,薄雾清晨,电影感) | Un Porsche 911 rojo vintage acelera por una sinuosa carretera de montaña, los neumáticos se agarran al asfalto mojado, la niebla se disipa alrededor de la carrocería, la cámara lo sigue a la altura del parachoques, los árboles se difuminan en primer plano |

Método de corrección: Cada indicación del vídeo requiere al menos un verbo que describa el movimiento físico del sujeto y una frase que describa el movimiento de la cámara. El sujeto se mueve y la cámara se mueve; juntos crean energía visual.

3. La directiva contradictoria: la paradoja del «primer plano + plano general»

Esta situación es más habitual de lo que se podría imaginar, especialmente cuando las personas encadenan términos cinematográficos que han escuchado pero que no comprenden del todo. «Primerísimo primer plano de una mujer atravesando un vasto desierto, fotograma completo, sensación épica» contiene dos directrices compositivas contradictorias. La IA intentará encontrar un equilibrio, lo que dará como resultado una imagen que no es ni cercana ni lejana, sino simplemente caótica.

Antes de la revisiónDespués de la revisión
Primer plano de una mujer atravesando un vasto desierto, amplia toma de establecimiento, escala épicaPrimerísimo primer plano de los ojos de una mujer reflejando la luz del desierto, partículas de arena captando la luz dorada del atardecer en sus pestañas, profundidad de campo reducida con el vasto campo de dunas difuminado en un degradado ámbar detrás de ella Profundidad de campo reducida que convierte las extensas dunas detrás de ella en un degradado ámbar)

Método de corrección: Selecciona una posición de cámara por toma. Si necesitas primeros planos y planos generales, escribe dos tomas separadas y conéctalas con una transición. Para secuencias de varias tomas, plataformas como Seedance admiten el formato de línea de tiempo del guion gráfico, lo que te permite especificar cada toma de forma independiente.

  1. Falta de atmósfera: un vacío de luz, sombra y emoción.

Tu indicación describe a un sujeto realizando una acción en un lugar específico. Esto abarca tres de las siete dimensiones. Sin orientación sobre la iluminación, la paleta de colores, los efectos atmosféricos o la dirección estilística, la IA llenará los vacíos con valores predeterminados neutros: iluminación plana y uniforme, colores apagados y sin un ambiente particular. El resultado se asemeja a las imágenes de alta definición de las cámaras de seguridad.

| Antes de la revisión | Después de la revisión | |--------|------- -| | Un hombre sentado solo en una cafetería | Un hombre de unos cuarenta años está sentado solo en una mesa de rincón con poca luz, la cálida luz ámbar de una única lámpara colgante ilumina el vapor que se eleva de su taza de café, la lluvia que cae por la ventana detrás de él proyecta patrones de sombras onduladas en su rostro, paleta de colores apagados en tonos verde azulado y cobre, atmósfera melancólica |

Método de corrección: Incorporar la dirección de la luz, la temperatura del color, los efectos atmosféricos (niebla, lluvia, polvo, vapor) y palabras que describan el estado de ánimo. Estas cuatro adiciones transforman «una escena» en «una sensación».

  1. Ausencia de diseño de sonido: el problema de las películas mudas

Para 2026, la mayoría de las plataformas de vídeo con IA serán compatibles con la generación de audio: música de fondo, efectos de sonido ambientales e incluso diálogos con sincronización labial. Sin embargo, las indicaciones que escribe la mayoría de la gente siguen siendo totalmente silenciosas, ya que tratan las indicaciones de vídeo únicamente como instrucciones visuales.

El sonido constituye la mitad de la experiencia. Una escena en el bosque sin el canto de los pájaros y el susurro de las hojas resulta artificial. Las secuencias de acción que carecen de sonidos impactantes parecen insustanciales. Las demostraciones de productos sin música se asemejan a presentaciones de PowerPoint.

| Antes de la modificación | Después de la modificación | |------- -|--------| | Un gato saltando desde una estantería y aterrizando en un sofá | Un gato pelirrojo salta con elegancia desde lo alto de una estantería de roble, estirando el cuerpo en el aire y aterrizando suavemente sobre un cojín de terciopelo que se comprime bajo su peso. Sonido: suave impacto de las patas sobre la tela, un solo libro deslizándose por la estantería, tranquilo ambiente de la habitación con lluvia lejana contra las ventanas Sonido: suave impacto de las patas sobre la tela, un solo libro deslizándose por la estantería, tranquilo ambiente de la habitación con lluvia lejana contra las ventanas).

Solución: Añade una línea de instrucciones de audio al final de la indicación, especificando el estilo de la música de fondo, los efectos de sonido ambientales y cualquier diálogo o narración. Proporcionamos orientación detallada en la sección [Diseño de sonido](#Incorporar el diseño de sonido en las indicaciones) más abajo.


Fórmula universal para indicaciones de vídeo

Independientemente de la plataforma que utilices, todas las indicaciones de vídeo eficaces contienen los mismos siete elementos. Algunos son esenciales (necesarios en todas las indicaciones), mientras que otros son opcionales (mejoran la eficacia, pero no son obligatorios). La fórmula:

[Tema] + [Acción] + [Entorno] + [Cámara] + [Iluminación] + [Estilo] + [Sonido]

Diagrama visual desglosado de los siete elementos de una fórmula universal para guiones de vídeo, en el que se ilustran los elementos de tema, acción, escenario, movimiento de cámara, iluminación, estilo y sonido, junto con ejemplos de palabras clave.

Los siete elementos clave de una fórmula universal para crear mensajes de vídeo. Cada elemento añade una dimensión adicional de control al resultado final.

A continuación, analizaremos cada elemento por separado, acompañado de una biblioteca de palabras clave y frases de ejemplo.

Elemento uno: Asunto (obligatorio)

El sujeto es el objeto de la mirada del público. Esta debería ser la parte más específica de la indicación: no «una mujer», sino «una mujer de unos sesenta años, con el pelo plateado recogido en un moño suelto, profundas arrugas de expresión en las comisuras de los ojos y un delantal de denim descolorido».

Biblioteca de palabras clave:

| Categoría | Ejemplo (indicación en inglés) | |------|------------------ -| | Personajes | un joven de veintitantos años, una anciana, un niño de unos cinco años, una bailarina, un chef, un soldado | | Animales | un golden retriever, un leopardo de las nieves, un colibrí, un pez koi, una mariposa monarca | | Objetos | una máquina de escribir antigua, un frasco de perfume de cristal, un diario encuadernado en cuero, un jarrón de cerámica | | Vehículos | una motocicleta negra mate, un velero de madera, una camioneta desgastada, un tren bala | | Abstracto | partículas de luz, gotas de tinta en el agua, formas geométricas, metal líquido |

Ejemplos de frases:

  • «Una barista de unos 30 años con tatuajes en los brazos y un delantal negro cubierto de harina».
  • «Una brújula de bronce desgastada abierta sobre una carta náutica». - «Miles de farolillos de papel, cada uno de ellos iluminado por la cálida luz ámbar de una vela en su interior».

Elemento dos: Acción (obligatorio)

La acción es lo que se desarrolla: lo que hace el sujeto y cómo evoluciona la escena a lo largo del tiempo. Esto marca la línea divisoria entre las indicaciones de vídeo y las indicaciones de imagen. Sin acción, no queda más que una fotografía en movimiento.

Biblioteca de palabras clave:

| Tipo de movimiento | Ejemplo (indicación en inglés) | |--------- -|-------------------| | Movimiento humano | caminar, correr, girar lentamente, estirar el brazo, inclinarse hacia delante, exhalar, parpadear | | Relativo al movimiento de la cámara | acercarse a la cámara, alejarse de la cámara, cruzar el encuadre de izquierda a derecha | | Movimiento de objetos | girar, caer, flotar, romperse, ensamblarse, desplegarse, derretirse | | Movimiento ambiental | viento moviendo la hierba, nubes desplazándose, lluvia cayendo, hojas flotando, marea subiendo | | Procesos de transición | día convirtiéndose en noche, flor floreciendo, hielo formándose, pintura extendiéndose, luz cambiando |

Ejemplos de frases:

  • «Se agacha lentamente y recoge una hoja caída del otoño, girándola entre sus dedos».
  • «La aguja de la brújula tiembla y luego se inclina decididamente hacia el norte».
  • «Las linternas se elevan una a una del suelo, ascendiendo hacia el cielo oscuro a diferentes velocidades».

Elemento tres: Entorno (esencial)

El escenario es el lugar donde se desarrolla la escena. Describe tanto el escenario inmediato (primer plano) como el fondo más amplio. Incluye el clima, la hora del día y la estación del año cuando sea relevante.

Biblioteca de palabras clave:

| Tipo de escena | Ejemplo (indicación en inglés) | |----------|------------------ -| | Naturaleza | bosque denso, dunas del desierto, acantilado oceánico, pradera alpina, playa volcánica, bosque de bambú | | Urbano | callejón estrecho de Tokio, plaza de hormigón brutalista, jardín en la azotea, andén del metro, avenida iluminada con neones | | Interior | biblioteca iluminada con velas, loft industrial, invernadero, cuarto oscuro vintage, atrio de mármol | | Fantasía | islas flotantes, caverna de cristal, arrecife bioluminiscente, templo en ruinas, ciudad en las nubes | | Tiempo/Clima | crepúsculo antes del amanecer, mediodía nublado, tormenta eléctrica, primera nevada, tarde húmeda de verano |

Ejemplos de frases:

  • «En una estrecha callejuela de Kioto, con faroles de piedra a ambos lados, pétalos de cerezo flotando sobre los adoquines mojados».
  • «En el interior de una catedral abandonada y cavernosa, rayos de luz polvorienta atraviesan los vitrales rotos».
  • «En el borde de un acantilado volcánico a la hora azul, el vapor sulfuroso se eleva de las grietas de la roca negra».

Elemento cuatro: Movimiento de cámara (importante)

Las instrucciones de dirección de cámara guían a la audiencia de IA sobre cómo percibir una escena, abarcando la composición (qué tan cerca), el ángulo (desde dónde) y el movimiento (cómo cambia el punto de vista con el tiempo). El lenguaje de dirección de cámara representa la palanca más crítica para mejorar la calidad de las indicaciones; exploramos esto en profundidad en la sección dedicada a continuación.

Biblioteca rápida de palabras clave:

| Aspecto | Terminología inglesa y equivalente chino | |------|------------------ -| | Encuadre | primerísimo primer plano, primer plano, plano medio, plano general, plano abierto, plano muy abierto (plano muy lejano) | | Ángulo | a la altura de los ojos, ángulo bajo, ángulo alto, vista de pájaro, vista de gusano, ángulo holandés | | Movimiento | acercamiento/alejamiento con dolly, panorámica izquierda/derecha, inclinación arriba/abajo, travelling, órbita, grúa (elevación) | | Lente | gran angular de 24 mm, estándar de 50 mm, retrato de 85 mm, teleobjetivo de 200 mm, lente macro, anamórfica |

Elemento cinco: Iluminación (importante)

La luz y la sombra definen el ambiente de cada fotograma. Los fotógrafos profesionales dedican horas a preparar la iluminación. En la escritura rápida, unas pocas palabras precisas pueden lograr el mismo nivel de control.

Biblioteca de palabras clave:

| Tipo de iluminación (inglés/chino) | Efectos visuales | |--------------------- -|----------| | Hora dorada | Tonos cálidos, sombras largas, matices naranja-ámbar, favorecedores para retratos | | Hora azul | Tonos fríos, atmósfera melancólica, cielos azul intenso con calor residual en el horizonte | | Contraluz | Contornos definidos, efecto silueta, separación marcada del fondo | | Luz lateral | Cara medio iluminada, medio en sombra; alto contraste, efecto dramático | | Iluminación Rembrandt | Reflejo triangular debajo del ojo en sombra; efecto de retrato clásico | | Iluminación volumétrica | Rayos visibles que penetran el polvo, la niebla o el humo | | Efecto Tyndall | Dispersión de la luz dentro de las partículas, produciendo rayos distintivos dentro de la niebla o el polvo | | Neón | Fuentes de luz artificial de colores, reflejos en superficies húmedas, estética cyberpunk |

Elemento seis: Estilo (recomendado)

El estilo dicta el lenguaje visual empleado por la IA, ya sea película cinematográfica, realismo documental, animación, pintura al óleo u otros. Sin una declaración de estilo, la IA utiliza por defecto un estilo fotorrealista genérico.

Biblioteca de palabras clave:

| Estilo (inglés/chino) | Características visuales | |----------------- -|----------| | Cinematográfico | Profundidad de campo reducida, gradación de color de calidad cinematográfica, relación de aspecto panorámica 2,39:1 | | Documental | Sensación de cámara en mano, iluminación natural, encuadre observacional | | Publicitario | Limpio, brillante, centrado en el producto, iluminación precisa, movimiento suave | | Anime | Estilo cel-shading, colores vibrantes, movimiento exagerado, líneas dinámicas | | Cine negro | Monocromo de alto contraste, sombras de persianas venecianas, iluminación tenue | | Tinta china | Tinta negra sobre fondo blanco, degradados fluidos, minimalismo, estética oriental | | Película vintage | Grano de película, ligeramente desaturado, tonos cálidos, bordes difuminados | | Cyberpunk | Inundado de neón, alto contraste, elementos holográficos, ambiente urbano apocalíptico |

Elemento siete: Sonido (opcional)

El sonido añade una dimensión auditiva. Aunque no todas las plataformas admiten la generación de audio, incorporar el diseño de sonido en las indicaciones no solo es una visión de futuro, sino que a menudo mejora el impacto visual, ya que la IA utiliza señales de audio para influir en el tono emocional y el ritmo de las imágenes.

Biblioteca de palabras clave:

Tipo de sonidoEjemplo (indicación en inglés)
Estilo musicalorquestal, hip hop lo-fi, electrónica ambiental, piano jazz, guitarra acústica, banda sonora cinematográfica (banda sonora de película)
Efectos de sonido ambientallluvia sobre cristal, viento entre los árboles, ruido del tráfico urbano, olas del mar, crepitar del fuego
Efectos de sonido de acciónpasos sobre grava, chirrido de puertas, cristales rompiéndose, rugido de motores
Voces humanasnarración susurrada, diálogo, respiración, risas

El lenguaje cinematográfico: el arma secreta

El lenguaje cinematográfico es la habilidad más influyente que puedes cultivar como guionista de vídeos. Cuando escribes «dolly in slowly» en lugar de «zoom in», estás utilizando el vocabulario nativo de los modelos de IA, ya que estos modelos se entrenan con millones de horas de metraje filmado profesionalmente, donde los movimientos de cámara tienen nombres específicos y producen efectos visuales concretos.

Esta sección sirve como guía de referencia completa. Le recomendamos que la marque como favorita.

Guía de referencia sobre movimientos de cámara Ilustra los nombres, las trayectorias y los efectos emocionales de doce movimientos de cámara distintos, entre los que se incluyen: tomas de acercamiento/alejamiento, tomas panorámicas, tomas de seguimiento, tomas con dolly, tomas con elevación y tomas con cámara en mano.

Los movimientos de cámara no son intercambiables: cada uno produce un efecto emocional distinto. Conocer la terminología correcta transformará el impacto de tus indicaciones.

Cinematografía básica

Entrada/salida de dolly (toma de empuje/toma de tracción)

La cámara se acerca físicamente al sujeto (push) o se aleja (pull). A diferencia del zoom, la perspectiva cambia: los objetos en primer plano aparecen proporcionalmente más grandes, creando una sensación de profundidad y proximidad física.

  • Efecto emocional: El empuje crea intimidad, concentración y revelación. El tirón crea aislamiento, contexto y alejamiento.
  • Cuándo utilizarlo: Empuje para primeros planos emocionales, momentos de los personajes y detalles reveladores. Retrocede para mostrar la escala, concluir escenas o alejarse del sujeto.
  • Frase clave: «La cámara se desplaza lentamente desde un plano medio hasta un primer plano extremo de las manos del sujeto».

Panorámica izquierda / Panorámica derecha (panorámica horizontal)

La cámara permanece fija y gira horizontalmente, como si giraras la cabeza. El punto de vista recorre toda la escena.

  • Efecto emocional: Patrulla, descubrimiento, movimiento de seguimiento lateral, conexión de dos elementos dentro de una escena.
  • Cuándo utilizarlo: Para mostrar paisajes, seguir a personajes en movimiento, demostrar amplitud espacial.
  • Frase indicativa: «Panorámica lenta hacia la derecha a través del taller, revelando filas de instrumentos artesanales en la pared».

Inclinación hacia arriba/hacia abajo (panorámica/inclinación vertical)

La cámara permanece fija, girando verticalmente, como si estuviera asintiendo con la cabeza. Un movimiento hacia arriba revela la altura; un movimiento hacia abajo muestra los detalles a nivel del suelo.

  • Efecto emocional: Una inclinación hacia arriba evoca asombro, grandeza y anhelo. Una inclinación hacia abajo crea una sensación de arraigo, descubrimiento e intimidad con la superficie.
  • Cuándo utilizarlo: La inclinación hacia arriba se emplea para estructuras imponentes, personajes que se ponen de pie o para revelar el cielo. Las inclinaciones hacia abajo revelan objetos sobre una mesa o la transición del cielo al suelo.
  • Frase indicativa: «La cámara se inclina hacia arriba desde las raíces del árbol antiguo, siguiendo el enorme tronco hasta la copa».

Toma de seguimiento (toma de seguimiento/toma de seguimiento lateral)

La cámara se mueve junto al sujeto, manteniendo una distancia y un ángulo constantes, como si estuviera montada en un raíl que discurre en paralelo a la trayectoria del sujeto.

  • Efecto emocional: Compañerismo, viaje, inmersión. El público viaja junto al sujeto.
  • Cuándo utilizarlo: Para personajes que caminan o corren en paralelo, atraviesan espacios o muestran productos a lo largo de superficies.
  • Frase indicativa: «La cámara sigue a la corredora a la altura del hombro, manteniendo el ritmo mientras ella corre por el callejón».

Órbita / Arco (toma circular)

La cámara gira alrededor del sujeto manteniéndolo centrado dentro del encuadre. Esto puede implicar una rotación completa de 360 grados o un arco parcial.

  • Efecto emocional: Presencia heroica, sensación de poder, calidad de presentación, visualización tridimensional.
  • Cuándo utilizarlo: Presentaciones de productos (mostrando todos los ángulos), tomas heroicas, presentaciones dramáticas de personajes, momentos decisivos.
  • Frase clave: «La cámara gira 180 grados alrededor del jugador de ajedrez, comenzando por detrás y terminando de frente».

Crane Up / Crane Down (Toma elevada / Toma con grúa)

El movimiento vertical de la cámara (elevación o descenso físico) suele combinarse con la inclinación para mantener al sujeto dentro del encuadre.

  • Efecto emocional: El ascenso crea una sensación de trascendencia, liberación y perspectiva ampliada. El descenso fomenta una sensación de arraigo, de llegada y de atención concentrada.
  • Cuándo utilizarlo: El ascenso se emplea para conclusiones, momentos de triunfo y transiciones a perspectivas aéreas. Las tomas descendentes se emplean para aperturas, llegadas y transiciones de tomas amplias a composiciones íntimas.
  • Frase indicativa: «La cámara se eleva desde el nivel del suelo, sobrevolando la multitud y revelando la magnitud del festival».

De mano (lente de mano)

La lente presenta una sutil oscilación orgánica, ya que no está montada en un trípode ni en un estabilizador. Esto simula la sensación de un fotógrafo humano sosteniendo la cámara con la mano.

  • Efecto emocional: Inmediatez, urgencia, autenticidad documental, tensión, intimidad.
  • Cuándo utilizarlo: Secuencias de acción, diálogos emotivos, estilos documentales, películas de terror, cualquier escena que requiera una sensación de inmersión.
  • Frase indicativa: «La cámara en mano sigue al personaje a través del concurrido mercado, ligeramente inestable».

Steadicam / Gimbal (Steadicam/Estabilizador de lente)

Los movimientos suaves y flotantes de la cámara se deslizan por el espacio. A diferencia de las tomas con cámara en mano, no hay vibraciones: el movimiento es fluido y continuo.

  • Efecto emocional: Exploración onírica, elegante, inmersiva y relajada.
  • Cuándo utilizarlo: Navegar por espacios arquitectónicos, seguir a personajes a través de entornos intrincados, tomas de una sola vez, cinematografía lujosa y estética.
  • Frase sugerida: «La Steadicam se desliza detrás de la bailarina mientras se mueve por el salón de baile vacío».

Técnicas avanzadas de movimiento de cámara

Zoom Hitchcock (zoom dolly / efecto vértigo)

A medida que la cámara hace zoom, la distancia focal aumenta (o viceversa). El sujeto permanece del mismo tamaño, pero el fondo sufre una distorsión drástica, ya sea estirándose o comprimiéndose.

  • Efecto emocional: Desorientación, revelación, temor, el mundo girando alrededor de un punto fijo.
  • Frase clave: «Zoom dolly sobre el rostro del personaje: la cámara se acerca mientras el objetivo se aleja, el fondo se estira, creando un efecto de vértigo».

Movimiento rápido de cámara

Panorámica horizontal extremadamente rápida, que hace que todo el encuadre aparezca borroso durante el movimiento. Se emplea habitualmente como transición entre dos escenas.

  • Efecto emocional: Energía, sorpresa, urgencia, ritmo cómico.
  • Frase clave: «Movimiento rápido de la cámara desde el rostro del orador a la reacción del público, con desenfoque de movimiento durante la transición».

Enfoque de rack (enfoque manual)

El enfoque cambia de un plano de profundidad a otro dentro de una misma toma. El primer plano se vuelve borroso mientras que el fondo se vuelve más nítido, o viceversa.

  • Efecto emocional: Redirige la atención, revela información, conecta elementos del primer plano y del fondo.
  • Frase indicativa: «Cambia el enfoque de las flores borrosas del primer plano al rostro de la mujer en el fondo».

Ángulo holandés (ángulo inclinado)

La lente se inclina a lo largo del eje de giro, creando un horizonte diagonal. El mundo parece sesgado.

  • Efecto emocional: Inquietud, inestabilidad, tensión, drama estilizado, frenesí.
  • Frase clave: «Primer plano del rostro del detective con ángulo holandés, inclinación de 15 grados, iluminación lateral intensa».

Rampa de velocidad (rampa de tiempo)

La velocidad de reproducción varía dentro de una misma toma, normalmente ralentizándose en los momentos cruciales antes de acelerar de nuevo.

  • Efecto emocional: énfasis, impacto, dotando de dramatismo a momentos concretos.
  • Frase clave: «El movimiento se ralentiza en el momento del impacto y luego se acelera de nuevo hasta alcanzar la velocidad real».

Toma única (toma larga)

Filmación continua sin edición. La cámara recorre espacios, sigue movimientos y descubre elementos, manteniendo una única perspectiva ininterrumpida en todo momento.

  • Efecto emocional: Inmersión, experiencia en tiempo real, sensación de dominio técnico, aumento sostenido de la tensión.
  • Frase de inicio: «Toma continua: la cámara entra por la puerta principal, se desliza por el pasillo y llega al jardín».

Primera persona / POV

La cámara representa los ojos del personaje. El público ve lo que ve el personaje, incluidas sus manos cuando entran en el encuadre.

  • Efecto emocional: Inmersión total, experiencia subjetiva, estética del juego.
  • Frase de inicio: «Punto de vista en primera persona: las manos empujan una pesada puerta de madera y revelan un prado bañado por la luz del sol».

Para conocer las funciones únicas de control de cámara de Seedance y cómo combinarlas dentro de la línea de tiempo del guion gráfico, consulte la Guía de comandos de Seedance.


Biblioteca de palabras clave sobre la atmósfera

La atmósfera es la clave para transformar un vídeo técnicamente sólido en una obra que resuene emocionalmente. Es la diferencia entre «una habitación» y «una habitación que te hace sentir algo». Esta biblioteca de palabras clave está organizada en cuatro dimensiones: iluminación, gradación de color, textura y ambiente, lo que te permite mezclar y combinar para crear con precisión la sensación que deseas.

Tabla de referencia de palabras clave para vídeos con IA sobre atmósfera, clasificada en cuatro dimensiones: iluminación, tono de color, textura y estado de ánimo, acompañada de ejemplos visuales.

Biblioteca de palabras clave de ambiente: Selecciona una palabra clave de cada dimensión para definir la firma emocional de tu vídeo.

Palabras clave de luz y sombra

La iluminación es la base de la atmósfera. Cambiar la iluminación en un momento puede transformar por completo el ambiente sin modificar el resto de elementos.

| Palabras clave (inglés/chino) | Efectos visuales | Escenarios adecuados | |-------|----------|--------- -| | Hora dorada | Luz ámbar cálida, sombras suaves y alargadas, tonos de piel favorecedores | Romance, nostalgia, viajes, belleza | | Hora azul | Luz ambiental azul intenso, tonos cálidos residuales en el horizonte | Melancolía, contemplación, transición, ambiente urbano | | Contraluz | Sujeto perfilado por una fuente de luz trasera, sombras faciales o siluetas | Drama, misterio, tomas heroicas, atractivo estético | | Luz lateral | Luz direccional intensa desde un lado, mitad iluminada, mitad en sombra | Tensión, primeros planos de personajes, retratos dramáticos | | Iluminación Rembrandt | Iluminación clásica para retratos: un lado iluminado, con un pequeño reflejo triangular debajo del ojo en el lado en sombra | Retratos, elegancia, ambiente clásico | | Iluminación volumétrica | Rayos de luz visibles que atraviesan el polvo, la niebla o el humo | Sacralidad, teatro, escenas forestales, iluminación escénica | | Efecto Tyndall | La luz se dispersa en partículas minúsculas, formando haces distintivos a través de la niebla | Natural, escenas del amanecer, etéreo, onírico | | Neón | Fuentes de luz artificial de colores, normalmente rosa, azul, cian y magenta | Ciberpunk, vida nocturna, urbano, contemporáneo | | Luz de velas | Cálida, parpadeante, naranja-ámbar | Intimidad, historia, escenas de cena, calidez | | Silueta | Sujeto completamente oscurecido, definido únicamente por su contorno contra un fondo brillante | Misterio, anonimato, impacto visual, narrativa | | Bioluminiscente | Fuente de luz orgánica autoiluminada, normalmente azul verdosa | Fantasía, submarino, mundos alienígenas, onírico |

Palabras clave relacionadas con los tonos de color

La combinación de colores establece la temperatura emocional de toda la composición. Los tonos cálidos resultan acogedores; los tonos fríos resultan distantes. Una saturación alta resulta vibrante; una saturación baja resulta tenue.

| Palabras clave (inglés/chino) | Efectos visuales | Resonancia emocional | |-------|----------|--------- -| | Paleta cálida | Predominan los tonos ámbar, naranja, dorado y rojizos | Comodidad, nostalgia, intimidad, otoño | | Paleta fría | Predominan los tonos azul, cian y pizarra | Distancia, tranquilidad, melancolía, invierno, tecnología | | Alta saturación | Colores vivos, intensos y fuertes | Energía, juventud, fantasía, cultura pop | | Desaturado | Colores suaves, desvaídos, pastel | Melancolía, realismo, reminiscencia, vintage | | Verde azulado y naranja | Etalonaje clásico de películas: sombras con tendencia al azul, luces cálidas | Éxitos de taquilla de Hollywood, comerciales, cinematográficos | | Paleta cyberpunk | Rosa neón, azul eléctrico, morado oscuro sobre fondos oscuros | Futurista, vida nocturna, digital, vanguardista | | Vintage | Ligeramente descolorido, tonos cálidos, sombras realzadas | Nostalgia, años 70-80, películas independientes, reminiscencias | | Tonos tierra | Marrón, verde, ocre, terracota | Naturaleza, arraigo, orgánico, documental | | Kodachrome | Verdes y rojos intensos, tonos de piel cálidos, negros profundos | Fotoperiodismo, años 60-70, estética americana |

Palabras clave relacionadas con la textura/calidad de imagen

La textura define la superficie visual de un vídeo, ya sea que se parezca a una película de 35 mm, un anuncio publicitario pulido, un documental o una pintura al óleo.

| Palabras clave (inglés/chino) | Efectos visuales | Escenarios aplicables | |-------|--------- -|----------| | Cinematográfico | Sensación de pantalla panorámica, profundidad de campo reducida, gradación de color cinematográfica | Narrativa, drama, narración | | Documental | Iluminación natural, composiciones ligeramente imperfectas | Realismo, noticias, educación | | Publicidad | Iluminación limpia, brillante y precisa, movimiento suave de la cámara | Presentación de productos, publicidad, corporativo | | Grano cinematográfico | Textura de ruido orgánico superpuesta al metraje | Retro, analógico, indie, cálido | | Anamórfico | Destellos horizontales de la lente, bokeh elíptico, sutil distorsión de los bordes | Drama cinematográfico, ciencia ficción, sensación épica | | Textura de pintura al óleo | Texturas de pinceladas visibles, rico efecto impasto | Arte, fantasía, paisajes oníricos, clásico | | Lavado de tinta | Degradados de tinta negra sobre fondo blanco, fluido y orgánico | Estética oriental, minimalismo, tranquilidad | | 8 mm / Super 8 | Grano grueso, fugas de luz, metraje inestable, colores desvaídos | Recuerdos, flashbacks, vídeos caseros, nostalgia |

Palabras clave emocionales

Las palabras clave emocionales proporcionan a la IA su orientación emocional. Influyen en todo: el ritmo, la elección de colores, el comportamiento de la cámara y la sensación general.

| Palabras clave (inglés/chino) | Emociones evocadas | Sugerencias de combinación | |-------|----------- -|----------| | Acogedor | Calidez, comodidad, seguridad, hogar | Luz de velas, tonos cálidos, escenas en interiores | | Tenso | Ansiedad, expectación, acontecimientos inminentes | Iluminación lateral, tomas con cámara en mano, encuadres ajustados | | Suspense | Miedo, incertidumbre, acumulación lenta | Iluminación tenue, progresión lenta, baja saturación | | Alegría | Felicidad, celebración, ligereza | Hora dorada, alta saturación, planos largos | | Melancólico | Tristeza, nostalgia, belleza en el dolor | Hora azul, tonos fríos, cámara lenta | | Épico | Grandiosidad, heroísmo, sobrecogedor | Gran angular, tomas con dolly, banda sonora orquestal | | Sanador | Paz, restauración, reparación suave | Iluminación suave, tonos pastel, tonos naturales, ritmo lento | | Terror | Miedo, inquietud, malestar | Sombras profundas, ángulos holandeses, baja saturación, silencio | | Romántico | Amor, anhelo, ternura, intimidad | Contraluz, tonos cálidos, poca profundidad de campo, primeros planos | | Energético | Velocidad, emoción, adrenalina | Movimiento de cámara, velocidad variable, alta saturación, gran angular | | Nostálgico | Anhelo del pasado, recuerdos agridulces | Grano de película, tonos vintage, luces sobreexpuestas |

Combinaciones de palabras clave relacionadas con la atmósfera: tres ejemplos

El verdadero poder reside en seleccionar una o dos palabras clave de cada dimensión y combinarlas. Las tres combinaciones siguientes crean atmósferas completamente diferentes para el mismo tema: «una mujer de pie junto a la ventana»:

Combinación uno: Nostalgia cálida

Luz de fondo dorada, paleta cálida con tonos ámbar y miel, textura granulada de película, ambiente nostálgico.

Combinación dos: Tensión escalofriante

Luz lateral procedente de una única fuente, paleta de colores verde azulado frío, textura digital limpia, ambiente tenso.

Combinación tres: etérea y onírica

Efecto Tyndall de rayos de luz a través de cortinas transparentes, paleta de colores pastel, textura acuarela, ambiente relajante.

El mismo tema, tres vídeos completamente distintos. La palabra clave del ambiente es el panel de control.


De frases sueltas a indicaciones cinematográficas: 5 ejemplos avanzados

La mejor manera de aprender a escribir guiones es observar el proceso evolutivo de los guiones. Cada ejemplo que se muestra a continuación avanza desde el V1 básico (el tipo que escribe la mayoría de la gente) al V2 (añadiendo especificidad y movimiento de cámara), culminando en el V3 (un guión totalmente especificado y con calidad cinematográfica). Observe los cambios que se producen en cada nivel y por qué.

Para obtener más ejemplos de indicaciones de vídeo listas para usar, consulte 10 indicaciones prácticas de vídeo con IA.

Comparación de la evolución de las indicaciones en tres etapas, en la que se muestran las indicaciones básicas de la V1, las indicaciones mejoradas de la V2 (que incorporan movimiento de cámara y efectos de iluminación) y las indicaciones de calidad cinematográfica de la V3 (totalmente especificadas), cada una de las cuales muestra las correspondientes mejoras en la calidad del vídeo.

Evolución rápida en la práctica. La versión V1 no proporciona prácticamente ninguna información a la IA. La versión V3 le proporciona toda la información: los resultados son diametralmente opuestos.

Ejemplo 1: Retrato/Estado de ánimo — «Mujer caminando bajo la lluvia»

V1 — Edición básica (18 palabras)

A woman walking in the rain at night in a city, cinematic, beautiful

Obtendrás: una mujer genérica, una ciudad genérica, lluvia genérica, iluminación plana, sin resonancia emocional. La IA llena cada vacío con promedios estadísticos.

V2 — Versión mejorada (62 palabras)

A young Asian woman in a long dark coat walks slowly through a rain-soaked Tokyo backstreet at night. Neon signs reflect in the wet pavement, casting pink and blue light. She carries a transparent umbrella. Camera tracks beside her at shoulder height. Shallow depth of field. Melancholic mood.

Qué se ha mejorado: identidad específica del sujeto, ubicación específica, fuente de luz específica, posición de la cámara, dirección emocional. La IA ahora posee información suficiente para generar imágenes únicas.

V3 — Calidad cinematográfica (138 palabras)

A woman in her late 20s, Japanese, long black hair partially wet and clinging to her neck, wearing an oversized charcoal wool coat over a cream turtleneck, walks alone through a narrow Shinjuku backstreet at 2am. Rain falls in fine sheets, catching neon light from izakaya signs overhead — warm amber kanji characters and cold blue beer advertisements. The wet asphalt mirrors everything, creating a double world beneath her feet. She carries a transparent vinyl umbrella, water beading and streaming down its surface.

Camera: tracking shot at shoulder height, moving alongside her at walking pace, shallow depth of field at f/1.4, foreground rain droplets occasionally crossing the lens out of focus.

Lighting: practical neon sources only — no fill light. Rim light from signs behind her outlines her coat collar and umbrella edge. Her face catches intermittent warm light as she passes each shopfront.

Style: cinematic, Kodak Vision3 500T film stock, slight grain, teal-and-amber color grade, Wong Kar-wai atmosphere.

Sonido: lluvia sobre la superficie del paraguas, jazz lejano y amortiguado procedente de un bar, sus pasos sobre piedra mojada, sin diálogo, sin banda sonora.

(Una mujer japonesa de unos veinte años, con el pelo largo y negro parcialmente empapado y pegado al cuello, vestida con un abrigo de lana gris carbón oversize sobre un jersey de cuello alto de color crema, camina sola por las estrechas callejuelas de Shinjuku a las 2 de la madrugada. Las finas gotas de lluvia reflejaban el resplandor neón de los letreros de los izakaya que había sobre su cabeza: cálidos caracteres japoneses de color ámbar y fríos anuncios de cerveza azul. El asfalto húmedo lo reflejaba todo, creando un mundo espejo bajo sus pies. Llevaba un paraguas de plástico transparente, con gotas que se condensaban y resbalaban por su superficie.

Por qué funciona V3: cada elemento de la fórmula está definido explícitamente. No hay margen para que la IA haga conjeturas: cuando la IA no hace conjeturas, reproduce con precisión lo que usted describe.

Ejemplo 2: Presentación de productos — «El reloj sobre el escritorio»

V1 — Edición básica (14 palabras)

A luxury watch sitting on a table, product shot, high quality, 4K

V2 — Edición revisada (58 palabras)

A stainless steel dive watch with a dark blue dial rests on a slab of raw gray marble. Camera orbits slowly around the watch, 15 degrees above. Single key light from the upper left creates a defined shadow. The watch's crystal catches the light and creates a brief flare. Commercial style, clean background.

V3 — Calidad cinematográfica (126 palabras)

A stainless steel dive watch with a sunburst navy-blue dial and ceramic bezel sits on a rough-cut block of Carrara marble, positioned at the golden-ratio intersection of the frame. The second hand sweeps continuously. Micro water droplets bead on the crystal surface and the steel bracelet links, catching light.

Camera: begins in macro extreme close-up on the dial — the indices and lume dots fill the frame — then slowly dollies out while simultaneously orbiting clockwise, completing a 270-degree arc over 8 seconds until the full watch and marble base are revealed in a three-quarter beauty shot.

Lighting: single hard key light at 10 o'clock position, 45 degrees above. No fill — deep shadows on the right side. A subtle rim light from behind separates the watch from the dark charcoal background.

Style: high-end commercial, ultra-sharp 8K downscaled to 4K, zero grain, clinical precision. Color: cool steel tones with warm gold accents from the lume.

Sonido: casi silencio, solo el débil tictac mecánico del movimiento, una única y clara campanada en el momento del destello.

(Un reloj de buceo de acero inoxidable, con esfera azul marino con rayos de sol y bisel de cerámica, descansa sobre un bloque de mármol de Carrara tallado toscamente, situado en la intersección de la proporción áurea del marco. El segundero continúa su movimiento. Pequeñas gotas de agua se condensan en la superficie del cristal y en los eslabones de la pulsera de acero, reflejando la luz).

Ejemplo 3: Viajes panorámicos — «Montañas al amanecer»

V1 — Edición básica (12 palabras)

Beautiful mountains at sunrise, drone shot, epic landscape, cinematic

V2 — Edición revisada (55 palabras)

Snow-capped mountain peaks emerging from a sea of clouds at sunrise. The first rays of sun paint the peaks golden while the valleys remain in blue shadow. Camera cranes up slowly from the cloud layer, revealing the full mountain range. Wide angle, epic scale, warm-to-cool color gradient.

V3 — Calidad cinematográfica (134 palabras)

The Dolomites at sunrise in late autumn. Jagged limestone spires — the Tre Cime di Lavaredo — pierce through a thick layer of valley clouds, their east-facing faces catching the first horizontal rays of sun and turning from cold blue-gray to blazing amber-gold. The cloud layer below is a rolling ocean of soft white and pale peach, filling the valleys completely.

Camera: starts buried inside the cloud layer — visibility near zero, soft white diffusion everywhere — then cranes upward at a steady pace, breaking through the cloud surface to reveal the peaks and the vast sky above. The transition from claustrophobic fog to infinite horizon takes 4 seconds. Continue rising to a high aerial wide shot. 24mm wide angle lens.

Lighting: first light of day — sun at 5 degrees above the eastern horizon, casting extreme raking light across the mountain faces. Golden hour warmth on lit surfaces, blue hour coolness in shadowed areas. Volumetric light beams visible where sun cuts between peaks.

Style: National Geographic cinematic, IMAX-quality, ultra-wide dynamic range, vivid but natural color, no filters.

Sonido: viento en altitud — un susurro grave y sostenido con ráfagas ocasionales, sin música, sin sonidos humanos. El silencio amplifica la escala.

(Amanecer de finales de otoño en los Dolomitas. Las escarpadas agujas de piedra caliza —las Tres Cumbres— atraviesan las densas nubes del valle, y sus caras orientales captan los primeros rayos horizontales de sol, pasando del frío azul grisáceo al ardiente ámbar dorado.)

Ejemplo 4: Escena de acción — «Artista marcial lanzando un puñetazo»

V1 — Edición básica (15 palabras)

A martial artist doing a spinning kick, action movie style, slow motion

V2 — Versión mejorada (64 palabras)

A female martial artist in a dark training hall performs a spinning back kick. Her bare foot connects with a hanging heavy bag, sending it swinging violently. Camera captures the kick from a low angle, slightly slow motion at the point of impact, then returns to real-time as she recovers her stance. Side lighting creates dramatic shadows.

V3 — Calidad cinematográfica (141 palabras)

A woman in her 30s, lean and muscular, wearing a fitted black tank top and loose gray training pants, stands in a dimly lit martial arts gym. Worn wooden floor, heavy bags hanging in rows, chalk dust suspended in the air. She explodes from stillness — a spinning hook kick that arcs through 360 degrees, her back heel striking a leather heavy bag at head height.

Camera: starts medium shot at 45-degree angle. As the spin begins, camera speed-ramps to 240fps slow motion — her hair whips in an arc, chalk dust traces the path of her foot, the bag surface ripples visibly on impact. Hold for one beat, then ramp back to real-time as she plants her foot. Slight handheld energy.

Lighting: single harsh side light from camera-left, no fill. Chalk dust and sweat particles glow in the light beam.

Style: David Fincher / Fight Club aesthetic — desaturated, greenish-teal undertone, high contrast, gritty. Anamorphic lens with subtle horizontal flares.

Sonido: silencio antes de la patada — zumbido ambiental del gimnasio, una inspiración. La patada: chasquido explosivo de la tela, fuerte impacto del cuero, traqueteo de la cadena. Su exhalación brusca al contacto. Sin música.

(Una mujer de unos treinta años, delgada y musculosa, vestida con un chaleco negro ajustado y pantalones de entrenamiento grises holgados, está de pie en un salón de artes marciales con poca luz. Suelo de madera desgastado, filas de sacos de boxeo suspendidos, polvo flotando en el aire. Ella explota desde la quietud: una patada giratoria de 360 grados, golpeando con el talón el saco de cuero a la altura de la cabeza).

Ejemplo 5: Narrativa emocional — «La abuela y el nieto»

V1 — Edición básica (16 palabras)

A grandmother and her grandchild spending time together, heartwarming, emotional, beautiful moment

V2 — Edición revisada (71 palabras)

An elderly grandmother with silver hair and weathered hands teaches her 5-year-old granddaughter how to knead bread dough in a sunlit country kitchen. The child stands on a wooden step stool, flour on her cheeks, laughing. The grandmother guides her small hands through the dough. Golden morning light through a window. Warm color palette. Intimate, cozy atmosphere.

V3 — Calidad cinematográfica (147 palabras)

A Japanese grandmother in her 80s, silver hair in a soft bun, deep expression lines around smiling eyes, wearing an indigo apron over a cream linen blouse, stands beside her granddaughter — age 4 or 5, round cheeks, short black hair with a red clip — at a low wooden table in a traditional kitchen. Shoji screen doors are slid open to a small garden where morning light enters. They are making mochi together. The grandmother's large, weathered hands wrap around the child's tiny ones, guiding them to fold and press the soft rice dough. Flour dust floats in the shaft of sunlight between them.

Camera: close-up on their four hands working the dough — the contrast of old and young skin. Slowly dolly out to a medium shot including both faces. Rack focus between them — first sharp on the grandmother's eyes, then pulling to the child's smile. 85mm portrait lens, f/2.0, creamy bokeh.

Lighting: natural morning sunlight from the garden, soft and directional, Tyndall effect through the flour dust. No artificial light. The light creates a warm halo around the grandmother's silver hair.

Style: Hirokazu Kore-eda film quality — observational, unhurried, documentary intimacy with cinematic beauty. Kodachrome-inspired color. 16:9.

Sonido: el suave sonido rítmico de las manos amasando la masa, los pájaros en el jardín, una lejana campana de viento, la risa ocasional del niño, la abuela tarareando una melodía popular en voz baja. Sin partitura, solo sonido diegético.

(Una abuela japonesa de unos ochenta años, con el pelo plateado recogido en un moño suelto, profundas arrugas alrededor de sus ojos sonrientes, vestida con un delantal azul índigo sobre una camisa de lino color crema. Está de pie junto a su nieta de cuatro o cinco años —de mejillas redondas y pelo negro corto sujeto con una horquilla roja— en la mesa baja de madera de la cocina tradicional. Las puertas shoji se abren hacia el pequeño jardín, donde entra la luz de la mañana. Juntas hacen mochi. Las grandes manos de la abuela, marcadas por los años, envuelven las pequeñas manos de la niña, guiándolas mientras doblan y presionan la suave masa de arroz glutinoso. El polvo de harina flotaba en el haz de luz solar entre ellas. Una cualidad que recuerda a las películas de Hirokazu Kore-eda: observacional, sin prisas, con una intimidad documental y una belleza cinematográfica.


Incorporar el diseño de sonido en la indicación.

El diseño de sonido representa la dimensión más ignorada en la redacción de guiones para vídeos. En 2026, plataformas como Seedance, Veo 3 y Keeling admitían la generación de audio sincrónico para vídeos, y la diferencia de calidad entre los que incorporaban señales de sonido y los que no resultó ser considerable.

Piensa en esto: una hermosa escena forestal sin sonidos ambientales parece una animación GIF. Añádele el canto de los pájaros, el susurro de las hojas y el murmullo lejano de un arroyo, y se convierte en un lugar al que querrías entrar de inmediato.

Formato de diseño de sonido

Añada los comandos de voz al final de la indicación en un párrafo o línea separados, cubriendo tres niveles:

Primera capa: Música de fondo — Ambiente general y estilo

Background music: slow ambient piano, minor key, sparse notes with reverb
(背景音乐:缓慢的氛围钢琴,小调,稀疏的音符带混响)

Segunda capa: efectos de sonido ambientales — Establecer los sonidos ambientales de la escena.

Ambient: light rain on leaves, distant thunder rolls, wet road traffic hum
(环境音:轻柔的雨打树叶声、远处的雷声滚动、湿路上的交通嗡嗡声)

Tercera capa: efectos de sonido de acción y diálogo — Sonidos específicos asociados con eventos en el vídeo.

SFX: footsteps on wet pavement, umbrella opening with a click
Dialogue: none
(音效:湿路面上的脚步声、雨伞咔嗒打开的声音。对话:无)

Referencia de palabras clave de audio

Estilos musicales para diferentes emociones:

Estado de ánimoDirección musical (indicación en inglés)
TranquiloAmbiente, piano suave, guitarra acústica punteada, lo-fi
TensoZumbido grave, cuerdas disonantes, pulso percusivo mínimo
AlegreAcústica optimista, ukelele, percusión ligera, tonalidad mayor
ÉpicoCrescendo orquestal, tambores taiko, fanfarria de metales, coro
RománticoCuarteto de cuerda, jazz suave, bossa nova
MisteriosoAmbiente oscuro, piano con mucho reverberación, tonos de campanas lejanas
EnérgicoRitmo electrónico, batería potente, bajo potente, tempo rápido
MelancólicoViolonchelo solista, piano lento en tono menor, guitarra escasa

Sonidos ambientales:

| Entorno | Capas de sonido (indicaciones en inglés) | |------|--------------------- -| | Bosque | Canto de pájaros, susurro de hojas, pájaro carpintero lejano, arroyo | | Noche urbana | Ruido del tráfico, sirenas lejanas, zumbido de neones, pasos | | Océano | Olas rompiendo, gaviotas, viento, motor de barco lejano | | Cafetería interior | Cafetera, murmullos de conversaciones, cucharas sobre cerámica, jazz | | Día lluvioso | Intensidad de la lluvia (goteo ligero/aguacero intenso), truenos, gotas | | Taller | Sonidos de herramientas, virutas de madera, zumbido de maquinaria, radio de fondo |

Cuándo emplear el silencio

El silencio no es la ausencia de diseño de sonido, es una elección deliberada. El silencio estratégico puede crear:

  • Momento de impacto: El silencio que precede a un momento dramático amplifica ese momento
  • Sensación de escala: Solo el sonido del viento en paisajes vastos transmite inmensidad
  • Tensión: Eliminar los sonidos esperados crea inquietud
  • Enfoque: El silencio dirige toda la atención hacia lo visual

En la indicación, especifique explícitamente: «Sonido: silencio, sin música ni sonidos ambientales, solo la respiración del sujeto».

Para obtener más información sobre la generación de audio en la producción de vídeos musicales con IA, consulte la Guía del generador de vídeos musicales con IA.


Técnicas de indicaciones específicas para cada plataforma

La fórmula universal se aplica de manera universal, pero cada plataforma de vídeo con IA posee sus propias características distintivas a la hora de interpretar las indicaciones. Optimizar las indicaciones específicamente para la plataforma que utilices puede mejorar significativamente los resultados.

Comparación de optimizaciones rápidas para el mismo concepto de vídeo en cinco plataformas de vídeo con IA distintas (Seedance, Sora, Keeling, Runway y Veo 3).

El mismo concepto —«Mujer caminando bajo la lluvia por la noche»— optimizado para cinco plataformas distintas. La misma fórmula, pero con un énfasis diferente.

Seedance

Ventajas: Formato de línea de tiempo con guion gráfico, secuencias de múltiples tomas, conversión de imágenes a vídeo, [generador de indicaciones] integrado.

Técnicas de optimización:

  • Emplea una estructura de guion gráfico con línea temporal para secuencias complejas: divide los vídeos en tomas con marcas de tiempo:
 Shot 1 (0-3s): [描述]
 Shot 2 (3-6s): [描述]
 Shot 3 (6-10s): [描述]
  • Mantenga la coherencia estilística y de los personajes haciendo referencia a las imágenes cargadas con @Image1, @Image2
  • El lenguaje cinematográfico resulta muy eficaz: emplee terminología específica (dolly, track, orbit) en lugar de descripciones vagas («mover hacia»).
  • Incorpora diseño de sonido: Seedance se encarga de las señales de audio
  • Flujo de trabajo más eficiente: utiliza el Generador de indicaciones de vídeo para crear indicaciones estructuradas a partir de ideas sencillas y, a continuación, perfecciona manualmente.

Guía completa de indicaciones específicas para cada plataforma de Seedance (con más de 50 ejemplos), consulte Guía de indicaciones de Seedance.

Sora(OpenAI)

Ventajas: Comportamiento físicamente realista, movimientos naturales y comprensión natural del lenguaje en textos extensos.

Técnicas de optimización:

  • Emplea párrafos fluidos y descriptivos en lugar de listas estructuradas: Sora destaca en el análisis del lenguaje natural.
  • Haz hincapié en los detalles físicos: gravedad, peso, propiedades de los materiales, dinámica de fluidos.
  • Describe cómo se siente algo al tacto. parece» — Las descripciones de la textura y el material mejoran la fidelidad física
  • Especifica las relaciones de aspecto y las especificaciones de duración
  • Detalla la física: «La tela pesada se balancea con cada paso, retrasándose debido a su propio peso» produce resultados superiores en comparación con «falda flotante».

Ke Ling Kling (Kuaishou)

Ventajas: Velocidad de generación rápida, rendimiento robusto en cuanto a movimiento y desplazamiento, excelente consistencia facial.

Consejos de optimización:

  • Mantenga las indicaciones concisas: Keli responde mejor a indicaciones concisas y orientadas a la acción (lo óptimo es entre 50 y 80 palabras).
  • Comience con la acción: «Un bailarín salta y gira», en lugar de mencionar el movimiento después de largas descripciones de la escena.
  • Especifica claramente la dirección del movimiento: «se mueve de izquierda a derecha», «se acerca a la cámara», «se da la vuelta».
  • Keen destaca en la representación de movimientos humanos y expresiones faciales: aprovéchalo para indicaciones emocionales en primer plano.
  • Las instrucciones sobre el movimiento de la cámara son eficaces, pero cada indicación debe mantener una o dos acciones de cámara distintas.

Significado universal, forma universal / Pista de aterrizaje (Gen-3 Alpha / Gen-4)

Técnicas de optimización para Tongyi Wanshang:

  • Admite la introducción directa de indicaciones en chino, lo que ofrece resultados superiores en comparación con la traducción.
  • Demuestra una excelente comprensión de los elementos estéticos tradicionales chinos: pintura con tinta, estilo nacional, escenas con trajes de época.
  • Consigue resultados eficaces con etiquetas de estilo concisas y explícitas.

Técnicas de optimización de Runway:

  • Combina descripciones textuales con etiquetas de estilo: Runway posee una sólida comprensión del estilo.
  • Describe el movimiento utilizando vectores espaciales: «movimiento de abajo a la izquierda hacia arriba a la derecha».
  • Cuando utilices Motion Brush, centra las indicaciones textuales en la escena y el estilo generales, mientras empleas el pincel para refinar áreas de movimiento específicas.
  • Runway demuestra una excelente comprensión de las descripciones de estilo artístico: «al estilo de una película de Terrence Malick». - Al emplear el pincel de movimiento, centra las indicaciones en la escena y el estilo generales, utilizando el pincel para refinar áreas de movimiento específicas
  • Runway destaca en la interpretación de descripciones de estilos artísticos: «al estilo de una película de Terrence Malick» ofrece excelentes resultados
  • Mantén el enfoque de las indicaciones: genera una escena distinta por indicación en lugar de secuencias de varias tomas.

Veo 3(Google DeepMind)

Ventajas: Comprensión auditiva, simulación física, calidad cinematográfica, secuencias ampliadas.

Técnicas de optimización:

  • Incluir descripciones de audio detalladas: Veo 3 genera audio sincronizado a partir del texto
  • Describir las interacciones físicas con detalle: cómo chocan los objetos, cómo se deforman los materiales y cómo interactúa la luz con las superficies
  • Emplear terminología cinematográfica: los datos de entrenamiento de Veo 3 favorecen en gran medida la realización cinematográfica profesional
  • Especificar la duración y el ritmo: «la escena se desarrolla lentamente durante 10 segundos»
  • Las descripciones físicas mejoran significativamente el impacto: «el agua salpica hacia arriba al impactar y las gotas reflejan la luz trasera», en lugar de simplemente «el agua salpica».

Para obtener una comparación detallada entre Seedance y Sora en términos de interpretación rápida y calidad de salida, consulte Comparación entre Seedance y Sora.


O deja que la IA escriba las indicaciones por ti.

Acabas de completar el aprendizaje del marco completo para crear indicaciones de vídeo desde cero. Este conocimiento es inmensamente valioso, ya que te permite juzgar mejor la calidad de las indicaciones y te otorga un control total sobre cada detalle. Sin embargo, no es necesario que escribas manualmente cada indicación cada vez.

El diagrama del flujo de trabajo ilustra un enfoque híbrido: la IA genera una indicación inicial estructurada, que luego es revisada y optimizada por humanos para elementos específicos. La indicación refinada produce posteriormente el vídeo final.

Flujo de trabajo híbrido: Deja que la IA se encargue de la terminología estructural y técnica, y luego aporta tu perspectiva creativa durante la fase de optimización.

Cuándo escribir a mano y cuándo usar la IA

EscenarioMejor enfoque
Tienes una visión creativa precisa y sabes exactamente lo que quieresEscritura a mano: serás más rápido y preciso que editando borradores generados por IA
Tienes una idea aproximada, pero necesitas estructuraGeneración por IA → Perfeccionamiento manual
Necesitas generar rápidamente múltiples variaciones de indicacionesGeneración por lotes con IA → Selecciona y perfecciona las mejores
Estás aprendiendo y deseas estudiar las estructuras de las indicacionesGeneración con IA → Lee y analiza: así es como se construye el vocabulario
Necesitas hacer coincidir imágenes de referencia específicasEscritura a mano: describe con precisión lo que ves en la referencia

Flujo de trabajo híbrido (recomendado)

El flujo de trabajo de redacción rápida más eficiente combina la generación mediante IA con el refinamiento humano:

  1. Empieza con la IA. Dirígete a Seedance Video Prompt Generator, describe tu idea en una o dos frases, selecciona un estilo y genera.

  2. Revisa críticamente el resultado. La IA generará una indicación estructurada que contiene el lenguaje de movimiento de la cámara, los tiempos, la iluminación y el sonido. Léela detenidamente. ¿El trabajo de la cámara coincide con el tono emocional deseado? ¿La dirección de la iluminación crea la atmósfera deseada? ¿Hay algún detalle que desees modificar?

  3. Optimización manual. Aquí es donde entran en juego tus conocimientos sobre fórmulas, lenguaje cinematográfico y palabras clave atmosféricas. Sustituye las tomas seleccionadas por la IA por otras más acordes con tu visión. Ajusta las palabras clave de iluminación. Añade detalles específicos que la IA no puede conocer: rasgos específicos de los personajes, requisitos específicos de la marca, matices emocionales.

  4. Genera el vídeo. Envía la indicación optimizada al generador de vídeo. Los resultados serán muy superiores a las indicaciones totalmente manuales de principiantes o a las indicaciones generadas completamente por IA y sin verificar.

En la Guía del generador de indicaciones de vídeo con IA se puede encontrar una guía completa sobre el funcionamiento de los generadores de indicaciones de IA.


Efectos cinematográficos: dominio a través de la integración

Creemos una indicación final que emplee todo lo cubierto en esta guía (fórmulas, lenguaje cinematográfico, palabras clave atmosféricas, diseño de sonido) para producir un efecto verdaderamente cinematográfico.

Resumen creativo: Un astronauta solitario descubre vida vegetal en Marte.

Impresionante vídeo generado por IA con calidad cinematográfica que muestra a un astronauta solitario arrodillado en medio del terreno carmesí de Marte, descubriendo una pequeña planta verde, renderizada con una dramática iluminación lateral y efectos volumétricos de polvo.

Las indicaciones cinematográficas totalmente especificadas producen resultados como si estuvieran dirigidas por un cineasta, porque en realidad lo están. Cada elemento está al servicio de la narrativa.

Mensaje completo:

Subject: A solitary astronaut in a dusty, sun-bleached EVA suit — visor partially reflective, scratched from use, mission patches barely legible. The suit is not pristine Hollywood white; it is a working tool, weathered by months on the Martian surface.

Action: The astronaut crouches beside a small crack in the rust-red basalt. Inside the crack, a single tiny green sprout — two delicate leaves, almost translucent — pushes up through the red soil. The astronaut's gloved hand reaches toward it, hesitates, trembles slightly, then gently touches the soil beside it.

Environment: The Martian surface — a flat, rust-red plain scattered with dark basalt rocks, stretching to low eroded hills on the horizon. The sky is a pale butterscotch-pink. Dust devils move in the far distance. The scene feels vast and achingly empty — except for this one tiny green thing.

Camera: Opens with an extreme wide shot — the astronaut is a small figure in the immense Martian landscape. Slow dolly in over 4 seconds to a medium shot. As the astronaut crouches, camera drops to ground level and continues to a close-up of the gloved hand and the sprout. Rack focus: pull from the hand to the astronaut's visor, where we see the sprout's reflection. 65mm lens, anamorphic.

Lighting: Late Martian afternoon — low sun from camera-right, casting long amber-red shadows. The side light sculpts the EVA suit's texture. The sprout's translucent leaves glow with subsurface scattering as sunlight passes through them — the only green in a world of red. Volumetric dust particles drift through the light beam.

Style: Ridley Scott's The Martian meets Terrence Malick's The Tree of Life. Cinematic, anamorphic, muted Martian color palette with the single point of vivid green as deliberate contrast. Subtle film grain.

Sound: Wind — thin, high-pitched Martian wind, unlike Earth wind. The astronaut's breathing inside the suit — measured at first, then quickening. A single sustained low note from a cello enters as the hand reaches for the sprout. No dialogue. No narration.

Un astronauta solitario, vestido con un traje EVA cubierto de polvo y descolorido por el sol, con la visera semirreflectante, con los arañazos del uso y el parche de la misión apenas discernible. Este traje no es del blanco inmaculado de Hollywood; es una herramienta de trabajo, desgastada por meses en la superficie marciana. Agachado junto a una estrecha fisura en el basalto rojo óxido, el astronauta observa un pequeño brote verde —dos hojas delicadas, casi translúcidas— que emerge del suelo carmesí. Una mano enguantada se extiende, vacila, tiembla ligeramente y luego toca suavemente la tierra junto a él.

Esta indicación incorpora los siete elementos formulísticos, lenguaje cinematográfico específico (plano general extremo, travelling, cambio de enfoque), palabras clave atmosféricas (iluminación volumétrica, dispersión subsuperficial, lente anamórfica), diseño de sonido (viento ambiental, sonidos de respiración, nota solitaria de violonchelo) y referencias estilísticas (Ridley Scott, Terrence Malick). Cada detalle contribuye al arco emocional: soledad → descubrimiento → asombro.

Este es el proyecto de ingeniería de indicaciones de vídeo.


Preguntas frecuentes

¿Qué duración deben tener las indicaciones de vídeo de IA?

No existe un estándar universal para la longitud. La longitud adecuada depende de la complejidad de su concepto creativo y de la plataforma utilizada. El nivel V1 (15-30 palabras) produce resultados universales en cualquier plataforma. El nivel V2 (50-80 palabras) representa el rango óptimo para la mayoría de las plataformas, ya que es lo suficientemente específico sin sobrecargar el modelo. El nivel V3 (100-200 palabras) ofrece los resultados más controlables en plataformas que admiten indicaciones largas, como Seedance y Sora. Cuando utilice Keeling, mantenga aproximadamente entre 50 y 80 palabras. La métrica crítica no es el recuento de palabras, sino si cada elemento de la fórmula se aborda de manera exhaustiva.

¿Es imprescindible tener experiencia en fotografía para crear indicaciones de vídeo eficaces?

No es esencial, pero comprenderlo te será de gran ayuda, y esta guía te acaba de enseñar los conocimientos básicos. No necesitas un título en cine; lo que necesitas es conocer los nombres de entre 10 y 15 tipos de movimientos de cámara, comprender el impacto emocional de los diferentes estilos de iluminación y poseer vocabulario para describir la atmósfera. Marca como favoritas las secciones Lenguaje de los movimientos de cámara y Biblioteca de palabras clave sobre la atmósfera, y consúltalas repetidamente hasta que estos términos se conviertan en algo natural para ti.

¿Se puede utilizar la misma indicación en diferentes plataformas de vídeo con IA?

Por supuesto, la fórmula universal se aplica de forma universal. Sin embargo, cada plataforma interpreta las indicaciones de forma diferente. Las indicaciones optimizadas para Sora (largas, fluidas, con énfasis en la física) pueden requerir una reestructuración para Ke Ling (más cortas, con prioridad en la acción). La sección Técnicas específicas para cada plataforma detalla cómo adaptarlas. La fórmula básica permanece inalterada; solo se adapta el formato de entrega.

¿Qué diferencia a esta guía de la guía de indicaciones de Seedance?

La Guía de indicaciones de Seedance es específica para cada plataforma: te enseña el formato de guion gráfico de Seedance, referencias de imágenes y más de 50 indicaciones listas para usar. Esta guía es universal: te enseña las habilidades básicas para escribir indicaciones aplicables a cualquier plataforma. Considera esta guía como tu libro de texto y la guía de Seedance como tu manual práctico para una herramienta específica.

¿Cómo describir el movimiento de la cámara si no se está familiarizado con la terminología cinematográfica?

Primero, describe lo que quieres que el público vea y sienta. «La cámara se acerca lentamente al rostro del sujeto» es un travelling . «La cámara sigue a la persona que camina desde un lado» es un travelling. Las plataformas de IA entienden bastante bien las descripciones en lenguaje natural. Sin embargo, aprender la terminología técnica (utilizando la [referencia del lenguaje de los movimientos de cámara](#arma secreta del lenguaje de los movimientos de cámara) anterior) ofrece resultados significativamente mejores, ya que los modelos de IA se entrenan con vídeos descritos precisamente con estos términos profesionales.

¿Deberían incluirse indicaciones inversas (lo que no se debe incluir)?

Algunas plataformas admiten indicaciones inversas, es decir, instrucciones que especifican lo que se debe evitar. Estas pueden resultar útiles: «Sin superposiciones de texto, sin marcas de agua, sin fotogramas borrosos». Sin embargo, la mayoría de los generadores de vídeo con IA modernos gestionan los problemas de calidad de forma más eficaz mediante especificaciones positivas. En lugar de escribir «sin iluminación deficiente», especifique «iluminación Rembrandt desde la izquierda de la cámara». En lugar de «sin tomas temblorosas», indique «movimiento suave de la cámara». Las indicaciones positivas guían a la IA hacia el resultado deseado; las indicaciones negativas solo le dicen qué evitar, dejando las alternativas al azar.

¿Cómo mantener la coherencia de los personajes en múltiples indicaciones?

Mantener la coherencia de los personajes a lo largo de múltiples generaciones de vídeos generados por IA es uno de los aspectos más difíciles de la redacción de prompts. Hay tres estrategias que resultan útiles: (1) Emplear una descripción extremadamente detallada del personaje, repitiéndola literalmente entre prompts: «una mujer de unos 20 años, japonesa, con pelo largo y negro, abrigo de lana gris oscuro oversize y jersey de cuello alto color crema». (2) Emplear flujos de trabajo de imagen a vídeo: subir imágenes de referencia de los personajes para la animación de IA. Seedance lo permite mediante referencias @Image. (3) Generar todos los clips del mismo personaje en una sola sesión siempre que sea posible, utilizando semillas o ajustes de estilo idénticos.

¿Existe alguna herramienta que me ayude a escribir indicaciones para vídeos?

Sí. El generador de indicaciones de vídeo de Seedance acepta descripciones en lenguaje natural para generar indicaciones completas y estructuradas de la lista de tomas, que incluyen el lenguaje de movimiento de la cámara, las líneas de tiempo, la iluminación y el diseño de sonido. Para obtener instrucciones detalladas sobre su funcionamiento, consulte la Guía del generador de indicaciones de vídeo con IA. Flujo de trabajo recomendado: generación con IA → perfeccionamiento manual → producción de vídeo.


Empieza hoy mismo a escribir mejores indicaciones para vídeos.

Ahora dispones de un completo conjunto de herramientas: la fórmula de los siete elementos, una referencia sobre el lenguaje del movimiento de cámara que abarca más de 15 técnicas, una biblioteca de palabras clave atmosféricas en cuatro dimensiones que incluye más de 50 términos, cinco ejemplos progresivos que ilustran la evolución desde los estándares básicos hasta los cinematográficos, la metodología del diseño de sonido y las técnicas de optimización específicas para cada plataforma.

La diferencia entre los vídeos de IA creados por aficionados y los creados por profesionales no radica en las herramientas, sino en las indicaciones. Y la redacción de indicaciones es una habilidad que mejora con la práctica.

Tres maneras de empezar:

  1. Practique la fórmula. Seleccione cualquier tema, redacte las versiones V1 → V2 → V3. Compare los resultados. La mejora será inmediata y significativa.

  2. Utiliza un generador de indicaciones. Deja que la IA se encargue de la estructura y luego aprovecha tus conocimientos sobre el movimiento de la cámara y la atmósfera para perfeccionar el resultado. Prueba el generador de indicaciones de vídeo →

  3. Genera tu primer vídeo. Elige tu mejor sugerencia y crea un vídeo ahora mismo. Abre el generador de vídeos →

Más inspiración inmediata y ejemplos listos para usar:

Explora Seedance 2.0 →

El mejor vídeo con IA que jamás crearás comienza con la próxima indicación que escribas.

Seedance 2.0 IA

Seedance 2.0 IA

Vídeo con IA y tecnología creativa