什么样的AI视频prompt才算好？

好的AI视频prompt具备三个核心特征：具体、有结构、包含运动描述。它应该包含清晰的主体描述、明确的动作或运动、氛围性场景设定、镜头指令、光线方向和画质修饰词。最重要的原则是具体性，同时必须包含运动描述，告诉AI什么在动、怎么动。

AI视频prompt应该多长？

理想区间是40到80个英文单词。少于20个词给AI太多自由度，产出不可预测的泛泛结果。超过150个词则可能自相矛盾或给模型造成困惑。一段涵盖主体、运动、镜头、灯光和画质的50-70词集中段落能产出最好的结果。

这些prompt可以用在其他AI视频工具上吗？

可以。每条prompt都可以在Seedance、Sora、可灵（Kling）、Runway、Pika、海螺（HaiLuo）等主流文生视频工具上使用。核心原则——具体的主体、明确的运动、镜头指令和灯光描述——是通用的。不同模型对语言的理解方式略有差异，建议把这些prompt当作起点并根据具体工具进行迭代。

为什么我的生成结果和示例不同？

AI视频生成包含随机性。同一条prompt每次生成都会产出不同结果。如果结果和预期不同，用同一条prompt生成3-5个变体，再决定是否需要修改prompt。同时检查画面比例和模型版本设置，这些会显著影响输出。

如何在prompt中描述镜头运动？

使用真实的电影摄影术语。AI模型理解专业术语：slow dolly in（缓慢推进）、tracking shot（跟踪镜头）、orbiting（环绕）、crane shot（升降镜头）、pan（水平摇镜）、tilt（垂直摇镜）、whip pan（甩镜头）。务必指定速度：slow dolly、gentle orbit、rapid whip pan。

需要使用反向prompt吗？

取决于生成器。有些工具有专门的反向prompt输入框，对排除特定问题非常有效：no text、no watermarks、no blurry faces。没有专门输入框时，可以在主prompt中加入否定性描述。不要写几十条排除项，专注于2-3个具体问题。

一条prompt应该迭代多少次？

三到五次是实际项目中的最佳区间。V1确立概念，V2细化细节，V3打磨制作品质。如果五次迭代仍未产出满意结果，问题很可能不在prompt，而是模型对这类内容的能力局限。尝试换一个方法来呈现场景。

哪个AI视频生成器的prompt控制力最好？

Seedance 2.0目前提供最全面的prompt控制力。支持文生视频和图生视频，镜头运动关键词被可靠执行，灯光指令准确转化，支持多种画面比例（16:9、9:16、1:1、3:4、4:3、21:9），分辨率可达2K，并支持角色一致性功能。

10 AI video Prompt thực sự hiệu quả: Kèm theo quá trình lặp lại và so sánh hiệu quả (2026)

Tóm tắt

Hầu hết các prompt video AI đều không hiệu quả, nguyên nhân chủ yếu là do ba yếu tố: quá chung chung, mâu thuẫn trong lệnh và thiếu mô tả chuyển động. Bài viết này sẽ hướng dẫn bạn cách viết prompt thông qua 10 tình huống thực tế – mỗi tình huống đều được tối ưu hóa từ phiên bản V1 yếu kém đến V3 được tinh chỉnh, giúp bạn hiểu rõ những thay đổi, lý do thay đổi và điểm yếu của từng phiên bản. Tất cả các prompt có thể được sao chép và dán trực tiếp vào các trình tạo chính như Seedance, Sora, Kling, Runway, v.v. Sau khi đọc xong, bạn sẽ nắm được cấu trúc cốt lõi của prompt và có được kho tài liệu thực tế bao gồm các cảnh quay phim, quảng cáo sản phẩm, phim hoạt hình, ẩm thực, thời trang, thể thao, video sinh động, TVC thương hiệu, v.v. Mở Seedance ngay để thử các prompt này →

Lưu ý: Hiện nay, hầu hết các trình tạo video AI phổ biến (bao gồm cả các sản phẩm nội địa như Keeling, Jimeng, v.v.) đều hỗ trợ nhập lệnh bằng tiếng Anh, và lệnh bằng tiếng Anh thường mang lại hiệu quả tốt hơn. Các ví dụ về lệnh trong bài viết này được giữ nguyên bản tiếng Anh, đồng thời kèm theo giải thích bằng tiếng Trung để bạn dễ hiểu ý định thiết kế của từng lệnh và có thể sao chép sử dụng trực tiếp.

So sánh: Sự khác biệt về hiệu ứng video AI được tạo ra bởi prompt mờ và prompt tối ưu hóa — Cùng một ý tưởng, hiệu quả của prompt mờ và prompt tinh chỉnh hoàn toàn khác nhau.

Tại sao hầu hết các video AI Prompt không hiệu quả?

Bạn nhập một đoạn văn bản vào công cụ video AI, nhấp vào nút "Tạo", nhưng kết quả lại hoàn toàn khác biệt so với hình ảnh bạn tưởng tượng trong đầu. Hầu hết mọi người đều đã trải qua sự chênh lệch này, và nguyên nhân đằng sau thực ra là có thể dự đoán và giải quyết được.

Ba kiểu thất bại phổ biến nhất

1. Mô tả quá chung chung. Các gợi ý như "a beautiful sunset" hầu như không cung cấp cho AI bất kỳ hướng dẫn nào — vị trí của ống kính, chủ thể là gì, ánh sáng thay đổi như thế nào, cảm xúc muốn truyền tải là gì, tất cả đều thiếu. Các gợi ý chung chung chỉ có thể tạo ra những hình ảnh tầm thường, không để lại ấn tượng.

2. Các lệnh mâu thuẫn nhau. "Một cảnh quay cận cảnh cực đại góc rộng của một người chạy nước rút trong chuyển động chậm" — cận cảnh và góc rộng mâu thuẫn nhau, chuyển động chậm và nhanh mâu thuẫn nhau. AI cố gắng thực hiện đồng thời các lệnh không thể thực hiện được, kết quả là hình ảnh trở nên lộn xộn.

3. Không có mô tả chuyển động. Video văn sinh không phải là hình ảnh văn sinh. Nếu bạn chỉ mô tả một cảnh tĩnh mà không cho AI biết có gì đang chuyển động và chuyển động như thế nào, nhiều trình tạo sẽ xuất ra một hình ảnh tĩnh có hiệu ứng thở nhẹ. Bạn phải mô tả rõ ràng cho AI cách chuyển động trong hình ảnh.

Ba trụ cột chính của Prompt

Một lời nhắc video AI xuất sắc bao gồm ba yếu tố cốt lõi:

Chủ thể rõ ràng: AI biết chính xác những gì cần hiển thị. Không phải là "một người", mà là "một phụ nữ ở độ tuổi 30 với mái tóc đen điểm bạc, mặc áo khoác da cũ".
Chuyển động rõ ràng: Có những điều đang diễn ra trong khung hình. Chủ thể đang chuyển động, ống kính đang chuyển động, các hạt đang bay, vải đang bay, ánh sáng đang thay đổi. Chuyển động là ý nghĩa của video.
Bầu không khí xác định: Ánh sáng, nhiệt độ màu, cảm xúc, phong cách không phải là các tùy chọn, mà là yếu tố quyết định hình ảnh là "bản demo kỹ thuật" hay "tác phẩm chuyên nghiệp".

Tư duy lặp lại

Những người viết prompt giỏi nhất không thể viết ra một prompt hoàn hảo ngay từ lần đầu tiên, họ dựa vào quá trình lặp lại. Mỗi prompt trong bài viết này đều tuân theo ba phiên bản tiến triển:

V1 —— Thử nghiệm cơ bản. Nội dung mà hầu hết mọi người nhập lần đầu tiên. Có thể tạo ra hình ảnh, nhưng chung chung và thiếu kiểm soát.
V2 —— Bổ sung chi tiết. Thêm cảnh cụ thể, ánh sáng, chuyển động máy quay hoặc cảm xúc. Hiệu quả được cải thiện rõ rệt.
V3 —— Phiên bản cuối cùng. Chủ thể, chuyển động, không khí, góc quay, ánh sáng, từ ngữ mô tả chất lượng hình ảnh đều được hoàn thiện, các yếu tố phối hợp với nhau để tạo ra một hình ảnh hoàn chỉnh và thuyết phục.

Quá trình lặp lại này sẽ dạy cho bạn nhiều điều hơn bất kỳ "prompt hoàn hảo" nào. Bạn sẽ hiểu được sự thay đổi mà mỗi bổ sung mang lại và tại sao nó lại quan trọng.

Cấu trúc giải phẫu của Prompt video AI

Tất cả các prompt xuất sắc đều tuân theo cùng một công thức:

[主体 Subject] + [动作/运动 Action] + [风格/情绪 Style] + [运镜 Camera] + [光线 Lighting] + [画质 Quality]

Mỗi yếu tố có nhiệm vụ riêng:

| Yếu tố | Kiểm soát gì | Ví dụ | |------|-------- -|------| | Chủ thể Subject | Ai/cái gì trong khung hình | "Một phụ nữ trẻ với mái tóc nâu đỏ óng ả trong chiếc áo khoác len màu than" | | Hành động Action | Điều gì đã xảy ra, cái gì đang chuyển động | "đi chậm trong tuyết rơi, hơi thở có thể nhìn thấy trong không khí lạnh" | | Phong cách Style | Thẩm mỹ thị giác và tông màu cảm xúc | "buồn bã, tông màu đất trầm, thẩm mỹ phim indie" | | Điều khiển máy quay Camera | Cảnh quay và chuyển động máy quay | "medium tracking shot following from the side, slow dolly" | | Ánh sáng Lighting | Nguồn sáng, kết cấu, hướng | "overcast winter light, soft diffused shadows, cool blue undertones" | | Chất lượng hình ảnh Quality | Thông số kỹ thuật | "8K, shallow depth of field, anamorphic lens, film grain" |

Không phải mọi prompt đều phải bao gồm đầy đủ sáu yếu tố, nhưng bạn càng bao quát nhiều yếu tố, bạn càng có khả năng kiểm soát kết quả tạo ra. Dưới đây là 10 tình huống thực tế để minh họa hiệu quả thực tế của phương pháp này.

Prompt #1: Phim chân dung - "Những bức ảnh sống động"

Cài đặt cảnh

Một bức ảnh chân dung đẳng cấp điện ảnh, như thể được cắt ra từ một khung hình trong bộ phim đoạt giải. Nhân vật chính không đang tạo dáng - cô ấy đang trải qua một khoảnh khắc. Gió thổi tung mái tóc cô, nét mặt mang một sự sâu sắc, ánh sáng như trong tranh Phục hưng tạo nên đường nét khuôn mặt cô.

V1 —— Thử nghiệm cơ bản

A woman looking at camera

Đây là nội dung mà hầu hết người mới bắt đầu sẽ nhập vào. Kết quả là một khuôn mặt chính diện nhạt nhẽo, giống như ảnh thẻ: biểu cảm trung tính, ánh sáng mặc định, hoàn toàn không có cảm giác về bối cảnh hay câu chuyện. AI không nhận được bất kỳ thông tin nào về cảm xúc, bối cảnh hoặc phong cách thị giác, và bạn chỉ nhận được kết quả ngẫu nhiên.

V2 —— Chi tiết bổ sung

A woman with dark curly hair looks directly at the camera with a slight
smile. Wind blows her hair across her face. She stands in a golden wheat
field at sunset. Warm light on her skin.

Có tiến bộ rõ rệt. Hiện tại đã có bối cảnh (ruộng lúa mì), thời gian (hoàng hôn), tương tác vật lý (gió thổi tóc) và biểu cảm (nụ cười). Tuy nhiên, vẫn thiếu các thông số cụ thể của ống kính, hướng ánh sáng chính xác và các từ mô tả chất lượng hình ảnh.

V3 —— Phiên bản cuối cùng

Cinematic close-up portrait of a woman in her late 20s with dark curly
hair and deep brown eyes. She gazes directly into the camera with quiet
intensity, lips slightly parted. A warm breeze lifts strands of hair
across her face. She stands in a vast golden wheat field stretching to
the horizon. Golden hour backlighting creates a luminous halo around her
hair and shoulders. Warm amber fill light from a reflector below. Slow,
subtle dolly in. Shallow depth of field, f/1.4, 85mm lens. Gentle lens
flare from the low sun. Film grain, anamorphic bokeh. Ultra-realistic
cinematic 4K quality.

So sánh ba giai đoạn lặp lại của hình ảnh điện ảnh: sự thay đổi hiệu quả từ cơ bản đến tối ưu — Quá trình lặp lại từ V1 đến V3: Cùng một khái niệm đã được chuyển đổi từ khuôn mặt thông thường thành hình ảnh điện ảnh với ánh sáng, góc quay và không khí đặc trưng.

Tại sao Prompt này hiệu quả

Ống kính 85mm + khẩu độ f/1.4 chỉ định AI tạo ra hiệu ứng nén viễn cảnh và làm mờ nền mịn màng như kem - đây là đặc trưng của nhiếp ảnh chân dung chuyên nghiệp.
Ánh sáng ngược + ánh sáng bổ sung màu hổ phách tạo ra các lớp ánh sáng ba chiều. Ánh sáng ngược tách chủ thể khỏi nền, ánh sáng bổ sung đảm bảo khuôn mặt không bị biến thành bóng đen.
Chuyển động chậm (slow dolly in) thêm vào cảm giác động nhẹ nhàng cho khung hình mà không làm phân tán sự chú ý khỏi chủ thể, tạo cho người xem cảm giác như bị "hút vào".
"quiet intensity, lips slightly parted" (sự mãnh liệt thầm lặng, đôi môi hé mở) cho AI một mục tiêu cảm xúc, không chỉ là mô tả vật lý.

Biến thể

Biến thể A —— Chân dung thành thị trong đêm mưa:

Cinematic close-up of a man in his 30s with a shaved head and stubble,
standing still on a rain-soaked city street at night. Rain streams down
his face. He stares into the distance with exhausted resolve. Neon signs
reflect pink and blue on the wet pavement behind him. Shallow depth of
field. Slow push-in. Anamorphic lens flares. Cool blue tones with warm
neon accents. Ultra-realistic 4K, film grain.

Biến thể B —— Chân dung người già trong tuyết:

Tight close-up of an elderly woman with silver hair and deep laugh lines,
eyes glistening with emotion. She stands outdoors in gently falling snow.
Snowflakes settle on her dark wool shawl. Overcast soft light. A single
warm tear traces down her weathered cheek. Extremely shallow depth of
field. Static camera, no movement. 85mm lens. Muted, desaturated color
palette. Cinematic 4K, photorealistic.

Prompt #2: Trưng bày sản phẩm — "Sản phẩm xa xỉ lơ lửng"

Cài đặt cảnh

Một chai nước hoa cao cấp được trình bày như một món trang sức - lơ lửng, xoay tròn, bắt sáng. Loại cảnh quay này trong sản xuất truyền thống đòi hỏi thương hiệu phải chi hàng chục nghìn nhân dân tệ để thuê studio chuyên nghiệp thực hiện. Với prompt phù hợp, AI có thể tạo ra video sản phẩm chất lượng thương mại chỉ trong vài giây. Dù bạn là người bán hàng trực tuyến hay thương hiệu, loại hình ảnh này có tỷ lệ chuyển đổi cực cao trên TikTok và Xiaohongshu.

V1 —— Thử nghiệm cơ bản

A perfume bottle on a table

Kết quả: Một chai nước hoa có ánh sáng nhạt nhòa được đặt trên một chiếc bàn ngẫu nhiên. Không có sự kịch tính, không có sự khao khát, không có sự thôi thúc mua sắm. Khi bạn đưa cho AI một lệnh bình thường, nó cũng chỉ có thể cho bạn một hình ảnh bình thường.

V2 —— Chi tiết bổ sung

A luxury glass perfume bottle with gold accents floating in mid-air against
a dark background. Soft light reflects off the glass surface. The bottle
slowly rotates. Professional product photography style.

Có sự tiến bộ rõ rệt. Có sự tương phản giữa chuyển động lơ lửng, nền tối, phản xạ ánh sáng và tham chiếu phong cách. Tuy nhiên, vẫn có thể cải thiện hơn nữa bằng cách bố trí ánh sáng chính xác, các yếu tố khí quyển và chuyển động ống kính.

V3 —— Phiên bản cuối cùng

A luxury crystal perfume bottle with faceted edges and a gold cap floats
weightlessly in a void of deep matte black. The bottle rotates slowly on
its vertical axis, completing a quarter turn. Razor-sharp caustic light
refractions dance across the glass surface. Two opposing strip lights --
one warm amber, one cool white -- create dramatic dual-tone reflections on
the faceted crystal. Tiny golden particles drift lazily through the air
around the bottle. A single droplet of amber liquid clings to the bottle's
shoulder, catching the light. Smooth orbiting camera movement. Extreme
product close-up. 8K commercial quality, ultra-sharp focus throughout,
professional studio lighting.

Sản phẩm trưng bày: So sánh ba giai đoạn lặp lại: Chai nước hoa từ chất lượng cơ bản đến chất lượng thương mại — V1 đến V3: Một chai nước hoa đã chuyển từ một bức ảnh chụp trên bàn đơn giản thành một sản phẩm trưng bày chuyên nghiệp với ánh sáng chuyên nghiệp và chi tiết sang trọng.

Tại sao Prompt này hiệu quả

"Matte black" nền đen thuần túy loại bỏ mọi yếu tố gây xao nhãng, buộc sự chú ý tập trung vào sản phẩm. Đây là phương pháp tiêu chuẩn trong nhiếp ảnh hàng xa xỉ.
Dải đèn kép (vàng ấm + trắng lạnh) tạo ra hiệu ứng phản chiếu đa sắc giúp sản phẩm thủy tinh trông sang trọng hơn. Nguồn sáng đơn lẻ sẽ khiến sản phẩm trông rẻ tiền và đơn điệu.
"Caustic light refractions" (phản xạ ánh sáng caustic) là một thuật ngữ chuyên môn mà mô hình AI hiểu rất rõ. Nó kích hoạt các mẫu ánh sáng phức tạp do vật thể trong suốt tạo ra.
Hạt vàng thêm chiều sâu cho môi trường mà không làm phân tán sự chú ý khỏi sản phẩm.

Biến thể

Biến thể A —— Ra mắt sản phẩm công nghệ:

A matte black wireless earbud case floats against a gradient of deep
navy to black. The case slowly opens, revealing pearl-white earbuds inside.
Volumetric blue light emanates from within the case. Tiny light particles
drift upward. Orbiting camera. Edge-lit rim lighting in electric blue.
Ultra-clean, Apple-style product aesthetic. 8K, ultra-sharp.

Biến thể B —— Quảng cáo sản phẩm mỹ phẩm:

A rose-gold lipstick tube rotates slowly against soft pink studio
backdrop. The cap twists off and separates, floating beside the tube.
Creamy lipstick bullet catches soft ring light. Rose petals in soft focus
drift across the foreground. Smooth macro close-up. Beauty commercial
lighting with soft key and gentle fill. Ultra-realistic 4K.

Prompt #3: Natural Epic — "Scenic Shots of the Atmosphere"

Cài đặt cảnh

Một cảnh quay phong cảnh hùng vĩ đến nghẹt thở — loại cảnh mà bạn thường thấy trong các bộ phim tài liệu về thiên nhiên hoặc những thước phim mở đầu của các tác phẩm như "Chúa tể của những chiếc nhẫn". Điểm cốt lõi của những hình ảnh này là cảm giác về quy mô, tầng lớp không gian và sự hùng vĩ. Sử dụng làm cảnh mở đầu cho các video phong cảnh trên Bilibili hoặc TikTok, chúng mang lại hiệu ứng thị giác vô cùng mạnh mẽ.

V1 —— Thử nghiệm cơ bản

Mountains with clouds

Bạn sẽ có dãy núi. Bạn sẽ có mây. Bạn sẽ không có sự choáng ngợp. AI không có bất kỳ hướng dẫn nào về thời gian, động thái thời tiết, cảm giác về quy mô, góc máy hay cảm xúc, kết quả là một hình nền mặc định của hệ thống.

V2 —— Chi tiết bổ sung

Dramatic mountain range at sunrise with clouds flowing through the valleys.
Golden light hits the peaks. Aerial drone shot slowly moving forward.
Mist and fog in the valleys below. Epic landscape photography.

Mạnh mẽ hơn rất nhiều. Có thời gian (mặt trời mọc), hướng ánh sáng, hiệu ứng khí quyển, chuyển động ống kính và tham chiếu phong cách. Nhưng để đạt được hiệu ứng điện ảnh thực sự, vẫn cần có tham chiếu địa lý cụ thể, động thái thời tiết và các từ khóa về chất lượng hình ảnh ở cấp độ sản xuất.

V3 —— Phiên bản cuối cùng

Epic aerial establishing shot of a jagged snow-capped mountain range
resembling the Dolomites at dawn. The camera drifts slowly forward over
a sea of low-lying clouds that fill the valleys like white rivers.
Golden-pink alpenglow illuminates the highest peaks while the valleys
remain in cool blue shadow. Wisps of cloud catch on rocky spires and
trail into the wind. A single eagle soars far below the camera, its
wings outstretched against the cloud sea. Volumetric god rays break
through a gap between two peaks. Slow, majestic forward dolly. IMAX
quality, ultra-wide 21:9 aspect ratio, photorealistic, extreme detail
in rock textures and snow patterns. 8K resolution.

So sánh ba giai đoạn lặp lại của cảnh quan thiên nhiên: Độ phân giải hình ảnh từ cơ bản đến cấp độ IMAX — V1 đến V3: Cảnh núi thông thường được biến thành cảnh quay IMAX với ánh sáng ba chiều, biển mây trôi và cảm giác quy mô hoành tráng.

Tại sao Prompt này hiệu quả

"Giống như dãy núi Dolomites" cung cấp cho AI một tham chiếu địa lý cụ thể. Địa hình thực tế tạo ra cấu trúc địa chất nhất quán hơn so với từ trừu tượng "mountains" (núi).
"Alpenglow" (ánh nắng mặt trời chiếu lên núi) là một hiện tượng ánh sáng cụ thể — khi mặt trời chưa mọc lên khỏi đường chân trời, đỉnh núi được chiếu sáng bởi ánh sáng màu hồng ấm áp. AI có rất nhiều ảnh chụp tự nhiên trong dữ liệu huấn luyện, nên nó hiểu thuật ngữ này.
Đại bàng cung cấp một tham chiếu kích thước sống động. Nếu không có nó, bức tranh có thể trông giống như một mô hình thu nhỏ. Một con chim bay trong khung cảnh rộng lớn truyền tải ý nghĩa "khổng lồ".
"God rays break through a gap" (Ánh sáng thần thánh xuyên qua khe núi) tạo ra điểm nhấn thị giác trong bố cục, hướng sự chú ý của người xem.

Biến thể

Biến thể A —— Cơn bão đang đến:

Dramatic time-lapse-style shot of a vast Icelandic black sand desert.
Towering cumulonimbus storm clouds roll in from the horizon, their bases
dark and heavy with rain. Lightning flickers within the cloud mass.
A solitary volcanic peak stands defiant in the middle distance. The light
shifts from warm gold to ominous green-grey as the storm advances.
Wide-angle static camera. 4K cinematic, photorealistic.

Biến thể B —— Bình yên nhiệt đới:

Aerial overhead shot drifting slowly over a turquoise tropical lagoon.
Crystal-clear water reveals coral reefs and white sand below. A small
wooden boat with a red sail drifts lazily across the lagoon. Palm trees
line the crescent beach. Gentle ripples catch sunlight and create dancing
caustic patterns on the seabed. Golden afternoon light. Smooth, dreamlike
camera movement. 4K ultra-realistic, vivid but natural colors.

Prompt #4: Cảnh quan đô thị — "Nhịp đập của thành phố"

Cài đặt cảnh

Một con phố thành phố về đêm tràn đầy năng lượng. Mưa, ánh đèn neon, phản chiếu trên mặt đất và chuyển động của người đi bộ hòa quyện vào nhau, tạo nên cảm giác như bạn đang đứng ở góc phố vào lúc 2 giờ sáng. Loại hình ảnh này rất phổ biến trong các video "đi dạo thành phố" trên TikTok và Bilibili.

V1 —— Thử nghiệm cơ bản

A city street at night

Kết quả: Một khối kiến trúc tối màu mờ ảo, có thể có vài ngọn đèn. Không có không khí, không có câu chuyện, không có tính nhận diện thị giác. "Cảnh đêm thành phố" có thể là con đường ngoại ô yên tĩnh, cũng có thể là Quảng trường Thời đại — AI hoàn toàn không thể phân biệt được.

V2 —— Chi tiết bổ sung

A rainy city street at night with neon signs reflecting on the wet
pavement. People walk with umbrellas. A taxi passes through a puddle,
splashing water. Colorful lights everywhere. Cinematic look.

Với thời tiết, phản chiếu, hoạt động của nhân vật và phương tiện giao thông, cảnh quay bắt đầu có sức sống. Tuy nhiên, để thực sự nổi bật, cần phải xác định phong cách thẩm mỹ cụ thể, hành vi của ống kính và cấp độ ánh sáng.

V3 —— Phiên bản cuối cùng

A rain-soaked Tokyo side street at night. The narrow road glistens with
reflections of dozens of vertical neon signs in Japanese characters --
hot pink, electric blue, acid green. A lone figure in a black trench coat
walks away from the camera, their silhouette dark against the neon glow.
Steam rises from a ramen shop's exhaust vent on the left. A bicycle
leans against a vending machine glowing soft white. Rain falls steadily,
each drop catching neon color as it descends. Slow tracking shot following
the figure from behind. Shallow depth of field: the figure is sharp, the
distant neon blurs into bokeh circles. Wet pavement acts as a mirror,
doubling every light source. Anamorphic lens flares. Blade Runner meets
Lost in Translation atmosphere. 4K cinematic, film grain, moody cool
blue-purple color grade.

So sánh ba giai đoạn lặp lại của cảnh quan đô thị: Từ cảnh đêm cơ bản đến cảnh mưa neon cấp độ điện ảnh — Từ V1 đến V3: Cảnh đêm mờ ảo đã biến thành một con phố đêm mưa neon với bố cục tinh tế, thời tiết động và tham chiếu điện ảnh.

Tại sao Prompt này hiệu quả

"Tokyo side street" (Đường phố nhỏ ở Tokyo) gắn AI với một hệ thống từ vựng thị giác cụ thể: đường phố hẹp, biển hiệu dọc dày đặc, máy bán hàng tự động. Từ "city" chung chung thiếu sự nhất quán này.
"Lone figure in a black trench coat walks away" (Hình bóng cô đơn mặc áo khoác đen đi xa) cung cấp trọng tâm câu chuyện và đường đi của máy quay cho bức ảnh.
"Wet pavement acts as a mirror" (Vỉa hè ẩm ướt đóng vai trò như một tấm gương) cho AI biết rõ ràng rằng nó phải tạo ra hiệu ứng phản chiếu nhân đôi - đây là yếu tố đơn lẻ có tác động thị giác mạnh mẽ nhất trong nhiếp ảnh ban đêm mưa.
Tham chiếu phim (Blade Runner + Lost in Translation) cung cấp cho AI một mục tiêu thẩm mỹ chính xác, hiệu quả hơn nhiều so với từ "cinematic" chung chung.

Biến thể

Biến thể A —— Phố chợ ban ngày:

Bustling narrow market street in Marrakech at midday. Colorful fabric
awnings in saffron, cobalt, and crimson create dappled shade patterns on
the ground. Merchants arrange pyramids of spices in copper bowls. Dust
motes float in shafts of sunlight. A cat sits atop a stack of woven
rugs. Steady handheld camera walking slowly through the market. Warm,
saturated color palette. Documentary-style 4K, natural lighting.

Biến thể B —— Thành phố tương lai:

A massive elevated highway cuts through a futuristic megalopolis at dusk.
Flying vehicles stream along neon-lit lanes above and below. Holographic
advertisements flicker on the sides of impossibly tall buildings.
A distant megastructure disappears into clouds. Rain falls sideways in
the wind. Low-angle wide shot from a pedestrian bridge. Teal and orange
color palette. Cyberpunk 2077 aesthetic. 4K ultra-detailed.

Prompt #5: Anime và fantasy - "The Last Stop of the Samurai"

Cài đặt cảnh

Một samurai phong cách anime đứng vững vàng trước trận chiến bất khả thi. Những cánh hoa anh đào, hiệu ứng ánh sáng năng lượng và bầu trời kịch tính tạo nên một khung cảnh trông giống như khung hình chính của một bộ phim hoạt hình có kinh phí cao. Đối với những độc giả thường xuyên xem anime trên Bilibili, loại hình ảnh này rất dễ gây ấn tượng.

V1 —— Thử nghiệm cơ bản

An anime character with a sword

Kết quả: Một nhân vật cứng nhắc, chung chung cầm một con dao. Không có tư thế động, không có môi trường, không có phong cách định nghĩa. "Anime" là một thể loại lớn bao gồm hàng chục thể loại con, AI chỉ mặc định xuất ra loại thông thường nhất.

V2 —— Chi tiết bổ sung

A female anime warrior in ornate samurai armor stands on a cliff edge
holding a glowing katana. Cherry blossoms fall around her. A dramatic
sunset sky behind her. Detailed anime art style with clean line work.

Có tiến bộ rõ rệt. Đã có chi tiết cụ thể về giáp, vũ khí (phát sáng), yếu tố môi trường (hoa anh đào, vách đá) và bầu trời. Tuy nhiên, vẫn cần đẩy mạnh hiệu ứng hình ảnh, xác định phong cách nghệ thuật chính xác và thêm chuyển động.

V3 —— Phiên bản cuối cùng

A fierce female samurai warrior stands at the edge of a shattered cliff
overlooking a burning battlefield far below. She wears battle-worn
crimson and black lacquered armor with gold filigree, one shoulder plate
cracked. Her long white hair whips violently in a supernatural wind.
She grips a katana that radiates crackling blue-white energy along its
blade. Cherry blossom petals swirl upward in a vortex around her. The
sky is a dramatic gradient from blood-red at the horizon through deep
violet to black overhead. Lightning forks across the clouds. The camera
slowly orbits around her in a dramatic reveal. High-detail cel-shaded
anime style with dynamic ink-line edges. Ufotable studio quality.
Vibrant color palette. 4K ultra-detailed.

So sánh ba giai đoạn phát triển của nhân vật hoạt hình: Từ cơ bản đến cấp độ studio — V1 đến V3: Các nhân vật hoạt hình thông thường đã được chuyển đổi thành các khung hình chính cấp studio, kết hợp hiệu ứng siêu nhiên, kể chuyện môi trường và kỹ thuật quay phim điện ảnh.

Tại sao Prompt này hiệu quả

"Chất lượng hình ảnh của Ufotable studio" (chất lượng hình ảnh của Ufotable studio) tham chiếu đến studio hoạt hình nổi tiếng với hiệu ứng hình ảnh (series "Demon Slayer" và "Fate"). Mô hình AI hiểu được phong cách thẩm mỹ đặc trưng của studio.
Chi tiết vết thương chiến đấu ("one shoulder plate cracked" - tấm giáp vai bị nứt) tăng thêm chiều sâu cho câu chuyện. Samurai này đã trải qua chiến đấu, kể một câu chuyện mà không cần đối thoại.
"Cherry blossom petals swirl upward in a vortex" (Những cánh hoa anh đào xoáy lên trên) cho thấy hướng chuyển động rõ ràng. "Cherry blossoms falling" (Hoa anh đào rơi) là một cách diễn đạt tĩnh và cũ kỹ, trong khi vòng xoáy hướng lên gợi ý một sức mạnh siêu nhiên.
"Crackling blue-white energy along the blade" (Năng lượng xanh trắng lách tách dọc theo lưỡi kiếm) tăng thêm hiệu ứng ánh sáng động — đây là yếu tố quan trọng giúp nâng tầm cảnh anime từ tranh vẽ lên thành hoạt hình.

Biến thể

Biến thể A —— Pháp sư bóng tối huyền bí:

A hooded dark elf sorcerer floats cross-legged above a stone altar in
an ancient underground temple. Runes carved into the floor pulse with
deep emerald light. Dozens of ancient tomes orbit slowly around the
sorcerer, their pages fluttering. Dark energy coils from the sorcerer's
outstretched hands like living smoke. Candlelight flickers on obsidian
walls. Slow push-in camera. Dark Souls meets Studio Ghibli aesthetic.
Painterly digital art style. 4K ultra-detailed.

Biến thể B —— Phi công máy bay chiến đấu:

Dramatic low-angle shot of a massive humanoid mech standing in a
destroyed cityscape. Rain pours down its scarred titanium armor. The
cockpit glows warm amber. One hand grips a massive energy cannon, still
smoking from a recent shot. Sparks shower from a damaged joint. The
pilot is visible as a small silhouette through the cockpit glass.
Lightning illuminates the scene. Gundam-inspired mecha design.
Cel-shaded anime with hyper-detailed mechanical rendering. 4K.

Prompt #6: Ẩm thực đặc sắc — "Món ăn hoàn hảo"

Cài đặt cảnh

Một cảnh quay cận cảnh ly cà phê được rót từ trên cao, khiến bạn có thể ngửi thấy mùi thơm ngay cả qua màn hình. Mỗi quảng cáo ẩm thực đều dựa vào loại cảnh quay này: chất lỏng chảy chậm rãi, hơi nước bốc lên lơ lửng, tông màu ấm kích thích vị giác. Trong sản xuất chuyên nghiệp, loại cảnh quay này cần giá đỡ đặc biệt và ống kính macro. Với AI, bạn chỉ cần mô tả nó. Đặc biệt phù hợp cho nội dung của các blogger ẩm thực trên Xiaohongshu và Douyin.

V1 —— Thử nghiệm cơ bản

Coffee being poured

Kết quả: Chất lỏng màu nâu được đổ vào cốc. Không có tầng lớp cảm giác, không có sự hấp dẫn, không có chi tiết cận cảnh, không có hơi nước. AI coi đó là một hành động chức năng chứ không phải là một trải nghiệm cảm giác.

V2 —— Chi tiết bổ sung

A close-up of rich dark coffee being poured from a ceramic pitcher into
a white cup. Steam rises from the cup. Warm morning light from a window
illuminates the scene. Cozy kitchen background. Slow motion pour.

Với các yếu tố như cận cảnh, vật chứa cụ thể, hơi nước, ánh sáng có hướng và chuyển động chậm, hình ảnh sẽ trở nên hấp dẫn. Tuy nhiên, để đạt được chất lượng quảng cáo ẩm thực, cần có chi tiết ở mức độ macro, cùng với sự kiểm soát chính xác về kết cấu, tương tác ánh sáng và chuyển động.

V3 —— Phiên bản cuối cùng

Extreme macro close-up of dark espresso being poured in slow motion from
a brushed copper Turkish coffee pot into a handmade ceramic cup with a
crackle-glaze finish. The liquid cascades in a thick, syrupy ribbon,
creating a swirling crema pattern as it hits the surface. Delicate
wisps of steam curl and dance upward, backlit by warm golden morning
light streaming through a frosted window to the right. Individual micro-
bubbles form and pop on the crema surface. A cinnamon stick and star
anise rest on the saucer beside the cup. Shallow depth of field with the
pour in razor-sharp focus and the background melting into warm bokeh.
The camera slowly drifts downward to follow the pour. Food commercial
cinematography. Warm amber-brown color grade. 8K ultra-realistic,
appetizing, sensory.

So sánh ba giai đoạn lặp lại của tính năng đặc biệt ẩm thực: So sánh chất lượng hình ảnh từ cơ bản đến cấp độ quảng cáo trong quá trình rót cà phê. — V1 đến V3: Ảnh chụp cà phê thông thường đã được biến thành ảnh macro chất lượng quảng cáo ẩm thực, với hiệu ứng hơi nước động, chi tiết vân dầu và ánh sáng hấp dẫn.

Tại sao Prompt này hiệu quả

"Syrupy ribbon" (dòng chất lỏng dạng ruy băng như siro) mô tả một kết cấu đặc biệt dày đặc, truyền tải cảm giác chất lượng cao. Dòng chất lỏng loãng, lỏng như nước trông rẻ tiền, trong khi dòng chất lỏng dày đặc, dễ kiểm soát trông sang trọng.
"Micro-bubbles form and pop on the crema" (Các bong bóng nhỏ hình thành và vỡ trên lớp kem) đưa AI đến mức chi tiết bề mặt chỉ có thể thấy trong ảnh chụp ẩm thực cận cảnh. Độ chi tiết này thể hiện mức độ chuyên nghiệp trong sản xuất.
Hơi nước ngược sáng là kỹ thuật thị giác "hấp dẫn" nhất trong nhiếp ảnh ẩm thực. Hơi nước chỉ có thể nhìn thấy khi ngược sáng, việc nhấn mạnh điều này đảm bảo AI đặt nguồn sáng chính xác.
Đạo cụ (quế, hoa hồi) thêm bối cảnh cảm quan, khiến người xem gần như có thể ngửi thấy mùi trong bức ảnh.

Biến thể

Biến thể A —— Thác sô cô la:

Extreme slow motion close-up of liquid dark chocolate pouring over a
stack of fresh strawberries on a marble slab. The chocolate flows in
thick rivulets over the red fruit, glistening under warm studio
spotlights. A dusting of gold leaf catches the light. Chocolate drips
from the edge of the marble in slow motion. Macro lens, razor-sharp
focus on the pour point. Dark moody background. Luxury food commercial
quality. 4K ultra-realistic.

Biến thể B —— Bia thủ công:

Close-up of an amber craft beer being poured into a tulip glass at a
45-degree angle. Golden liquid flows down the inside of the glass,
building a creamy white head of foam. Tiny bubbles stream upward through
the beer. Warm backlight makes the liquid glow like amber. Condensation
forms on the outside of the cold glass. A wooden bar surface with
scattered hops visible in soft focus. Slow motion. 4K commercial quality.

Prompt #7: Thời trang và làm đẹp - "Khoảnh khắc trên sàn diễn"

Cài đặt cảnh

Một khoảnh khắc của một bộ phim thời trang - vải bay phấp phới, ánh sáng điêu khắc, cảm giác lộng lẫy đầy kiểm soát. Đây không phải là một bức ảnh chụp ngẫu nhiên, mà là một tuyên bố về thái độ. Cho dù được sử dụng cho nội dung thời trang trên Xiaohongshu hay phim quảng cáo thương hiệu, những hình ảnh như vậy đều có thể thu hút sự chú ý ngay lập tức.

V1 —— Thử nghiệm cơ bản

A model walking

Một người đang đi bộ. Không có chi tiết trang phục, không có bối cảnh, không có ánh sáng tạo không khí, không có cảm giác phim bom tấn. AI tạo ra một người đi bộ bình thường (theo nghĩa đen), không có bất kỳ cảm giác thời trang nào.

V2 —— Chi tiết bổ sung

A tall female model walks down a minimalist white runway in a flowing
red silk gown. The dress moves dramatically with each step. Bright
fashion show lighting from above. Audience blurred in the background.
Editorial photography style.

Với trang phục, bối cảnh, chuyển động của vải và hướng ánh sáng, có thể tạo ra một khung cảnh trình diễn dễ nhận biết. Tuy nhiên, để đạt được chất lượng cao, cần có hiệu ứng vật lý của vải, kỹ thuật ánh sáng chính xác và chuyển động máy quay đạt chuẩn điện ảnh.

V3 —— Phiên bản cuối cùng

A statuesque model strides confidently down a stark white runway in a
floor-length haute couture gown of flowing crimson organza layered over
structured black satin. The sheer fabric billows dramatically behind
her like a wave, catching air with each powerful step. Her expression
is fierce and unwavering. A sharp wind machine effect lifts the fabric
into a sculptural shape to her left. Overhead fashion spotlights create
hard, defined shadows on the runway floor. Rim lighting from behind
outlines her silhouette in white. The front row audience is a blurred
mosaic of camera flashes. Low-angle tracking shot from runway level,
moving with her pace. Shallow depth of field. Vogue editorial style.
Alexander McQueen show energy. 4K cinematic, crisp detail on fabric
textures, high-fashion color grading with deep blacks and saturated
red.

So sánh ba giai đoạn phát triển của sàn diễn thời trang: Từ bước đi cơ bản đến cấp độ cao cấp — V1 đến V3: Những bước đi bình thường trở thành những khoảnh khắc thời trang cao cấp với chất liệu vải có cảm giác điêu khắc, ánh sáng rực rỡ và chất lượng sản phẩm đẳng cấp sàn diễn.

Tại sao Prompt này hiệu quả

"Crimson organza layered over structured black satin" (Lớp organza màu đỏ thẫm phủ lên lớp satin đen có cấu trúc) cung cấp cho AI hai loại vải tương phản: mỏng nhẹ, bay bổng vs cứng cáp, màu tối. Sự tương phản này tạo ra độ phức tạp về mặt thị giác.
"Wind machine effect" (hiệu ứng máy thổi gió) là thuật ngữ liên quan đến mô hình AI và sản xuất ảnh thời trang, kích hoạt hiệu ứng vải bay phấp phới đặc trưng.
"Low-angle tracking shot from runway level" (Quay theo góc thấp từ sàn catwalk) Đặt ống kính ở vị trí của nhiếp ảnh gia thời trang thực tế, góc nhìn này mang lại cảm giác mạnh mẽ và sự hiện diện cho người mẫu.
"Alexander McQueen show energy" (Năng lượng của show Alexander McQueen) tham chiếu đến thương hiệu thiết kế nổi tiếng với những show diễn kịch tính và ấn tượng, cung cấp cho AI một mục tiêu cảm xúc và thẩm mỹ.

Biến thể

Biến thể A —— Ảnh chụp đường phố:

A woman in an oversized camel cashmere coat, vintage denim, and white
sneakers walks along a cobblestone Parisian street in autumn. Fallen
leaves blow past her feet. She adjusts round sunglasses with one hand.
The camera tracks alongside her at walking speed. Soft, overcast Parisian
light. Muted earth-tone color palette. The Row meets Celine aesthetic.
Natural, effortless, editorial. 4K, film grain, shallow depth of field.

Biến thể B —— Chuyên mục làm đẹp:

Extreme close-up beauty shot of a model's face with flawless dewy skin,
bold graphic black eyeliner, and glossy burgundy lips. She slowly turns
her head from profile to three-quarter view. Light catches the highlight
on her cheekbone. Her expression shifts from serene to subtly powerful.
Ring light reflected in her eyes. Clean white background. Beauty
editorial lighting with soft key and sharp catch light. 4K ultra-sharp,
skin texture visible.

Prompt #8: Hoạt động thể thao và thể dục — "Khoảnh khắc đóng băng"

Cài đặt cảnh

Một khoảnh khắc đỉnh cao của thể thao, mang sức ảnh hưởng như một trận Super Bowl. Mồ hôi, cơ bắp căng cứng, và sức mạnh tối đa được giải phóng trong một phần nghìn giây. Nhiếp ảnh thể thao đòi hỏi sự chính xác về thời điểm, còn video thể thao giúp khoảnh khắc đó kéo dài lâu hơn.

V1 —— Thử nghiệm cơ bản

A person playing basketball

Một người đang dribble bóng. Không có động tác cụ thể, không có khoảnh khắc đỉnh cao, không có cảm giác kịch tính của thể thao. AI không biết nên thể hiện động tác ném rổ, dribble hay thắt dây giày.

V2 —— Chi tiết bổ sung

A basketball player in mid-air going for a slam dunk. Sweat flies off
his body. Arena lights are bright. Crowd in the background cheering.
Dramatic angle. Slow motion.

AI có các hành động cụ thể (ném rổ), chi tiết cơ thể (mồ hôi), bối cảnh (sân vận động) và hiệu ứng thời gian (chuyển động chậm). Có thể tạo ra những khoảnh khắc thể thao dễ nhận biết. Tuy nhiên, để đạt được chất lượng phát sóng, cần có chi tiết giải phẫu cơ thể chính xác, thiết kế ánh sáng và vật lý hạt.

V3 —— Phiên bản cuối cùng

Ultra-dramatic slow motion capture of a muscular basketball player at
the apex of a powerful one-handed slam dunk. His body is fully extended,
arm reaching above the rim, fingers gripping the ball as it meets the
net. Every muscle fiber in his forearm is visible. Individual droplets of
sweat spray off his shaved head and outstretched arm, frozen in mid-air
and catching arena light like tiny prisms. The orange ball compresses
slightly against the backboard glass. Below, defenders look up
helplessly with blurred motion. Overhead arena lights create sharp
downward shadows and brilliant rim lighting on the player's shoulders.
The crowd is a bokeh wall of color and camera flashes. Low-angle shot
from below the basket looking up. Extreme slow motion, 1000fps feel.
8K ultra-sharp, hyper-realistic detail in skin texture, fabric wrinkles,
and sweat droplets. ESPN broadcast cinematic quality.

So sánh ba giai đoạn lặp lại của động tác thể thao: Động tác ném bóng rổ từ cơ bản đến chất lượng hình ảnh phát sóng — V1 đến V3: Trận đấu bóng rổ thông thường đã trở thành những khoảnh khắc được phát sóng với hiệu ứng vật lý hạt mồ hôi, chi tiết giải phẫu cơ thể người và thiết kế ánh sáng sân vận động.

Tại sao Prompt này hiệu quả

"Đỉnh cao của một cú slam dunk một tay mạnh mẽ" chỉ ra khoảnh khắc có sức hút thị giác mạnh mẽ nhất trong động tác. Khung hình đỉnh cao luôn là khoảnh khắc ấn tượng nhất.
"Các giọt mồ hôi riêng lẻ... đóng băng giữa không trung, phản chiếu ánh sáng sân vận động như những lăng kính nhỏ" cung cấp cho AI một mục tiêu hành vi cụ thể của các hạt. Những chi tiết vi mô này làm cho hiệu ứng chuyển động chậm trở nên chân thực hơn.
"Góc quay thấp từ dưới rổ nhìn lên" là góc quay truyền hình biểu tượng của cú ném bóng rổ, tối đa hóa cảm giác về chiều cao và sức mạnh.
"1000fps feel" cho AI biết độ chậm của chuyển động chậm, nó tham chiếu các thông số của máy quay tốc độ cao thực tế, AI có thể liên kết nó với các đặc điểm hình ảnh cụ thể.

Biến thể

Biến thể A —— Khoảnh khắc sút bóng trong bóng đá:

Extreme slow motion of a soccer striker's foot connecting with the ball
in a full-power volley shot. The boot compresses the ball's surface on
impact. Grass and mud spray upward from the follow-through. The
goalkeeper dives desperately in the background, fingers outstretched.
Side-angle shot at ground level. Rain falls in frozen droplets. Stadium
floodlights create god rays through the rain. 4K ultra-realistic,
hyper-detailed.

Biến thể B —— Đòn đấm:

Ultra slow motion close-up of a boxer's right hook connecting with a
heavy bag. The leather surface of the bag deforms dramatically on impact,
creating a ripple wave across its surface. Sweat explodes outward from
the glove in a mist. The boxer's wrapped knuckles and taped wrist are
in razor-sharp focus. Gym environment with hard overhead fluorescent
lighting. Dust particles hang in the air. Low-angle. Gritty, raw
aesthetic. 4K cinematic.

Prompt #9: Tusheng Video - "Bring photos to life"

Cài đặt cảnh

Prompt này khác với tám prompt trước đó. Đây không phải là văn bản tạo video, mà là hình ảnh tạo video (Image-to-Video / I2V) — tải lên một bức ảnh hiện có, sau đó yêu cầu AI thêm chuyển động vào. Quy trình này cực kỳ hiệu quả để làm cho ảnh chân dung, ảnh sản phẩm và tác phẩm nghệ thuật "sống động" hơn. Thách thức nằm ở việc đưa ra lệnh sao cho vừa giữ được nét đặc trưng của ảnh gốc, vừa thêm chuyển động tự nhiên.

Để biết quy trình làm việc đầy đủ của Image-to-Video, vui lòng tham khảo Hướng dẫn chi tiết về Image-to-Video của chúng tôi.

V1 —— Thử nghiệm cơ bản

Make the person move

Đây là lỗi phổ biến nhất trong video sinh thành. "Move" không phải là lệnh di chuyển. AI có thể khiến nhân vật rung lắc, biến dạng khuôn mặt, vung tay ngẫu nhiên hoặc thêm các chuyển động toàn thân kỳ lạ. Lệnh I2V không rõ ràng có thể tạo ra kết quả không tự nhiên, giống như "khoảng cách đáng sợ".

V2 —— Chi tiết bổ sung

The woman slowly turns her head to the right and smiles gently. Her hair
shifts naturally with the movement. Soft breeze moves the fabric of her
dress slightly.

AI có các chuyển động cụ thể (xoay đầu), hướng (sang phải), thay đổi biểu cảm (cười) và các chuyển động phụ (tóc, vải). Kết quả sẽ tự nhiên hơn nhiều. Tuy nhiên, vẫn có thể tối ưu hóa thêm thông qua những thay đổi tinh tế về không khí, chuyển động của ống kính và tốc độ chuyển động chính xác.

V3 —— Phiên bản cuối cùng

The woman slowly turns her head from looking slightly left to gazing
directly into the camera. Her expression transitions from contemplative
to a warm, knowing smile. A gentle breeze lifts wisps of her hair across
her forehead. She subtly exhales, her shoulders relaxing slightly
downward. The fabric of her linen blouse ripples faintly at the collar.
Background leaves on a tree behind her sway gently with the breeze. Warm
afternoon light intensifies slightly as if a cloud has passed, deepening
the golden tones on her skin. Very slow, almost imperceptible dolly in.
Natural, lifelike motion -- no exaggerated movement. Maintain the
photographic quality of the original image. Smooth 24fps.

So sánh ba giai đoạn lặp lại của video Tusheng: Hiệu ứng động từ cơ bản đến tự nhiên của ảnh chân dung — V1 đến V3: "make the person move" tạo ra hiện tượng giả tạo không tự nhiên, trong khi I2V prompt được tinh chỉnh tạo ra video tự nhiên và chân thực từ ảnh tĩnh thông qua các lệnh chuyển động cụ thể và tinh tế.

Tại sao Prompt này hiệu quả

Hướng chuyển động rõ ràng ("từ nhìn hơi sang trái đến nhìn thẳng vào camera") giúp tránh chuyển động ngẫu nhiên. AI biết trạng thái bắt đầu và trạng thái kết thúc.
Chuyển động phân tầng đa quy mô: quay đầu (quy mô lớn), mỉm cười (quy mô trung bình), tóc bay (quy mô nhỏ), cổ áo sơ mi rung nhẹ (quy mô nhỏ), lá cây đung đưa trong nền (môi trường). Sự chồng chéo của nhiều mức độ chuyển động tạo ra cảm giác tự nhiên.
"As if a cloud has passed" (Như thể một đám mây lướt qua) cho phép AI điều chỉnh ánh sáng một cách tinh tế, thêm sức sống mà không thay đổi tông màu hình ảnh ban đầu.
"No exaggerated movement" (Không có chuyển động quá mức) rất quan trọng đối với I2V. Nếu không có hạn chế này, mô hình AI có xu hướng tạo ra hình ảnh động quá mức, dẫn đến hiệu ứng "thung lũng đáng sợ". Sự kiềm chế là chìa khóa cho I2V thuyết phục.

Biến thể

Biến thể A —— Chuyển ảnh phong cảnh thành video:

Clouds drift slowly from left to right across the sky. Water in the lake
ripples gently with a breeze. Grass in the foreground sways. A flock of
birds crosses the distant sky. The light subtly shifts as if time is
passing -- a slow golden hour transition. Very slow, meditative motion.
Maintain the photographic color grade and sharpness of the original.

Biến thể B —— Chuyển đổi hình ảnh sản phẩm thành video:

The watch face catches a moving light source that slowly sweeps from
left to right, creating a traveling highlight across the polished metal
bezel and glass face. The second hand ticks smoothly. Subtle reflections
shift on the brushed steel bracelet links. Background remains perfectly
still. Macro-level detail preserved. Smooth, professional product
motion.

Prompt #10: Thương hiệu và tiếp thị — "Cảnh quay cấp độ TVC"

Cài đặt cảnh

Một quảng cáo của thương hiệu xa xỉ kể một câu chuyện nhỏ trong một cảnh quay. Đây không chỉ là video sản phẩm, mà còn là một tuyên ngôn về phong cách sống. Đồng hồ, người đeo, khoảnh khắc đó, thế giới xung quanh anh ta - tất cả đều truyền tải giá trị thương hiệu. Để biết thêm hướng dẫn chi tiết về cách sử dụng video AI trong thương mại điện tử và tiếp thị sản phẩm, vui lòng tham khảo Hướng dẫn video sản phẩm thương mại điện tử của chúng tôi.

V1 —— Thử nghiệm cơ bản

A luxury watch advertisement

Kết quả: Một chiếc đồng hồ nổi trên nền trắng hoặc nằm phẳng trên mặt bàn. Không có bối cảnh, không có cảm giác mong đợi, không có câu chuyện. Đây là hình ảnh trong catalogue sản phẩm, không phải quảng cáo.

V2 —— Chi tiết bổ sung

A man wearing a luxury silver watch leans against a yacht railing at
sunset. The camera focuses on the watch on his wrist. Ocean in the
background. Warm golden light. Premium feel. Commercial style.

Với bối cảnh (du thuyền), phong cách sống (sang trọng), điểm nhấn (chiếc đồng hồ trên cổ tay) và thời gian (hoàng hôn), có thể tạo ra những hình ảnh gợi cảm hứng. Tuy nhiên, chất lượng quảng cáo đòi hỏi sự chính xác trong kể chuyện, biên đạo chuyển động và chi tiết sản xuất.

V3 —— Phiên bản cuối cùng

A distinguished man in his 40s in a perfectly tailored navy linen suit
stands at the polished teak railing of a luxury sailing yacht at golden
hour. He gazes at the horizon with quiet confidence. The camera starts
as a wide establishing shot showing the yacht slicing through
crystalline Mediterranean water, then slowly pushes in to a medium
close-up, finally settling on an extreme close-up of the brushed
titanium dive watch on his left wrist. The watch face reflects the
orange-gold sky. His fingers tap once on the railing -- the watch catches
the light. Sea spray glitters in the air behind him, backlit by the low
sun. The yacht's white sails billow softly overhead. Wind ruffles his
hair and the lapels of his jacket. Warm amber key light from the setting
sun. Cool blue fill light from the reflected ocean. Cinematic
commercial quality. Omega or Rolex brand film aesthetic. Anamorphic
lens, shallow depth of field transitioning with the push-in. 4K,
ultra-premium production value.

V1 đến V3: Quảng cáo đồng hồ xa xỉ chung chung đã được chuyển đổi thành các video quảng cáo thương hiệu với chuyển động máy quay có tính kể chuyện, bối cảnh lối sống và chất lượng sản xuất hàng đầu.

Tại sao Prompt này hiệu quả

Cách kể chuyện qua góc máy (toàn cảnh → trung cảnh → cận cảnh) tạo ra cấu trúc kể chuyện trong một cảnh quay duy nhất. Đầu tiên, thiết lập môi trường, sau đó tập trung vào nhân vật, cuối cùng là sản phẩm. Đây là cung truyện tiêu chuẩn của quảng cáo hàng xa xỉ.
"Fingers tap once on the railing" (Ngón tay gõ nhẹ một lần lên lan can) là một hành động nhỏ nhưng có chủ ý của nhân vật, tự nhiên hướng ánh nhìn vào đồng hồ, tránh sự lúng túng khi cố tình khoe cổ tay.
Hai nguồn sáng (ánh sáng chính màu hổ phách + ánh sáng bổ sung màu xanh) mô phỏng điều kiện ánh sáng thực tế trên mặt biển vào giờ vàng. Sự kết hợp này là hình ảnh biểu tượng của quảng cáo về lối sống trên du thuyền.
"Omega or Rolex brand film aesthetic" (Thẩm mỹ phim quảng cáo của thương hiệu Omega hoặc Rolex) cung cấp cho AI một tham chiếu chính xác về chất lượng sản phẩm - truyền tải mức ngân sách, hướng màu sắc và triết lý hình ảnh tổng thể.

Biến thể

Biến thể A —— Quảng cáo thương hiệu nước hoa:

A woman in a flowing white silk dress walks barefoot through a sunlit
lavender field in Provence. She trails one hand through the lavender
tops as she walks, releasing a visible shimmer of pollen. A crystal
perfume bottle sits on a weathered stone wall in the foreground, the
lavender field reflected in its surface. The camera starts on the bottle,
racks focus to the woman approaching, then returns to the bottle as she
passes. Golden afternoon light. Soft lens flare. Chanel No. 5 campaign
aesthetic. Airy, dreamlike, aspirational. 4K cinematic.

Biến thể B —— Quảng cáo thương hiệu ô tô:

A matte black luxury sedan glides silently along a winding coastal
highway carved into dramatic sea cliffs at dusk. The last light of day
reflects off the car's polished roofline. Headlights carve through
gathering twilight. The camera tracks alongside the vehicle from a low
drone angle, keeping pace. Ocean waves crash against rocks far below.
Subtle interior glow visible through tinted windows. Smooth, powerful,
inevitable. Mercedes or Audi brand film quality. 4K cinematic,
anamorphic, teal and orange color grade.

Bảng tra cứu nhanh: Tổng quan 10 câu hỏi

| # | Cảnh | Yếu tố chính của Prompt | Mô hình đề xuất | Tỷ lệ tối ưu | |---|------|---------------- -|---------|---------| | 1 | Nhân vật điện ảnh | Phụ nữ, cánh đồng lúa mì, giờ vàng, 85mm, cận cảnh | Seedance 2.0 | 16:9 | | 2 | Trưng bày sản phẩm | Chai nước hoa pha lê, đèn đôi, ống kính bao quanh | Seedance 2.0 / 1.0 Pro | 16:9 hoặc 1:1 | | 3 | Sử thi thiên nhiên | Bình minh ở Dolomites, biển mây, đại bàng, ánh sáng Tyndall, IMAX | Seedance 2.0 | 21:9 | | 4 | Cảnh đường phố đô thị | Đêm mưa Tokyo, phản chiếu đèn neon, bóng cô đơn, quay theo | Seedance 2.0 | 16:9 hoặc 9:16 | | 5 | Hoạt hình kỳ ảo | Nữ chiến binh, kiếm năng lượng, hoa anh đào, tiết lộ bao quanh | Seedance 2.0 | 16:9 | | 6 | Ẩm thực cận cảnh | Cà phê espresso cận cảnh, hơi nước, chi tiết dầu mỡ, chuyển động chậm | Seedance 1.0 Pro | 16:9 hoặc 1:1 | | 7 | Thời trang và làm đẹp | Sàn diễn thời trang cao cấp, vải organza bay phấp phới, quay từ góc thấp | Seedance 2.0 | 9:16 hoặc 16:9 | | 8 | Thể thao hành động | Đập bóng, hạt mồ hôi, nhìn lên từ dưới rổ, 1000fps | Seedance 2.0 | 16:9 | | 9 | Video sinh động | Hoạt hình chân dung, chuyển động nhiều lớp, thay đổi ánh sáng tinh tế | Seedance 2.0 (I2V) | Phù hợp với hình ảnh nguồn | | 10 | Tiếp thị thương hiệu | Cuộc sống trên du thuyền, kể chuyện từ toàn cảnh đến cận cảnh, nguồn sáng hai màu | Seedance 2.0 | 16:9 hoặc 21:9 |

Đề nghị lưu lại bảng này để tham khảo bất cứ lúc nào. Mỗi prompt trong bài viết này đều có thể sao chép và dán trực tiếp để sử dụng — chỉ cần điều chỉnh chi tiết theo dự án cụ thể của bạn. Những prompt này cũng có hiệu quả trên các công cụ trong nước (như Kling, Jiemeng), chỉ cần dán trực tiếp prompt tiếng Anh là được.

Năm kỹ thuật cốt lõi để tối ưu hóa Prompt

Năm nguyên tắc này áp dụng cho bất kỳ trình tạo video AI nào, việc nắm vững chúng sẽ giúp bạn nâng cao khả năng viết prompt của mình.

1. Bắt đầu từ những điều ngắn gọn, dần dần thêm chi tiết

Đừng cố gắng viết ra một prompt hoàn hảo với 100 từ ngay từ đầu. Hãy bắt đầu với 15-20 từ, sau đó tạo ra, đánh giá và thêm từng lớp chi tiết một. Cách tiếp cận lặp lại này giúp bạn hiểu những bổ sung nào có tác động lớn nhất. Một số chi tiết có thể cải thiện đáng kể kết quả đầu ra, trong khi một số khác hầu như không thay đổi. Nếu không thử nghiệm, bạn sẽ không bao giờ biết được.

2. Chỉ thay đổi một biến mỗi lần

Khi chuyển từ V1 sang V2, hãy kiềm chế sự cám dỗ muốn thay đổi mọi thứ cùng một lúc. Nếu bạn thay đổi ánh sáng, góc máy, chủ thể và bối cảnh cùng lúc, bạn sẽ không thể biết được thay đổi nào đã cải thiện (hoặc làm hỏng) kết quả. Hãy chỉ thay đổi một yếu tố trong mỗi lần lặp. Điều này đòi hỏi sự kiên nhẫn, nhưng sẽ giúp bạn hiểu rõ hơn về cách trình tạo hiểu ngôn ngữ.

3. Lưu giữ "Prompt vàng" của bạn

Khi một prompt mang lại kết quả xuất sắc, hãy lưu lại ngay lập tức. Tạo thư viện prompt cá nhân theo từng danh mục: chân dung, sản phẩm, phong cảnh, trừu tượng, v.v. Theo thời gian, thư viện tài nguyên này sẽ trở thành tài sản sáng tạo quý giá nhất của bạn. Bạn có thể tái sử dụng cấu trúc, thay thế chủ thể và kết hợp lại các yếu tố đã được kiểm chứng. Nên sử dụng công cụ ghi chú (như Notion hoặc Memo) để phân loại và quản lý thư viện prompt của bạn.

4. Ảnh quan trọng hơn mô tả chủ đề

Đây là một chân lý trái ngược với直觉: Các chỉ dẫn về góc máy và ánh sáng thường quan trọng hơn mô tả chủ thể. Mô tả chi tiết chủ thể nhưng sử dụng góc máy mặc định sẽ cho kết quả bình thường. Chủ thể đơn giản kết hợp với góc máy chính xác, lựa chọn góc máy và thiết kế ánh sáng sẽ mang lại hiệu quả vượt xa mong đợi. Khi độ dài của prompt có hạn, hãy đầu tư số từ vào "cách quay" thay vì "quay gì".

5. Sử dụng câu phủ định để loại trừ các yếu tố không mong muốn

Nhiều trình tạo video AI phản ứng tốt với ngôn ngữ loại trừ. Thêm các cụm từ như "không có lớp phủ văn bản", "không có dấu nước", "tránh ánh sáng phẳng", "không có máy ảnh tĩnh" có thể giúp mô hình tránh các vấn đề phổ biến. Điều này đặc biệt hữu ích khi bạn phát hiện ra một vấn đề lặp lại trong nhiều lần tạo. Đừng chỉ mô tả những gì bạn muốn, mà hãy mô tả cả những gì bạn không muốn.

Câu hỏi thường gặp

Loại video AI prompt nào được coi là tốt?

Một prompt video AI tốt có ba đặc điểm cốt lõi: cụ thể, có cấu trúc và bao gồm mô tả chuyển động. Nó nên bao gồm mô tả chủ thể rõ ràng, hành động hoặc chuyển động cụ thể, bối cảnh không gian, chỉ dẫn góc quay (góc máy và cách di chuyển), hướng ánh sáng và các từ mô tả chất lượng hình ảnh. Nguyên tắc quan trọng nhất là tính cụ thể - "một phụ nữ có mái tóc đen điểm bạc, mặc áo khoác màu than, đi bộ trong tuyết rơi" luôn tốt hơn "một phụ nữ ở ngoài trời". Điều quan trọng không kém là phải bao gồm mô tả chuyển động. Video prompt phải cho AI biết cái gì đang chuyển động và chuyển động như thế nào, nếu không, kết quả sẽ gần giống như hình ảnh tĩnh.

Độ dài của lời nhắc video AI nên là bao nhiêu?

Khoảng lý tưởng là 40 đến 80 từ tiếng Anh. Ít hơn 20 từ sẽ cho AI quá nhiều tự do, dẫn đến kết quả chung chung và khó dự đoán. Hơn 150 từ có thể gây mâu thuẫn hoặc làm rối mô hình. Đối với hầu hết các trình tạo, một đoạn văn bản tập trung vào chủ đề, chuyển động, góc quay, ánh sáng và chất lượng hình ảnh với 50-70 từ sẽ cho kết quả tốt nhất. Chất lượng chi tiết quan trọng hơn số lượng từ.

Những prompt này có thể sử dụng trên các công cụ video AI khác không?

Được. Mỗi prompt trong bài viết này đều có thể sử dụng trên các công cụ tạo video bằng văn bản phổ biến như Seedance, Sora, Kling, Runway, Pika, HaiLuo (Hải Lô). Các nguyên tắc cốt lõi — chủ thể cụ thể, chuyển động rõ ràng, chỉ dẫn về góc quay và mô tả ánh sáng — là chung cho tất cả các công cụ. Tuy nhiên, các mô hình khác nhau có cách hiểu ngôn ngữ hơi khác nhau, nên các prompt có hiệu quả tuyệt vời trên Seedance có thể cần điều chỉnh một chút trên các công cụ khác. Hãy coi các prompt này là điểm khởi đầu mạnh mẽ và lặp lại theo công cụ cụ thể mà bạn sử dụng. Đáng chú ý là ngay cả các công cụ trong nước như Ke Ling, Ji Meng, v.v., việc sử dụng prompt tiếng Anh thường mang lại hiệu quả tốt hơn.

Tại sao kết quả tạo ra của tôi khác với ví dụ?

Tạo video bằng AI có tính ngẫu nhiên. Cùng một lệnh nhắc (prompt) có thể tạo ra kết quả khác nhau mỗi lần, ngay cả khi sử dụng cùng một mô hình và cùng một cài đặt. Điều này được thiết kế như vậy - nó cho phép khám phá sáng tạo. Nếu kết quả không như mong đợi, hãy tạo 3-5 biến thể từ cùng một lệnh nhắc, sau đó quyết định xem có cần điều chỉnh lệnh nhắc hay không. Thông thường, mô hình sẽ tạo ra một phiên bản xuất sắc sau vài lần thử. Đồng thời, hãy kiểm tra tỷ lệ khung hình và cài đặt phiên bản mô hình của bạn, vì những yếu tố này sẽ ảnh hưởng đáng kể đến kết quả đầu ra.

Làm thế nào để mô tả chuyển động của ống kính trong prompt?

Sử dụng thuật ngữ quay phim thực tế. Dữ liệu đào tạo của mô hình AI bao gồm một lượng lớn văn bản về điện ảnh và nhiếp ảnh thực tế, do đó chúng hiểu các thuật ngữ chuyên ngành. Các chuyển động máy quay phổ biến: slow dolly in (chuyển động máy quay chậm), tracking shot (chuyển động máy quay theo dõi), orbiting (chuyển động quay tròn), crane shot (chuyển động máy quay nâng hạ), pan (chuyển động máy quay ngang), tilt (chuyển động máy quay dọc), whip pan (chuyển động máy quay xoay nhanh). Hãy chỉ định tốc độ: slow dolly, gentle orbit, rapid whip pan. Nếu muốn kiểm soát góc quay chính xác nhất, bạn có thể sử dụng tính năng video tham chiếu của Seedance 2.0, tải lên một đoạn video có góc quay bạn muốn làm tham chiếu.

Có cần sử dụng prompt ngược không?

Tùy thuộc vào trình tạo. Một số công cụ video AI có hộp nhập lệnh ngược chuyên dụng. Nếu công cụ không có tính năng này cũng không sao. Khi có tính năng lệnh ngược, nó rất hiệu quả trong việc loại trừ các vấn đề cụ thể: "không có văn bản", "không có dấu watermark", "không có khuôn mặt mờ", "không có camera tĩnh". Nếu không có hộp nhập lệnh chuyên dụng, bạn có thể thêm mô tả phủ định vào lệnh chính: "tránh ánh sáng phẳng" hoặc "không có hiện tượng nhiễu hình". Đừng viết hàng chục mục loại trừ trong prompt ngược - hãy tập trung vào 2-3 vấn đề cụ thể mà bạn gặp phải trong quá trình tạo trước đó.

Một prompt nên được lặp lại bao nhiêu lần?

Từ ba đến năm lần là khoảng thời gian tối ưu trong các dự án thực tế. Khung V1 đến V3 trong bài viết này không được thiết lập ngẫu nhiên — nó tương ứng với một quy trình làm việc thực tế. V1 thiết lập khái niệm, V2 tinh chỉnh chi tiết, V3 hoàn thiện chất lượng sản phẩm. Sau V3, thường chỉ điều chỉnh các yếu tố nhỏ. Nếu sau năm lần lặp lại vẫn không đạt được kết quả mong muốn, vấn đề có thể không nằm ở prompt — mà có thể là do giới hạn khả năng của mô hình đối với loại nội dung cụ thể này. Hãy thử một phương pháp khác để trình bày cảnh này, thay vì thêm nhiều từ vào cùng một prompt.

AI video generator nào có khả năng kiểm soát prompt tốt nhất?

Seedance 2.0 hiện cung cấp khả năng kiểm soát prompt toàn diện nhất, với các lý do sau: Hỗ trợ tạo video từ văn bản và hình ảnh, với kết quả nhất quán cao. Các từ khóa chuyển động camera được thực thi đáng tin cậy. Các lệnh ánh sáng được chuyển đổi chính xác thành hiệu ứng đầu ra. Hỗ trợ nhiều tỷ lệ khung hình (16:9, 9:16, 1:1, 3:4, 4:3, 21:9), với độ phân giải lên đến 2K. Chức năng nhất quán nhân vật có nghĩa là việc tạo ra nhiều lần cùng một nhân vật có thể duy trì tính nhất quán về mặt thị giác. Để so sánh đầy đủ các trình tạo, vui lòng tham khảo So sánh các trình tạo video AI tốt nhất năm 2026 của chúng tôi.

Kết luận

Viết prompt cho video AI là một kỹ năng có thể học được, không phải là tài năng bẩm sinh. 10 prompt trong bài viết này chứng minh một quy luật: bắt đầu từ những điều đơn giản, dần dần thêm chi tiết, và luôn đặt góc quay, ánh sáng và chuyển động lên hàng đầu.

Mỗi prompt có thể được sao chép và sử dụng trực tiếp. Hãy sao chép bất kỳ prompt V3 nào vào trình tạo của bạn và sử dụng nó làm điểm khởi đầu. Sau đó, lặp lại quá trình này bằng cách thay đổi chủ thể, ánh sáng và góc máy. Mỗi lần tạo ra sẽ giúp mô hình hiểu ngôn ngữ tốt hơn. Các prompt này hoạt động tốt nhất trên Seedance, đồng thời cũng có thể sử dụng trực tiếp prompt tiếng Anh trên các công cụ nội địa như Keeling và Jimeng.

Cách nhanh nhất để cải thiện là tạo ra nhiều nội dung và theo dõi những gì hiệu quả. Lưu lại những prompt tốt nhất của bạn và xây dựng một thư viện tài liệu. Sau một thời gian, bạn sẽ phát triển直觉 để biết ngôn ngữ nào sẽ tạo ra kết quả nào. Hãy chia sẻ quá trình lặp lại prompt của bạn trên Xiaohongshu hoặc Bilibili — cộng đồng sáng tạo video AI đang phát triển nhanh chóng, và kinh nghiệm thực tế của bạn cũng rất có giá trị đối với người khác.

Mở Seedance và bắt đầu thử các prompt này → —— Đăng ký để nhận tín dụng miễn phí, không cần thẻ tín dụng.

Muốn tìm hiểu sâu hơn? Hướng dẫn đầy đủ về Seedance Prompt của chúng tôi bao gồm hơn 50 prompt bổ sung, bao quát tất cả các loại kịch bản.

Đề xuất thêm nội dung: Đọc Hướng dẫn đầy đủ về Seedance Prompt (50+ ví dụ) của chúng tôi. Bạn mới sử dụng Seedance? Hãy bắt đầu với Hướng dẫn đầy đủ về cách sử dụng Seedance. Muốn chuyển ảnh hiện có thành video? Xem hướng dẫn AI chuyển ảnh thành video của chúng tôi. Sử dụng video AI cho thương mại điện tử? Đọc hướng dẫn sản xuất video sản phẩm. Lập kế hoạch cho chiến dịch tiếp thị? Xem hướng dẫn tiếp thị video AI.

10 AI video Prompt thực sự hiệu quả: Kèm theo quá trình lặp lại và so sánh hiệu quả (2026)

Mục lục