Przewodnik po pisaniu podpowiedzi wideo AI: od początkującego do jakości kinowej

TL;DR

Doskonałe filmy AI powstają dzięki doskonałym podpowiedziom. Ten przewodnik przedstawia uniwersalną formułę podpowiedzi wideo — siedmioczęściową strukturę, którą można zastosować we wszystkich popularnych platformach wideo AI:

[Temat] + [Akcja] + [Ustawienie] + [Ruch kamery] + [Oświetlenie] + [Styl] + [Dźwięk]

Dowiesz się: Główne przyczyny występowania błędów podpowiedzi (i sposoby ich natychmiastowego usuwania), kompleksowy słownik terminów związanych z kamerą, obejmujący ponad 15 technik filmowania, bibliotekę słów kluczowych dotyczących atmosfery, uporządkowaną według czterech wymiarów: oświetlenie/korekcja kolorów/tekstura/nastrój, pięć przykładów podpowiedzi o rosnącym stopniu zaawansowania, od podstawowych do kinowych, sposoby włączania projektowania dźwięku do podpowiedzi oraz techniki optymalizacji dla poszczególnych platform: Seedance, Sora, Kling, Runway i Veo 3.

To nie jest poradnik dotyczący narzędzi — to metodologia. Umiejętności pisania podpowiedzi wideo można wykorzystać na różnych platformach; wystarczy nauczyć się ich raz, aby móc stosować je wszędzie.

Automatycznie generowane podpowiedzi →

Kontrastująca demonstracja: Niejasne polecenia wideo AI dają nijakie, ogólnikowe wyniki, podczas gdy uporządkowane polecenia na poziomie kinowym dają profesjonalną jakość wideo. — Ta sama koncepcja, ale zupełnie inne wyniki. Podpowiedź po lewej stronie brzmi: „Kobieta idąca w deszczu”. Podpowiedź po prawej stronie określa ruch kamery, kierunek oświetlenia, atmosferę i dźwięk — na co model AI odpowiada jakością kinową.

Dlaczego większość podpowiedzi wideo AI zawodzi (i jak to naprawić)

Niezależnie od tego, jakiego generatora wideo AI używasz — Seedance, Sora, Keeling, Runway, Veo 3 — podstawowa zasada pozostaje ta sama: im bardziej precyzyjny i kompletny strukturalnie jest wprowadzony tekst, tym bardziej kontrolowany i kinowy staje się wynik. Większość ludzi pisze podpowiedzi tak, jakby opisywali zdjęcie znajomemu, ale wideo nie jest zdjęciem. Wideo obejmuje ruch, czas, zachowanie kamery, ewolucję atmosfery i dźwięk.

Poniżej przedstawiono pięć najczęstszych przyczyn awarii dysku, wraz z natychmiastowymi sposobami ich usunięcia.

Zbyt niejasne — problem „pięknego zachodu słońca”

Najczęstsza awaria podpowiedzi. Wpisujesz „piękny zachód słońca nad morzem” i otrzymujesz technicznie poprawny, ale pozbawiony emocji fragment, który przypomina standardowe wygaszacze ekranu.

Problem nie polega na tym, że sztuczna inteligencja nie potrafi odwzorować zachodu słońca, ale na tym, że „piękno” i „zachód słońca” to jedyne informacje, które jej przekazaliśmy. Po zapoznaniu się z milionami zachodów słońca w danych szkoleniowych sztuczna inteligencja wybiera średnią statystyczną, a średnia z natury rzeczy oznacza przeciętność.

Przed modyfikacją	Po modyfikacji
Piękny zachód słońca nad oceanem	Złota godzina rozlewa się na spokojnym wybrzeżu Pacyfiku, fale obmywają skały wulkaniczne, słońce znajduje się dwa palce nad horyzontem, gradient nieba zmienia się od głębokiego bursztynu na horyzoncie przez łososiowy róż do bladego lawendy w zenicie, długie cienie rozciągają się w kierunku aparatu Słońce zawieszone dwa palce nad horyzontem, gradient nieba zmieniający się od głębokiego bursztynu na horyzoncie przez łososiowy róż do bladego lawendowego w zenicie, długie cienie rozciągające się w kierunku aparatu)

Przed modyfikacją

Po modyfikacji

Piękny zachód słońca nad oceanem

Złota godzina rozlewa się na spokojnym wybrzeżu Pacyfiku, fale obmywają skały wulkaniczne, słońce znajduje się dwa palce nad horyzontem, gradient nieba zmienia się od głębokiego bursztynu na horyzoncie przez łososiowy róż do bladego lawendy w zenicie, długie cienie rozciągają się w kierunku aparatu Słońce zawieszone dwa palce nad horyzontem, gradient nieba zmieniający się od głębokiego bursztynu na horyzoncie przez łososiowy róż do bladego lawendowego w zenicie, długie cienie rozciągające się w kierunku aparatu)

Sposób poprawy: Zastąp przymiotniki („piękny”, „zdumiewający”, „oszałamiający”) konkretnymi, możliwymi do zaobserwowania szczegółami – kolorem, położeniem, fakturą, relacjami przestrzennymi.

Brak instrukcji dotyczących ruchu — problemy ze statycznymi obrazami

Napisałeś bardzo szczegółowy opis sceny, ale sztuczna inteligencja wygenerowała obraz, który wygląda jak fotografia z lekkim efektem push-pull — ponieważ opisałeś chwilę, a nie ruch.

Wideo jest zależne od czasu. Bez wyraźnych instrukcji dotyczących ruchu sztuczna inteligencja domyślnie wybiera najbardziej konserwatywną interpretację: powolny postęp lub niewielką paralaksę. Technicznie rzecz biorąc, jest to rzeczywiście „wideo”, ale nie jest to to, czego oczekujesz.

| Przed modyfikacją | Po modyfikacji | |--------|------- -| | Zabytkowy czerwony samochód sportowy zaparkowany na górskiej drodze, mglisty poranek, filmowy klimat (一辆复古红色跑车停在山路上，薄雾清晨，电影感) | Zabytkowe czerwone Porsche 911 pędzi po krętej górskiej drodze, opony przylegają do mokrego asfaltu, mgła rozstępuje się wokół karoserii, kamera śledzi samochód z wysokości zderzaka, drzewa rozmywają się w tle |

Metoda naprawy: Każdy komunikat wideo wymaga co najmniej jednego czasownika opisującego ruch fizyczny podmiotu i jednego wyrażenia opisującego ruch kamery. Podmiot się porusza, kamera się porusza — razem tworzą wizualną energię.

3. Sprzeczna dyrektywa — paradoks „zbliżenia + długiego ujęcia”

Sytuacja ta jest bardziej powszechna, niż mogłoby się wydawać, zwłaszcza gdy ludzie łączą ze sobą terminy filmowe, które słyszeli, ale nie do końca rozumieją. „Ekstremalne zbliżenie kobiety przemierzającej rozległą pustynię, pełny kadr, epicki klimat” zawiera dwie sprzeczne wskazówki kompozycyjne. Sztuczna inteligencja spróbuje znaleźć kompromis, tworząc obraz, który nie jest ani zbliżeniem, ani oddaleniem, ale po prostu chaotyczny.

Przed poprawką	Po poprawce
Zbliżenie kobiety przemierzającej rozległą pustynię, szerokie ujęcie, epicka skala	Bardzo zbliżenie oczu kobiety odbijających światło pustyni, cząsteczki piasku odbijające złote promienie słońca na jej rzęsach, płytka głębia ostrości z rozległym polem wydm zamazanym w bursztynowym gradiencie za nią płytka głębia ostrości sprawia, że rozległe wydmy za nią zamieniają się w bursztynowy gradient)

Metoda naprawy: Wybierz jedną pozycję kamery dla każdego ujęcia. Jeśli potrzebujesz zbliżeń i długich ujęć, napisz dwa oddzielne ujęcia i połącz je przejściem. W przypadku sekwencji wielokrotnych ujęć platformy takie jak Seedance obsługują format osi czasu scenariusza, umożliwiając niezależne określenie każdego ujęcia.

Brak atmosfery — próżnia światła, cienia i emocji

Twoje polecenie opisuje obiekt wykonujący czynność w określonym miejscu. Obejmuje to trzy z siedmiu wymiarów. Bez wskazówek dotyczących oświetlenia, palety kolorów, efektów atmosferycznych lub kierunku stylistycznego, sztuczna inteligencja wypełni luki neutralnymi ustawieniami domyślnymi: płaskim, jednolitym oświetleniem, stonowanymi kolorami i brakiem konkretnego nastroju. Wynik przypomina materiał filmowy z kamery CCTV o wysokiej rozdzielczości.

| Przed poprawką | Po poprawce | |--------|------- -| | Mężczyzna siedzący samotnie w kawiarni | Czterdziestolatek siedzi samotnie w słabo oświetlonym kącie lokalu, a ciepłe bursztynowe światło pojedynczej lampy wiszącej oświetla parę unoszącą się z jego filiżanki kawy. Deszcz spływający po oknie za nim rzuca faliste cienie na jego twarz. Stonowana paleta kolorów turkusowo-miedzianych tworzy melancholijną atmosferę. |

Metoda naprawy: Uwzględnij kierunek światła, temperaturę barwową, efekty atmosferyczne (mgła, deszcz, kurz, para) oraz słowa oddające nastrój. Te cztery dodatki przekształcają „scenę” w „nastrój”.

Brak dźwięku — problem filmów niemych

Do 2026 r. większość platform wideo opartych na sztucznej inteligencji będzie obsługiwać generowanie dźwięku – muzykę w tle, efekty dźwiękowe otoczenia, a nawet dialogi z synchronizacją ruchu warg. Jednak większość użytkowników tworzy całkowicie ciche podpowiedzi, ponieważ postrzegają podpowiedzi wideo wyłącznie jako instrukcje wizualne.

Dźwięk stanowi połowę wrażeń. Scena w lesie bez śpiewu ptaków i szelestu liści wydaje się sztuczna. Sekwencje akcji pozbawione efektów dźwiękowych sprawiają wrażenie nieistotnych. Prezentacje produktów bez muzyki przypominają prezentacje PowerPoint.

| Przed modyfikacją | Po modyfikacji | |------- -|--------| | Kot skaczący z regału i lądujący na sofie | Rudy kot z gracją skacze z wysokiego dębowego regału, wyciągając się w powietrzu i miękko lądując na aksamitnej poduszce sofy, która ugina się pod jego ciężarem. Dźwięk: delikatne uderzenie łap o materiał, pojedyncza książka przesuwająca się po półce, ciche odgłosy otoczenia z odległym deszczem uderzającym o okna Dźwięk: delikatne uderzenie łapki o materiał, pojedyncza książka przesuwająca się po półce, cicha atmosfera pomieszczenia z odległym deszczem uderzającym o okna) |

Rozwiązanie: Dodaj na końcu komunikatu linię instrukcji audio, określającą styl muzyki w tle, efekty dźwiękowe otoczenia oraz wszelkie dialogi lub narrację. Szczegółowe wskazówki znajdziesz w sekcji [Projektowanie dźwięku](#Włączanie projektowania dźwięku do komunikatów) poniżej.

Uniwersalna formuła podpowiedzi wideo

Niezależnie od platformy, z której korzystasz, każda skuteczna podpowiedź wideo zawiera te same siedem elementów. Niektóre z nich są niezbędne (wymagane w każdej podpowiedzi), podczas gdy inne są opcjonalne (zwiększają skuteczność, ale nie są obowiązkowe). Formuła:

[Temat] + [Akcja] + [Otoczenie] + [Kamera] + [Oświetlenie] + [Styl] + [Dźwięk]

Wizualny schemat siedmiu elementów uniwersalnej formuły podpowiedzi wideo, ilustrujący temat, akcję, scenerię, ruch kamery, oświetlenie, styl i elementy dźwiękowe wraz z przykładowymi słowami kluczowymi. — Siedem podstawowych elementów uniwersalnej formuły podpowiedzi wideo. Każdy element dodaje dodatkowy wymiar kontroli do końcowego wyniku.

Poniżej znajduje się szczegółowy opis każdego elementu wraz z biblioteką słów kluczowych i przykładowymi zwrotami.

Element pierwszy: Temat (wymagane)

Obiektem spojrzeń publiczności jest podmiot. Powinna to być najbardziej konkretna część polecenia – nie „kobieta”, ale „kobieta po sześćdziesiątce, z luźno upiętymi srebrnymi włosami, głębokimi zmarszczkami śmiechu w kącikach oczu, ubrana w wyblakły denimowy fartuch”.

Biblioteka słów kluczowych:

| Kategoria | Przykład (angielski komunikat) | |------|------------------ -| | Postacie | młody mężczyzna w wieku około dwudziestu lat, starsza kobieta, dziecko w wieku około pięciu lat, tancerz, kucharz, żołnierz | | Zwierzęta | golden retriever, lampart śnieżny, koliber, karp koi, motyl monarcha | | Przedmioty | stara maszyna do pisania, kryształowy flakon perfum, oprawiony w skórę dziennik, ceramiczny wazon | | Pojazdy | matowo-czarny motocykl, drewniana łódź żaglowa, zniszczona furgonetka, pociąg szybkobieżny | | Abstrakcyjne | cząsteczki światła, krople atramentu w wodzie, geometryczne kształty, płynny metal |

Przykładowe zwroty:

„Baristka w wieku około 30 lat z tatuażami na rękach i pokrytym mąką czarnym fartuchem”
Zniszczony, brązowy kompas leżący otwarty na mapie morskiej - Tysiące papierowych lampionów, z których każdy świeci ciepłym bursztynowym światłem pochodzącym z umieszczonej w środku świecy

Element drugi: Działanie (wymagane)

Akcja to to, co się dzieje – co robi bohater i jak scena rozwija się w czasie. To właśnie odróżnia podpowiedzi wideo od podpowiedzi obrazkowych. Bez akcji pozostaje tylko ruchoma fotografia.

Biblioteka słów kluczowych:

| Rodzaj ruchu | Przykład (angielski komunikat) | |--------- -|-------------------| | Ruch człowieka | chodzenie, bieganie, powolne obracanie się, wyciąganie ręki, pochylanie się do przodu, wydychanie powietrza, mruganie | | Ruch względem kamery | zbliżanie się do kamery, oddalanie się od kamery, przechodzenie przez kadr od lewej do prawej | | Ruch obiektów | obracanie się, spadanie, unoszenie się, rozpadanie się, składanie się, rozkładanie się, topnienie | | Ruch otoczenia | wiatr poruszający trawą, przemieszczające się chmury, padający deszcz, unoszące się liście, przypływ | | Procesy przejściowe | zmiana dnia w noc, kwitnienie kwiatów, tworzenie się lodu, rozprzestrzenianie się farby, zmiana oświetlenia |

Przykładowe zwroty:

„Powoli schyla się i podnosi opadły jesienny liść, obracając go w palcach”.
„Igła kompasu drży, a następnie zdecydowanie wskazuje północ”.
„Latarnie unoszą się jedna po drugiej z ziemi, wznosząc się w ciemne niebo z różną prędkością”.

Element trzeci: Środowisko (niezbędny)

Miejsce akcji to lokalizacja, w której rozgrywa się scena. Opisz zarówno bezpośrednie otoczenie (pierwszy plan), jak i szersze tło. Uwzględnij pogodę, porę dnia i porę roku, jeśli ma to znaczenie.

Biblioteka słów kluczowych:

| Typ sceny | Przykład (angielski komunikat) | |----------|------------------ -| | Przyroda | gęsty las, pustynne wydmy, klif nad oceanem, alpejska łąka, plaża wulkaniczna, bambusowy gaj | | Miejsce miejskie | wąska uliczka w Tokio, brutalistyczny betonowy plac, ogród na dachu, peron metra, aleja oświetlona neonami | | Wnętrza | biblioteka oświetlona świecami, loft industrialny, oranżeria, stara ciemnia, marmurowe atrium | | Fantasy | pływające wyspy, kryształowa jaskinia, bioluminescencyjna rafa, zrujnowana świątynia, miasto w chmurach | | Czas/Pogoda | zmierzch przed świtem, pochmurne południe, burza, pierwszy śnieg, wilgotny letni wieczór |

Przykładowe zwroty:

„W wąskiej bocznej uliczce Kioto, po obu stronach której stoją kamienne latarnie, płatki kwiatów wiśni unoszą się nad mokrym brukiem”.
„Wewnątrz opuszczonej katedry promienie zakurzonego światła przebijają się przez potłuczone witraże”.
„Na skraju wulkanicznego klifu o niebieskiej porze, siarkowa para unosi się z pęknięć w czarnej skale”.

Element czwarty: ruch kamery (ważne)

Instrukcje dotyczące ustawienia kamery wskazują sztucznej inteligencji, jak postrzegać scenę, obejmując kompozycję (jak blisko), kąt (skąd) i ruch (jak zmienia się punkt widzenia w czasie). Język kamery stanowi najważniejszy czynnik wpływający na poprawę jakości podpowiedzi — omówimy to szczegółowo w dedykowanej sekcji poniżej.

Szybka biblioteka słów kluczowych:

| Aspekt | Terminologia angielska i chiński odpowiednik | |------|------------------ -| | Kadrowanie | ekstremalne zbliżenie, zbliżenie, średni plan, plan pełny, plan szeroki, ekstremalny plan szeroki (ekstremalnie daleki plan) | | Kąt | poziom oczu, niski kąt, wysoki kąt, ptasia perspektywa, perspektywa robaka, kąt holenderski | | Ruch | jazdka w przód/w tył, panoramowanie w lewo/w prawo, pochylenie w górę/w dół, ujęcie z jazdy, orbita, dźwig (wysokość) | | Obiektyw | szeroki kąt 24 mm, standardowy 50 mm, portretowy 85 mm, teleobiektyw 200 mm, obiektyw makro, anamorficzny |

Element piąty: Oświetlenie (ważne)

Światło i cień określają nastrój każdej klatki. Profesjonalni fotografowie spędzają godziny na aranżowaniu oświetlenia. W szybkim pisaniu kilka precyzyjnie dobranych słów może zapewnić taki sam poziom kontroli.

Biblioteka słów kluczowych:

| Rodzaj oświetlenia (angielski/chiński) | Efekty wizualne | |--------------------- -|----------| | Złota godzina | Ciepłe odcienie, długie cienie, pomarańczowo-bursztynowe barwy, korzystne dla portretów | | Niebieska godzina | Chłodne odcienie, melancholijna atmosfera, głęboko błękitne niebo z utrzymującym się ciepłem na horyzoncie | | Oświetlenie tylne | Oświetlenie krawędzi, efekt sylwetki, wyraźne oddzielenie od tła | | Światło boczne | Twarz na wpół oświetlona, na wpół zacieniona; wysoki kontrast, dramatyczny efekt | | Oświetlenie Rembrandta | Trójkątne rozjaśnienie pod zacienionym okiem; klasyczny efekt portretowy | | Oświetlenie wolumetryczne | Widoczne promienie przenikające pył, mgłę lub dym | | Efekt Tyndalla | Rozproszenie światła w cząsteczkach, tworzące wyraźne promienie w mgle lub pyle | | Neon | Kolorowe sztuczne źródła światła, odbicia od mokrych powierzchni, estetyka cyberpunkowa |

Element szósty: Styl (zalecany)

Styl dyktuje język wizualny stosowany przez sztuczną inteligencję – czy to taśma filmowa, realizm dokumentalny, animacja, malarstwo olejne czy inne. Bez deklaracji stylu sztuczna inteligencja domyślnie stosuje ogólny styl fotorealistyczny.

Biblioteka słów kluczowych:

| Styl (angielski/chiński) | Cechy wizualne | |----------------- -|----------| | Kinowy | Mała głębia ostrości, gradacja kolorów na poziomie filmowym, proporcje ekranu 2,39:1 | | Dokumentalny | Efekt kamery ręcznej, naturalne oświetlenie, kadrowanie obserwacyjne | | Reklamowy | Czysty, jasny, skupiony na produkcie, precyzyjne oświetlenie, płynny ruch | | Anime | Styl cel-shading, żywe kolory, przesadzone ruchy, dynamiczne linie | | Film noir | Monochromatyczny, wysoki kontrast, cienie rolet weneckich, stonowane oświetlenie | | Tuszowa akwarela | Czarny tusz na białym tle, płynne przejścia tonalne, minimalizm, estetyka wschodnia | | Film vintage | Ziarno filmowe, lekko zdesaturowane, ciepłe odcienie, miękkie krawędzie | | Cyberpunk | Neonowe światło, wysoki kontrast, elementy holograficzne, apokaliptyczna atmosfera miasta |

Element siódmy: Dźwięk (opcjonalnie)

Dźwięk dodaje wymiar słuchowy. Chociaż nie wszystkie platformy obsługują generowanie dźwięku, włączenie projektowania dźwięku do podpowiedzi jest nie tylko przyszłościowe, ale często wzmacnia efekt wizualny — ponieważ sztuczna inteligencja wykorzystuje sygnały dźwiękowe, aby wpływać na emocjonalny ton i tempo obrazów.

Biblioteka słów kluczowych:

Rodzaj dźwięku	Przykład (angielski komunikat)
Styl muzyczny	orkiestrowy, lo-fi hip hop, ambient electronic, jazzowe fortepianowe, akustyczna gitara, muzyka filmowa (muzyka filmowa)
Efekty dźwiękowe otoczenia	deszcz na szybie, wiatr wśród drzew, szum ruchu miejskiego, fale oceanu, trzask ognia
Efekty dźwiękowe akcji	kroki na żwirze, skrzypienie drzwi, tłuczone szkło, ryczący silnik
Głosy	szeptana narracja, dialogi, oddech, śmiech

Język filmowy: tajna broń

Język filmowy jest najważniejszą umiejętnością, jaką można rozwinąć jako autor scenariuszy filmowych. Pisząc „powolny ruch kamery” zamiast „zbliżenie”, posługujesz się językiem modeli sztucznej inteligencji, które zostały wytrenowane na milionach godzin profesjonalnie nakręconych materiałów filmowych, gdzie ruchy kamery mają określone nazwy i dają określone efekty wizualne.

Ta sekcja służy jako kompleksowy przewodnik referencyjny. Zalecamy dodanie jej do zakładek.

Przewodnik po ruchach kamery: Ilustracja nazw, trajektorii i efektów emocjonalnych dwunastu różnych ruchów kamery, w tym ujęć typu push/pull, panoramicznych, ujęć z jazdy kamery, ujęć z wózka, zmian wysokości i ujęć z ręki. — Ruchy kamery nie są wymienne — każdy z nich wywołuje odmienny efekt emocjonalny. Znajomość właściwej terminologii zmieni oddziaływanie Twoich wskazówek.

Podstawy kinematografii

Dolly In / Dolly Out (ujęcie z przesunięciem / ujęcie z cofnięciem)

Kamera fizycznie zbliża się do obiektu (push) lub oddala się od niego (pull). W przeciwieństwie do zoomu zmienia się perspektywa – obiekty na pierwszym planie wydają się proporcjonalnie większe, co tworzy wrażenie głębi i fizycznej bliskości.

Efekt emocjonalny: Popycha, aby wzmocnić intymność, skupienie i ujawnienie. Ciągnie, aby wywołać izolację, kontekst i rozstanie.
Kiedy używać: Popychaj, aby uzyskać emocjonalne zbliżenia, momenty charakterystyczne dla postaci i ujawniające szczegóły. Cofnięcie służy do pokazania skali, podsumowania lub wycofania się z tematu.
Kluczowe zdanie: „Kamera powoli zbliża się z ujęcia średniego do ekstremalnego zbliżenia na dłonie bohatera”.

Przesunięcie w lewo / przesunięcie w prawo (przesunięcie w poziomie)

Kamera pozostaje nieruchoma, obracając się w poziomie, tak jakbyś obracał głowę. Punkt widzenia przesuwa się po całej scenie.

Efekt emocjonalny: Badanie, odkrywanie, ruch śledzenia w poziomie, łączenie dwóch elementów w scenie.
Kiedy stosować: Prezentowanie krajobrazów, śledzenie poruszających się postaci, pokazywanie przestrzeni.
Fraza podpowiedzi: „Powolny ruch kamery w prawo po warsztacie, ukazujący rzędy ręcznie wykonanych instrumentów na ścianie”.

Pochylenie w górę / pochylenie w dół (pionowe obracanie/pochylanie)

Kamera pozostaje nieruchoma, obracając się w pionie — jakby kiwała głową. Przesunięcie w górę ujawnia wysokość; przesunięcie w dół pokazuje szczegóły na poziomie gruntu.

Efekt emocjonalny: Ukośne nachylenie w górę wywołuje podziw, poczucie wielkości i tęsknotę. Ukośne nachylenie w dół tworzy poczucie ugruntowania, odkrycia i bliskości z powierzchnią.
Kiedy stosować: Ukośne nachylenie w górę stosuje się w przypadku wysokich konstrukcji, postaci wstających z ziemi lub odsłaniających niebo. Ujęcia skierowane w dół ujawniają przedmioty na stole lub przejście od nieba do ziemi.
Fraza podpowiedzi: „Kamera przesuwa się w górę od korzeni starożytnego drzewa, podążając za masywnym pniem do korony”.

Ujęcie śledzące (ujęcie z podążaniem/ujęcie śledzące z boku)

Kamera porusza się równolegle do obiektu, utrzymując stałą odległość i kąt, tak jakby była zamontowana na torze biegnącym równolegle do ścieżki obiektu.

Efekt emocjonalny: Towarzystwo, podróż, zanurzenie się w świecie. Widzowie podróżują razem z bohaterem.
Kiedy używać: W przypadku postaci idących lub biegnących, przemierzających przestrzenie lub prezentujących produkty na powierzchniach.
Fraza podpowiedzi: „Kamera śledzi biegaczkę na wysokości ramion, dotrzymując jej tempa, gdy pędzi alejką”.

Orbita / Łuk (okrężne ujęcie śledzące)

Kamera obraca się wokół obiektu, utrzymując go w centrum kadru. Może to obejmować pełny obrót o 360 stopni lub częściowy łuk.

Efekt emocjonalny: Heroiczna prezencja, poczucie mocy, jakość prezentacji, trójwymiarowy obraz.
Kiedy stosować: Prezentacje produktów (pokazujące wszystkie kąty), ujęcia bohaterów, dramatyczne wprowadzenia postaci, decydujące momenty.
Fraza podpowiedzi: „Kamera obraca się o 180 stopni wokół szachisty, zaczynając od tyłu i kończąc od przodu”.

Podnoszenie/opuszczanie dźwigu (ujęcie z podnoszenia/ujęcie z wysięgnika)

Pionowy ruch kamery — fizyczne podnoszenie lub opuszczanie — jest zazwyczaj łączony z pochyleniem, aby utrzymać obiekt w kadrze.

Efekt emocjonalny: Wznoszenie się tworzy poczucie transcendencji, wyzwolenia i poszerzonej perspektywy. Opadanie sprzyja poczuciu ugruntowania, przybycia na miejsce i skupienia uwagi.
Kiedy stosować: Wznoszenie się stosuje się w przypadku wniosków, momentów triumfu i przejść do perspektyw powietrznych. Ujęcia z opadaniem stosuje się w przypadku otwarć, przybyć i przejść od szerokich ujęć do intymnych kompozycji.
Fraza podpowiedzi: „Kamera unosi się z poziomu ziemi, wznosząc się ponad tłum i ukazując pełną skalę festiwalu”.

Ręczny (obiektyw ręczny)

Obiektyw wykazuje subtelne drgania organiczne — nie jest zamontowany na statywie ani stabilizatorze. Symuluje to wrażenie, jakie odczuwa fotograf trzymający aparat w ręku.

Efekt emocjonalny: Bezpośredniość, pilność, autentyczność dokumentalna, napięcie, intymność.
Kiedy używać: Sekwencje akcji, emocjonalne dialogi, style dokumentalne, horrory, wszelkie sceny wymagające immersyjnego wrażenia.
Fraza podpowiedzi: „Ręczna kamera podąża za postacią przez zatłoczony targ, lekko chwiejna”.

Steadicam / Gimbal (obiektyw Steadicam/stabilizator)

Płynne, płynące ruchy kamery przesuwają się w przestrzeni. W przeciwieństwie do ujęć z ręki, nie ma drgań — ruch jest płynny i ciągły.

Efekt emocjonalny: Senna, elegancka, wciągająca, relaksująca eksploracja.
Kiedy stosować: Poruszanie się po przestrzeniach architektonicznych, podążanie za postaciami przez skomplikowane środowiska, ujęcia z jednej kamery, luksusowa i estetyczna kinematografia.
Fraza podpowiedzi: „Steadicam sunie za tancerką, która porusza się po pustej sali balowej”.

Zaawansowane techniki ruchu kamery

Zoom Hitchcocka (Dolly Zoom / Efekt zawrotu głowy)

W miarę zbliżania się obiektywu ogniskowa wzrasta (lub odwrotnie). Obiekt pozostaje tej samej wielkości, ale tło ulega znacznemu zniekształceniu — rozciąga się lub kompresuje.

Efekt emocjonalny: dezorientacja, olśnienie, strach, świat zmieniający się wokół stałego punktu.
Fraza wyzwalająca: „Zoom na twarz postaci — kamera zbliża się, a obiektyw oddala się, tło się rozciąga, tworząc efekt zawrotów głowy”.

Whip Pan

Niezwykle szybkie przesuwanie kamery w poziomie, powodujące rozmycie całego obrazu podczas ruchu. Często stosowane jako przejście między dwiema scenami.

Efekt emocjonalny: Energia, zaskoczenie, pilność, komiczny rytm.
Fraza podpowiedzi: „Szybkie przejście od twarzy mówcy do reakcji publiczności, rozmycie ruchu podczas przejścia”.

Rack Focus (Pull Focus)

W jednym ujęciu ostrość przesuwa się z jednej płaszczyzny głębi na drugą. Pierwszy plan staje się rozmyty, a tło wyostrza się lub odwrotnie.

Efekt emocjonalny: Przekierowuje uwagę, ujawnia informacje, łączy elementy pierwszego planu i tła.
Fraza podpowiedzi: „Przenieś ostrość z rozmytych kwiatów na pierwszym planie na twarz kobiety w tle”.

Kąt holenderski (kąt nachylony)

Obiektyw przechyla się wzdłuż osi obrotu, tworząc ukośną linię horyzontu. Świat wydaje się być przekrzywiony.

Efekt emocjonalny: Niepokój, niestabilność, napięcie, stylizowana dramaturgia, szaleństwo.
Fraza podpowiedzi: „Ujęcie zbliżeniowe twarzy detektywa pod kątem holenderskim, pochylenie 15 stopni, ostre oświetlenie boczne”.

Rampa prędkości (rampa czasowa)

Prędkość odtwarzania zmienia się w obrębie jednego ujęcia — zazwyczaj zwalnia w kluczowych momentach, a następnie ponownie przyspiesza.

Efekt emocjonalny: Podkreślenie, wpływ, nadanie dramatycznego znaczenia konkretnym momentom.
Fraza wyzwalająca: „W momencie uderzenia ruch zwalnia do zwolnionego tempa, a następnie przyspiesza z powrotem do tempa rzeczywistego”.

Jedno ujęcie (długie ujęcie)

Ciągłe filmowanie bez montażu. Kamera przemieszcza się po przestrzeni, śledzi ruchy i odkrywa elementy, zachowując przez cały czas jedną nieprzerwaną perspektywę.

Wpływ emocjonalny: wciągające doświadczenie w czasie rzeczywistym, poczucie mistrzostwa technicznego, utrzymujące się napięcie.
Fraza podpowiedzi: „Ciągłe ujęcie z jednej kamery: kamera wchodzi przez frontowe drzwi, przesuwa się przez korytarz i dociera do ogrodu”.

Pierwsza osoba / POV

Kamera reprezentuje oczy postaci. Widzowie widzą to, co widzi postać, w tym jej ręce pojawiające się w kadrze.

Efekt emocjonalny: Całkowite zanurzenie się w świecie gry, subiektywne doświadczenie, estetyka gry.
Fraza wyzwalająca: „Perspektywa pierwszej osoby: ręce otwierają ciężkie drewniane drzwi, odsłaniając skąpaną w słońcu łąkę”.

Aby zapoznać się z unikalnymi funkcjami sterowania kamerą w Seedance oraz sposobem łączenia ich w osi czasu scenariusza, zapoznaj się z przewodnikiem Seedance Prompt.

Biblioteka słów kluczowych dotyczących atmosfery

Atmosfera jest kluczem do przekształcenia technicznie dopracowanego filmu w dzieło wywołujące emocje. To różnica między „pokojem” a „pokojem, który wywołuje emocje”. Ta biblioteka słów kluczowych jest podzielona na cztery kategorie — oświetlenie, paleta kolorów, faktura i nastrój — co pozwala na łączenie i dopasowywanie elementów w celu precyzyjnego uzyskania pożądanego efektu.

Tabela referencyjna słów kluczowych AI Video Prompt dotyczących atmosfery, podzielona na cztery kategorie: oświetlenie, tonacja kolorów, faktura i nastrój, wraz z przykładami wizualnymi. — Biblioteka słów kluczowych dotyczących atmosfery: wybierz jedno słowo kluczowe z każdego wymiaru, aby zdefiniować emocjonalny charakter swojego filmu.

Słowa kluczowe światła i cienia

Oświetlenie stanowi podstawę atmosfery. Zmiana oświetlenia w scenariuszu może całkowicie zmienić nastrój, pozostawiając wszystkie inne elementy bez zmian.

| Słowa kluczowe (angielski/chiński) | Efekty wizualne | Odpowiednie scenariusze | |-------|----------|--------- -| | Złota godzina | Ciepłe bursztynowe światło, miękkie wydłużone cienie, korzystne odcienie skóry | Romans, nostalgia, podróże, piękno | | Niebieska godzina | Głębokie niebieskie światło otoczenia, resztki ciepła na horyzoncie | Melancholia, kontemplacja, przemiana, miejski nastrój | | Oświetlenie tylne | Obiekt oświetlony tylnym źródłem światła, cienie na twarzy lub sylwetki | Dramatyzm, tajemnica, heroiczne ujęcia, estetyczny wygląd | | Oświetlenie boczne | Silne światło kierunkowe z jednej strony, półcienie i półświatła | Napięcie, zbliżenia postaci, dramatyczne portrety | | Oświetlenie rembrandtowskie | Klasyczne oświetlenie portretowe – oświetlenie z jednej strony, z małym trójkątnym rozjaśnieniem pod okiem po stronie cienia | Portrety, elegancja, klasyczna atmosfera | | Oświetlenie wolumetryczne | Widoczne wiązki światła przechodzące przez kurz, mgłę lub dym | Sacrum, dramatyzm, sceny leśne, oświetlenie sceniczne | | Efekt Tyndalla | Rozproszenie światła w drobnych cząsteczkach, tworząc wyraźne promienie przez mgłę | Naturalne, sceny o świcie, eteryczne, oniryczne | | Neon | Sztuczne kolorowe źródła światła, często różowe, niebieskie, cyjanowe, magenta | Cyberpunk, życie nocne, miejskie, współczesne | | Światło świec | Ciepłe, migoczące, pomarańczowo-bursztynowe punktowe źródło światła | Intymność, historia, sceny kolacji, przytulność | | Sylwetka | Obiekt całkowicie zaciemniony, zarysowany wyłącznie konturem na jasnym tle | Tajemnica, anonimowość, efekt wizualny, narracja | | Bioluminescencja | Samoistniejące organiczne źródło światła, zazwyczaj niebiesko-zielone | Fantazja, podwodny świat, obce światy, sny |

Słowa kluczowe dotyczące odcieni kolorów

Kolorystyka nadaje emocjonalny ton całej kompozycji. Ciepłe odcienie sprawiają wrażenie przyjaznych, a chłodne – dystansowych. Wysokie nasycenie sprawia wrażenie żywego, a niskie – stonowanego.

| Słowa kluczowe (angielski/chiński) | Efekty wizualne | Rezonans emocjonalny | |-------|----------|--------- -| | Ciepła paleta | Dominują odcienie bursztynu, pomarańczy, złota i czerwieni | Komfort, nostalgia, intymność, jesień | | Chłodna paleta | Dominują odcienie niebieskiego, cyjanu i łupka | Dystans, spokój, melancholia, zima, technologia | | Wysokie nasycenie | Żywe, intensywne, mocne kolory | Energia, młodość, fantazja, popkultura | | Nasycenie | Miękkie, wyblakłe, pastelowe kolory | Melancholia, realizm, wspomnienia, retro | | Turkus i pomarańcz | Klasyczna gradacja kolorów filmowych — chłodne cienie, ciepłe światła | Hollywoodzkie hity, reklamy, kino | | Paleta cyberpunkowa | Neonowy róż, elektryczny błękit, głęboki fiolet na ciemnym tle | Futurystyczny, życie nocne, cyfrowy, awangardowy | | Vintage | Lekko wyblakły, ciepłe odcienie, podniesione cienie | Nostalgia, lata 70. i 80., filmy niezależne, wspomnienia | | Kolory ziemi | Brązowy, zielony, ochra, terakota | Natura, zakorzenienie, organiczność, dokument | | Kodachrome | Bogate odcienie zieleni i czerwieni, ciepłe odcienie skóry, głęboka czerń | Fotoreportaż, lata 60. i 70., amerykańska estetyka |

Tekstura/jakość obrazu Słowa kluczowe

Tekstura określa wygląd powierzchni obrazu wideo — czy przypomina on film 35 mm, dopracowaną reklamę, dokument czy obraz olejny.

| Słowa kluczowe (angielski/chiński) | Efekty wizualne | Scenariusze zastosowania | |-------|--------- -|----------| | Kinowy | Efekt szerokiego ekranu, płytka głębia ostrości, filmowa paleta kolorów | Narracja, dramat, opowiadanie historii | | Dokumentalny | Naturalne oświetlenie, nieco niedoskonałe kompozycje | Realizm, wiadomości, edukacja | | Reklama | Czyste, jasne, precyzyjne oświetlenie, płynny ruch kamery | Prezentacja produktów, reklama, korporacje | | Ziarnistość filmu | Organiczna tekstura szumu nałożona na materiał filmowy | Retro, analogowe, niezależne, ciepłe | | Anamorficzny | Poziome flary obiektywu, eliptyczne bokeh, subtelne zniekształcenie krawędzi | Dramat filmowy, science fiction, epicki klimat | | Tekstura obrazu olejnego | Widoczne tekstury pociągnięć pędzla, bogaty efekt impasto | Sztuka, fantastyka, pejzaże snów, klasyka | | Tuszowa akwarela | Czarne gradienty tuszu na białym tle, płynne organiczne formy | Estetyka orientalna, minimalizm, spokój | | 8 mm / Super 8 | Duże ziarno, przecieki światła, niestabilny materiał filmowy, wyblakłe kolory | Wspomnienia, retrospekcje, domowe filmy, nostalgia |

Słowa kluczowe związane z emocjami

Słowa kluczowe związane z emocjami nadają sztucznej inteligencji kierunek emocjonalny. Mają one wpływ na wszystko — tempo, dobór kolorów, zachowanie kamery i ogólny klimat.

| Słowa kluczowe (angielski/chiński) | Wywołane emocje | Sugestie dotyczące parowania | |-------|----------- -|----------| | Przytulność | Ciepło, komfort, bezpieczeństwo, dom | Światło świec, ciepłe odcienie, sceny we wnętrzach | | Napięcie | Niepokój, oczekiwanie, zbliżające się wydarzenia | Oświetlenie boczne, ujęcia z ręki, ciasne kadrowanie | | Napięcie | Strach, niepewność, powolne narastanie | Stonowane oświetlenie, stopniowy rozwój akcji, niskie nasycenie | | Radość | Szczęście, świętowanie, lekkość | Złota godzina, wysokie nasycenie, długie ujęcia | | Melancholijny | Smutek, tęsknota, piękno w smutku | Niebieska godzina, chłodne odcienie, zwolnione tempo | | Epicki | Wielkość, heroizm, budzący podziw | Szerokie kąty, ujęcia z wózka, muzyka orkiestrowa | | Uzdrawiający | Spokój, regeneracja, delikatne uzdrawianie | Miękkie oświetlenie, pastelowe odcienie, naturalne kolory, powolne tempo | | Horror | Strach, niesamowitość, niepokój | Głębokie cienie, ujęcia z holenderskiego kąta, niskie nasycenie, cisza | | Romantyczny | Miłość, tęsknota, czułość, intymność | Oświetlenie tylne, ciepłe odcienie, mała głębia ostrości, zbliżenia | | Energetyczny | Szybkość, emocje, adrenalina | Drgania kamery, zmienna prędkość, wysokie nasycenie, szeroki kąt | | Nostalgiczny | Tęsknota za przeszłością, słodko-gorzkie wspomnienia | Ziarno filmu, odcienie vintage, prześwietlone światła |

Kombinacje słów kluczowych związanych z atmosferą: trzy przykłady

Prawdziwa moc tkwi w wybraniu jednego lub dwóch słów kluczowych z każdego wymiaru i połączeniu ich. Poniższe trzy kombinacje tworzą zupełnie różne atmosfery dla tego samego tematu – kobiety stojącej przy oknie:

Kombinacja pierwsza: Ciepła nostalgia

Oświetlenie w złotej godzinie, ciepła paleta barw z odcieniami bursztynu i miodu, faktura ziarna filmowego, nostalgiczny nastrój

Kombinacja druga: Mrożące krew w żyłach napięcie

Boczne światło z jednego źródła, chłodna paleta turkusowych odcieni, czysta cyfrowa tekstura, napięta atmosfera

Kombinacja trzecia: eteryczna i oniryczna

Efekt Tyndalla – promienie światła przeświecające przez prześwitujące zasłony, pastelowa paleta barw, akwarelowa faktura, kojący nastrój

Ten sam temat, trzy zupełnie różne filmy. Kluczowym słowem opisującym atmosferę jest panel sterowania.

Od pojedynczych fraz do podpowiedzi filmowych: 5 zaawansowanych przykładów

Najlepszym sposobem nauki pisania promptów jest obserwowanie procesu ich ewolucji. Każdy z poniższych przykładów przechodzi od podstawowego V1 (typ, który pisze większość osób) do V2 (dodanie szczegółowości i ruchu kamery), a kończy na V3 (w pełni dopracowany prompt na poziomie kinowym). Zwróć uwagę na zmiany zachodzące na każdym poziomie i powody ich wprowadzenia.

Więcej gotowych przykładów poleceń wideo można znaleźć w artykule 10 praktycznych poleceń wideo AI.

Porównanie ewolucji podpowiedzi w trzech etapach, przedstawiające podstawowe podpowiedzi V1, ulepszone podpowiedzi V2 (obejmujące ruch kamery i efekty świetlne) oraz podpowiedzi V3 o jakości kinowej (w pełni określone), z których każda wykazuje odpowiednią poprawę jakości wideo. — Szybka ewolucja w praktyce. Wersja V1 nie dostarcza sztucznej inteligencji praktycznie żadnych informacji. Wersja V3 dostarcza jej wszystko – wyniki są diametralnie różne.

Przykład 1: Portret/Nastrój — „Kobieta idąca w deszczu”

V1 — Edycja podstawowa (18 słów)

A woman walking in the rain at night in a city, cinematic, beautiful

Otrzymujesz: typową kobietę, typowe miasto, typowy deszcz, płaskie oświetlenie, brak emocjonalnego oddźwięku. Sztuczna inteligencja wypełnia każdą pustkę statystycznymi średnimi.

V2 — wersja rozszerzona (62 słowa)

A young Asian woman in a long dark coat walks slowly through a rain-soaked Tokyo backstreet at night. Neon signs reflect in the wet pavement, casting pink and blue light. She carries a transparent umbrella. Camera tracks beside her at shoulder height. Shallow depth of field. Melancholic mood.

Co zostało ulepszone: tożsamość konkretnego obiektu, konkretna lokalizacja, konkretne źródło światła, pozycja kamery, kierunek emocjonalny. Sztuczna inteligencja posiada teraz wystarczającą ilość informacji, aby generować unikalne obrazy.

V3 — Jakość kinowa (138 słów)

A woman in her late 20s, Japanese, long black hair partially wet and clinging to her neck, wearing an oversized charcoal wool coat over a cream turtleneck, walks alone through a narrow Shinjuku backstreet at 2am. Rain falls in fine sheets, catching neon light from izakaya signs overhead — warm amber kanji characters and cold blue beer advertisements. The wet asphalt mirrors everything, creating a double world beneath her feet. She carries a transparent vinyl umbrella, water beading and streaming down its surface.

Camera: tracking shot at shoulder height, moving alongside her at walking pace, shallow depth of field at f/1.4, foreground rain droplets occasionally crossing the lens out of focus.

Lighting: practical neon sources only — no fill light. Rim light from signs behind her outlines her coat collar and umbrella edge. Her face catches intermittent warm light as she passes each shopfront.

Style: cinematic, Kodak Vision3 500T film stock, slight grain, teal-and-amber color grade, Wong Kar-wai atmosphere.

Dźwięk: deszcz uderzający o powierzchnię parasola, odległe, przytłumione dźwięki jazzu dochodzące z baru, jej kroki na mokrym kamieniu, brak dialogów, brak muzyki.

(Japońska kobieta w wieku około dwudziestu lat, z długimi czarnymi włosami częściowo przemoczonymi i przylegającymi do szyi, ubrana w oversize'owy płaszcz z wełny w kolorze antracytowej szarości, pod który założyła kremowy golf, samotnie spaceruje o drugiej w nocy wąskimi uliczkami Shinjuku. Cienkie nitki deszczu odbijały neonowe światło znaków izakaya nad głową – ciepłe bursztynowe japońskie znaki i chłodne niebieskie reklamy piwa. Wilgotny asfalt odbijał wszystko, tworząc lustrzany świat pod jej stopami. Trzymała przezroczystą plastikową parasolkę, na której powierzchni skraplały się i spływały krople deszczu.

Dlaczego V3 działa: każdy element formuły jest jasno zdefiniowany. Sztuczna inteligencja nie ma miejsca na zgadywanie – kiedy nie zgaduje, renderuje dokładnie to, co opisujesz.

Przykład 2: Prezentacja produktu — „Zegarek na biurku”

V1 — Edycja podstawowa (14 słów)

A luxury watch sitting on a table, product shot, high quality, 4K

V2 — wydanie poprawione (58 słów)

A stainless steel dive watch with a dark blue dial rests on a slab of raw gray marble. Camera orbits slowly around the watch, 15 degrees above. Single key light from the upper left creates a defined shadow. The watch's crystal catches the light and creates a brief flare. Commercial style, clean background.

V3 — Jakość kinowa (126 słów)

A stainless steel dive watch with a sunburst navy-blue dial and ceramic bezel sits on a rough-cut block of Carrara marble, positioned at the golden-ratio intersection of the frame. The second hand sweeps continuously. Micro water droplets bead on the crystal surface and the steel bracelet links, catching light.

Camera: begins in macro extreme close-up on the dial — the indices and lume dots fill the frame — then slowly dollies out while simultaneously orbiting clockwise, completing a 270-degree arc over 8 seconds until the full watch and marble base are revealed in a three-quarter beauty shot.

Lighting: single hard key light at 10 o'clock position, 45 degrees above. No fill — deep shadows on the right side. A subtle rim light from behind separates the watch from the dark charcoal background.

Style: high-end commercial, ultra-sharp 8K downscaled to 4K, zero grain, clinical precision. Color: cool steel tones with warm gold accents from the lume.

Dźwięk: niemal cisza — jedynie delikatny mechaniczny tyk mechanizmu, pojedynczy czysty dźwięk w momencie rozbłysku.

（Zegarek nurkowy ze stali nierdzewnej, z tarczą w kolorze granatowym z ceramicznym bezelem, spoczywa na bloku z grubo ciętego marmuru z Carrary, umieszczonym w punkcie przecięcia ramki zgodnie ze złotym podziałem. Sekundnik kontynuuje swój ruch. Małe kropelki skraplają się na powierzchni szkła i ogniwach stalowej bransoletki, odbijając światło.)

Przykład 3: Podróż widokowa — „Góry o świcie”

V1 — wersja podstawowa (12 słów)

Beautiful mountains at sunrise, drone shot, epic landscape, cinematic

V2 — wydanie poprawione (55 słów)

Snow-capped mountain peaks emerging from a sea of clouds at sunrise. The first rays of sun paint the peaks golden while the valleys remain in blue shadow. Camera cranes up slowly from the cloud layer, revealing the full mountain range. Wide angle, epic scale, warm-to-cool color gradient.

V3 — Jakość kinowa (134 słowa)

The Dolomites at sunrise in late autumn. Jagged limestone spires — the Tre Cime di Lavaredo — pierce through a thick layer of valley clouds, their east-facing faces catching the first horizontal rays of sun and turning from cold blue-gray to blazing amber-gold. The cloud layer below is a rolling ocean of soft white and pale peach, filling the valleys completely.

Camera: starts buried inside the cloud layer — visibility near zero, soft white diffusion everywhere — then cranes upward at a steady pace, breaking through the cloud surface to reveal the peaks and the vast sky above. The transition from claustrophobic fog to infinite horizon takes 4 seconds. Continue rising to a high aerial wide shot. 24mm wide angle lens.

Lighting: first light of day — sun at 5 degrees above the eastern horizon, casting extreme raking light across the mountain faces. Golden hour warmth on lit surfaces, blue hour coolness in shadowed areas. Volumetric light beams visible where sun cuts between peaks.

Style: National Geographic cinematic, IMAX-quality, ultra-wide dynamic range, vivid but natural color, no filters.

Dźwięk: wiatr na wysokości — długotrwały, niski szum z okazjonalnymi podmuchami, bez muzyki, bez ludzkich głosów. Cisza potęguje wrażenie ogromu.

（Późnojesienny wschód słońca w Dolomitach. Poszarpane wapienne szczyty — Trzy Szczyty — przebijają gęste chmury nad doliną, a ich wschodnie zbocza oświetlają pierwsze poziome promienie słońca, zmieniając kolor z zimnego niebiesko-szarego na ognisty bursztynowo-złoty.）

Przykład 4: Scena akcji — „Mistrz sztuk walki uderza pięścią”

V1 — wersja podstawowa (15 słów)

A martial artist doing a spinning kick, action movie style, slow motion

V2 — wersja rozszerzona (64 słowa)

A female martial artist in a dark training hall performs a spinning back kick. Her bare foot connects with a hanging heavy bag, sending it swinging violently. Camera captures the kick from a low angle, slightly slow motion at the point of impact, then returns to real-time as she recovers her stance. Side lighting creates dramatic shadows.

V3 — Jakość kinowa (141 słów)

A woman in her 30s, lean and muscular, wearing a fitted black tank top and loose gray training pants, stands in a dimly lit martial arts gym. Worn wooden floor, heavy bags hanging in rows, chalk dust suspended in the air. She explodes from stillness — a spinning hook kick that arcs through 360 degrees, her back heel striking a leather heavy bag at head height.

Camera: starts medium shot at 45-degree angle. As the spin begins, camera speed-ramps to 240fps slow motion — her hair whips in an arc, chalk dust traces the path of her foot, the bag surface ripples visibly on impact. Hold for one beat, then ramp back to real-time as she plants her foot. Slight handheld energy.

Lighting: single harsh side light from camera-left, no fill. Chalk dust and sweat particles glow in the light beam.

Style: David Fincher / Fight Club aesthetic — desaturated, greenish-teal undertone, high contrast, gritty. Anamorphic lens with subtle horizontal flares.

Dźwięk: cisza przed kopnięciem — szum otoczenia na siłowni, wdech. Kopnięcie: gwałtowne trzasnięcie materiału, uderzenie ciężkiej skóry, brzęk łańcucha. Jej ostry wydech w momencie kontaktu. Brak muzyki.

（Kobieta w wieku około trzydziestu lat, szczupła i umięśniona, ubrana w obcisłą czarną kamizelkę i luźne szare spodnie treningowe, stoi w słabo oświetlonej sali sztuk walki. Zużyte drewniane deski podłogowe, rzędy wiszących worków treningowych, kurz unoszący się w powietrzu. Wybucha z bezruchu — kopnięcie hakowe z obrotem o 360 stopni, piętą uderza w skórzany worek na wysokości głowy).

Przykład 5: Narracja emocjonalna — „Babcia i wnuk”

V1 — wersja podstawowa (16 słów)

A grandmother and her grandchild spending time together, heartwarming, emotional, beautiful moment

V2 — wydanie poprawione (71 słów)

An elderly grandmother with silver hair and weathered hands teaches her 5-year-old granddaughter how to knead bread dough in a sunlit country kitchen. The child stands on a wooden step stool, flour on her cheeks, laughing. The grandmother guides her small hands through the dough. Golden morning light through a window. Warm color palette. Intimate, cozy atmosphere.

V3 — Jakość kinowa (147 słów)

A Japanese grandmother in her 80s, silver hair in a soft bun, deep expression lines around smiling eyes, wearing an indigo apron over a cream linen blouse, stands beside her granddaughter — age 4 or 5, round cheeks, short black hair with a red clip — at a low wooden table in a traditional kitchen. Shoji screen doors are slid open to a small garden where morning light enters. They are making mochi together. The grandmother's large, weathered hands wrap around the child's tiny ones, guiding them to fold and press the soft rice dough. Flour dust floats in the shaft of sunlight between them.

Camera: close-up on their four hands working the dough — the contrast of old and young skin. Slowly dolly out to a medium shot including both faces. Rack focus between them — first sharp on the grandmother's eyes, then pulling to the child's smile. 85mm portrait lens, f/2.0, creamy bokeh.

Lighting: natural morning sunlight from the garden, soft and directional, Tyndall effect through the flour dust. No artificial light. The light creates a warm halo around the grandmother's silver hair.

Style: Hirokazu Kore-eda film quality — observational, unhurried, documentary intimacy with cinematic beauty. Kodachrome-inspired color. 16:9.

Dźwięk: delikatny rytmiczny odgłos rąk ugniatających ciasto, ptaki w ogrodzie, odległy dźwięk dzwonków wiatrowych, sporadyczny śmiech dziecka, babcia nucąca pod nosem ludową melodię. Brak ścieżki dźwiękowej — tylko dźwięki diegetyczne.

(Osiemdziesięcioletnia japońska babcia, ze srebrnymi włosami upiętymi w luźny kok, z głębokimi zmarszczkami wokół uśmiechniętych oczu, ubrana w indygo niebieski fartuch na kremowej lnianej koszuli. Stoją obok swojej czteroletniej lub pięcioletniej wnuczki — o okrągłych policzkach, z krótkimi czarnymi włosami upiętymi czerwoną spinką — przy niskim drewnianym stole w tradycyjnej kuchni. Drzwi shoji otwierają się w stronę małego ogrodu, gdzie wpada poranne światło. Razem robią mochi. Duże dłonie babci, naznaczone upływem lat, otaczają małe dłonie dziecka, prowadząc je podczas składania i wyciskania miękkiego kleistego ciasta ryżowego. W promieniach słońca między nimi unosił się pył mączny. Scena miała charakterystyczny dla Hirokazu Kore-edy styl filmowy – obserwacyjny, niespieszny, dokumentalny, łączący intymność z kinowym pięknem.

Włącz projekt dźwiękowy do podpowiedzi

Projektowanie dźwięku stanowi najbardziej pomijany aspekt podczas tworzenia scenariuszy filmowych. Do 2026 r. platformy takie jak Seedance, Veo 3 i Keeling obsługiwały synchroniczne generowanie dźwięku dla filmów – różnica w jakości między filmami zawierającymi sygnały dźwiękowe a tymi, które ich nie miały, okazała się ogromna.

Pomyśl o tym: piękna scena leśna bez dźwięków otoczenia przypomina animację GIF. Dodaj śpiew ptaków, szelest liści i odległy szum strumienia, a stanie się to miejscem, do którego chciałbyś wejść.

Format projektowania dźwięku

Dodaj polecenia głosowe na końcu monitu w osobnym akapicie lub wierszu, obejmujące trzy poziomy:

Pierwsza warstwa: Muzyka w tle — Ogólny nastrój i styl

Background music: slow ambient piano, minor key, sparse notes with reverb
（背景音乐：缓慢的氛围钢琴，小调，稀疏的音符带混响）

Druga warstwa: efekty dźwiękowe otoczenia — tworzenie dźwięków tła sceny

Ambient: light rain on leaves, distant thunder rolls, wet road traffic hum
（环境音：轻柔的雨打树叶声、远处的雷声滚动、湿路上的交通嗡嗡声）

Trzecia warstwa: Efekty dźwiękowe akcji i dialogi — konkretne dźwięki związane z wydarzeniami w filmie

SFX: footsteps on wet pavement, umbrella opening with a click
Dialogue: none
（音效：湿路面上的脚步声、雨伞咔嗒打开的声音。对话：无）

Słownik słów kluczowych dotyczących audio

Style muzyczne dla różnych emocji:

Nastrój	Kierunek muzyczny (angielski prompt)
Spokojny	Ambient, delikatne brzmienie fortepianu, akustyczna gitara fingerpicking, lo-fi
Napięty	Niski dźwięk, dysonansowe struny, minimalistyczny rytm perkusji
Radosny	Optymistyczna gitara akustyczna, ukulele, lekka perkusja, tonacja durowa
Epicki	Orkiestralne crescendo, bębny taiko, fanfary instrumentów dętych, chór
Romantyczny	Kwartet smyczkowy, delikatny jazz, bossa nova
Tajemniczy	Mroczny ambient, fortepian z silnym pogłosem, odległe dźwięki dzwonów
Energetyczny	Elektroniczny beat, napędzające bębny, mocny bas, szybkie tempo
Melancholijny	Solo wiolonczeli, powolny fortepian w tonacji molowej, oszczędna gitara

Dźwięki otoczenia:

| Środowisko | Warstwy dźwiękowe (angielskie komunikaty) | |------|--------------------- -| | Las | Śpiew ptaków, szelest liści, odgłos dzięcioła w oddali, strumień | | Noc w mieście | Szum ruchu ulicznego, odgłosy syren w oddali, brzęczenie neonów, odgłos kroków | | Ocean | Łamanie się fal, mewy, wiatr, odgłos silnika łodzi w oddali | | Kawiarnia | Ekspres do kawy, szeptane rozmowy, łyżka na ceramicznej filiżance, jazz | | Deszczowy dzień | Intensywność deszczu (lekki deszcz / ulewa), grzmoty, krople | | Warsztat | Odgłosy narzędzi, wióry, szum maszyn, radio w tle |

Kiedy stosować ciszę

Cisza nie jest brakiem dźwięku – jest to świadomy wybór. Strategiczna cisza może stworzyć:

Moment uderzenia: Cisza poprzedzająca dramatyczny moment wzmacnia jego znaczenie
Poczucie skali: Tylko szum wiatru nad rozległymi krajobrazami oddaje ogrom przestrzeni
Napięcie: Usunięcie oczekiwanych dźwięków wywołuje niepokój
Skupienie: Cisza kieruje całą uwagę na obraz

W podpowiedzi wyraźnie zaznacz: „Dźwięk: cisza — bez muzyki, bez dźwięków otoczenia, tylko oddech badanego”.

Więcej informacji na temat generowania dźwięku w produkcji teledysków AI można znaleźć w Przewodniku po generatorze teledysków AI.

Techniki podpowiedzi specyficzne dla platformy

Uniwersalna formuła ma zastosowanie wszędzie, ale każda platforma wideo AI ma swoje własne cechy w interpretacji poleceń. Optymalizacja poleceń specjalnie dla platformy, z której korzystasz, może znacznie poprawić wyniki.

Seedance

Zalety: Format osi czasu scenariusza, sekwencje wielokrotnych ujęć, odniesienia do obrazów i filmów, wbudowany generator podpowiedzi.

Techniki optymalizacji:

W przypadku złożonych sekwencji należy zastosować strukturę osi czasu scenariusza — podzielić filmy na ujęcia z oznaczeniem czasu:

 Shot 1 (0-3s): [描述]
 Shot 2 (3-6s): [描述]
 Shot 3 (6-10s): [描述]

Zachowaj spójność stylistyczną i charakterystyczną, odwołując się do przesłanych obrazów za pomocą @Image1, @Image2
Język filmowy daje doskonałe rezultaty — używaj konkretnej terminologii (dolly, track, orbit) zamiast niejasnych opisów („przesuń w kierunku”).
Wykorzystuje projektowanie dźwięku — Seedance obsługuje sygnały audio
Najbardziej wydajny przepływ pracy: użyj generatora podpowiedzi wideo, aby stworzyć uporządkowane podpowiedzi na podstawie prostych pomysłów, a następnie ręcznie je dopracuj

Kompleksowy przewodnik po podpowiedziach Seedance dla poszczególnych platform (zawierający ponad 50 przykładów) – zobacz Przewodnik po podpowiedziach Seedance.

Sora（OpenAI）

Zalety: Realistyczne zachowanie fizyczne, naturalne ruchy i rozumienie długich tekstów w języku naturalnym.

Techniki optymalizacji:

Używaj płynnych, opisowych akapitów zamiast uporządkowanych list — Sora doskonale radzi sobie z analizowaniem języka naturalnego
Podkreślaj szczegóły fizyczne: grawitację, wagę, właściwości materiałów, dynamikę płynów
Opisz, jak coś „ w dotyku” — opisy tekstury i materiału zwiększają fizyczną wierność
Określ proporcje i czas trwania
Szczegółowa fizyka: „Ciężka tkanina kołysze się przy każdym kroku, opóźniając się z powodu własnego ciężaru” daje lepsze wyniki w porównaniu z „unoszącą się spódnicą”.

Ke Ling Kling (Kuaishou)

Zalety: Duża prędkość generowania, solidna wydajność ruchu i przemieszczania się, doskonała spójność twarzy.

Wskazówki dotyczące optymalizacji:

Komunikaty powinny być zwięzłe — Keli lepiej reaguje na konkretne, nakazujące działanie komunikaty (optymalna długość to 50–80 słów)
Zacznij od działania: „Tancerz skacze i obraca się” zamiast wspominać o ruchu po długich opisach sceny
Jasno określ kierunek ruchu: „porusza się od lewej do prawej”, „zbliża się do kamery”, „odwraca się”.
Keen doskonale radzi sobie z renderowaniem ruchów ludzkich i mimiki twarzy — wykorzystaj to w poleceniach dotyczących zbliżeń emocjonalnych.
Instrukcje dotyczące ruchu kamery są skuteczne, ale każda wskazówka powinna zawierać jedną lub dwie wyraźne czynności kamery.

Uniwersalne znaczenie, nieskończone formy / Runway (Gen-3 Alpha / Gen-4)

Techniki optymalizacji dla Tongyi Wanshang:

Obsługuje bezpośrednie wprowadzanie chińskich poleceń, zapewniając lepsze wyniki w porównaniu z tłumaczeniem
Wykazuje doskonałe zrozumienie tradycyjnych chińskich elementów estetycznych — malarstwa tuszem, stylu narodowego i scen w kostiumach z epoki
Osiąga skuteczne wyniki dzięki zwięzłym i jednoznacznym tagom stylistycznym

Techniki optymalizacji Runway:

Połącz opisy tekstowe z tagami stylu — Runway charakteryzuje się solidnym zrozumieniem stylu
Opisz ruch za pomocą wektorów przestrzennych: „ruch od lewego dolnego rogu do prawego górnego rogu”
Podczas korzystania z Motion Brush skup się w podpowiedzi tekstowej na ogólnej scenie i stylu, a pędzel wykorzystaj do obsługi konkretnych obszarów ruchu
Runway wykazuje doskonałe zrozumienie opisów stylu artystycznego — „w stylu filmu Terrence'a Malicka” - Podczas korzystania z pędzla ruchu skup się na ogólnej scenie i stylu, używając pędzla do dopracowania konkretnych obszarów ruchu
Runway doskonale radzi sobie z interpretacją opisów stylu artystycznego — „w stylu filmu Terrence'a Malicka” daje doskonałe wyniki
Zachowaj skupienie — generuj jedną wyraźną scenę na polecenie, zamiast sekwencji wielu ujęć

Veo 3（Google DeepMind）

Zalety: Rozumienie dźwięku, symulacja fizyczna, jakość kinowa, rozbudowane sekwencje.

Techniki optymalizacji:

Dodaj szczegółowe opisy audio — Veo 3 generuje zsynchronizowane audio na podstawie tekstu
Opisz szczegółowo interakcje fizyczne: jak obiekty zderzają się, materiały odkształcają się, a światło oddziałuje na powierzchnie
Wykorzystaj terminologię kinematograficzną — dane szkoleniowe Veo 3 w dużym stopniu opierają się na profesjonalnej produkcji filmowej
Określ czas trwania i tempo: „scena rozwija się powoli przez 10 sekund”
Opisy fizyczne znacznie zwiększają efekt: „woda rozpryskuje się w górę przy uderzeniu, a krople odbijają światło tylne”, zamiast po prostu „rozpryskuje się”.

Szczegółowe porównanie Seedance i Sora pod względem szybkości interpretacji i jakości wyników można znaleźć w artykule Porównanie Seedance i Sora.

Lub pozwól sztucznej inteligencji pisać podpowiedzi za Ciebie

Właśnie ukończyłeś naukę pełnego zestawu narzędzi do tworzenia podpowiedzi wideo od podstaw. Ta wiedza jest niezwykle cenna — pozwala lepiej oceniać jakość podpowiedzi i zapewnia pełną kontrolę nad każdym szczegółem. Nie musisz jednak za każdym razem ręcznie pisać każdej podpowiedzi.

Schemat przepływu pracy ilustruje podejście hybrydowe: sztuczna inteligencja generuje wstępny, ustrukturyzowany komunikat, który jest następnie sprawdzany i optymalizowany przez ludzi pod kątem konkretnych elementów. Udoskonalony komunikat służy następnie do stworzenia ostatecznej wersji filmu. — Hybrydowy przepływ pracy: pozwól sztucznej inteligencji zająć się terminologią strukturalną i techniczną, a następnie dodaj swoją kreatywną perspektywę podczas fazy optymalizacji.

Kiedy pisać ręcznie, a kiedy korzystać ze sztucznej inteligencji

Scenariusz	Najlepsze podejście
Masz precyzyjną wizję twórczą i dokładnie wiesz, czego chcesz	Pismo odręczne — będziesz szybszy i dokładniejszy niż edytując projekty AI
Masz ogólny pomysł, ale potrzebujesz struktury	Generowanie AI → Ręczne udoskonalanie
Musisz szybko wygenerować wiele wariantów podpowiedzi	Generowanie zbiorcze przez sztuczną inteligencję → Wybierz i dopracuj najlepsze
Uczysz się i chcesz poznać struktury podpowiedzi	Generowanie przez sztuczną inteligencję → Czytaj i analizuj — w ten sposób budujesz swoje słownictwo
Musisz dopasować konkretne obrazy referencyjne	Ręczne pisanie — dokładnie opisz to, co widzisz w materiale referencyjnym

Hybrydowy przepływ pracy (zalecany)

Najbardziej wydajny proces szybkiego pisania łączy generowanie przez sztuczną inteligencję z optymalizacją przez człowieka:

Zacznij od sztucznej inteligencji. Przejdź do Seedance Video Prompt Generator, opisz swój pomysł w jednym lub dwóch zdaniach, wybierz styl i wygeneruj.
Krytycznie przejrzyj wynik. Sztuczna inteligencja wygeneruje uporządkowany komunikat zawierający informacje dotyczące ruchu kamery, osi czasu, oświetlenia i dźwięku. Przeczytaj go dokładnie. Czy praca kamery odpowiada pożądanemu tonowi emocjonalnemu? Czy kierunek oświetlenia tworzy zamierzoną atmosferę? Czy są jakieś szczegóły, które chcesz zmienić?
Optymalizacja ręczna. Tutaj przydaje się Twoja wiedza na temat formuł, języka kinematografii i słów kluczowych związanych z atmosferą. Zastąp ujęcia wybrane przez sztuczną inteligencję takimi, które lepiej pasują do Twojej wizji. Dostosuj słowa kluczowe związane z oświetleniem. Dodaj konkretne szczegóły, których sztuczna inteligencja nie jest w stanie uwzględnić — cechy charakterystyczne dla postaci, wymagania związane z marką, niuanse emocjonalne.
Wygeneruj film. Wyślij zoptymalizowany prompt do generatora filmów. Wyniki będą znacznie lepsze niż w przypadku całkowicie ręcznych promptów tworzonych przez nowicjuszy lub całkowicie generowanych przez sztuczną inteligencję, niesprawdzonych promptów.

Kompleksowy przewodnik po obsłudze generatorów podpowiedzi AI można znaleźć w Przewodniku po generatorze podpowiedzi wideo AI.

Efekty kinowe: mistrzostwo poprzez integrację

Stwórzmy ostateczną wskazówkę, która wykorzystuje wszystko, co zostało omówione w tym przewodniku — formuły, język filmowy, słowa kluczowe związane z atmosferą, projektowanie dźwięku — aby uzyskać prawdziwie kinowy efekt.

Brief kreatywny: Samotny astronauta odkrywa roślinność na Marsie.

Oszałamiająca jakość kinowa obrazu wideo generowanego przez sztuczną inteligencję przedstawia samotnego astronautę klęczącego pośród szkarłatnego marsjańskiego terenu, odkrywającego małą zieloną roślinę, renderowaną z dramatycznym bocznym oświetleniem i efektami objętościowego pyłu. — W pełni sprecyzowane wskazówki filmowe dają rezultaty, jakby były wyreżyserowane przez filmowca — bo tak naprawdę są. Każdy element służy narracji.

Pełny komunikat:

Subject: A solitary astronaut in a dusty, sun-bleached EVA suit — visor partially reflective, scratched from use, mission patches barely legible. The suit is not pristine Hollywood white; it is a working tool, weathered by months on the Martian surface.

Action: The astronaut crouches beside a small crack in the rust-red basalt. Inside the crack, a single tiny green sprout — two delicate leaves, almost translucent — pushes up through the red soil. The astronaut's gloved hand reaches toward it, hesitates, trembles slightly, then gently touches the soil beside it.

Environment: The Martian surface — a flat, rust-red plain scattered with dark basalt rocks, stretching to low eroded hills on the horizon. The sky is a pale butterscotch-pink. Dust devils move in the far distance. The scene feels vast and achingly empty — except for this one tiny green thing.

Camera: Opens with an extreme wide shot — the astronaut is a small figure in the immense Martian landscape. Slow dolly in over 4 seconds to a medium shot. As the astronaut crouches, camera drops to ground level and continues to a close-up of the gloved hand and the sprout. Rack focus: pull from the hand to the astronaut's visor, where we see the sprout's reflection. 65mm lens, anamorphic.

Lighting: Late Martian afternoon — low sun from camera-right, casting long amber-red shadows. The side light sculpts the EVA suit's texture. The sprout's translucent leaves glow with subsurface scattering as sunlight passes through them — the only green in a world of red. Volumetric dust particles drift through the light beam.

Style: Ridley Scott's The Martian meets Terrence Malick's The Tree of Life. Cinematic, anamorphic, muted Martian color palette with the single point of vivid green as deliberate contrast. Subtle film grain.

Sound: Wind — thin, high-pitched Martian wind, unlike Earth wind. The astronaut's breathing inside the suit — measured at first, then quickening. A single sustained low note from a cello enters as the hand reaches for the sprout. No dialogue. No narration.

Samotny astronauta, ubrany w pokryty pyłem kombinezon kosmiczny EVA, wyblakły od słońca — z półprzezroczystym wizjerem, pokrytym śladami użytkowania, z ledwo widoczną naszywką misji. Kombinezon ten nie jest nieskazitelnie hollywoodzką bielą; jest to narzędzie pracy, wyblakłe przez miesiące spędzone na powierzchni Marsa. Kucając obok wąskiej szczeliny w rdzawoczerwonym bazalcie, astronauta obserwuje maleńki zielony pęd – dwa delikatne, prawie przezroczyste liście – przebijające się przez szkarłatną glebę. Ręka w rękawiczce wyciąga się, zawaha się, lekko drży, a następnie delikatnie dotyka ziemi obok niego.

Ten prompt zawiera wszystkie siedem elementów formułowych, specyficzny język filmowy (ekstremalne ujęcie z daleka, ujęcie z jazdy kamery, zmiana ogniska), słowa kluczowe związane z atmosferą (oświetlenie wolumetryczne, rozpraszanie podpowierzchniowe, obiektyw anamorficzny), projekt dźwiękowy (szum wiatru, odgłosy oddychania, samotna nuta wiolonczeli) oraz odniesienia stylistyczne (Ridley Scott, Terrence Malick). Każdy szczegół służy budowaniu emocjonalnej linii fabularnej: samotność → odkrycie → podziw.

To jest projekt inżynierii podpowiedzi wideo.

Często zadawane pytania

Jak długie powinny być podpowiedzi wideo AI?

Nie ma uniwersalnego standardu długości. Odpowiednia długość zależy od złożoności koncepcji kreatywnej i używanej platformy. Poziom V1 (15–30 słów) daje uniwersalne wyniki na każdej platformie. Poziom V2 (50–80 słów) stanowi optymalny zakres dla większości platform — jest wystarczająco szczegółowy, ale nie przeciąża modelu. Poziom V3 (100–200 słów) zapewnia najbardziej kontrolowane wyniki na platformach obsługujących długie polecenia, takich jak Seedance i Sora. Korzystając z Keeling, należy zachować około 50–80 słów. Kluczowym wskaźnikiem nie jest liczba słów, ale to, czy każdy element formuły został kompleksowo uwzględniony.

Czy doświadczenie w fotografii jest niezbędne do tworzenia skutecznych podpowiedzi wideo?

Nie jest to niezbędne, ale zrozumienie tego będzie niezwykle pomocne — a ten przewodnik właśnie przekazał Ci podstawową wiedzę. Nie potrzebujesz dyplomu z filmu; musisz jedynie znać nazwy 10–15 rodzajów ruchów kamery, rozumieć emocjonalny wpływ różnych stylów oświetlenia i posiadać słownictwo opisujące atmosferę. Dodaj do zakładek sekcje Język ruchów kamery i Biblioteka słów kluczowych dotyczących atmosfery i powracaj do nich wielokrotnie, aż terminy te staną się dla Ciebie naturalne.

Czy ten sam komunikat może być używany na różnych platformach wideo AI?

Oczywiście — uniwersalna formuła ma uniwersalne zastosowanie. Jednak każda platforma interpretuje polecenia w inny sposób. Polecenia zoptymalizowane dla Sora (długie, płynne, kładące nacisk na fizykę) mogą wymagać restrukturyzacji dla Keeling (krótsze, z naciskiem na akcję). Sekcja Techniki specyficzne dla platformy zawiera szczegółowe informacje na temat dostosowywania. Podstawowa formuła pozostaje niezmieniona; zmienia się jedynie format dostarczania.

Czym różni się ten przewodnik od przewodnika Seedance?

Przewodnik Seedance Prompt jest dostosowany do konkretnej platformy — zawiera informacje na temat formatu scenariusza Seedance, odniesień do obrazów oraz ponad 50 gotowych do użycia podpowiedzi. Niniejszy przewodnik ma charakter uniwersalny — zawiera podstawowe informacje na temat pisania podpowiedzi, które można wykorzystać na każdej platformie. Niniejszy przewodnik można traktować jako podręcznik, a przewodnik Seedance jako praktyczny manuał dotyczący konkretnego narzędzia.

Jak opisać ruch kamery, jeśli nie znasz terminologii filmowej?

Najpierw opisz, co widzowie mają zobaczyć i poczuć. „Kamera powoli zbliża się do twarzy bohatera” to ujęcie z wózka kamerowego „Kamera podąża za osobą idącą z boku” to ujęcie z jazdy kamery. Platformy AI całkiem dobrze rozumieją opisy w języku naturalnym. Jednak nauka terminologii technicznej (przy użyciu powyższego [słownika ruchów kamery](#tajna broń języka ruchów kamery)) daje znacznie lepsze wyniki, ponieważ modele AI są szkolone na filmach opisanych właśnie tymi profesjonalnymi terminami.

Czy należy uwzględnić odwrotne podpowiedzi (co nie powinno być uwzględnione)?

Niektóre platformy obsługują odwrotne podpowiedzi — instrukcje określające, czego należy unikać. Mogą one okazać się przydatne: „Bez nakładek tekstowych, bez znaków wodnych, bez rozmytych klatek”. Jednak większość nowoczesnych generatorów wideo opartych na sztucznej inteligencji skuteczniej radzi sobie z problemami jakościowymi dzięki pozytywnym specyfikacjom. Zamiast pisać „bez słabego oświetlenia”, określ „oświetlenie Rembrandta z lewej strony kamery”. Zamiast „bez drżących ujęć”, określ „płynny ruch steadicamu”. Pozytywne podpowiedzi kierują sztuczną inteligencję w stronę pożądanego rezultatu; negatywne podpowiedzi jedynie informują ją, czego należy unikać, pozostawiając alternatywy przypadkowi.

Jak zachować spójność postaci w wielu podpowiedziach?

Utrzymanie spójności postaci w wielu generacjach filmów AI jest jednym z najtrudniejszych aspektów pisania promptów. Pomocne są trzy strategie: (1) Zastosuj bardzo szczegółowy opis postaci, powtarzając go dosłownie między promptami – „kobieta pod koniec dwudziestki, Japonka, długie czarne włosy, oversize'owy płaszcz z wełny w kolorze grafitowym, kremowy golf”. (2) Wykorzystanie przepływów pracy typu „obraz do wideo” — przesyłanie obrazów referencyjnych postaci do animacji AI. Seedance obsługuje tę funkcję za pomocą odniesień @Image. (3) Generowanie wszystkich klipów dla tej samej postaci w ramach jednej sesji, gdy tylko jest to możliwe, przy użyciu identycznych nasion lub ustawień stylu.

Czy istnieje jakieś narzędzie, które pomoże mi pisać podpowiedzi do filmów?

Tak. Generator podpowiedzi wideo Seedance akceptuje opisy w języku naturalnym w celu generowania w pełni ustrukturyzowanych podpowiedzi dotyczących listy ujęć, obejmujących język ruchu kamery, osie czasu, oświetlenie i projekt dźwięku. Szczegółowe wskazówki dotyczące obsługi można znaleźć w przewodniku po generatorze podpowiedzi wideo AI. Zalecany przebieg pracy: generowanie AI → ręczne udoskonalanie → produkcja wideo.

Zacznij już dziś pisać lepsze podpowiedzi do filmów

Obecnie dysponujesz kompleksowym zestawem narzędzi: formułą siedmiu elementów, słownikiem ruchów kamery obejmującym ponad 15 technik, czterowymiarową biblioteką słów kluczowych dotyczących atmosfery zawierającą ponad 50 terminów, pięcioma przykładami ilustrującymi ewolucję od podstawowych standardów do standardów kinowych, metodologią projektowania dźwięku oraz technikami optymalizacji dostosowanymi do konkretnych platform.

Różnica między amatorskimi a profesjonalnymi filmami tworzonymi przy użyciu sztucznej inteligencji nie polega na narzędziach, ale na podpowiedziach. Pisanie podpowiedzi to umiejętność, którą można doskonalić poprzez praktykę.

Trzy sposoby na rozpoczęcie:

Przećwicz formułę. Wybierz dowolny temat, przygotuj wersje robocze V1 → V2 → V3. Porównaj wyniki. Poprawa będzie natychmiastowa i znacząca.
Wykorzystaj generator podpowiedzi. Pozwól sztucznej inteligencji zająć się strukturą, a następnie wykorzystaj swoją wiedzę na temat ruchu kamery i atmosfery, aby udoskonalić wynik. Wypróbuj generator podpowiedzi wideo →
Stwórz swoje pierwsze wideo. Wybierz najlepszy pomysł i stwórz wideo już teraz. Otwórz generator wideo →

Więcej natychmiastowych inspiracji i gotowych do użycia przykładów:

10 praktycznych podpowiedzi dotyczących filmów AI — Sprawdzone podpowiedzi z iteracjami V1→V2→V3
Kompletny przewodnik po technologii tekst-wideo AI — Zrozumienie technologii stojącej za narzędziami
Przewodnik po generatorze podpowiedzi AI do filmów — Pozwól AI tworzyć podpowiedzi za Ciebie
Przewodnik po podpowiedziach Seedance — Ponad 50 podpowiedzi specyficznych dla Seedance

Poznaj Seedance 2.0 →

Najlepszy film AI, jaki kiedykolwiek stworzysz, zaczyna się od następnego polecenia, które wpiszesz.

Przewodnik po pisaniu podpowiedzi wideo AI: od początkującego do jakości kinowej

Spis treści