Tři výzvy, tři vítězství. Videomodel Sora od OpenAI i přes chyby vyhrál v testu Financial Times
Deník Financial Times se rozhodl otestovat nový videomodel Sora z dílny OpenAI a porovnat ho s konkurenčními Runway a Pika. Přestože je tvorba Sory (i ostatních videomodelů) zatím nedokonalá, výsledky testů, které zahrnovaly například generování animací či reklam, jsou působivé a Sora dokázala nejvíce.
redaktorka
Samotný test probíhal tak, že redaktoři FT požádali špičky z oboru animace, tvorby reklamy a realit, aby napsali podněty pro vytvoření videí, která by následně mohli použít pro svou práci. A poté se jich zeptali na názory, jak může taková technologie v budoucnu změnit jejich činnost.
Financial Times upozorňují, že v době, kdy se podněty psaly, ještě Sora nebyla uvolněná pro veřejnost. Společnost OpenAI proto před odesláním výsledných klipů některé podněty upravila, což podle ní vedlo ke kvalitnějším videím. Aby byl test spravedlivý, tak se původní a upravené výzvy dostaly i do aplikací Pika a Runway.
Výzva, kterou psala Charlotte Bunyanová, spoluzakladatelka společnosti Arq a poradkyně v oblasti reklamy, měla za cíl vytvořit kampaň pro známý supermarket na hlavní ulici a zněla takto:
„Two 8-year-old children, a boy and a girl, laugh with happiness as they spin around on a roundabout mafe of watermelon, next to them in the brightly-lit surreal playground is a large sloping banana slide and a climbing frame entirely created from runner beans.“
V překladu tedy měla umělá inteligence generovat „dvě osmileté děti, chlapce a dívku, kteří se šťastně smějí, když se točí na kolotoči z melounu a vedle nich je na jasně osvětleném surrealistickém hřišti velká šikmá banánová skluzavka a prolézačka z fazolí.“
Open AI upravila výzvu tak, že změnila děti na lidi bez určení pohlaví i dalších znaků a dále změnila výraz „as they spin around“ za „while sitting“, což Charlotte Bunyanová komentovala několika řečnickými otázkami.
„Ráda bych věděla, proč došlo k výměně dvou konkrétních dětí za dva obecné lidi. Je to otázka ochrany? Nebo je pro AI složitější generovat děti, protože se na ně tvůrci při školení modelu nezaměřovali tolik? A proč Sora vygenerovala bělocha s plnovousem a hnědými vlasy, když bylo zadání obecné? To samozřejmě vyvolává otázky ohledně zaujatosti modelu.“
reprofoto Runway/Hrot24
Když se pak ale vyjadřovala k samotné kvalitě generovaných videí, Soru pochválila s tím, že prezentace lidí byla konzistentní a samotná vizualizace fantastického hřiště byla věrně ztvárněna z hlediska popisu jednotlivých prvků, což se podle ní ostatním nepodařilo.
„Výsledek práce Piky byl příliš surrealistický a postrádal detaily z výzvy. I tak byla ale dětská verze mnohem lepší než ta obecně dospělá, zprostředkovávala totiž pocit radosti a štěstí silněji než ostatní modely. Runway bych zařadila někam doprostřed. V dospělé verzi bylo méně chyb, ale zároveň chyběly detaily z výzvy.“
Charlotte Bunyanová také tvrdí, že videa generovaná Sorou by potenciálně mohla zkusit využít. Podle ní totiž tyto nástroje urychlí způsob, jakým ostatním sdělujeme kreativní nápady. „Vím, že panuje spousta obav, že nám umělá inteligence vezme veškerou práci. Myslím, že bychom se měli v úvahách zaměřit spíše na pozitiva. Tedy na to, jak nám naši činnost usnadní a uleví od některých břemen.“
Shutterstock.com
Druhým testerem videomodelů byl Alex Williams, animátor, který se podílel například na vzniku filmu Lví král. Jeho výzva, kterou opět v OpenAI upravili, zněla v této upravené verzi následovně:
„Create a 20-second short film in the style of an animated short about a blue flamingo that wants to fit in with his friends. Blue is teased by the other flamingos who make fun of him for his funny colour. His parents tell him he just has to be tough and resilient.“
Do češtiny by se výzva dala přeložit jako „vytvoř dvacetivteřinový krátký film ve stylu animovaného filmu o modrém plameňákovi, který chce zapadnout mezi své kamarády. Modrého plameňáka ostatní plameňáci škádlí a dělají si z něj legraci kvůli jeho vtipné barvě. Rodiče mu ale říkají, že musí být houževnatý a tvrďák.“
Výsledky práce všech tří modelů ho ale zatím zcela nepřesvědčily. „Každé z videí je svým způsobem úžasné, ale každé má zároveň viditelné chyby, jako jsou měnící se tvary hlav plameňáků, hlavy, které nemají těla, či plameňáci, kteří splývají s ostatními. Zatím to nefunguje, ale věřím, že se modely do budoucna vyladí.“
Druhý problém, na který Alex Williams upozornil, byl fakt, že se modelům vůbec nepodařilo vytvořit krátký film se začátkem, středem a koncem. „Takže nezvládly splnit to, v co jsem doufal. Na druhou stranu to, co modely zvládají z hlediska animace, je působivé.“ Podle něj se obor animace od 80. let, kdy začínal, velmi změnil. Nepochybuje prý o tom, že generování videí prostřednictvím AI je největší změnou v jeho životě.
„Přirovnal bych to k přechodu z 2D na 3D animaci, který se odehrál v půlce 90. let, kdy vyšel Příběh hraček. V komunitě ručně kreslících animátorů byl vůči těmto změnám zpočátku velký odpor. I já jsem ho měl a trvalo mi několik let, než jsem si uvědomil, že tuto změnu musím přijmout, protože je obrovským tahounem úspěchů animovaných filmů.“
reprofoto Sora/Open AI/Hrot24
Třetí výzvu pro videomodely psala Ashley Shakibaiová, produkční manažerka komerční realitní kanceláře OBI Property. Po umělé inteligenci chtěla vytvořit propagační video budovy v Manchesteru.
„A single tracking shot. Starting with a slow, wide angle, clockwise, aerial orbit of Manchester, UK, on a sunny day. The camera zooms into a street where two smily creative professionals are walking along the pavement.“
Tedy volně přeloženo: „Jediný záběr v pohybu. Začíná pomalým širokoúhlým obletem Manchesteru ve Velké Británii za slunečného dne a ve směru hodinových ručiček. Kamera pak sletí až na ulici, kde se po chodníku procházejí dva usměvaví kreativci.“
Výsledky byly opět plné chyb, ale Sora podle ní odvedla zejména na začátku slušnou a soudnou práci. „Přechod mezi etapami scénáře bude vždycky složitý a ona s tím samozřejmě bojovala. Ale myslím, že fotorealismus na konci záběru byl docela příjemný a překvapivý,“ hodnotila výsledek.
Dodala, že součástí výzvy byli lidé chodící po budově. „To se ale Soře nepodařilo do videa zakomponovat vůbec a kromě toho chybělo i mnoho dalších prvků.“
Modely Pika a Runway si s výzvou neporadily skoro vůbec. První jmenovaný zvládl generovat pouze slunečný den, jinak video ze zadání nedokázalo splnit nic. A to samé platí i pro Runway. „Musela jsem se smát, když jsem se dívala na jeho práci. Je tam trochu víc fotorealismu, ale lidé chodí pozpátku, takže video je naprosto nevěrohodné.“
Ashley Shakibaiová se ještě na závěr zamyslela i nad budoucností AI v oboru realit. „Jako profesionál v oboru očekávám dokonalost. Hledám realistickou kvalitu videa, a té umělá inteligence pravděpodobně nikdy zcela nedosáhne,“ prohlásila na úvod svého shrnutí.
„Ale na konci videa od Sory si dvojice povídá v kavárně a vypadá to, že se dobře baví. To byl záběr, který bychom mohli teoreticky použít v rámci prodeje komerčních prostor jako ukázku vybavení v okolí,“ doplnila.
Znamená to, že podle ní stejně nakonec v oboru realit dospěje situace do bodu, kdy bude AI neuvěřitelně silný nástroj, který nevyhnutelně eliminuje používání jiných nástrojů. „Sora tedy časem vyruší propagaci tak, jak ji známe a používáme nyní.“