2月15日扶檐,OpenAI 發(fā)布了文生視頻模型 Sora葫松,又一次震驚世界瓦糕,引爆全網(wǎng),其影響相當(dāng)出圈腋么,對(duì)其的討論不光在技術(shù)圈了咕娄。
本文是對(duì)官方 Sora 介紹的梳理,能夠?qū)?Sora 有基本的認(rèn)識(shí)珊擂。
Sora
Sora 是一個(gè)文生視頻模型圣勒,可以根據(jù)用戶輸入生成長(zhǎng)達(dá)一分鐘的視頻徐块,可以遵循用戶指令并保證生成視頻的質(zhì)量。
能力
目前發(fā)現(xiàn)的能力有:
- 可以生成多角色灾而、特定運(yùn)動(dòng)和準(zhǔn)確表現(xiàn)主體和背景的細(xì)節(jié)。
- 可以理解并表現(xiàn)出事物在真實(shí)物理世界的存在形式扳剿。
- 能夠深入理解用戶指令旁趟,能夠充分解析用戶指令并生動(dòng)表達(dá)出來(lái)。(這個(gè)需要看官方的演示視頻才能真切感受庇绽,指令一句話锡搜,但是生成視頻體現(xiàn)出的內(nèi)容很豐富)
- 在一個(gè)視頻中創(chuàng)建多鏡頭,并在多個(gè)鏡頭中保持角色一致瞧掺、視覺(jué)風(fēng)格一致耕餐。
不足
目前的不足:
- 可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理
- 可能無(wú)法理解物體之間的因果關(guān)系,例如辟狈,一個(gè)人可能咬了一口餅干肠缔,但之后餅干可能沒(méi)有咬痕
- 可能會(huì)混淆提示的空間信息,例如混淆左右
- 可能難以準(zhǔn)確表現(xiàn)隨著時(shí)間發(fā)生的事件哼转,例如遵循指定的相機(jī)軌跡
相關(guān)技術(shù)點(diǎn)
對(duì)技術(shù)介紹較為淺顯明未,實(shí)現(xiàn)方式都不清楚,當(dāng)前僅作為了解即可壹蔓,詳細(xì)情況可以去看官方的技術(shù)報(bào)告
- Sora 是擴(kuò)散模型趟妥。
- Sora 可以生成視頻,或者在原有視頻后面擴(kuò)展佣蓉。
- 讓模型一次進(jìn)行多幀預(yù)測(cè)披摄,從而讓視頻中的主體保持一致,即使短暫離開視頻勇凭,后面再次出現(xiàn)時(shí)與之前一樣疚膊。(問(wèn)題:什么是多幀預(yù)測(cè)?如何實(shí)現(xiàn)的套像?)
- Sora 使用 Transformer 架構(gòu)酿联。(問(wèn)題:擴(kuò)展模型和Transformer是什么關(guān)系?)
- 將視頻和圖像作為較小數(shù)據(jù)單元的集合夺巩,這個(gè)小的數(shù)據(jù)單元叫做 patch贞让,每個(gè) patch 和 GPT 中的 token 類似。(問(wèn)題:patch 中的視頻和圖像通過(guò)什么形式表現(xiàn)的呢柳譬?一個(gè)patch有多少數(shù)據(jù)量呢喳张?)
- 通過(guò)統(tǒng)一的數(shù)據(jù)表現(xiàn)形式,可以訓(xùn)練不同時(shí)長(zhǎng)美澳、分辨率和縱橫比的視頻销部,因此訓(xùn)練數(shù)據(jù)更為廣泛摸航。(問(wèn)題:如何實(shí)現(xiàn)統(tǒng)一表現(xiàn)的呢?)
- Sora 建立在 DALL·E 和 GPT 模型的研究之上舅桩。Sora 使用了 DALL·E 3 的重述技術(shù)(recaptioning technique)酱虎,通過(guò)為視覺(jué)訓(xùn)練數(shù)據(jù)生成詳盡的描述性文字說(shuō)明,大幅提升了模型對(duì)用戶在視頻生成中文字指令的理解和執(zhí)行能力擂涛,從而能夠忠實(shí)地實(shí)現(xiàn)用戶指令的意圖读串。
- Sora 可以根據(jù)指定的靜態(tài)圖片生成視頻,擴(kuò)展視頻撒妈,視頻補(bǔ)幀恢暖。
影響和意義
OpenAI 官方認(rèn)為:
Sora 作為能夠理解和模擬現(xiàn)實(shí)世界的基礎(chǔ)模型,這一能力將是實(shí)現(xiàn) AGI 道路上的重要里程碑狰右。
進(jìn)一步了解
大家可以去看官方的技術(shù)報(bào)告:Video generation models as world simulators