最近,人工智能領(lǐng)域的領(lǐng)軍企業(yè)OpenAI發(fā)布了一個(gè)重磅消息,他們訓(xùn)練出了一個(gè)名叫Sora的 視 頻生成模型,它可以僅僅根據(jù)文字描述,生成長(zhǎng)達(dá)一分鐘的高保真 視 頻照宝。
這聽起來好像天方夜譚,但是看看下面Sora生成的幾段 視 頻,你就會(huì)立刻意識(shí)到,這個(gè)模型做到了什么。
是的,這些細(xì)節(jié)豐富句葵、栩栩如生的 視 頻場(chǎng)景,全都是Sora從零生成的,沒有使用任何預(yù)先錄制的 視 頻片段,僅僅依靠文字描述就達(dá)到了這樣逼真的效果厕鹃。
Sora的魔力在哪里?
Sora之所以能生成逼真的 視 頻,離不開幾項(xiàng)核心技術(shù)的支持:
1. 統(tǒng)一視 頻 數(shù)據(jù)表示
Sora將視 頻 數(shù)據(jù)表示為“碎片”,就像NLP模型中使用的詞語標(biāo)記兢仰。這種表示可以應(yīng)用于不同長(zhǎng)度、分辨率和寬高比的 視 頻,擴(kuò)大了模型的訓(xùn)練范圍剂碴。
2. 變壓器架構(gòu)
Sora使用了類似GPT語言模型的變壓器結(jié)構(gòu)旨别。這種結(jié)構(gòu)展現(xiàn)出了驚人的可擴(kuò)展性和生成能力。隨著參數(shù)和訓(xùn)練數(shù)據(jù)的增加,它的生成 視 頻 質(zhì)量不斷提升汗茄。
3. 高度描述性的字幕
Sora使用DALL-E 3的技術(shù),為視 頻 生成詳細(xì)生動(dòng)的文字描述,然后進(jìn)行訓(xùn)練。這大大提高了模型對(duì)語言的理解能力,可以更準(zhǔn)確地遵循文本提示來生成 視 頻铭若。
Sora的獨(dú)特之處在于,它不僅可以生成 視 頻,還具備了許多模擬和理解現(xiàn)實(shí)世界的能力:
- 可以生成具有一致3D運(yùn)動(dòng)效果的視 頻
- 可以在視 頻 內(nèi)模擬簡(jiǎn)單的物理交互,例如畫家在畫布上繪畫
- 可以生成記憶不同鏡頭間主體狀態(tài)的連貫視 頻(例如同一個(gè)人可以在不同鏡頭中出現(xiàn))
- 可以生成模擬數(shù)字世界(例如我的世界游戲)的視 頻
正是這些能力,使得Sora成為通用世界模擬器邁出的重要一步洪碳。它開始理解和模擬人、動(dòng)物以及環(huán)境在物理世界中的存在方式叼屠。
Sora的局限還在哪里?
當(dāng)然,Sora距離成為 完 美 的世界模擬器還有一定差距瞳腌。它當(dāng)前存在的主要局限包括:
- 難以準(zhǔn)確模擬許多基本物理過程,例如玻璃破碎
- 對(duì)物體狀態(tài)變化的建模不夠連貫(例如吃東西后食物沒有減少)
- 理解因果關(guān)系的能力仍較弱
- 無法持續(xù)高保真地生成非常長(zhǎng)的視 頻
但OpenAI的研究員認(rèn)為,隨著模型運(yùn)算量和訓(xùn)練數(shù)據(jù)的持續(xù)增加,這些局限都可以逐步被克服。Sora有潛力成長(zhǎng)為充當(dāng)數(shù)字世界镜雨、人工生命的高性能模擬器,對(duì)虛擬現(xiàn)實(shí)嫂侍、數(shù)字人等領(lǐng)域都將產(chǎn)生深遠(yuǎn)影響。
Sora意味著什么?
Sora的問世標(biāo)志著 視 頻 生成AI進(jìn)入新的階段荚坞。在它之前的視 頻 AI模型通常針對(duì)特定領(lǐng)域,生成視 頻 時(shí)間和質(zhì)量都有限挑宠。而Sora作為一個(gè)通用模型,開始模擬并理解物理世界的運(yùn)行方式。
這意味著通過不斷增強(qiáng)Sora,我們可以培養(yǎng)出數(shù)字世界和數(shù)字人類,他們能夠和我們一樣思考和行動(dòng)颓影。這可以 徹 底 改變?cè)S多行業(yè)的生產(chǎn)方式和人才結(jié)構(gòu)各淀。
例如在影視制作領(lǐng)域,Sora意味著概念設(shè)計(jì)師、導(dǎo)演诡挂、編劇甚至演員的部分工作都能被自動(dòng)化碎浇。內(nèi)容生產(chǎn)成本會(huì)大幅下降,更多人都可以參與創(chuàng)作×祝基于語音和AI創(chuàng)作的元宇宙影視作品也會(huì)層出不窮奴璃。
游戲和設(shè)計(jì)師們也可以使用Sora作為想象力助推器,只需要輸入文字描述,就可以立刻體驗(yàn)各種創(chuàng)建場(chǎng)景,加速靈感迭代。
總之,Sora開啟了數(shù)字世界的新紀(jì)元,也必將深刻影響許多創(chuàng)意產(chǎn)業(yè)的生態(tài)城豁。它預(yù)示著一個(gè)AI與人類共生共榮的美好未來苟穆。