要說AI生成視頻最火的項目,當屬國產(chǎn)的快手可靈了逆巍,甚至比OpenAI的Sora還要火及塘,前者還是個ppt,可靈已經(jīng)在落地公測了锐极,博主在前段時間申請試用通道的時候笙僚,竟然排到幾十萬人開外的位置,好在最后還是拿到了使用資格灵再,還沒用上的外國友人只能干著急肋层,在社交媒體發(fā)「求求了!」
但就在最近翎迁,可靈開始收費了栋猖,而且年費要大幾千,著實有點兒壓力~
就在幾天前汪榔,對標快手可靈的CogVideoX橫空出世了蒲拉,還可以部署到本地電腦使用,從下圖可以看到其效果甚至不輸快手可靈
CogVideoX的提示詞上限為226個token痴腌,視頻長度為6秒雌团,幀率為8幀/秒,視頻分辨率為720*480士聪。用戶只需輸入一段文字锦援,就能快速生成充滿想象力的視頻,還可以自由選擇生成的視頻風格剥悟,包括卡通灵寺、3D、黑白区岗、油畫略板、電影等,并配上軟件自帶的音樂
CogVideoX通過融合文本慈缔、時間和空間三個維度蚯根,實現(xiàn)了高效、連貫的視頻生成,并采用DiT架構(gòu)和優(yōu)化算法颅拦,顯著提升了推理速度和生成質(zhì)量
工作流程
· 數(shù)據(jù)預(yù)處理:將輸入的圖像或視頻數(shù)據(jù)轉(zhuǎn)換為模型可以處理的格式蒂誉,將圖像切分成固定大小的patches(小塊),然后將這些patches轉(zhuǎn)換為特征向量
· 噪聲引入:在數(shù)據(jù)預(yù)處理后的特征向量上逐步引入噪聲距帅,形成一個噪聲增加的擴散過程右锨,這個過程可以視為從原始數(shù)據(jù)到噪聲數(shù)據(jù)的轉(zhuǎn)換
· 模型訓練:使用引入了噪聲的特征向量作為輸入,訓練Transformer模型碌秸,模型的目標是學習如何逆轉(zhuǎn)噪聲增加的過程绍移,即從噪聲數(shù)據(jù)恢復(fù)出原始數(shù)據(jù)
· 視頻生成:在模型訓練完成后,通過輸入隨機生成的噪聲和原始數(shù)據(jù)的映射關(guān)系到模型中讥电,經(jīng)過模型的處理后生成新的圖像或視頻
使用方法
1.點擊軟件界面右下角的load按鈕蹂窖,選擇項目自帶的workflow.json文件并加載
2.在新打開的界面中,輸入待生成視頻的提示詞
3.設(shè)置參數(shù)(一般保持默認)
4.點擊Queue Prompt按鈕
稍微等待一下恩敌,視頻就生成好了瞬测,甄嬛傳中皇上啃雞腿這段我怎么沒見過?
注意事項
①項目安裝路徑不要包含中文
②推薦使用GTX1070以上顯卡運行此項目
③使用過程中若不慎關(guān)閉軟件后臺纠炮,請重新打開月趟,并刷新網(wǎng)頁