近期镶摘,騰訊聯(lián)合上海交通大學(xué)開(kāi)源了一個(gè)可控視頻生成框架:MimicMotion嗽桩,類似阿里的全民舞王,只需要上傳一張照片凄敢,然后再上傳一段人物的舞蹈或者動(dòng)作視頻碌冶,就可以生成以照片中人物為原型的動(dòng)作或者舞蹈視頻了。
MimicMotion 可以根據(jù)我們上傳的視頻生成任意長(zhǎng)度的高質(zhì)量視頻涝缝。通過(guò)漸進(jìn)式潛融合策略扑庞,不管多長(zhǎng)的視頻都可以使用固定的資源進(jìn)行生成,理論上多長(zhǎng)的視頻生成都只是時(shí)間問(wèn)題拒逮,不會(huì)爆顯存了罐氨。
并且通過(guò)置信度感知姿態(tài)引導(dǎo)「這是指在生成視頻的過(guò)程中,系統(tǒng)會(huì)考慮它對(duì)于每個(gè)動(dòng)作的確定程度滩援。如果系統(tǒng)對(duì)某個(gè)動(dòng)作非常確定栅隐,它就會(huì)更自信地生成這個(gè)動(dòng)作;如果不太確定,它可能會(huì)更謹(jǐn)慎一些租悄〗骶浚」,讓生成的視頻更加流暢恰矩,過(guò)渡更加平滑记盒。
而且基于姿態(tài)置信度的區(qū)域損失放大顯著緩解了圖像的失真情況,更好的保證了視頻生成的質(zhì)量外傅。
這個(gè)對(duì)顯卡要求較高纪吮,N卡,顯存16G起可玩萎胰,請(qǐng)先確認(rèn)自己的顯卡是否能運(yùn)行再下載碾盟!
MimicMotion簡(jiǎn)介
MimicMotion 是由騰訊公司推出的一款人工智能人像動(dòng)態(tài)視頻生成框架。該框架利用先進(jìn)的技術(shù)技竟,能夠根據(jù)用戶提供的單個(gè)參考圖像和一系列要模仿的姿勢(shì)冰肴,生成高質(zhì)量、姿勢(shì)引導(dǎo)的人類動(dòng)作視頻榔组。MimicMotion 的核心在于其置信度感知的姿態(tài)引導(dǎo)技術(shù)熙尉,確保視頻幀的高質(zhì)量和時(shí)間上的平滑過(guò)渡。
功能特色
MimicMotion 的功能特色包括:
生成多樣化視頻:能夠根據(jù)用戶提供的姿態(tài)指導(dǎo)生成各種動(dòng)作的視頻內(nèi)容锨推,如舞蹈铅歼、運(yùn)動(dòng)或日常活動(dòng)换可。
控制視頻長(zhǎng)度:用戶可以指定視頻的持續(xù)時(shí)間椎椰,從幾秒的短片段到幾分鐘甚至更長(zhǎng)的完整視頻。
姿態(tài)引導(dǎo)控制:使用參考姿態(tài)作為條件沾鳄,確保視頻內(nèi)容在動(dòng)作上與指定姿態(tài)保持一致慨飘,實(shí)現(xiàn)高度定制化的視頻生成。
細(xì)節(jié)質(zhì)量保證:特別關(guān)注視頻中的細(xì)節(jié)译荞,尤其是手部等容易失真的區(qū)域瓤的,通過(guò)置信度感知的策略提供更清晰的視覺(jué)效果。
時(shí)間平滑性:確保視頻幀之間的過(guò)渡平滑磁椒,避免卡頓或不連貫的現(xiàn)象,使視頻看起來(lái)更加流暢自然玫芦。
減少圖像失真:通過(guò)置信度感知的姿態(tài)引導(dǎo)浆熔,減少由于姿態(tài)估計(jì)不準(zhǔn)確導(dǎo)致的圖像失真。
長(zhǎng)視頻生成:采用漸進(jìn)式潛在融合技術(shù),生成長(zhǎng)視頻時(shí)保持高時(shí)間連貫性医增。
資源消耗控制:優(yōu)化算法以確保資源消耗保持在合理范圍內(nèi)慎皱,即使在生成較長(zhǎng)視頻時(shí)也能有效地管理計(jì)算資源。
生成案例
使用教程
1.下載解壓一鍵包忽刽,雙擊一鍵啟動(dòng)天揖,等待自動(dòng)進(jìn)入WebUI界面
2、上傳一張 參考圖片 和 參考視頻
“
這里還需要提一下跪帝,如果視頻中的人物是全身的話今膊,上傳照片中的人物也盡量用全身照,要不然出來(lái)的效果可能沒(méi)那么好伞剑。
如果視頻中的人物是半身的斑唬,那也可以上傳半身的照片。
半身照黎泣,人物臉部的細(xì)節(jié)比較到位恕刘,人物的臉部就不太容易崩壞,人物一致性保持的還是相當(dāng)不錯(cuò)的抒倚。
”
3褐着、高級(jí)設(shè)置參數(shù)可以默認(rèn),也可以調(diào)節(jié)幀率衡便、分辨率等參數(shù)献起,最后點(diǎn)生成即可。
注:目前整個(gè)項(xiàng)目生成速度較慢镣陕,尤其是參數(shù)越高谴餐,速度越慢,請(qǐng)根據(jù)自己的顯卡設(shè)置參數(shù)呆抑。