摘要:本文邀請iDST高級算法專家劉揚(yáng),將從視頻云和人工智能技術(shù)結(jié)合的由來疗韵、消費(fèi)級視頻的特點(diǎn)兑障、iDST視頻AI技術(shù)進(jìn)展侄非、iDST的VENUS視頻分析平臺、視頻云+人工智能未來展望五個(gè)部分流译,來介紹iDST在視頻領(lǐng)域的技術(shù)和在視頻云上的工作成果逞怨。
在剛剛圓滿落幕的杭州云棲大會上,阿里巴巴董事局主席馬云宣布成立達(dá)摩院福澡,并將在3年內(nèi)投資1000億人民幣用于新技術(shù)研發(fā)叠赦。而iDST就是達(dá)摩院中的一員,她致力于打造涵蓋圖像視頻革砸、語音交互除秀、自然語言理解、智能決策等人工智能核心技術(shù)算利,肩負(fù)著在人工智能領(lǐng)域樹立阿里巴巴集團(tuán)世界領(lǐng)先的技術(shù)品牌使命册踩。
那iDST的人工智能技術(shù)與阿里視頻云強(qiáng)強(qiáng)聯(lián)合,將碰撞出怎樣的科技火花呢效拭?
本文邀請iDST高級算法專家劉揚(yáng)暂吉,將從視頻云和人工智能技術(shù)結(jié)合的由來胖秒、消費(fèi)級視頻的特點(diǎn)、iDST視頻AI技術(shù)進(jìn)展慕的、iDST的VENUS視頻分析平臺阎肝、視頻云+人工智能未來展望五個(gè)部分,來介紹iDST在視頻領(lǐng)域的技術(shù)和在視頻云上的工作成果肮街。
視頻云和人工智能結(jié)合的由來
視頻AI是由幾方面因素組成风题。最底層是云計(jì)算平臺,它包括存儲嫉父、海量視頻的分布式計(jì)算和流媒體處理能力俯邓,這是基礎(chǔ)。中間層是人工智能技術(shù)熔号,包含了不同的人工智能處理模塊稽鞭,有機(jī)器學(xué)習(xí)、模式識別引镊、計(jì)算機(jī)視覺等朦蕴,來為云端存儲的視頻提供多種分析和理解服務(wù)。上層就是數(shù)據(jù)弟头,數(shù)據(jù)來源于兩個(gè)方面吩抓,一方面是媒體數(shù)據(jù),也就是實(shí)際要處理的媒資(介質(zhì))赴恨,比如廣播電視疹娶、視頻網(wǎng)站、短視頻伦连、視頻直播等雨饺,另一方面是海量用戶數(shù)據(jù),比如直播主播惑淳、視頻網(wǎng)站用戶额港、短視頻達(dá)人、新聞從業(yè)者等歧焦。
這上中下三層整個(gè)支撐了視頻AI的整個(gè)系統(tǒng)移斩,每一層都不可或缺。這里面數(shù)據(jù)是最為重要的一層绢馍,因?yàn)樗性朴?jì)算和視頻AI處理的能力向瓷,阿里云都可以提供,而在垂直細(xì)分市場中舰涌,真正能構(gòu)建行業(yè)壁壘和競爭優(yōu)勢的猖任,就是數(shù)據(jù)。
在視頻領(lǐng)域舵稠,數(shù)據(jù)就是視頻本身超升,那消費(fèi)級視頻擁有什么特點(diǎn)呢入宦?
消費(fèi)級視頻的生命周期及演變
消費(fèi)級視頻區(qū)別于監(jiān)控視頻、醫(yī)療視頻室琢、航天視頻乾闰、測繪視頻等專業(yè)領(lǐng)域視頻,它是用來娛樂大眾和被觀眾消費(fèi)的視頻盈滴,我們?nèi)粘I钪谐R姷膴蕵肪C藝涯肩、影視劇、直播巢钓、短視頻都屬于消費(fèi)級視頻病苗。它的整個(gè)生命周期分為四個(gè)階段,第一階段是生成症汹,視頻拍攝和錄制硫朦,第二階段是編輯,用戶或者平臺方進(jìn)行視頻處理和制作背镇,第三階段是視頻通過不同的方式和渠道分發(fā)到用戶手中咬展,第四階段是用戶對視頻進(jìn)行消費(fèi)。
隨著網(wǎng)絡(luò)的發(fā)展和短視頻的興起瞒斩,視頻的再次編輯->再次分發(fā)->再次消費(fèi)已經(jīng)成為了流行趨勢破婆。比如經(jīng)常在短視頻平臺上,看到了熱門影視劇中的片段胸囱,它經(jīng)過編輯處理可以在短視頻平臺上再次分發(fā)祷舀。
隨著時(shí)代的發(fā)展,消費(fèi)級視頻的生命周期也發(fā)生了很大變化烹笔。
生產(chǎn)階段裳扯,視頻從以往的專業(yè)設(shè)備拍攝,變成了如今的手機(jī)終端隨時(shí)隨地的采集箕宙;
編輯階段嚎朽,以往視頻編輯是由專業(yè)人員進(jìn)行剪輯铺纽,而如今視頻編輯的概念演變成了美顏柬帕、濾鏡等特效,降低了門檻狡门,用戶可以自由編輯陷寝;
分發(fā)階段,從最初的電視節(jié)目逐漸演變成了視頻網(wǎng)站的定向搜索觀看其馏,到如今十分普遍的APP feed流模式和個(gè)性化推薦凤跑;
體驗(yàn)階段,從以往的純粹看叛复,到現(xiàn)在的與視頻交互(包括電商仔引、互動游戲扔仓、廣告等等)。
由此可見咖耘,在視頻的不同生命周期內(nèi)翘簇,人工智能技術(shù)的應(yīng)用也有所不同。接下來我們一起看看阿里巴巴iDST在視頻領(lǐng)域研究的一些進(jìn)展儿倒。
視頻人工智能技術(shù)三大領(lǐng)域:視頻理解版保、視頻搜索、視頻編輯
這三點(diǎn)是人工智能在視頻云方面應(yīng)用最廣泛的三個(gè)領(lǐng)域夫否,我們將從這三個(gè)方面詳細(xì)闡述彻犁。
第一,視頻內(nèi)容理解技術(shù)
我們先了解下視頻的內(nèi)容怎么定義凰慈。
通常情況下我們認(rèn)為汞幢,視頻是圖像序列。但是視頻不僅僅只有視覺畫面微谓,視頻還包含聲音急鳄。聲音又分為語音和音頻兩種,語音我們可以通過技術(shù)轉(zhuǎn)換成文本堰酿,而音頻是能表達(dá)出特定場景的寓意疾宏。另外視頻還有運(yùn)動,物體的運(yùn)動信息触创,它能夠?qū)τ谝曨l中的行為類的內(nèi)容有強(qiáng)有力的表現(xiàn)形式坎藐。所以我們認(rèn)為,視頻內(nèi)容分析實(shí)際上就是對視頻中多模態(tài)信息分析的過程哼绑,理解視頻岩馍,其實(shí)就是理解這些多模態(tài)信息。
我們可以把視頻內(nèi)容簡單地分為兩類:一類是具有具象意義的內(nèi)容抖韩,例如人蛀恩、物體、場景茂浮、事件双谆;另一類是抽象意義的內(nèi)容:主題、情感等席揽。
對于視頻內(nèi)容的理解顽馋,我們會將視頻表現(xiàn)成有物理意義的標(biāo)簽。這個(gè)標(biāo)簽可以是不同粒度的幌羞,比如video-level的寸谜,整個(gè)視頻的類目是新聞、體育属桦,還是財(cái)經(jīng)熊痴。再或者clip-level比如視頻中的一個(gè)片段他爸,是武打、親吻還是賽車果善。甚至可以把標(biāo)簽定位到視頻的某一幀上讲逛,即frame-level的。
圖中綠色文字就是為視頻打標(biāo)簽的技術(shù)手段岭埠,包括視頻分類盏混、語音識別、人物識別惜论、OCR许赃、物體識別、場景識別馆类。
那在視頻內(nèi)容理解這一領(lǐng)域混聊,人工智能+視頻都做了什么?
視頻分類
在ACM MM‘17大規(guī)模視頻分類競賽中,阿里巴巴iDST團(tuán)隊(duì)平均準(zhǔn)確率(mAP)達(dá)到87.41%乾巧,獲得冠軍句喜。而在競賽中,借助于阿里云ODPS沟于,提取視頻關(guān)鍵特征咳胃,我們可以實(shí)現(xiàn)大規(guī)模的視頻分析處理能力,日處理規(guī)模為百萬視頻旷太。
視頻多模態(tài)分析
下圖包括OCR展懈,它可以對視頻中出現(xiàn)的文字進(jìn)行識別;ASR供璧,能夠?qū)σ曨l的語音轉(zhuǎn)文本存崖,可以為視頻實(shí)時(shí)加字幕。
視頻物體識別與定位
左邊那幅圖是物體識別睡毒,對應(yīng)到技術(shù)上就是圖像分類来惧,識別出視頻幀中包括什么物體,場景等演顾;中間是云上的物體檢測供搀,右圖是端上的物體檢測,不只能識別視頻中的物體是什么偶房,還能定位到物體在哪里趁曼。目前,已經(jīng)支持1000+物體的檢測和5000+物體的識別棕洋,已經(jīng)被廣泛應(yīng)用在云相冊和優(yōu)酷土豆的視頻打標(biāo)上。
目標(biāo)跟蹤
在物體檢測后乒融,就是目標(biāo)跟蹤的過程掰盘。視頻本身是有時(shí)域信息的摄悯,通過目標(biāo)跟蹤,我們可以準(zhǔn)確地知道物體的生命周期愧捕,可以精確分割出物體的時(shí)域片段奢驯。比如在淘寶商家上傳視頻的過程中,會自動檢測視頻中的商品并跟蹤次绘,在前段展示的時(shí)候瘪阁,用戶感興趣的話,可以點(diǎn)擊錨點(diǎn)邮偎,直接進(jìn)入商品頁管跺。
事件、行為禾进、動作豁跑、場景識別
其實(shí)在iDST的視頻分析系統(tǒng)中,這四塊技術(shù)的整體框架是相同的泻云。對于任意一段長視頻艇拍,我們都可以精確到視頻中的每一分每一秒,給其中的事件或動作打上標(biāo)簽宠纯,并且對輿情進(jìn)行分析卸夕。
視頻同款商品檢索
iDST從15年開始做視頻電商研究。之前如果在視頻中搜同款婆瓜,我們需要在視頻中進(jìn)行采幀娇哆,采幀之后對每一幀圖像中檢測到的物體進(jìn)行檢索。在連續(xù)的鏡頭中勃救,同一件物體碍讨,由于演員動作、遮擋蒙秒、形變等客觀因素干擾勃黍,相同物體的搜索結(jié)果相差很大。為了提高搜索準(zhǔn)確度晕讲,我們對同一件物體進(jìn)行跟蹤覆获,通過LSTM在時(shí)域?qū)ξ矬w序列進(jìn)行encoding,來進(jìn)行檢索瓢省。
個(gè)性化商品投放
這個(gè)能力已經(jīng)落地在天貓魔盒第一版邊看邊淘項(xiàng)目中弄息,它可以打通觀看視頻的用戶、視頻本身內(nèi)容勤婚、淘寶上的商品之間的關(guān)系摹量,它就會在最合適的視頻片段里投放用戶最感興趣的商品。
第二,視頻搜索技術(shù)
我們把視頻搜索技術(shù)分成三塊缨称,一塊是音視頻指紋凝果,主要用于相同視頻檢索;另一塊是視頻相似性睦尽,找的是相似的視頻器净;還有一塊是跨媒體檢索,主要用于多類型query視頻檢索当凡。
視頻指紋技術(shù)的應(yīng)用場景其實(shí)比較多山害,本身就是找同源視頻。什么是同源視頻沿量?我們在視頻網(wǎng)站上看到的浪慌,有的視頻加了片頭、片尾欧瘪、邊框眷射、翻轉(zhuǎn)、碼率和格式的轉(zhuǎn)換等佛掖,這些都是同源視頻妖碉。目前,同源視頻在檢索速度可以達(dá)到40:1芥被。視頻相似性欧宜,通過視頻向量的特征來度量不同視頻之間的相似性,這個(gè)功能主要被應(yīng)用在視頻搜索和視頻推薦中拴魄∪呷祝跨媒體視頻搜索,通過檢索文本匹中、語音夏漱、圖像和視頻片段等標(biāo)簽,在統(tǒng)一特征空間里找到對應(yīng)的視頻顶捷。
第三挂绰,視頻編輯技術(shù)
從技術(shù)角度來說,視頻編輯就是結(jié)構(gòu)化分析服赎。通過視頻幀和幀之間的相似性和其他方法對視頻進(jìn)行不同粒度的分解葵蒂。最細(xì)粒度就是幀,再往上一層是鏡頭重虑,進(jìn)一步就是場景践付。
在這個(gè)視頻結(jié)構(gòu)化分析的基礎(chǔ)上,我們會對視頻進(jìn)行編輯缺厉,一些編輯應(yīng)用可以體現(xiàn)在幾個(gè)方面:封面圖永高,打破傳統(tǒng)的視頻網(wǎng)站和APP用海報(bào)做封面圖的模式隧土,利用人工智能去選取最好的一張封面圖,吸引用戶的點(diǎn)擊乏梁,這點(diǎn)已經(jīng)在視頻云客戶次洼、淘系关贵、阿里大文娛產(chǎn)品中應(yīng)用遇骑;GIF動圖,對視頻中的幀做成GIF動圖揖曾,便于編輯快速瀏覽視頻內(nèi)容落萎,對視頻進(jìn)行打標(biāo)管理,提高運(yùn)營效率炭剪;Highlight和摘要练链,對視頻中的關(guān)鍵信息、吸引人的片段進(jìn)行自動提取奴拦,比如三分鐘看大片或者動態(tài)鏡頭展示媒鼓;拆條,它的應(yīng)用包括新聞拆條错妖,新聞聯(lián)播的視頻拆成獨(dú)立事件绿鸣,另外一種是UGC或者娛樂視頻,拆成片段暂氯,為短視頻APP提供一些資源潮模,進(jìn)行再分發(fā);特效就是對人物進(jìn)行美顏痴施、濾鏡擎厢,包括專場處理等等。
VENUS視頻服務(wù)平臺
VENUS是由阿里巴巴iDST和阿里視頻云一同打造的視頻服務(wù)平臺辣吃,這是一個(gè)智能分析與計(jì)算平臺动遭,通過國際權(quán)威的冠軍技術(shù),打造以視頻為入口的平臺服務(wù)神得。
視頻內(nèi)容理解服務(wù)
產(chǎn)品功能分為:視頻分類厘惦、語音轉(zhuǎn)字幕、人物識別循头、文本識別绵估,泛標(biāo)簽提取,應(yīng)用場景包括媒資管理卡骂,視頻分發(fā)国裳,廣告投放,視頻電商等全跨。依托于iDST強(qiáng)大的科研實(shí)力缝左,視頻內(nèi)容理解服務(wù)具備很多核心優(yōu)勢,其中包括剛剛前文講到的多模態(tài)分析,還有完善的標(biāo)簽體系和穩(wěn)定成熟的應(yīng)用渺杉。因?yàn)榘⒗锎笪膴屎吞韵档膹?qiáng)大的視頻生態(tài)環(huán)境蛇数,資源非常豐富,類目體系完備是越,所以服務(wù)的場景可以涵蓋電商耳舅、娛樂、短視頻倚评、長視頻版權(quán)劇等等浦徊。同時(shí),我們目前視頻內(nèi)容理解服務(wù)以及廣泛應(yīng)用在優(yōu)酷天梧、土豆盔性、UC、閑魚和手淘視頻內(nèi)容上呢岗,所以在集團(tuán)內(nèi)部經(jīng)過了大量的冕香、長期的驗(yàn)證之后,對外推出的服務(wù)一定是非常穩(wěn)定成熟的后豫。
視頻指紋服務(wù)
這個(gè)服務(wù)目前是相對來說比較成熟的服務(wù)悉尾,業(yè)務(wù)場景非常明確,包括用于視頻去重業(yè)務(wù)場景硬贯,版權(quán)保護(hù)和原創(chuàng)認(rèn)證(防止侵權(quán)焕襟,鼓勵PGC原創(chuàng)性,分成系統(tǒng))饭豹,安全審核(通過黑名單庫來做視頻安全審核)暇藏。目前視頻指紋技術(shù)的優(yōu)勢在于能夠多場景適配(格式楣颠、分辨率)巡蘸,對不同分辨率的同源視頻具備很好的識別能力鬼癣,并可以根據(jù)業(yè)務(wù)方需求進(jìn)行秒級的實(shí)時(shí)擴(kuò)展,另外翘悉,因?yàn)樵谔卣鬟x取上做了很多的深入研究茫打,視頻指紋的精確度也非常高。
視頻智能編輯服務(wù)
涵蓋了智能封面圖妖混、視頻摘要老赤、視頻Highlight、GIF制市、視頻切換化等多項(xiàng)產(chǎn)品功能抬旺,等你上傳了一個(gè)視頻后,你的所有編輯需求都可以一次性搞定祥楣。這里智能封面圖也支持根據(jù)用戶信息的實(shí)時(shí)反饋和行為日志开财,實(shí)現(xiàn)個(gè)性化的首圖投放汉柒,也可以根據(jù)類目,進(jìn)行首圖自適應(yīng)選取责鳍,加強(qiáng)用戶體驗(yàn)碾褂。另外,智能首圖技術(shù)不僅僅是基于視覺的處理历葛,本身的模型是通過海量的用戶行為日志來做的正塌,我們會分析和提取用戶點(diǎn)擊率高的視頻首圖的共性,用這些信息指導(dǎo)模型的學(xué)習(xí)啃洋,所以传货,模型基于大數(shù)據(jù)生成的屎鳍,可以提高用戶的觀看時(shí)長宏娄,減少搜索復(fù)雜度。
視頻AI技術(shù)展望
阿里巴巴iDST高級算法技術(shù)專家劉揚(yáng)認(rèn)為:視頻中的電商和廣告是一個(gè)方向逮壁,用戶最終是想實(shí)現(xiàn)流量變現(xiàn)孵坚。所以,未來我們需要在不打擾用戶體驗(yàn)的情況下窥淆,進(jìn)行視頻電商和廣告的嘗試卖宠。另外,在未來忧饭,視頻的流量分發(fā)也十分重要扛伍,平臺方需要通過多種維度分析把最合適的視頻推給最需要的人,視頻AI技術(shù)在里面可以起到很大的作用词裤,這是我們的研究方向刺洒。最后,視頻編輯中版權(quán)素材庫認(rèn)證吼砂、版權(quán)追訴逆航、版權(quán)交易的業(yè)務(wù),以及視頻交互編輯的體驗(yàn)渔肩,都是有非常大的前景的因俐。人工智能技術(shù)在視頻AI領(lǐng)域能夠發(fā)揮的最大作用就是極大提高工作效率,節(jié)省人工成本和計(jì)算成本周偎。
我們都知道視頻是極耗資源的抹剩,視頻平臺是否能做到海量的視頻分析,在最短的實(shí)際內(nèi)高效進(jìn)行視頻處理蓉坎,并且低成本的穩(wěn)定運(yùn)維澳眷,這三點(diǎn)極其重要。利用阿里巴巴iDST和阿里云視頻云能力強(qiáng)大的技術(shù)實(shí)力袍嬉,VENUS視頻服務(wù)平臺可以輕松做到以上幾點(diǎn)境蔼,幫助客戶更好的進(jìn)行視頻內(nèi)容理解和分析灶平,在消費(fèi)級視頻中更全面的應(yīng)用計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù),達(dá)到高效工作的目的箍土。