【總的來說】有用似乎也沒用,以后希望能深度學習
美圖數(shù)據(jù)部門北京技術總監(jiān)趙麗麗,在LiveVideoStackCon 2017上與我們一同分享了深度學習在短視頻視覺內(nèi)容分析中的核心應用方向,以及前沿深度學習算法在產(chǎn)品化應用于短視頻分析時的技術難點和解決方案艰猬。
分享包括四個方面,
1回顧深度學習的發(fā)展歷程和
2講述深度學習在短視頻領域進行自動化視頻內(nèi)容分析的意義和必要性,
3再結合美拍短視頻業(yè)務分享我們將深度學習應用到視頻內(nèi)容理解中遇到的問題和解決思路
4最后從產(chǎn)品出牧、數(shù)據(jù)以及技術層面展望后續(xù)的一些優(yōu)化方向。
有什么
識別視頻中的物體歇盼、挖掘主題舔痕、并將視頻特征信息提取保存
在哪里
檢測視頻發(fā)生的場景以及文字識別
做什么
檢測視頻中主體的行為、正在發(fā)生的事件以及視頻描述
這三部分是理解視頻內(nèi)容的基礎豹缀,我們在此基礎上對美拍視頻內(nèi)容做了第四個分析——“好不好”:首先我們要保證視頻內(nèi)容是合法合規(guī)的伯复,因此要做內(nèi)容審核;同時還要做畫質(zhì)評估來保證畫面質(zhì)量邢笙,提升用戶的觀看體驗啸如;此外為了評價視頻是否受歡迎,我們會用深度學習做播放預測氮惯。
標準化的標簽體系
主題叮雳、物體、場景妇汗、事件帘不、行為、
人工不可行的原因
量大
未知
時效性
機器算法好
算法支撐:
圖像識別:技術已經(jīng)很完善了
場景理解:生活場景杨箭?用戶場景寞焙?我需要了解現(xiàn)在所有的場景??
質(zhì)量評估:我感覺我工作以后就一直做這塊的工作捣郊,真的做煩了
轉碼分析
在線推理辽狈、訓練、標注的交互閉環(huán)
智能視覺分析服務----在線業(yè)務提供推理服務
自動化訓練服務對模型訓練進行實時更新模她,解決模型時效性問題稻艰。
標注平臺則負責收集標注數(shù)據(jù),這部分數(shù)據(jù)包含兩類——人工標注團隊針對具體業(yè)務場景標注的數(shù)據(jù)以及審核業(yè)務數(shù)據(jù)時產(chǎn)生的一些并行標簽侈净。最上層是業(yè)務層尊勿,包括推薦、審核畜侦、畫像元扔、廣告搜索。
系統(tǒng)框架分為以下三部分:
視覺分析服務
內(nèi)容理解的語義標簽
對視頻的特征表示旋膳,它可能是一個浮點的高維向量澎语,也可能是一個二進制的哈希碼
模型訓練
標注
以下就可能跟工作相關了
如何有效定義數(shù)據(jù)標簽
三個方面
抽樣分析人工檢測
文本分析
第三部分是無監(jiān)督學習——這也是我們正在做的,它應用了視頻主題挖掘验懊,也就是對所有一個階段的視頻根據(jù)無監(jiān)督學習聚成幾類擅羞,然后對這個類別的類中心的數(shù)據(jù)進行分析,提取它的標簽义图、主題减俏、場景、事件碱工。
如圖:
(其實不是很明白娃承,但似乎又明白,因為數(shù)據(jù)結構課上學過關于圖的一些聚類問題怕篷,再琢磨以下)
它的核心是對輸入的大規(guī)模圖像集提取一個特征表示历筝,在這個特征表示的基礎上再構建一個相似關系圖進行聚類,相比于傳統(tǒng)方法對于新的數(shù)據(jù)需要重新進行聚類廊谓,它將這個過程拆分成兩部分:一個是圖的構建梳猪,一個是基于圖的聚類。而基于圖的聚類在這個過程的時間其實非常少蒸痹,那么當有新的數(shù)據(jù)時春弥,只需要把新的數(shù)據(jù)加入這個圖中做更新,再聚類的時間開銷很小电抚。
看來數(shù)據(jù)結構是必須要再學習以下的了,
哈希表是什么鬼竖共,我怎么沒有見過
哈哈哈哈
它的核心是對輸入的大規(guī)模圖像集提取一個特征表示蝙叛,在這個特征表示的基礎上再構建一個相似關系圖進行聚類,相比于傳統(tǒng)方法對于新的數(shù)據(jù)需要重新進行聚類公给,它將這個過程拆分成兩部分:一個是圖的構建借帘,一個是基于圖的聚類蜘渣。而基于圖的聚類在這個過程的時間其實非常少,那么當有新的數(shù)據(jù)時肺然,只需要把新的數(shù)據(jù)加入這個圖中做更新蔫缸,再聚類的時間開銷很小。
用上了沒有呀际起,別介紹分享了拾碌,我完全看不懂
深度哈希特征提取的研究成果,由于研究成果非常多街望,這里只舉兩個例子:監(jiān)督學習和非監(jiān)督學習校翔。監(jiān)督學習的思路是使用數(shù)據(jù)的一些標簽數(shù)據(jù)去進行訓練從而學習到哈希碼,eBay在今年關于視覺檢索中用到的哈希方法就是監(jiān)督學習灾前。而非監(jiān)督學習是利用圖像本身的一些相關信息進行學習防症,不利用任何的標簽數(shù)據(jù),比如我講一個圖像旋轉一定角度哎甲,它并不會關心這個圖像包含什么標簽捧杉,只會計算旋轉前后圖形之間的loss是最小的猫牡,從而保證學到的特征能夠更好的表示當前圖像。
好吧,如果我要是有時間我一定看看
我們提出了一個視頻的深度哈希方法佩研,這部分算法技術的相關論文” Deep Hashing with Category Mask for Fast
Video
Retrieval”放到了arxiv上[https://arxiv.org/abs/1712.08315],歡迎大家下載論文了解具體技術細節(jié)挂谍。
不想打字了
直接截圖吧
以下都是看不懂的掏觉,
大概就是什么時間復雜度呀,空間復雜度
我也不知道我大學都學得是什么
其實沒啥想法榴鼎,對于工作我只能說
優(yōu)化標注流程伯诬、提升標注的質(zhì)量,加快模型的迭代更新速度