這星期德克薩斯大學(xué)奧斯汀分校的 Raymond Mooney 教授來組里作了一場研討會构挤。曹同學(xué)請來了這樣一位大神涨颜,組里的老師和學(xué)生就像餓狼撲食一樣瓜分了和他見面的時間实蔽。我正忙著修改文章上炎,只是去聽了 talk。說不定當(dāng)年拒我的套詞和還有發(fā)拒信蕊程,也有他的功勞嘞椒袍。
他主要是講,如何從短視頻里生成一句話來描述它存捺。輸入是一幀幀的畫面槐沼,待到全部輸入完了,信息已經(jīng)保存在一個向量里頭捌治。然后岗钩,再一個單詞一個單詞地輸出成句子。在決定輸出一個單詞的時候肖油,所用的信息就是上一個輸出的單詞兼吓,和剛才所說的表示視頻內(nèi)容的向量。
他先講了一下以往人們教電腦“看圖說話”的方法森枪。輸入一張靜態(tài)的圖片视搏,先由一些計算機視覺系統(tǒng)識別出人啊、馬路啊县袱、各種物件浑娜,然后把這些東西交給語言模型。語言模型根據(jù)這些名詞式散,找出它們最可能的組合方式筋遭。假如畫面中有個人,后面跟著部攝像機暴拄。電腦一組合漓滔,就生成出“人扛著攝像機”這樣的句子來。其實它根本沒有看出“扛著”乖篷;這恐怕只能叫計算機幻覺了(笑)响驴。這樣做效果倒是不錯,能忽悠很多人覺得有那么點智能撕蔼。
他的系統(tǒng)當(dāng)然要克服這個毛病豁鲤。視頻和句子的訓(xùn)練數(shù)據(jù)可以從給視障人士收聽的電影解說音軌里提取,或是在亞馬遜上請人寫鲸沮,但終究是不夠多畅形。所以他先用靜態(tài)圖片識別的數(shù)據(jù)訓(xùn)練了,再拿視頻去練诉探。他能證實日熬,如果打亂幀的次序,效果就不那么好了肾胯;說明電腦有效利用了動態(tài)的畫面竖席。
這給我一樣啟發(fā)。不同于先用計算機視覺識別出物件的方法敬肚,這直接把一幀幀畫面(可能不是像素毕荐,而是處理好的視覺特征,每十幀輸入一幀)輸進去艳馒,信息量很大憎亚,幀和幀之間又有很多重復(fù)员寇,必須要有一個信息篩選和識別重復(fù)部分的過程。之前聽說過的 encoder—decoder 模型第美,都是輸入什么信息就輸出什么蝶锋,如機器翻譯,基本不(希望)存在信息損失什往。而且這里要用到連貫性扳缕,這對于應(yīng)用到自動摘要上是重要的。問題在于他只輸出一個句子别威,若要輸出一篇摘要躯舔,至少是一段話∈」牛可能可以從分割文章后各生成一句話做起粥庄。
作為一個 recurrent 神經(jīng)網(wǎng)絡(luò)(recurrent 一詞有譯成“遞歸”的豺妓,但 recursive 才是遞歸)的最近皈依者飒赃,他在講座里也夾帶了些私貨。他認(rèn)為科侈,向量不足以表達復(fù)雜的結(jié)構(gòu)载佳。要是訓(xùn)練個神經(jīng)網(wǎng)絡(luò),不是把什么都保存成一個向量的一堆數(shù)字臀栈,而是保存成“知識關(guān)系圖”(腦圖蔫慧,我想也不錯)之類的,那該多好呢权薯。
這想法正合我意姑躲。有兩個直覺在隱約地指導(dǎo)我這些年的思路:(一)自然語言是基于一堆離散的概念符號的。人的思維本來是一片混沌盟蚣,自從有了語言黍析,就好像盤古開天地,清晰起來了屎开。用一些基本的概念阐枣,再組合出復(fù)雜的概念。這樣就方便了記憶奄抽、推理蔼两、交流和記錄,文明就發(fā)展起來了逞度。沒有語言额划,人也有思維,但缺乏結(jié)構(gòu)档泽。(二)自然語言處理俊戳,或者人工智能揖赴,最終一定要實現(xiàn)一個離散的符號體系跟連續(xù)的統(tǒng)計數(shù)據(jù)之間的大一統(tǒng)。單詞向量并不能自己說明自己抑胎,比如“跑”有“移動”燥滑、“快速”、“腳不同時著地”等特征圆恤,但現(xiàn)在還沒法從“跑”的向量里看出來突倍。它只是記錄了“跑”常見的上下文腔稀,而這些特征需要從頻率數(shù)據(jù)里做反向推理才行盆昙。正面方向上,可以讓電腦程序像孩子一樣在模擬世界里學(xué)會詞義焊虏,尤其是“從不說出的常識”淡喜。這兩個方向的努力,不知道會在哪里相遇诵闭。
不過炼团,組里的教授歷來反對我的這些想法。我也不方便把這些哲學(xué)思想寫進畢業(yè)論文里疏尿,就只寫我做了什么瘟芝。尤其是那個用思維的“基本粒子”進行組合的想法,他們認(rèn)為是早已被淘汰的理論——當(dāng)然要看是分成什么基本粒子了褥琐,分成金木水火土固然是錯锌俱,但分成原子、質(zhì)子敌呈、夸克贸宏,那就是正路了(嗎)。語言的組合問題(compositionality)磕洪,在鹿死誰手之前先存?zhèn)€念想吧吭练。