作者:郎思呈
學(xué)號:16020188007
轉(zhuǎn)載自https://new.qq.com/omn/20181226/20181226A0E4WY.html
2018 年 12 月 17 日,由鵬城實驗室亥宿、新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟共同舉辦的「新一代人工智能院士高峰論壇」在深圳隆重開幕汰瘫。本次論壇將持續(xù)兩天禁添,由 17 日的主論壇和 18 日的醫(yī)療專題論壇組成黑滴。論壇以「『頭雁』穿云剃盾,云腦啟智」為主題逆屡,邀請了多位院士前鹅、國內(nèi)頂級科技企業(yè)技術(shù)負(fù)責(zé)人參加論壇做報告,論壇的重頭戲是院士 panel碌识,多位院士將針對人工智能現(xiàn)狀與發(fā)展的一些疑難問題展開討論碾篡。此次論壇匯聚了國內(nèi)人工智能領(lǐng)域頂尖專家,共同探討行業(yè)變革與技術(shù)創(chuàng)新筏餐、探尋 AI 邊界开泽,是 2018 年人工智能領(lǐng)域最值得關(guān)注的盛會之一。
360 集團副總裁魁瞪、360 人工智能研究院院長顏水成博士是 17 日下午主論壇第三位出場的嘉賓穆律,他的演講題目是《視覺智能:從攻堅到閉環(huán)》。
360 集團副總裁导俘、360 人工智能研究院院長顏水成
他說道峦耘,360 公司如今的研發(fā)不再局限在網(wǎng)絡(luò)空間,進一步拓展到了物理空間旅薄,而人工智能當(dāng)前主要聚焦打造四大人工智能引擎:運動引擎辅髓、交互引擎、視覺引擎以及決策引擎少梁。緊接著洛口,他也為大家介紹了360-NUS聯(lián)合實驗室在視覺智能領(lǐng)域的最新研究成果——Global Reasoning Unit,這個模塊可插入任意網(wǎng)絡(luò)凯沪,在淺層網(wǎng)絡(luò)就能使跨區(qū)域進行信息交換成為可能第焰。
同時,顏水成博士也分享個人在業(yè)界做研究的心得妨马,他強調(diào)挺举,學(xué)術(shù)界的研究和業(yè)界的研究有很大的區(qū)別,業(yè)界的研發(fā)必須回歸商業(yè)本質(zhì)烘跺,尤其要放在價值閉環(huán)與數(shù)據(jù)閉環(huán)的維度上進行思考豹悬。價值閉環(huán)方面,技術(shù)需要對閉環(huán)中的產(chǎn)品液荸、客戶 、企業(yè)和社會產(chǎn)生正向推動脱篙,不然就有失敗的可能娇钱。數(shù)據(jù)閉環(huán)方面,由于不存在完美的算法绊困,因此我們只能依賴特定場景的數(shù)據(jù)來不斷優(yōu)化算法文搂,進而優(yōu)化產(chǎn)品模型。
最后秤朗,顏水成博士用一組有趣的比喻結(jié)束了報告:在學(xué)術(shù)界做視覺智能研究就像戀愛中的男女煤蹭,而在工業(yè)界做研發(fā)則更像結(jié)婚后的男女。
以下為他的演講內(nèi)容。
非常高興今天有機會在這里做一次很特別的分享硝皂。我的背景比較特殊常挚,我在學(xué)術(shù)界待了大概 8 年,進入工業(yè)界也已經(jīng)有 3 年了稽物,今天的分享包括兩方面的內(nèi)容:一方面我想跟大家分享一個比較有價值的深度學(xué)習(xí)模型結(jié)構(gòu)奄毡;另一方面我想根據(jù)我在工業(yè)界的 3 年經(jīng)驗,談?wù)剬θ斯ぶ悄苎邪l(fā)贝或,特別是智能視覺研發(fā)的兩點感悟吼过。
360 的人工智能布局
360的核心是安全,現(xiàn)在我們把安全的概念從網(wǎng)絡(luò)空間拓展到了物理空間咪奖,在關(guān)注網(wǎng)絡(luò)空間問題的同時盗忱,通過 AI 能力,把安全的能力從網(wǎng)絡(luò)空間拓展到物理空間羊赵。
今年 5 月份趟佃,360 發(fā)布了 360 安全大腦。和視覺慷垮、語言不一樣揖闸,安全問題的數(shù)據(jù)標(biāo)注需要頂級專家,人的作用是至關(guān)重要的料身,所以汤纸,安全大腦是一個人機協(xié)同的系統(tǒng)。2018 年上半年芹血,360 的安全大腦對惡意程序攔截的次數(shù)贮泞,已達(dá)到了 400 億次;對于釣魚攻擊幔烛,在半年時間里的攔截次數(shù)也多達(dá) 200 多億次啃擦;此外對安卓手機中垃圾短信和騷擾電話的攔截次數(shù)也非常高,比如半年時間里對騷擾電話的攔截次數(shù)已達(dá)到 190 億次饿悬。我們可以看到它在這些方面的應(yīng)用非常典型令蛉,而用戶的反饋也可以進一步增強安全大腦的能力:用戶用得越多,安全大腦也就變得越智能狡恬。
我在360主要帶領(lǐng)建立360 人工智能平臺珠叔,為公司的互聯(lián)網(wǎng)業(yè)務(wù)和IoT 業(yè)務(wù)全面賦能〉芫ⅲ總的來說祷安,我們主要打造了四個引擎:
第一個是運動引擎,對于 IoT 來說兔乞,這是第一個非常重要的能力汇鞭,能讓智能硬件在地面上進行智能運動凉唐;
第二個是交互引擎,這是國內(nèi)很多公司都比較關(guān)注的點霍骄。以前台囱,我們對遠(yuǎn)場技術(shù)方面的關(guān)注并不是太多,技術(shù)主要以服務(wù)于 360 兒童手表為主腕巡。交互引擎除了為360手表提供支撐玄坦,也用于孵化新的語音類產(chǎn)品。
第三個是視覺引擎绘沉,我原來的研究方向以計算機視覺為主煎楣,這也算是我的老本行。當(dāng)前车伞,360 的視覺引擎主要分成兩塊:一塊是支持 360 的家庭安防生態(tài)择懂,例如 360 最近發(fā)布的一款門鈴,它是實實在在地在滿足有中國特色的需求另玖,比如當(dāng)有外賣困曙、快遞被送到家的時候,即使不在家谦去,也可以通過語音的方式讓外賣員慷丽、快遞員將貨物放在門口,與此同時鳄哭,這個門鈴還可以實時監(jiān)控這些貨物要糊;另一塊是對網(wǎng)上圖文、短視頻信息流的內(nèi)容進行安全審核和內(nèi)容結(jié)構(gòu)化分析妆丘。
第四個是決策引擎锄俄,這是搜索引擎公司特別關(guān)注的一個方面。決策引擎主要根據(jù)用戶的歷史行為勺拣,來建立相關(guān)的決策模型奶赠,去預(yù)測將來用戶可能會對什么東西感興趣以及會有一些怎樣的行為。360 對其主要有三個方面的應(yīng)用:一是金融領(lǐng)域的控制和決策药有,上周五 360 金融已在美國上市毅戈,對于其風(fēng)控的部分,360 提供了很多的支持和幫助愤惰;二是廣告苇经,在過去這段時間,360 的廣告業(yè)務(wù)因為使用決策引擎的相關(guān)技術(shù)羊苟,在技術(shù)的性能方面有了多次明顯提升;三是推薦感憾,通過深度學(xué)習(xí)的方法蜡励,推薦的效能得到有效提升令花。
個人研究心得
下面我分享一下個人在業(yè)界做研究的心得。
在學(xué)術(shù)界和工業(yè)界進行視覺智能研究凉倚,差別是非常大的兼都。在學(xué)術(shù)界研究視覺智能,更像是一個個人攻堅的擂臺賽稽寒,大家可能是針對某個具體問題扮碧、具體數(shù)據(jù),去不停地設(shè)計新的算法杏糙,從而提升其性能慎王。但是在工業(yè)界,則更像是一個綜合的閉環(huán)的大戰(zhàn)略宏侍,研究已不僅僅是某個小團隊的事情赖淤,類似一個大戰(zhàn)役,你可能需要后勤谅河、醫(yī)院咱旱,需要海、陸绷耍、空軍進行協(xié)同作戰(zhàn)吐限,才能保證這場戰(zhàn)爭的勝利。所以我覺得在工業(yè)界做視覺智能研發(fā)很重要的一點褂始,就是要回歸商業(yè)的本質(zhì)诸典,要把視覺智能研究放在價值閉環(huán)和數(shù)據(jù)閉環(huán)上進行思考和推進。
針對學(xué)術(shù)界病袄,今天我跟大家分享 360-NUS聯(lián)合實驗室近期在視覺智能領(lǐng)域的一個最新研究成果——Global Reasoning Unit搂赋。我們發(fā)現(xiàn)有不少人在思考這個問題:當(dāng)我們用深度學(xué)習(xí)做推理的時候,都是在用卷積神經(jīng)網(wǎng)絡(luò)進行推理益缠,然而卷積神經(jīng)網(wǎng)絡(luò)在淺層網(wǎng)絡(luò)無法感知遠(yuǎn)處的目標(biāo)脑奠。那有沒有一種方式可以在淺層網(wǎng)絡(luò)就能實現(xiàn)很好的感知遠(yuǎn)處目標(biāo)呢?
由于我的團隊是 1×1 卷積的推動者幅慌,因而在想盡量用 1×1 的卷積方法來實現(xiàn)這件事情宋欺。我們有一個想法:是否可能在任意的網(wǎng)絡(luò)插入一個模塊進行學(xué)習(xí)。為此胰伍,我的學(xué)生Yunpeng CHEN提出了一個思想齿诞,叫做 Global Reasoning Unit,將 5 個 1×1 的卷積以模塊的形式插入任意網(wǎng)絡(luò)做學(xué)習(xí)骂租,在淺層網(wǎng)絡(luò)就能對遠(yuǎn)處的目標(biāo)進行感知祷杈,使跨區(qū)域進行信息交換成為可能。無論是在分類任務(wù)渗饮,還是在其他的檢測但汞、分割任務(wù)中宿刮,這種方法都能有效提升現(xiàn)有網(wǎng)絡(luò)的性能。我覺得無論是在手機端還是智能硬件設(shè)備上私蕾,Global Reasoning 都將會有不錯的價值僵缺,所以今天在這里特別跟大家分享這個方向。
接下來我將針對工業(yè)界踩叭,跟大家分享一個研發(fā)需要注意的事項:在工業(yè)界做研發(fā)一定要回歸商業(yè)本質(zhì)磕潮,必須將我們的研發(fā)放在價值閉環(huán)和數(shù)據(jù)閉環(huán)里面,去不斷地思考和推進研發(fā)進度容贝。
什么叫價值閉環(huán)自脯?我估計現(xiàn)場很多朋友讀過一本書,叫《創(chuàng)新者的窘境》嗤疯,里面思考的問題是:為什么一些好的技術(shù)在大公司里面并不能被很好地利用起來冤今?其中分析到的一個主要原因是,這些技術(shù)對于技術(shù)創(chuàng)新者來說茂缚,可能是一件非常嗨的事情戏罢,但是對于產(chǎn)品方、最終的用戶以及生態(tài)中完成銷售環(huán)節(jié)的公司來說脚囊,可能并沒有帶來價值的提升龟糕。也就是說,當(dāng)技術(shù)沒有給所在閉環(huán)中的其他維度帶來真正的價值悔耘,它的落地會非常困難讲岁。因此,在工業(yè)界做研發(fā)衬以,我們的核心任務(wù)已不僅是「炫技」缓艳,還需要對所在閉環(huán)中的所有維度帶來正向價值,從而保證技術(shù)的落地和最終應(yīng)用看峻。
《創(chuàng)新者的窘境》這本書中提到了四個維度:技術(shù)阶淘、產(chǎn)品、客戶和企業(yè)互妓。不過我認(rèn)為做視覺智能方面的研究溪窒,還有一個非常重要的維度,叫做社會價值觀冯勉。當(dāng)技術(shù)落地到一款產(chǎn)品時澈蚌,如果它本身的社會價值觀不正的話,就不能產(chǎn)生正向的推動作用灼狰,這款產(chǎn)品遲早會失敗宛瞄。因此,我將價值閉環(huán)分成了五個維度交胚,其中份汗,不同維度之間相互依存伐厌,并通過彼此的驅(qū)動來提升各自的價值。比如說技術(shù)和產(chǎn)品:新的技術(shù)孵化了新的產(chǎn)品裸影,而產(chǎn)品收集了更多場景下的有效數(shù)據(jù),又反過來推動技術(shù)的迭代军熏;產(chǎn)品和企業(yè)則是相互促進的轩猩,產(chǎn)品質(zhì)量和銷量的提升,可以提升企業(yè)的品牌和利潤荡澎,而企業(yè)品牌又反過來會帶動產(chǎn)品的銷量均践,同時企業(yè)賺取利潤后,會加大技術(shù)投入摩幔,從而提升產(chǎn)品的質(zhì)量彤委。而企業(yè)和社會價值觀則是大家更需要注意的一點:企業(yè)文化造就了社會價值觀,員工的價值觀也會影響企業(yè)的效率或衡,其中最重要的一點是焦影,企業(yè)永遠(yuǎn)不能觸及倫理道德的底線。
另外封断,在工業(yè)界做視覺智能研究斯辰,尤其是做視覺智能相關(guān)產(chǎn)品的時候,數(shù)據(jù)閉環(huán)也非常關(guān)鍵坡疼。研究者可能更多地關(guān)注算法模型彬呻,不過算法模型和具體產(chǎn)品的后臺與用戶的交互就形成了一個數(shù)據(jù)閉環(huán),它是一個發(fā)現(xiàn)問題和迭代產(chǎn)品的過程柄瑰。
為什么要將研發(fā)放在一個數(shù)據(jù)閉環(huán)中呢闸氮?無論是做計算機視覺還是其他方向的研究,有一點是非常明確的——就是永遠(yuǎn)沒有完美的算法教沾,在這種情況下蒲跨,數(shù)據(jù)就變得非常關(guān)鍵。我常思考并與一些人進行討論的問題是:為什么中國會出現(xiàn)這么多做人臉識別的公司详囤,并且這些公司都還生存得非常不錯财骨?其中的一個核心原因是每家公司都具有特定場景下(如銀行、交通監(jiān)控藏姐、公共監(jiān)控等)的數(shù)據(jù)優(yōu)勢隆箩,而正是這些數(shù)據(jù)能夠讓它們?nèi)ゲ粩鄡?yōu)化模型,實現(xiàn)特定場景下更佳的表現(xiàn)羔杨。用戶的反饋才能讓我們在研究中真正發(fā)掘他們真正的痛點和需求捌臊,因此數(shù)據(jù)閉環(huán)對于工業(yè)界的視覺智能研究至關(guān)重要。
我自己也感覺到兜材,當(dāng)我們將研發(fā)放入一個閉環(huán)的環(huán)境中理澎,其所涉及的每個環(huán)節(jié)只有在穩(wěn)定逞力、可靠的情況下,才能讓算法和研發(fā)人員去很好地推動技術(shù)向前迭代糠爬。再以 360 的門鈴為例寇荧,一旦服務(wù)端的產(chǎn)品聯(lián)網(wǎng)延遲問題嚴(yán)重,用戶很長時間才能收到家門口的監(jiān)控信息执隧,就無法獲得良好的體驗揩抡,另外如果 APP 的設(shè)計不夠好,云端的數(shù)據(jù)分析結(jié)果就無法很好地通過 APP 讓用戶直接感受到這款智能設(shè)備所帶來的價值镀琉,進而也讓用戶難以產(chǎn)生有效的反饋峦嗤,這樣的話,閉環(huán)的迭代也會變得異常困難屋摔。
無論在學(xué)術(shù)界還是在工業(yè)界烁设,大家做視覺智能研究都還是挺辛苦的,經(jīng)常面臨加班和熬夜钓试,所以今天我想用一個比較輕松的方式來跟大家總結(jié)一下装黑,在學(xué)術(shù)界和工業(yè)界做視覺智能研發(fā)的不同的特點:
在學(xué)術(shù)界做視覺智能研究更像戀愛中的男女,每一點進步都讓你們激動無比弓熏,同時還希望不斷地有新的進步曹体,達(dá)到新的高度∠趵茫看到的全是對方的優(yōu)點箕别,你們總是不停地憧憬,因為暫時沒人催你生孩子(產(chǎn)品)滞谢。你們也會憧憬生一個小孩(產(chǎn)品)會有多么美好串稀,認(rèn)為這個孩子一定會是世界上最聰明、最乖巧的狮杨,因為反正不用真的把孩子生出來母截。
而在工業(yè)界做研發(fā)更像結(jié)婚后的男女,發(fā)現(xiàn)生娃(產(chǎn)品)成了你們最首要的任務(wù)橄教。父母(公司老板)天天催著你生娃(產(chǎn)品)竹伸,你們以為孩子生出來以后會很乖巧书在,結(jié)果生出來以后才發(fā)現(xiàn)一堆的問題、一堆的毛病,社會(用戶)也不喜歡他/她殊鞭,于是你不停地根據(jù)經(jīng)驗和用戶反饋進行調(diào)教澈灼。最后孩子強大了絮缅,你頭發(fā)白了怎燥,脊椎也壞了,但看著孩子(產(chǎn)品)還是一臉的滿足幸福