機器之心原創(chuàng)辆脸,作者:邱陸陸臂聋。
7 月 21 日告材、22 日,由 KDD China 主辦步鉴,西南交通大學和京東金融承辦的 KDD Summer School 暨 KDD Pre-Conference揪胃,「交通大數據智能」論壇在成都舉行,多位知名數據挖掘領域專家以及 KDD 2018 國際會議錄用論文的作者介紹了自己的工作以及各自領域的進展氛琢。
在會上喊递,我們采訪了 KDD 中國主席楊強,與他聊了聊他在金融領域進行的 AI 落地的工作阳似,包括「聯邦學習」這個試圖在保護數據隱私骚勘、滿足合法合規(guī)要求的前提下繼續(xù)進行機器學習的新方法。同時撮奏,作為 KDD 中國主席俏讹,他也分享了當下的遷移學習領域的新進展和他對本屆 KDD 大會的展望。
聯邦學習:數據合規(guī)應該是深度學習解決方案的一部分
機器之心:您如今在關注哪些 AI 的研究或應用方向挽荡?在您看來藐石,機器學習領域有哪些新的趨勢?
我現在關注的一個趨勢是如何在保護數據隱私定拟、滿足合法合規(guī)要求的前提下繼續(xù)進行機器學習,我們將這部分研究稱為「聯邦學習」(Federated Learning)。
開始聯邦學習的契機是歐盟通過了「數據隱私保護條例」(General Data Protection Regulation青自,簡稱 GDPR)株依。GDPR 認定「個人數據神圣不可侵犯」,要求公司在使用數據前要先向用戶聲明模型的作用延窜。這份條例的實行讓許多大數據公司噤若寒蟬恋腕,不敢再互相交流數據了,這對于極度依賴數據的機器學習是一個巨大的挑戰(zhàn)逆瑞。
因此我們現在正在尋找比較正向的應對方法荠藤,思考如何把 GDPR 囊括在機器學習框架之內,而不是繞著它走获高。
聯邦學習希望在不共享數據的前提下哈肖,利用雙方的數據實現模型增長。
假設兩家公司想要建立一個用戶畫像模型念秧,其中部分用戶是重合的淤井。聯邦學習的做法是,首先通過加密交換的手段摊趾,建立用戶的識別符(identifier)并進行溝通币狠,在加密狀態(tài)下用減法找出共有的部分用戶。因為關鍵用戶信息并沒有得到交換砾层,交換的只是共有的識別符漩绵,因此這并不違反數據隱私保護條例。然后肛炮,雙方將這部分數據提取出來止吐,將各自擁有的同樣用戶的不同特征作為輸入,迭代地進行訓練模型铸董、交換參數的過程祟印。我們證明了給定模型參數,雙方不能互相反推出對方擁有的粟害、自己沒有的特征蕴忆,因此用戶隱私仍然得到了保護。在不違反 GDPR 的情況下悲幅,雙方的模型性能都得到了提高套鹅。
聯邦學習相比于遷移學習的優(yōu)點在于「無損失」。之前的遷移學習都是存在性能損失的汰具,當模型從領域 A 遷移到領域 B卓鹿,從模型中學到的一大部分關于 A 的知識全丟了,只有和 B 共享的一小部分保留下來留荔,甚至會出現負遷移吟孙。然而聯邦學習保證,兩家公司的模型都比原來效果好。因此我們沒有繼續(xù)沿用遷移學習的名稱杰妓,而是將其命名為「聯邦學習」藻治,意思是說,兩家公司并沒有聯合成為一個「國家」巷挥,而是像不同的「州」一樣桩卵,在一個「聯邦政府」——進行信息與模型參數的加密交換的系統——的管理下,各自為政倍宾,同時獲得成長雏节。在聯邦學習的基礎上,我們還可以啟發(fā)式地搭建遷移學習的能力高职。這樣钩乍,在模型成長的基礎上,做到舉一反三的效果初厚。這個總的模型叫做「聯邦遷移學習」(Federated Transfer Learning)件蚕。
聯邦學習是我們應對 GDPR 類事件的一個例子。在未來产禾,我們面臨的社會大眾的要求和監(jiān)管一定越來越嚴格排作,因此我們人工智能的從業(yè)者應該擁抱這些條例,將其內化為解決方案的一部分亚情。如今機器學習最薄弱的環(huán)節(jié)其實并非算法結構不夠豐富妄痪、準確率不夠高,而是來自社會大眾對人工智能的態(tài)度和制約楞件。GDPR 不是個例衫生,在未來,不同國家和地區(qū)的隱私保護條例會如雨后春筍般出現土浸,在這樣的背景之下罪针,如果不作出改變和適應,機器學習的一個重要的假設:假設我們擁有足夠多的數據黄伊,將不復成立泪酱。
因此我們希望機器學習學者除了關心算法的準確率、效率之外还最,也將思考的維度上升到管理與合規(guī)的角度墓阀。我們希望能帶頭建立金融領域協同建模的規(guī)范,讓不同的企業(yè)受益于合規(guī)的聯合建模鏈條拓轻,更樂于加入這個 AI 建模聯邦斯撮,在遵守合規(guī)要求的同時享受數據福利,也讓機器學習更健康地發(fā)展下去扶叉。
我近年關注的問題是 AI 的落地勿锅,因為如果 AI 一直不落地帕膜,大家都埋頭寫論文,那么這個泡沫最后就破了粱甫。
我個人選擇在金融相關的領域來實現 AI 落地泳叠,其原因是金融提高效率的痛點很強烈∽髅椋現在很多媒體給大家的一個印象是「所有的領域」都可以馬上應用 AI茶宵,這我是不贊同的。在一些領域里宗挥,如今的 AI 反而會把優(yōu)勢變成劣勢:例如 IBM Watson 在美國癌癥醫(yī)療中心就因為數據缺失問題而導致診斷協助系統的失敗乌庶。
我認為現在的情況是,并非所有領域都適合在當下嘗試 AI契耿,根據數據和場景的準備狀態(tài)瞒大,有一些領域特別適合首先去嘗試 AI,其中就包括金融搪桂。
此外透敌,我希望總結出一套方法論,可以告訴人們踢械,一個領域在什么時間段酗电、滿足哪些條件后,可以開始考慮使用 AI 了内列。
遷移學習:深度和對抗成為范式
機器之心:去年撵术,您在機器之心的 GMIS 大會上提到了遷移學習的六個進展,分別是結構與內容分離话瞧、多層次的特征學習嫩与、多步遷移學習、學習「如何遷移」交排、遷移學習作為元學習以及數據生成式的遷移學習划滋。在過去的一年多時間里,有哪些方向出現了令人矚目的進展埃篓?
首先是層次感处坪。這方面進展非常迅速。業(yè)界發(fā)現深度學習天然適合做遷移的學習都许,正是因為深度學習不同的層次負責編碼不同的知識稻薇。
因此多層次的特征學習有很多種可行結構:一是多視角,讓不同的輸入分別進入不同的初始層胶征,處理后共享一些中間層塞椎;另一種是利用對抗的結構,例如 GAN 和 DANN睛低,篩出不同領域間可共享的特征案狠。共享特征的意思是無法用這個特征區(qū)分兩個領域服傍。用對抗找出共享特征的意思是,讓一個網絡負責篩選出讓對方區(qū)分不了的特征骂铁,讓另一個網絡負責根據特征區(qū)分兩個領域吹零,兩個網絡通過博弈達到平衡時,就自動找到了兩個領域之間的重疊部分拉庵。
總的來說灿椅,對抗網絡現在已經變成了遷移學習的一種已定式和系統了。
在學習如何遷移方面钞支,我們最近有一篇 ICML 2018 文章茫蛹,Transfer learning by learning to transfer 講的就是這個問題。這個文章的第一作者是魏穎博士烁挟。文章的主旨是婴洼,在我們積累了在很多領域進行學習的經驗后,把領域間的遷移過程作為例子撼嗓。例如在翻譯問題上柬采,從日語到中文是一個遷移,從日語到英文是另一次遷移且警。如果有 N 個領域粉捻,就會有 近 N*N 個例子。把遷移的例子做成訓練集振湾,就可以訓練出一個自動的遷移規(guī)劃器杀迹,它會告訴你如何遷移或是說遷移的方法論。來了一個新問題押搪,遷移器可以告訴你應該挑那些遷移學習算法來用在這個問題上树酪。
這個問題的輸入是算法的參數和描述不同領域的參數,優(yōu)化函數是所有樣本的期望損失最低大州,學出來的遷移器既挑選模型续语,也學習參數。這個工作的主題是「學習如何學習」厦画,和時下流行的 AutoML 有緊密的聯系疮茄。今年,「第四范式公司」會在 NIPS 2018 上將舉辦首屆 AutoML 大賽根暑,也是給大家一次展示遷移學習能力的機會力试。
「學習如何學習」也不僅僅是計算機科學中的問題。在心理學領域排嫌,上世紀美國心理學家 Thorndike 就拿猴子做了一個實驗畸裳,證明猴子是有遷移能力的。他讓猴子解決一些不同的任務淳地,解決好了就能拿到食物怖糊,解決不好就讓他繼續(xù)解決帅容,一段時間后,猴子就學會了在新的領域里尋找特征伍伤,利用原有的經驗解決新問題并徘。因此 Thorndike 總結道:「智能就是遷移能力∪呕辏」他將這個觀點應用到教育學上麦乞,認為教育程度高,并不是考試分數高阅爽,而是學下一門課學得更快路幸。
最后,結構與內容分離付翁,換言之,就是要用盡可能少的例子來學盡可能多的事兒晃听,這方面的內容仍然不是很多百侧。但這其實并不是局限于遷移學習的一個討論,而是人工智能整體試圖解決的一個問題能扒。
最近 Yann Lecun 的在 IJCAI2018 上的一個講座讓我覺得很有啟發(fā)佣渴。Yann 也在思考為什么人只需要幾個例子,而深度學習需要那么多例子初斑。他的觀點是辛润,一個例子中的內容特別多,而用一個例子做一個任務见秤,就等于把其他的內容浪費了砂竖,因此我們需要從一個樣本中找出多個任務。比如說遮擋圖片的一個特定部分鹃答,用沒遮擋部分來猜遮擋的部分是一個任務乎澄。那么通過遮擋不同的部分,就可以用一個樣本完成不同任務测摔。Yann 描述的這個方法被業(yè)界稱作「自監(jiān)督學習」置济。
我覺得自監(jiān)督學習可以和遷移學習結合來做的。因為一個樣本畢竟還是有局限性锋八,它的變化很小浙于,統計性很差,但是如果和以前的經驗能結合起來挟纱,例如從其他任務里遷移一個偏置項羞酗,可能就是解決小樣本的一個方向。
機器之心:您如何對當前的遷移學習算法進行分類樊销?原因是什么整慎?
之前脏款,我們通常將遷移學習分為三類。第一類是樣本遷移裤园,將可能對新領域有用的樣本的權重加大撤师。這一類方法非常經典,但是現在用得比較少拧揽。
第二種叫做特征遷移剃盾,特征空間的維度很高,如果我發(fā)現第一個領域里發(fā)現的重要特征能夠覆蓋新領域淤袜,那么我就把它遷移到新領域中去痒谴。遷移的部分可能是人工選出來的特征,這種方法在自然語言處理遷移中比較常見铡羡,也可以是一個特征提取器积蔚,這種方法在計算機視覺遷移中比較常見。
最后一種是參數遷移烦周,遷移的范圍與兩個領域之間的距離有關尽爆。例如和圖像相關的模型,越是靠下的層越通用读慎,遷移能力越強漱贱,越是靠上的層越是特殊,遷移能力越弱夭委。因此可以根據領域間距離定量地確定遷移的程度:如果兩個領域相距很遠幅狮,那么可以只遷移最下方的幾層,如果兩個領域很相似株灸,則可以多遷移幾層崇摄。此外還可以量化遷移后調節(jié)參數的時機:兩個領域相距越遠,參數調節(jié)就應該越早進行蚂且,兩個領域相距越近配猫,參數調節(jié)就可以越晚進行。
近年一個有意思的特征遷移案例是斯坦福大學為聯合國做的「如何在衛(wèi)星圖片中標記貧窮的地區(qū)」杏死。聯合國在決定給每個地區(qū)分配的資助前泵肄,需要確定當地的貧窮程度。在過去淑翼,做法是派人去進行經濟調查腐巢,而斯坦福大學試圖用 跨越式遷移的方法來解決這個問題。研究人員首先對白天的衛(wèi)星圖片進行語義級別的分割玄括,標出橋梁冯丙、建筑物等。然后以燈光明亮度代表富裕程度遭京,通過白天和夜晚的圖像比對胃惜,找出最富有的地區(qū)在白天有哪些可見的特征泞莉,比如游泳池。然后將游泳池視為富裕地區(qū)的顯著特征后船殉,再通過搜索游泳池周圍經常出現特征鲫趁,進行另一輪的代表性特征選擇。逐步擴展下去利虫,最后在識別貧富程度上達到和現場調查人員相近的準確率挨厚。
這類非常具有社會意義的選題也是值得國內研究者思考和借鑒的,我們不應該只擅長刷 ImageNet 榜單糠惫。
除此之外疫剃,根據采用的模型結構還可以分成采用/不采用深度學習的。近年隨著對抗生成網絡在遷移學習中的應用越來越廣泛硼讽,還有一種分法是根據是否利用對抗的方法進行分類巢价。遷移學習中天然存在可以對抗的部分:希望算法在本領域準確性盡可能高,希望算法在兩個領域間的差距盡可能小理郑。把這兩個限制條件同時作為目標蹄溉,就形成了一個恰恰合適對抗生成網絡做的事情。
KDD:連接工作與會議趨勢
機器之心:作為 KDD 中國主席您炉,能否分享下 KDD 中國的定位和任務,以及 KDD 大會的一些情況役电?
ACM SIGKDD 在中國的分會叫做 KDD China赚爵,這個學術社區(qū)的主旨是做好各項「連接」的工作,即連接學生和學者法瑟,連接公司和學校冀膝,以及連接學界和社會。本次 2018 的暑期學校分成三天(已于 2018 年 7 月 21-23 在成都的西南交通大學舉行)霎挟,分別是業(yè)界專家觀點窝剖、學生 2018 KDD 工作展示,以及學界的「大潘重玻」講解如何寫論文赐纱、如何做研究。旨在進行學生與業(yè)界領袖的連接熬北,工業(yè)與學術界的連接疙描,國內和國外的連接等一系列工作。現在看來效果還是非常不錯的讶隐,會員已經超過了 1000 人起胰,本次活動報名的會員/非會員也達到了場地的極限,達到三百多人巫延。
而即將在倫敦召開的 KDD 2018效五,頒發(fā)的獎項包括:
Research Innovation Award地消,頒發(fā)給了芝加哥大學的劉兵教授,他率先開展了輿情分析方面的工作畏妖。Distinguished Service Award脉执,頒發(fā)給了清華大學的唐杰教授,他在 KDD 領域做了大量的突出的服務性工作瓜客,包括在 2012 年在北京舉行的 KDD 所做的大量支持工作和建立著名的論文庫系統 A-MINER 等的工作适瓦。Test of Time Award,這個獎項頒發(fā)給發(fā)表在十年前的谱仪、產生了重大影響的文章玻熙。今年的獲獎者是來自谷歌的 Yehuda Koren,獲獎論文是關于推薦系統中的協同過濾問題疯攒。
在趨勢方面嗦随,KDD 繼續(xù)以信息網絡的大數據為主題來研究,但 KDD 也在近幾年開始舉辦以深度學習命名的一個 workshop敬尺,這也標志著深度學習也成為了 KDD 所接受的一類方法枚尼。
縱觀 KDD 的歷史,會發(fā)現發(fā)起者背景主要有二砂吞,一是來自工業(yè)界署恍,比如曾經以 IBM 、微軟等公司為代表一些領袖蜻直,二是學界的領軍人物盯质。切入角度是起始于數據倉庫管理和關聯規(guī)則等的分析;后來機器學習算法逐漸進入業(yè)界后概而,越來越多的機器學習學者也進入 KDD 界呼巷,而 KDD 一直保持有很高的工業(yè)界參與度以及對工業(yè)實際問題的敏感度。
如今 KDD 和機器學習的一些區(qū)別包括赎瑰,KDD 是更多地以應用問題為導向的會議王悍,很少有像強化學習等純機器學習算法的論文;KDD 相比于機器學習更關心社交網絡等信息網絡數據餐曼,更關心「人」的參與建模压储,更在乎模型的可解釋性、數據可視化晋辆、人對模型結論的理解等渠脉,而機器學習更關注自動化和端到端的建模。