隨著大數(shù)據(jù)技術(shù)的廣泛應用,越來越多的公司與個人參與到技術(shù)與數(shù)據(jù)的共享中甥桂。大數(shù)據(jù)時代下的數(shù)據(jù)共享既是驅(qū)動力柿究,也造就了數(shù)據(jù)安全隱患。如何在數(shù)據(jù)共享的前提下黄选,保證數(shù)據(jù)安全與資產(chǎn)保值蝇摸,是目前眾多企業(yè)重點關(guān)注的課題之一。
現(xiàn)階段很多公司都需要訓練一些行業(yè)通用模型办陷,但主要問題是缺少行業(yè)數(shù)據(jù)貌夕。針對這種情況,遷移學習與聯(lián)邦學習方法應勢而生民镜。
一啡专、遷移學習應用介紹
遷移學習最初主要應用于一些公共數(shù)據(jù)的特征提取,作為一些新提出的算法模型的預訓練模型出現(xiàn)制圈。研究者與開發(fā)者發(fā)現(xiàn)们童,使用遷移學習進行一些其他相關(guān)的工作建模時,對原任務的精度會有顯著提升鲸鹦,因此在訓練模型時病附,網(wǎng)絡的權(quán)重擬合不再僅限于本任務的數(shù)據(jù)與內(nèi)容,而是會聚焦于本任務所遭遇的問題與阻礙的解決亥鬓。
BERT是最典型的遷移學習的應用完沪,目前已應用到很多需要語言模型的領(lǐng)域。由于BERT的網(wǎng)絡極其龐大嵌戈,其網(wǎng)絡權(quán)重的擬合變得極其困難覆积,主要體現(xiàn)在算力要求和數(shù)據(jù)要求上。而BERT在被提出時其論文作者就考慮到了這個問題熟呛,甚至于其論文就主要聚焦于遷移學習本身宽档。
BERT采用龐大的語料數(shù)據(jù)庫進行兩種任務的訓練:
1、Masked Language Modeling
BERT是一個深度雙向模型庵朝,此模型有效地從標記處的上下文中獲取捕獲信息吗冤。BERT的第一個任務是預測被遮擋的單詞又厉。面對隨機遮擋一個或者多個單詞的場景,神經(jīng)網(wǎng)絡判斷被遮擋的單詞是什么椎瘟,例如:
2覆致、Next Sentence Prediction
Masked Language Model是為了理解詞與詞之間的關(guān)系。另外肺蔚,BERT還接受了Next Sentence Prediction訓練煌妈,用于理解句與句之間的關(guān)系。給定兩個句子宣羊,句A和句B璧诵,判斷句B在語料庫中是否為句A之后的下一個句子,例如:
以上兩個訓練任務分別從不同的兩個角度入手仇冯,前者側(cè)重于文本特征雙向的提取之宿,獲取基礎的文本詞向量特征,后者聚焦于句向量之間的相關(guān)性苛坚,兩者相互結(jié)合比被,便可有效地提取文本特征。例如:
BERT的訓練任務簡單易懂炕婶,但訓練成本很高,因此預訓練模型被提出莱预。預訓練模型即使不進行這兩種高開銷的預訓練任務柠掂,也可以得到一定精度的效果。企業(yè)根據(jù)應用場景再使用自己的數(shù)據(jù)進行finetune微調(diào)訓練依沮,便可得到業(yè)務上可用的數(shù)據(jù)模型涯贞。不同領(lǐng)域,不同行業(yè)危喉,不同訓練角度的數(shù)據(jù)集訓練出來的權(quán)重宋渔,卻可以實現(xiàn)高精度的特征提取,這就是遷移學習的魅力辜限。
二皇拣、聯(lián)邦學習應用介紹
遷移學習的主要發(fā)起方是資金雄厚的大廠或者專注研發(fā)的團隊,對于注重業(yè)務的大部分廠商薄嫡,無法作為這種任務的主導者氧急,只能被動選擇。聯(lián)邦學習的提出毫深,讓一些中小企業(yè)也能夠參與到模型的建立中吩坝,并形成自己的數(shù)據(jù)資產(chǎn)與模型資產(chǎn)。
聯(lián)邦學習本身主要有三種類型:橫向?qū)W習哑蔫,縱向?qū)W習與遷移學習钉寝。
1弧呐、橫向?qū)W習
當用戶a與用戶b的數(shù)據(jù)特征類似,但用戶群體多有不同時嵌纲,可以選擇相同特征部分的兩方用戶數(shù)據(jù)進行加密俘枫,然后進行聯(lián)邦學習。
2疹瘦、縱向?qū)W習
當用戶a與用戶b的用戶群體類似崩哩,但數(shù)據(jù)特征多有不同時,可以選擇相同用戶部分的兩方特征數(shù)據(jù)進行加密言沐,然后進行聯(lián)邦學習邓嘹。
3、遷移學習
當用戶a與用戶b的用戶群體與數(shù)據(jù)特征均多有不同時险胰,可以選擇分別進行建模汹押,并進行遷移學習來訓練共同的網(wǎng)絡權(quán)重。
三起便、發(fā)展趨勢
遷移學習的引入加快了算法有效落地的速度棚贾,提高了整體行業(yè)的基準水平,降低了參與者的門檻榆综,未來也必將成為學術(shù)論文的主流方法妙痹。而聯(lián)邦學習是一種在多參與方或多計算結(jié)點之間開展的一種高效率的機器學習方法,它能夠保障大數(shù)據(jù)交換時的信息安全鼻疮、保護終端數(shù)據(jù)和個人數(shù)據(jù)隱私怯伊、保證合法合規(guī)。其中判沟,聯(lián)邦學習使用的機器學習算法不局限于神經(jīng)網(wǎng)絡耿芹,還包括隨機森林等重要算法。聯(lián)邦學習正在逐步成為下一代人工智能協(xié)同算法和協(xié)作網(wǎng)絡的基礎挪哄,并作為新的驅(qū)動力促進大數(shù)據(jù)共享時代的發(fā)展吧秕。