半監(jiān)督學(xué)習(xí)在金融文本分類(lèi)上的探索和實(shí)踐

垂直領(lǐng)域內(nèi)的自然語(yǔ)言處理任務(wù)往往面臨著標(biāo)注數(shù)據(jù)缺乏的問(wèn)題蒲列,而近年來(lái)快速發(fā)展的半監(jiān)督學(xué)習(xí)技術(shù)為此類(lèi)問(wèn)題提供了有希望的解決方案约炎。文本以 Google 在 2019 年提出的 UDA 框架為研究主體柒瓣,詳細(xì)探索該技術(shù)在熵簡(jiǎn)科技真實(shí)業(yè)務(wù)場(chǎng)景中的實(shí)踐效果缔俄。

本文主要有三方面的貢獻(xiàn)瘦陈。第一特纤,以金融文本分類(lèi)為案例秩命,探索了 UDA 在真實(shí)場(chǎng)景中的效果和不足尉共;第二褒傅,探索了 UDA 在輕量級(jí)模型上的效果;第三袄友,增加了原始 UDA 論文中未披露或未完成的研究殿托,如領(lǐng)域外數(shù)據(jù)的影響,錯(cuò)誤標(biāo)記數(shù)據(jù)的影響剧蚣。

1背景

2金融領(lǐng)域的問(wèn)題為什么需要半監(jiān)督技術(shù)

3 UDA技術(shù)介紹及特性

3.1 UDA技術(shù)的基本框架和核心思想

3.2在少量標(biāo)簽數(shù)據(jù)上的表現(xiàn)支竹,by Google 團(tuán)隊(duì)

3.3在領(lǐng)域外數(shù)據(jù)上的表現(xiàn),by 熵簡(jiǎn)團(tuán)隊(duì)

3.4在錯(cuò)誤數(shù)據(jù)上的表現(xiàn)鸠按,by 熵簡(jiǎn)團(tuán)隊(duì)

4 UDA技術(shù)在金融文本分類(lèi)上的實(shí)踐

4.1案例背景及數(shù)據(jù)集特點(diǎn)

4.2實(shí)驗(yàn)方案

4.3主要實(shí)驗(yàn)結(jié)果及分析

4.3.1有標(biāo)簽數(shù)據(jù)的數(shù)據(jù)量對(duì)于模型的影響

4.3.2對(duì)比不同的增強(qiáng)方案

4.3.3 CNN與 BERT 的對(duì)比實(shí)驗(yàn)

5總結(jié)

1 背景

前段時(shí)間我們團(tuán)隊(duì)針對(duì)深度學(xué)習(xí)時(shí)代的半監(jiān)督學(xué)習(xí)技術(shù)進(jìn)行了梳理礼搁,詳細(xì)介紹了半監(jiān)督技術(shù)的發(fā)展歷程,以及各技術(shù)在核心思想目尖、方法論上的演進(jìn)馒吴,感興趣的朋友可以查看原文:

我們真的需要那么多標(biāo)注數(shù)據(jù)嗎?半監(jiān)督學(xué)習(xí)技術(shù)近年來(lái)的發(fā)展歷程及典型算法框架的演進(jìn) - 知乎

從文中我們似乎看出瑟曲,當(dāng)前的半監(jiān)督技術(shù)似乎已經(jīng)具備了與監(jiān)督學(xué)習(xí)相比擬的優(yōu)勢(shì)饮戳。那么在真實(shí)場(chǎng)景中,半監(jiān)督技術(shù)是否依然可以如實(shí)驗(yàn)室中的表現(xiàn)洞拨,可以在真實(shí)問(wèn)題上發(fā)揮出獨(dú)特的優(yōu)勢(shì)扯罐,降低我們對(duì)于標(biāo)簽數(shù)據(jù)的需求。

本文基于熵簡(jiǎn)NLP團(tuán)隊(duì)在真實(shí)業(yè)務(wù)場(chǎng)景上的實(shí)踐經(jīng)驗(yàn)烦衣,從垂直領(lǐng)域?qū)τ诎氡O(jiān)督技術(shù)的需求出發(fā)歹河,詳細(xì)介紹半監(jiān)督學(xué)習(xí)中最新的代表技術(shù)之一UDA 算法的特性,以及在金融文本分類(lèi)任務(wù)上的落地實(shí)踐琉挖。

借此启泣,我們可以在2020年這個(gè)時(shí)間點(diǎn),初窺半監(jiān)督技術(shù)對(duì)于真實(shí)場(chǎng)景問(wèn)題的價(jià)值示辈。

2 金融領(lǐng)域的問(wèn)題為什么需要半監(jiān)督技術(shù)

我們?cè)谇懊嬉黄恼乱呀?jīng)提到,金融領(lǐng)域內(nèi)的自然語(yǔ)言處理問(wèn)題屬于典型的垂直領(lǐng)域問(wèn)題遣蚀,在面對(duì)特定任務(wù)場(chǎng)景時(shí)矾麻,常常面臨的一個(gè)重要挑戰(zhàn)就是少樣本。這主要體現(xiàn)在兩個(gè)方面:

1芭梯、可收集到數(shù)據(jù)總量少险耀,數(shù)據(jù)收集的時(shí)間成本很高,尤其在從0到1的立項(xiàng)初期玖喘。曾經(jīng)在某個(gè)項(xiàng)目上甩牺,我們用了三周時(shí)間才搜集到1000多條有效樣本。

2累奈、數(shù)據(jù)的人工標(biāo)注成本很高贬派。由于自然語(yǔ)言處理任務(wù)大部分屬于認(rèn)知層面的任務(wù)急但,因而數(shù)據(jù)標(biāo)注的難度和不確定性顯著高于感知層面的任務(wù),例如圖像識(shí)別搞乏、語(yǔ)音識(shí)別等波桩。而對(duì)于金融領(lǐng)域的問(wèn)題,往往需要資深金融分析師的參與才能實(shí)現(xiàn)相對(duì)準(zhǔn)確的數(shù)據(jù)標(biāo)注请敦,滿(mǎn)足業(yè)務(wù)需求镐躲。這不僅增大了標(biāo)注的成本,也會(huì)顯著延長(zhǎng)標(biāo)注的時(shí)間侍筛。因?yàn)樵趯?shí)際中萤皂,金融分析師很難有大塊的時(shí)間來(lái)協(xié)助標(biāo)注,這往往會(huì)延長(zhǎng)項(xiàng)目周期匣椰。

對(duì)于第一點(diǎn)敌蚜,我們可以通過(guò)文本增強(qiáng)、遷移學(xué)習(xí)窝爪、few-shot learning 以及元學(xué)習(xí)等等技術(shù)或者思想來(lái)嘗試解決弛车。對(duì)于特定的任務(wù),我們目前已經(jīng)取得一些較好的成果蒲每,由于不屬于本文的討論范圍纷跛,這里就不再詳細(xì)展開(kāi),有興趣的同學(xué)可以查看專(zhuān)欄的其他相關(guān)文章邀杏。

對(duì)于第二點(diǎn)贫奠,為了讓大家有更直觀(guān)的感受,下面給出一個(gè)實(shí)例望蜡。對(duì)于金融文本唤崭,為了方便閱讀和快速篩選,往往需要對(duì)文本按照內(nèi)容分為不同的類(lèi)型脖律,比如公司點(diǎn)評(píng)谢肾、公司深度、行業(yè)點(diǎn)評(píng)小泉、行業(yè)深度等等芦疏。如下案例所示:

文本1:非銀金融周觀(guān)察:堅(jiān)守長(zhǎng)期價(jià)值,優(yōu)選個(gè)股微姊。

文本2:生豬養(yǎng)殖行業(yè)專(zhuān)題報(bào)告三十六:當(dāng)下養(yǎng)殖板塊投資的核心矛盾是什么酸茴?

對(duì)于上述的兩個(gè)文本,到底哪個(gè)文本屬于行業(yè)點(diǎn)評(píng)兢交,哪個(gè)屬于行業(yè)深度呢薪捍?(具體答案可查看 4.1 節(jié)) 顯然,只有金融領(lǐng)域相關(guān)的專(zhuān)業(yè)人士才能做出比較準(zhǔn)確的標(biāo)注。

因此酪穿,對(duì)于人工標(biāo)注成本高的問(wèn)題凳干,我們希望能夠找到這樣的解決方案:

首先由人類(lèi)專(zhuān)家對(duì)數(shù)據(jù)進(jìn)行少量標(biāo)注,在這個(gè)基礎(chǔ)上昆稿,算法同時(shí)利用少量標(biāo)注的有標(biāo)簽數(shù)據(jù)和還沒(méi)有標(biāo)注的大量無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行學(xué)習(xí)纺座,最終也能達(dá)到較好的性能,滿(mǎn)足業(yè)務(wù)需求溉潭。

這一目標(biāo)正是半監(jiān)督學(xué)習(xí)核心想要達(dá)成的目標(biāo)净响。接下來(lái),我們開(kāi)始分享團(tuán)隊(duì)在探索半監(jiān)督技術(shù) UDA 算法過(guò)程中的具體收獲和重要結(jié)果喳瓣。

3 UDA 技術(shù)介紹及特性

3.1 UDA 技術(shù)的基本框架和核心思想

UDA 算法是由 Google 團(tuán)隊(duì)在 2019 年提出的半監(jiān)督技術(shù)馋贤,超越了包括同年提出的 MixMatch 在內(nèi)的一眾半監(jiān)督算法,達(dá)到了當(dāng)時(shí)的 SOTA 水平畏陕。

上圖即是 UDA 算法的基本框架配乓,該框架對(duì)于模型網(wǎng)絡(luò)本身并沒(méi)有特別的要求,核心是對(duì)目標(biāo)函數(shù)進(jìn)行了改造惠毁。從圖中可以看出犹芹,UDA 的目標(biāo)函數(shù)共包括兩個(gè)部分,分別是有監(jiān)督損失項(xiàng)和無(wú)監(jiān)督損失項(xiàng):

1鞠绰、有監(jiān)督損失項(xiàng)(Supervised Cross-entropy Loss):用來(lái)計(jì)算有標(biāo)簽數(shù)據(jù)的誤差腰埂,采用了常用的交叉熵作為目標(biāo)。

2蜈膨、無(wú)監(jiān)督損失項(xiàng)(Unsupervised Consistency Loss):用來(lái)計(jì)算無(wú)標(biāo)簽數(shù)據(jù)的誤差屿笼。具體的方式是,對(duì)于任何一個(gè)無(wú)標(biāo)簽數(shù)據(jù)翁巍,首先運(yùn)用數(shù)據(jù)增強(qiáng)技術(shù)對(duì)于該數(shù)據(jù)進(jìn)行一次變換操作驴一。接下來(lái),利用模型對(duì)于增強(qiáng)前后的數(shù)據(jù)分別進(jìn)行預(yù)測(cè)灶壶,從而獲取到模型對(duì)于同一條數(shù)據(jù)在增強(qiáng)前后的不同結(jié)果肝断。最后,利用 KL 散度來(lái)度量這兩個(gè)預(yù)測(cè)結(jié)果的距離例朱。整個(gè)訓(xùn)練的過(guò)程就是要讓這個(gè)距離盡可能小孝情。

對(duì)于整個(gè)UDA算法,其中最核心部分就是一致性假設(shè)洒嗤,即模型在輸入數(shù)據(jù)的附近空間應(yīng)該是平坦的,即使輸入數(shù)據(jù)發(fā)生微弱變化或者發(fā)生語(yǔ)義不變而僅僅是形式變化時(shí)魁亦,模型的輸出也能夠基本保持不變渔隶。這本質(zhì)上是傳遞了模型設(shè)計(jì)者對(duì)于模型的一種先驗(yàn)信念。

3.2 在少量標(biāo)簽數(shù)據(jù)上的表現(xiàn),by Google 團(tuán)隊(duì)

接下來(lái)我們看一下原始論文中间唉,對(duì)于 UDA 算法的實(shí)驗(yàn)結(jié)果绞灼,本文主要展示 NLP 相關(guān)的實(shí)驗(yàn)。

上面一張表分別展示了 UDA 算法在 IMDb呈野,Yelp-2低矮,Yelp-5,Amazon-2被冒,Amzon-5 以及 DBpedia 這幾個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果军掂。整張表分別上下兩個(gè)部分,其中上面部分展示了各個(gè)數(shù)據(jù)集在完整數(shù)據(jù)集下的SOTA表現(xiàn)昨悼,作為參照組來(lái)對(duì)比 UDA 的效果蝗锥。

下面部分則展示了不同網(wǎng)絡(luò)模型在僅有少量標(biāo)簽數(shù)據(jù)下,是否采用 UDA 框架率触,對(duì)于模型最終性能的影響终议。從表中我們至少可以得出三方面的結(jié)論:

1、UDA 框架可以幫助模型在僅有很少有標(biāo)簽數(shù)據(jù)下接近或超過(guò) SOTA 表現(xiàn)葱蝗。對(duì)比 IMDb 下 BERT_large 在 20 條有標(biāo)簽數(shù)據(jù)和 2.5 萬(wàn)有標(biāo)簽數(shù)據(jù)下的表現(xiàn)穴张,二者在錯(cuò)誤率上僅差 0.2%。類(lèi)似的結(jié)果在其他數(shù)據(jù)集下也能看到两曼;

2皂甘、在少標(biāo)簽場(chǎng)景下,UDA 框架可以幫助模型顯著提升性能合愈。對(duì)比 BERT_base 在 5 個(gè)數(shù)據(jù)集下(除 DBpedia 以外)的表現(xiàn)叮贩,UDA 的引入給模型均帶來(lái)了 10個(gè) 百分點(diǎn)以上的提升;

3佛析、UDA 框架給模型帶來(lái)的提升大小與數(shù)據(jù)集分布相關(guān)益老。對(duì)比 Random 在 Yelp-2 和 Yelp-5 上的表現(xiàn),UDA 給模型帶來(lái)的提升與數(shù)據(jù)集分布以及具體任務(wù)難度相關(guān)寸莫。

原始論文的研究由于采用了標(biāo)準(zhǔn)數(shù)據(jù)集捺萌,因此停留在實(shí)驗(yàn)室理想條件,而實(shí)際情況往往沒(méi)有這么理想膘茎。接下來(lái)桃纯,我們團(tuán)隊(duì)進(jìn)一步研究,UDA 在遇到真實(shí)場(chǎng)景中兩類(lèi)典型問(wèn)題時(shí)的表現(xiàn)披坏。

3.3 在領(lǐng)域外數(shù)據(jù)上的表現(xiàn)态坦,by 熵簡(jiǎn)團(tuán)隊(duì)

我們知道,如果要采用半監(jiān)督技術(shù)棒拂,那就意味著需要引入大量無(wú)標(biāo)簽的數(shù)據(jù)伞梯,而在真實(shí)場(chǎng)景中玫氢,無(wú)標(biāo)簽數(shù)據(jù)由于沒(méi)有經(jīng)過(guò)人工篩選或者只能進(jìn)行粗篩選,那么必然會(huì)混入類(lèi)別外或領(lǐng)域外的數(shù)據(jù)谜诫。這類(lèi)數(shù)據(jù)是否會(huì)對(duì)模型的表現(xiàn)帶來(lái)負(fù)面影響漾峡?

3.3.1 實(shí)驗(yàn)一:在 IMDb 數(shù)據(jù)集中混入 Yelp-2 數(shù)據(jù)

Yelp 數(shù)據(jù)集整理自 Yelp 網(wǎng)站(美國(guó)版大眾點(diǎn)評(píng))上的用戶(hù)評(píng)論,其中的文本是與 IMDb 數(shù)據(jù)集類(lèi)似的點(diǎn)評(píng)類(lèi)短文本喻旷,區(qū)別在于二者所涉及的領(lǐng)域不太一樣生逸,IMDb 主要集中在影視相關(guān)的評(píng)論,而 Yelp 涉及的領(lǐng)域則更為廣泛且预,可參考國(guó)內(nèi)的大眾點(diǎn)評(píng)上的評(píng)論槽袄。

在保持 IMDb 的有標(biāo)簽數(shù)據(jù)仍然為 20 條的情況下,我們隨機(jī)從 Yelp 挑選一定數(shù)據(jù)量的數(shù)據(jù)混入無(wú)標(biāo)簽數(shù)據(jù)辣之。在混入數(shù)據(jù)量占整體無(wú)標(biāo)簽數(shù)據(jù)量的比例分別為 5% - 30% 等五種不同條件下掰伸,我們?cè)?BERT_base 上進(jìn)行了實(shí)驗(yàn)。

實(shí)驗(yàn)結(jié)果如上表所示怀估,從表中可以發(fā)現(xiàn)狮鸭,Yelp 數(shù)據(jù)集的引入并沒(méi)有給模型帶來(lái)負(fù)面影響,大多數(shù)情況下多搀,反而給模型帶來(lái)了1 百分點(diǎn)左右的額外提升歧蕉。這背后的原因或許是,Yelp 數(shù)據(jù)集雖然所涉及的領(lǐng)域與 IMDb 有所差異康铭,但是其本身所蘊(yùn)含的情感表現(xiàn)方式與 IMDb 數(shù)據(jù)集類(lèi)似惯退。因此從文本情感這個(gè)角度來(lái)看,二者在分布上是類(lèi)似的从藤,這一點(diǎn)對(duì)于情感分類(lèi)這樣的監(jiān)督任務(wù)是有益的催跪。

3.3.2 實(shí)驗(yàn)二:在 IMDb 數(shù)據(jù)集中混入 20 Newsgroups 數(shù)據(jù)

20 Newsgroups 數(shù)據(jù)集包含有 20 個(gè)不同主題的新聞?lì)愇谋荆渲械奈谋静徽撌窃谖谋緝?nèi)容夷野、語(yǔ)言表達(dá)方式以及涉及的領(lǐng)域上都與 IMDb 數(shù)據(jù)集中的文本存在明顯差異懊蒸。

我們?cè)?20 Newsgroups 上做了與上述 Yelp 類(lèi)似的實(shí)驗(yàn)。同樣地悯搔,我們從 20 Newsgroups 數(shù)據(jù)集的 20 個(gè)類(lèi)別中隨機(jī)選擇一定數(shù)據(jù)量的文本混入無(wú)標(biāo)簽數(shù)據(jù)中骑丸。同時(shí),將混入比例最高調(diào)整到了 100%妒貌,這對(duì)應(yīng)著在無(wú)標(biāo)簽數(shù)據(jù)完全采用 20 Newsgroups 的數(shù)據(jù)通危。

從上表的實(shí)驗(yàn)結(jié)果中,我們至少可以得出三方面的結(jié)論:

第一灌曙,20 Newsgroups 作為無(wú)標(biāo)簽數(shù)據(jù)加入訓(xùn)練菊碟,可以幫助模型帶來(lái)近1個(gè)百分點(diǎn)的提升。這似乎說(shuō)明了在刺,即使是領(lǐng)域外甚至其他類(lèi)型的文本加入耻台,這部分?jǐn)?shù)據(jù)依然可以通過(guò)一致性正則來(lái)幫助模型進(jìn)行更好地學(xué)習(xí);

第二俺孙,當(dāng) 20 Newsgroups 的比例為 100% 時(shí)搬俊,模型的表現(xiàn)幾乎與隨機(jī)預(yù)測(cè)一樣(對(duì)于二分類(lèi),隨機(jī)預(yù)測(cè)的準(zhǔn)確率是 50%)隙姿。這說(shuō)明在 UDA 框架中梅垄,無(wú)標(biāo)簽數(shù)據(jù)同樣可以給監(jiān)督任務(wù)提供較強(qiáng)的學(xué)習(xí)信號(hào);

第三输玷,綜合前兩項(xiàng)結(jié)果队丝,我們可以知道,在 UDA 框架中欲鹏,無(wú)標(biāo)簽數(shù)據(jù)同時(shí)提供著兩類(lèi)學(xué)習(xí)信號(hào)机久。一方面,通過(guò)一致性正則提供無(wú)監(jiān)督的學(xué)習(xí)信號(hào)赔嚎,從約束模型對(duì)輸入的變化不敏感膘盖;另一方面,也為有監(jiān)督任務(wù)提供學(xué)習(xí)信號(hào)尤误。

從前面兩個(gè)實(shí)驗(yàn)中侠畔,我們是否可以得出結(jié)論,在半監(jiān)督學(xué)習(xí)中损晤,無(wú)標(biāo)簽數(shù)據(jù)即使混入領(lǐng)域外的數(shù)據(jù)软棺,對(duì)于模型的訓(xùn)練也不會(huì)產(chǎn)生負(fù)面的影響。

我們認(rèn)為這樣的結(jié)論是不成立的尤勋。之所以在本實(shí)驗(yàn)中表現(xiàn)出類(lèi)似的現(xiàn)象喘落,是因?yàn)檫@兩個(gè)實(shí)驗(yàn)所加入的其他數(shù)據(jù)集,其與 IMDb 的區(qū)別主要體現(xiàn)在文本形式最冰、文本內(nèi)容的主題等特征上瘦棋,這與情感分類(lèi)這個(gè)監(jiān)督任務(wù)所需要的特征不在同一個(gè)維度上,因而不會(huì)產(chǎn)生干擾锌奴。

換言之兽狭,如果加入的其他數(shù)據(jù)集與當(dāng)前數(shù)據(jù)集在特征上的差異與監(jiān)督任務(wù)所重點(diǎn)關(guān)注的特征是正交的,那么這個(gè)數(shù)據(jù)集就不會(huì)對(duì)模型的訓(xùn)練帶來(lái)負(fù)面影響鹿蜀。

3.4 在錯(cuò)誤數(shù)據(jù)上的表現(xiàn)箕慧,by 熵簡(jiǎn)團(tuán)隊(duì)

在真實(shí)場(chǎng)景中,另一類(lèi)不可避免的問(wèn)題是茴恰,數(shù)據(jù)的標(biāo)簽很難保證絕對(duì)的正確颠焦。接下來(lái),我們通過(guò)實(shí)驗(yàn)驗(yàn)證往枣,當(dāng)有標(biāo)簽數(shù)據(jù)中存在部分錯(cuò)誤標(biāo)記時(shí)伐庭,模型在 UDA 框架下的表現(xiàn)粉渠。

在實(shí)驗(yàn)中,我們從 IMDb 數(shù)據(jù)中選取 200 條數(shù)據(jù)作為有標(biāo)簽數(shù)據(jù)圾另,剩下的數(shù)據(jù)作為無(wú)標(biāo)簽數(shù)據(jù)霸株。同時(shí),對(duì)于有標(biāo)簽數(shù)據(jù)集乔,按照一定比例對(duì)于其標(biāo)簽進(jìn)行打亂去件。

從上表的結(jié)果可以發(fā)現(xiàn),當(dāng)錯(cuò)誤標(biāo)簽比例為 10% 時(shí)扰路,原生 BERT 的準(zhǔn)確率下降了 6 個(gè)百分點(diǎn)(相對(duì)下降率約為 9%)尤溜,而 UDA BERT 只下降了一個(gè)百分點(diǎn)(相對(duì)下降率約為 1%);而錯(cuò)誤比例增大到 20%時(shí)汗唱,原生BERT的下降了近七個(gè)百分點(diǎn)宫莱,而 UDA BERT 則下降了4個(gè)百分點(diǎn)。

因此哩罪,無(wú)論從絕對(duì)下降值還是下降率來(lái)看授霸,UDA 框架對(duì)于錯(cuò)誤標(biāo)簽具備有一定的抑制作用。尤其當(dāng)錯(cuò)誤比例較低時(shí)识椰,UDA 可以保證模型的準(zhǔn)確率基本不受錯(cuò)誤標(biāo)簽的影響绝葡。這無(wú)疑是一項(xiàng)吸引人的特性,而背后的原因或許來(lái)自于 UDA 中的銳化操作腹鹉,即要求模型的分割平面不穿過(guò)數(shù)據(jù)分布密度較高的區(qū)域藏畅。而更深層的原因則需要更深入的研究分析。

4 UDA 技術(shù)在金融文本分類(lèi)上的實(shí)踐

了解了 UDA 的基本特性以及在實(shí)驗(yàn)室條件下的優(yōu)良表現(xiàn)之后功咒,本節(jié)將以金融資管領(lǐng)域中的一類(lèi)金融文本分類(lèi)問(wèn)題作為實(shí)際任務(wù)愉阎,用來(lái)驗(yàn)證 UDA 算法在真實(shí)任務(wù)場(chǎng)景中的表現(xiàn)。

4.1 案例背景及數(shù)據(jù)集特點(diǎn)

此案例來(lái)自于熵簡(jiǎn)科技信息流相關(guān)的產(chǎn)品力奋,其核心任務(wù)是對(duì)金融類(lèi)短文本按照文本內(nèi)容進(jìn)行類(lèi)型分類(lèi)榜旦,打上標(biāo)簽,從而方便用戶(hù)更及時(shí)景殷、更精準(zhǔn)地觸達(dá)感興趣的內(nèi)容溅呢。

我們對(duì)原任務(wù)進(jìn)行了簡(jiǎn)化,從原始的 15個(gè)類(lèi)別中抽離出最典型的 6個(gè)類(lèi)別猿挚,分別為:公司深度分析類(lèi)咐旧、公司點(diǎn)評(píng)類(lèi)、行業(yè)深度分析類(lèi)绩蜻、行業(yè)點(diǎn)評(píng)類(lèi)铣墨、固收?qǐng)?bào)告類(lèi)以及宏觀(guān)策略類(lèi)。

為了更直觀(guān)地感受數(shù)據(jù)办绝,這里展示了幾個(gè)類(lèi)別的典型樣本:

公司深度:本文詳細(xì)測(cè)算了AWP龍頭制造商的產(chǎn)能伊约、銷(xiāo)售規(guī)模情況姚淆;龍頭租賃商的保有量、采購(gòu)計(jì)劃和主要合作廠(chǎng)商屡律;同時(shí)測(cè)算了目前的終端租金對(duì)應(yīng)的回報(bào)率水平腌逢。依然重點(diǎn)推薦 xx科技。

公司點(diǎn)評(píng):【xx科技】市場(chǎng)位勢(shì)上移驅(qū)動(dòng)業(yè)績(jī)超預(yù)期疹尾,未來(lái)估值繼續(xù)向一線(xiàn)龍頭靠齊上忍。今日公司股價(jià)大漲 xx%,主要由于其發(fā)布盈喜公告19年凈利潤(rùn)超xx億纳本,顯著超出市場(chǎng)預(yù)期。

行業(yè)深度:生豬養(yǎng)殖行業(yè)專(zhuān)題報(bào)告三十六:當(dāng)下養(yǎng)殖板塊投資的核心矛盾是什么腋颠?

行業(yè)點(diǎn)評(píng):空調(diào)價(jià)格競(jìng)爭(zhēng)或已步入后半程繁成,基于對(duì)歷史上空調(diào)行業(yè)價(jià)格競(jìng)爭(zhēng)的對(duì)比分析,判斷11月大概率為近期空調(diào)均價(jià)同比降幅極值所在淑玫,本輪價(jià)格競(jìng)爭(zhēng)或已步入后半程巾腕。

在接下來(lái)的實(shí)驗(yàn)中,我們按照時(shí)間順序選取各類(lèi)別樣本共約 1.5 萬(wàn)條作為訓(xùn)練集絮蒿,1200 條數(shù)據(jù)作為測(cè)試集:

1尊搬、在訓(xùn)練集中,有標(biāo)簽樣本約為 1200 條土涝,各類(lèi)別基本均衡佛寿。剩余的 1.4 萬(wàn)條數(shù)據(jù)為無(wú)標(biāo)簽數(shù)據(jù),各類(lèi)別按照時(shí)間順序采集但壮,分布并不均衡冀泻。粗略估計(jì),公司點(diǎn)評(píng)的數(shù)量最多蜡饵,而行業(yè)深度的數(shù)量最少弹渔,二者比例約為 4:1(由于這部分?jǐn)?shù)據(jù)無(wú)標(biāo)簽,只能做粗略估計(jì))溯祸;

2肢专、在測(cè)試集中,各類(lèi)別數(shù)據(jù)基本均衡焦辅。

4.2 實(shí)驗(yàn)方案

4.2.1 分類(lèi)模型

在實(shí)驗(yàn)中博杖,我們?cè)?UDA 的框架基礎(chǔ)上,分別采用了 BERT_base 和 TextCNN 作為分類(lèi)模型氨鹏。采用 TextCNN 有兩方面的原因:

第一欧募,作為對(duì)照實(shí)驗(yàn),驗(yàn)證 UDA 框架是否對(duì)于輕量級(jí)模型也具有價(jià)值仆抵;

第二跟继,考慮到實(shí)際線(xiàn)上部署的需求种冬,我們更傾向于采用 TextCNN 類(lèi)似較為輕量的模型;

對(duì)于 BERT_base舔糖,采用了與 google 原始論文相同的網(wǎng)絡(luò)結(jié)構(gòu)娱两,僅僅將二分類(lèi)調(diào)整為六分類(lèi)。同時(shí)金吗,我們將 BERT 在 1000 多萬(wàn)條金融領(lǐng)域的研報(bào)及公告上進(jìn)行了二次預(yù)訓(xùn)練十兢,以使得 BERT 能夠在金融領(lǐng)域相關(guān)的任務(wù)表現(xiàn)更好。

對(duì)于 TextCNN摇庙,其 embedding 層在各門(mén)戶(hù)網(wǎng)站的新聞?wù)Z料旱物、各機(jī)構(gòu)發(fā)布的研報(bào)、百度百科等文本構(gòu)成的數(shù)億規(guī)模的語(yǔ)料進(jìn)行了預(yù)訓(xùn)練卫袒。卷積核的窗口大小和數(shù)目為實(shí)驗(yàn)中優(yōu)化參數(shù)宵呛。

4.2.2 主要目標(biāo)

如前所述,我們將 UDA 技術(shù)運(yùn)用到實(shí)際項(xiàng)目中包括兩方面的目標(biāo):

核心目標(biāo):希望將無(wú)標(biāo)簽數(shù)據(jù)的價(jià)值充分發(fā)揮出來(lái)夕凝,即:通過(guò) UDA 的框架宝穗,利用無(wú)標(biāo)簽數(shù)據(jù)讓現(xiàn)有模型在原本的性能基礎(chǔ)上能夠進(jìn)一步提升。

研究目標(biāo):通過(guò)在真實(shí)場(chǎng)景中的實(shí)驗(yàn)設(shè)計(jì)码秉,來(lái)進(jìn)一步了解 UDA 框架的特性逮矛,為后續(xù)應(yīng)用提供基礎(chǔ)。這些實(shí)驗(yàn)包括:

? 1转砖、不同數(shù)據(jù)增強(qiáng)方案對(duì)于半監(jiān)督學(xué)習(xí)效果的影響须鼎;

? 2、在不同有標(biāo)簽數(shù)據(jù)量下的提升效果堪藐;

? 3莉兰、在輕量級(jí)模型下的效果;

? 4礁竞、與其他早期半監(jiān)督學(xué)習(xí)算法的效果對(duì)比糖荒,如 self-traning 方法;

4.3 主要實(shí)驗(yàn)結(jié)果及分析

4.3.1 有標(biāo)簽數(shù)據(jù)的數(shù)據(jù)量對(duì)于模型的影響

上表所示為不同有標(biāo)簽數(shù)據(jù)量下模捂,是否采用 UDA 框架對(duì)于模型準(zhǔn)確率的影響捶朵。從表中至少可以得到以下三方面的重要結(jié)論:

1、UDA 可以幫助模型有效利用無(wú)標(biāo)簽數(shù)據(jù)的信息狂男,從而幫助現(xiàn)有模型在原本的性能基礎(chǔ)上能夠進(jìn)一步提升综看。從表中可以看出,有標(biāo)簽數(shù)據(jù)量為 600 時(shí)岖食,如果采用 UDA 框架红碑,可以使得模型具有與有標(biāo)簽數(shù)據(jù)擴(kuò)大一倍(即 1200 條)時(shí)的模型相當(dāng)?shù)谋憩F(xiàn)。這相當(dāng)于免費(fèi)地獲得了近一倍的額外標(biāo)簽數(shù)據(jù)。

2析珊、隨著有標(biāo)簽數(shù)據(jù)的增加羡鸥,UDA 框架帶來(lái)的額外提升效果會(huì)逐漸降低。在 60 條有標(biāo)簽數(shù)據(jù)時(shí)忠寻,可以使得模型提升近 30%惧浴;而在全數(shù)據(jù)下,只能幫助模型提升 1%奕剃。

3衷旅、UDA 的表現(xiàn)并沒(méi)有想象中的好,增加有標(biāo)簽數(shù)據(jù)量仍然是最直接最穩(wěn)定提升模型的方法纵朋。在 UDA 原始論文中柿顶,google 團(tuán)隊(duì)僅用 20 條有標(biāo)簽數(shù)據(jù),就讓模型達(dá)到了與 SOTA 接近的性能倡蝙。但從我們的實(shí)驗(yàn)中可以看出九串,當(dāng)有標(biāo)簽數(shù)據(jù)較少時(shí)(如 60 條),模型相對(duì)于最好結(jié)果仍然具有較大的差距寺鸥。

整體而言,UDA 算法確實(shí)是一種有效利用無(wú)標(biāo)簽數(shù)據(jù)的半監(jiān)督學(xué)習(xí)技術(shù)品山,但還不無(wú)法在少量標(biāo)簽下真正讓模型達(dá)到最佳表現(xiàn)胆建。

4.3.2 對(duì)比不同的增強(qiáng)方案

隨著這兩年半監(jiān)督技術(shù)和自監(jiān)督技術(shù)的發(fā)展,大家已經(jīng)意識(shí)到肘交,數(shù)據(jù)增強(qiáng)技術(shù)除了用于解決少樣本場(chǎng)景下的樣本稀缺的問(wèn)題笆载,也同樣在半監(jiān)督技術(shù)和自監(jiān)督技術(shù)中扮演中重要作用。很多研究已經(jīng)證明了涯呻,數(shù)據(jù)增強(qiáng)技術(shù)的優(yōu)劣很多時(shí)候決定了最終半監(jiān)督技術(shù)的最終效果凉驻。

我們團(tuán)隊(duì)之前也系統(tǒng)地梳理過(guò)近幾年半監(jiān)督技術(shù)的發(fā)展情況,感興趣的朋友可以查看:

給你的數(shù)據(jù)加上杠桿:文本增強(qiáng)技術(shù)的研究進(jìn)展及應(yīng)用實(shí)踐 - 知乎

在這一部分复罐,我們研究 UDA 框架在幾類(lèi)典型的文本增強(qiáng)技術(shù)下的表現(xiàn)涝登,包括 EDA、回譯和基于TF-IDF的非核心詞替換效诅,關(guān)于這三類(lèi)方法的具體實(shí)現(xiàn)細(xì)節(jié)可參考我們之前梳理的那篇文章胀滚。

值得注意的是,回譯和非核心詞替換技術(shù)正是 UDA 原始論文中所用到的數(shù)據(jù)增強(qiáng)方式乱投。

從表中可知咽笼,數(shù)據(jù)增強(qiáng)技術(shù)在此任務(wù)中的效果由高到低依次為 EDA、回譯 和 非核心詞替換戚炫。EDA 相對(duì)于 非核心詞替換高出了一個(gè)多百分點(diǎn)剑刑,同時(shí)考慮到不采用 UDA 框架的 baseline (見(jiàn) 4.3.1 節(jié)中的表格)模型準(zhǔn)確率也在 0.86 左右,這充分說(shuō)明了數(shù)據(jù)增強(qiáng)技術(shù)的選擇對(duì)于半監(jiān)督學(xué)習(xí)的效果有重要影響双肤。

這背后的原因或許是相對(duì)于非核心詞替換施掏,EDA 技術(shù)可以給文本帶來(lái)更為豐富的形式變換钮惠,畢竟里面包含了五類(lèi)不同的操作。而更豐富其监、更多變的文本變換萌腿,可以更好地告訴模型什么是語(yǔ)義不變性。

從研究角度而言抖苦,探索更有效的數(shù)據(jù)增強(qiáng)技術(shù)將是半監(jiān)督技術(shù)發(fā)展的重要方向之一毁菱。

4.3.3 CNN 與 BERT 的對(duì)比實(shí)驗(yàn)

上表展示了當(dāng)有標(biāo)簽數(shù)據(jù)量不同時(shí),在 UDA 框架下采用重量級(jí)的預(yù)訓(xùn)練模型 BERT_base 和輕量級(jí)的 TextCNN 模型的準(zhǔn)確率比較锌历。從表中至少可以得出兩方面的結(jié)論:

1贮庞、UDA 框架對(duì)于輕量級(jí)模型同樣具有很好的效果。對(duì)比第三行和第四行的結(jié)果究西,UDA CNN 僅比 UDA BERT 低了一到兩個(gè)百分點(diǎn)窗慎,這充分說(shuō)明了 UDA 框架對(duì)于輕量級(jí)模型的有效性。同時(shí)卤材,這一個(gè)百分點(diǎn)的準(zhǔn)確率損失相對(duì)于預(yù)測(cè)效率的提高和機(jī)器資源的節(jié)省遮斥,在很多實(shí)際業(yè)務(wù)中是非常值得的。

2扇丛、在少標(biāo)簽數(shù)據(jù)下术吗,UDA 帶來(lái)的提升遠(yuǎn)大于預(yù)訓(xùn)練模型帶來(lái)的提升。對(duì)比第二行和第四行的結(jié)果帆精,UDA CNN 相比于直接采用 BERT 的情況较屿,其準(zhǔn)確率高了近 20 個(gè)百分點(diǎn)。這或許是由于 BERT 雖然在海量語(yǔ)料上進(jìn)行了預(yù)訓(xùn)練卓练,但學(xué)習(xí)到的大部分特征與當(dāng)前的任務(wù)無(wú)關(guān)隘蝎。而通過(guò) UDA 從相應(yīng)的無(wú)標(biāo)簽數(shù)據(jù)中獲取信息則是可以直接為當(dāng)前的監(jiān)督任務(wù)作出貢獻(xiàn)。

至此襟企,對(duì)于 UDA 在真實(shí)場(chǎng)景中的效果以及特性嘱么,我們基本有了直觀(guān)的了解,本文的主要內(nèi)容也到此結(jié)果整吆。由于篇幅所限拱撵,其他相關(guān)的實(shí)驗(yàn),例如與其他半監(jiān)督方法的對(duì)比表蝙、領(lǐng)域外數(shù)據(jù)的影響等拴测,此處不再展開(kāi),后面有機(jī)會(huì)再做分享府蛇。

5 總結(jié)

本文針對(duì) Google 提出的半監(jiān)督學(xué)習(xí)框架 UDA 進(jìn)行了詳細(xì)地梳理和討論集索,補(bǔ)充了原始論文沒(méi)有披露或未考慮到的實(shí)驗(yàn),如領(lǐng)域外數(shù)據(jù)的影響、錯(cuò)誤標(biāo)簽的影響等务荆。同時(shí)妆距,我們將該技術(shù)應(yīng)用到熵簡(jiǎn)科技的實(shí)際業(yè)務(wù)中,并以金融文本分類(lèi)問(wèn)題作為案例函匕,分析了 UDA 框架在真實(shí)場(chǎng)景中的實(shí)際收益和存在問(wèn)題娱据。

最后,再簡(jiǎn)單做一下總結(jié)和討論:

第一盅惜,無(wú)論是對(duì)于重量級(jí)的預(yù)訓(xùn)練模型還是輕量級(jí)的模型中剩,UDA 框架都能夠幫助模型從無(wú)標(biāo)簽數(shù)據(jù)中挖掘出學(xué)習(xí)信號(hào),從而幫助模型在原有基礎(chǔ)上進(jìn)一步提升表現(xiàn)抒寂。尤其在標(biāo)記數(shù)據(jù)稀缺的場(chǎng)景下结啼,這一提升往往比較明顯;

第二屈芜,當(dāng)前的半監(jiān)督技術(shù)在真實(shí)問(wèn)題中還無(wú)法真正達(dá)到我們想象中的少標(biāo)簽學(xué)習(xí)的目標(biāo)郊愧,需要和預(yù)訓(xùn)練模型、遷移學(xué)習(xí)等技術(shù)結(jié)合起來(lái)井佑,協(xié)同解決低資源場(chǎng)景下的問(wèn)題属铁;

第三,數(shù)據(jù)增強(qiáng)技術(shù)對(duì)于半監(jiān)督學(xué)習(xí)的效果具有重要的影響躬翁,我們認(rèn)為這也是半監(jiān)督的重要研究方向之一,值得深入探索姆另。

參考文獻(xiàn)

[1] Xie, Qizhe, et al. "Unsupervised data augmentation for consistency training." (2019).

[2] Oliver, Avital, et al. "Realistic evaluation of deep semi-supervised learning algorithms." Advances in Neural Information Processing Systems. 2018.

[3] Zhu, Xiaojin, and Andrew B. Goldberg. "Introduction to semi-supervised learning." Synthesis lectures on artificial intelligence and machine learning 3.1 (2009): 1-130.

[4] Kim, Yoon. "Convolutional neural networks for sentence classification." arXiv preprint arXiv:1408.5882 (2014).

[5] Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市坟乾,隨后出現(xiàn)的幾起案子迹辐,更是在濱河造成了極大的恐慌,老刑警劉巖甚侣,帶你破解...
    沈念sama閱讀 206,602評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件明吩,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡殷费,警方通過(guò)查閱死者的電腦和手機(jī)印荔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,442評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)详羡,“玉大人仍律,你說(shuō)我怎么就攤上這事∈的” “怎么了水泉?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,878評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀(guān)的道長(zhǎng)。 經(jīng)常有香客問(wèn)我草则,道長(zhǎng)钢拧,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,306評(píng)論 1 279
  • 正文 為了忘掉前任炕横,我火速辦了婚禮源内,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘份殿。我一直安慰自己膜钓,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,330評(píng)論 5 373
  • 文/花漫 我一把揭開(kāi)白布伯铣。 她就那樣靜靜地躺著呻此,像睡著了一般。 火紅的嫁衣襯著肌膚如雪腔寡。 梳的紋絲不亂的頭發(fā)上焚鲜,一...
    開(kāi)封第一講書(shū)人閱讀 49,071評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音放前,去河邊找鬼忿磅。 笑死,一個(gè)胖子當(dāng)著我的面吹牛凭语,可吹牛的內(nèi)容都是我干的葱她。 我是一名探鬼主播,決...
    沈念sama閱讀 38,382評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼似扔,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼吨些!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起炒辉,我...
    開(kāi)封第一講書(shū)人閱讀 37,006評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤豪墅,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后黔寇,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體偶器,經(jīng)...
    沈念sama閱讀 43,512評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,965評(píng)論 2 325
  • 正文 我和宋清朗相戀三年缝裤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了屏轰。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,094評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡憋飞,死狀恐怖霎苗,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情搀崭,我是刑警寧澤叨粘,帶...
    沈念sama閱讀 33,732評(píng)論 4 323
  • 正文 年R本政府宣布猾编,位于F島的核電站,受9級(jí)特大地震影響升敲,放射性物質(zhì)發(fā)生泄漏答倡。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,283評(píng)論 3 307
  • 文/蒙蒙 一驴党、第九天 我趴在偏房一處隱蔽的房頂上張望瘪撇。 院中可真熱鬧,春花似錦港庄、人聲如沸倔既。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,286評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)渤涌。三九已至,卻和暖如春把还,著一層夾襖步出監(jiān)牢的瞬間实蓬,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,512評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工吊履, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留安皱,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,536評(píng)論 2 354
  • 正文 我出身青樓艇炎,卻偏偏與公主長(zhǎng)得像酌伊,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子缀踪,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,828評(píng)論 2 345