阿里云人工智能平臺(tái)PAI多篇論文入選EMNLP 2023

近期详瑞，阿里云人工智能平臺(tái)PAI主導(dǎo)的多篇論文在EMNLP2023上入選请毛。EMNLP是人工智能自然語言處理領(lǐng)域的頂級(jí)國際會(huì)議宪祥，聚焦于自然語言處理技術(shù)在各個(gè)應(yīng)用場(chǎng)景的學(xué)術(shù)研究聂薪，尤其重視自然語言處理的實(shí)證研究。該會(huì)議曾推動(dòng)了預(yù)訓(xùn)練語言模型蝗羊、文本挖掘藏澳、對(duì)話系統(tǒng)、機(jī)器翻譯等自然語言處理領(lǐng)域的核心創(chuàng)新耀找，在學(xué)術(shù)和工業(yè)界都有巨大的影響力翔悠。此次入選意味著阿里云人工智能平臺(tái)PAI自研的自然語言處理算法達(dá)到了全球業(yè)界先進(jìn)水平，獲得了國際學(xué)者的認(rèn)可野芒，展現(xiàn)了中國人工智能技術(shù)創(chuàng)新在國際上的競(jìng)爭(zhēng)力蓄愁。

論文簡(jiǎn)述

面向Stable Diffusion的自動(dòng)Prompt工程算法BeautifulPrompt

文生圖是AIGC中最引人注目和廣泛應(yīng)用的技術(shù)之一，旨在通過文本輸入創(chuàng)建逼真的圖像狞悲。然而撮抓，文成圖模型要求用戶在模型推理之前編寫文本提示（例如“一艘雄偉的帆船”）。編寫滿足設(shè)計(jì)師或藝術(shù)工作者需求的這些提示充滿了不確定性摇锋，就像開盲盒一樣丹拯。這是由于訓(xùn)練數(shù)據(jù)的質(zhì)量問題站超，導(dǎo)致需要詳細(xì)的描述才能生成高質(zhì)量的圖像。在現(xiàn)實(shí)場(chǎng)景中咽笼，非專家往往很難手工編寫這些提示顷编，并且需要通過試錯(cuò)的迭代修改來重新生成圖像，從而導(dǎo)致時(shí)間和計(jì)算資源的嚴(yán)重浪費(fèi)剑刑。BeautifulPrompt模型關(guān)注于大語言模型（LLM）自動(dòng)地生成高質(zhì)量的提示詞媳纬，與InstructGPT類似，采用了三階段的訓(xùn)練方式施掏。下圖展示了使用簡(jiǎn)單的圖片描述和BeautifulPrompt之后生產(chǎn)的圖片：

image.png

為了驗(yàn)證BeautifulPrompt的有效性钮惠，我們?cè)谝恍┗谀Ｐ痛蚍值目陀^指標(biāo)和人類主觀評(píng)估上做了評(píng)測(cè)，結(jié)果驗(yàn)證了BeautifulPrompt顯著提升了提示詞的質(zhì)量七芭，可以生成高質(zhì)量的圖像素挽。

面向垂直領(lǐng)域的知識(shí)預(yù)訓(xùn)練語言模型

知識(shí)增強(qiáng)預(yù)訓(xùn)練語言模型（KEPLM）通過從大規(guī)模知識(shí)圖（KGs）中注入知識(shí)事實(shí)來提高各種下游NLP任務(wù)的性能。然而狸驳，由于缺乏足夠的域圖語義预明，這些構(gòu)建開放域KEPLM的方法很難直接遷移到垂直領(lǐng)域，因?yàn)樗鼈內(nèi)狈?duì)垂直領(lǐng)域KGs的特性進(jìn)行深入建模耙箍。如下圖所示撰糠，KG實(shí)體相對(duì)于純文本的覆蓋率在垂直領(lǐng)域中明顯低于開放域，表明領(lǐng)域知識(shí)注入存在全局稀疏現(xiàn)象辩昆。這意味著將檢索到的少數(shù)相關(guān)三元組直接注入到PLM中對(duì)于領(lǐng)域來說可能是不夠的阅酪。我們進(jìn)一步注意到，在垂直領(lǐng)域KGs中汁针，最大點(diǎn)雙連通分量的比率要高得多术辐，這意味著這些KGs中同一實(shí)體類下的實(shí)體相互連接更緊密，并表現(xiàn)出局部密度特性施无。

image.png

這一工作研究是基于上述領(lǐng)域KG的數(shù)據(jù)特性提出了一個(gè)簡(jiǎn)單但有效的統(tǒng)一框架來學(xué)習(xí)各種垂直領(lǐng)域的KEPLM辉词。它分別通過雙曲空間學(xué)習(xí)垂直領(lǐng)域圖譜數(shù)據(jù)的分層語義信息來補(bǔ)充全局語義稀疏模塊Hyperbolic Knowledge-aware Aggregator，通過捕捉領(lǐng)域圖譜稠密的圖結(jié)構(gòu)構(gòu)造基于點(diǎn)雙聯(lián)通分量的對(duì)比學(xué)習(xí)模塊Multi-Level Knowledge-aware Augmenter猾骡。

image.png

我們選取了金融和醫(yī)療等領(lǐng)域的各種下游任務(wù)的全數(shù)據(jù)量和少樣本數(shù)據(jù)量場(chǎng)景進(jìn)行評(píng)測(cè)较屿，結(jié)果體現(xiàn)出這個(gè)模型的優(yōu)越性。

基于大語言模型的復(fù)雜任務(wù)認(rèn)知推理算法CogTree

隨著深度學(xué)習(xí)在自然語言處理卓练、機(jī)器翻譯等任務(wù)上的不斷發(fā)展隘蝎，人們對(duì)如何將深度學(xué)習(xí)應(yīng)用到自然語言處理中越來越感興趣，由此出現(xiàn)了大語言模型（例如GPT-3.5）襟企，并已在文本生成嘱么、情感分析、對(duì)話系統(tǒng)等多個(gè)任務(wù)上取得了重大突破顽悼。大語言模型通陈瘢基于大規(guī)模文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練几迄，然后通過微調(diào)在特定任務(wù)上進(jìn)行優(yōu)化，以生成高質(zhì)量的文本輸出冰评。然而映胁，對(duì)于語言模型而言，復(fù)雜的邏輯推理問題和數(shù)學(xué)問題的求解仍然是很困難的甲雅。并且解孙，傳統(tǒng)的語言模型缺乏認(rèn)知能力。在處理涉及冗長(zhǎng)的推理鏈或多步解決方案的問題時(shí)抛人，對(duì)于問題及其當(dāng)前回答的評(píng)估是很重要的弛姜。然而，目前的方法例如Chain-of-thought等通常缺乏對(duì)于中間過程的驗(yàn)證妖枚。并且大型語言模型的部署和推理成本相對(duì)較高廷臼，特別是在利用無參數(shù)更新的推理增強(qiáng)技術(shù)時(shí)。這些技術(shù)需要大量的上下文和多步的答案生成绝页，進(jìn)一步增加了推理成本和時(shí)間荠商。

這一工作研究面向輕量化大模型的復(fù)雜任務(wù)推理，使用較小規(guī)模的模型（7B）续誉，構(gòu)建雙系統(tǒng)生成推理樹莱没，大大增強(qiáng)模型在復(fù)雜數(shù)學(xué)問題和邏輯推理問題上的回答能力。提出了一種大模型面向復(fù)雜數(shù)學(xué)問題的求解方法屈芜。該方法基于人類的認(rèn)知理論郊愧，通過兩個(gè)系統(tǒng)：直覺系統(tǒng)和反思系統(tǒng)來模仿人類產(chǎn)生認(rèn)知的過程朴译。直覺系統(tǒng)負(fù)責(zé)產(chǎn)生原始問題的多個(gè)分解假設(shè)井佑，反思系統(tǒng)對(duì)直覺系統(tǒng)產(chǎn)生的假設(shè)進(jìn)行驗(yàn)證，并選擇更有可能的假設(shè)進(jìn)行后續(xù)生成眠寿，直到達(dá)到最終結(jié)果躬翁。通過上述雙系統(tǒng)的迭代式生成，可以提升大模型的解題準(zhǔn)確度盯拱。

image.png

我們?cè)贓ntailment Bank邏輯推理數(shù)據(jù)集以及GSM8K數(shù)學(xué)問題數(shù)據(jù)集上進(jìn)行了測(cè)試盒发，效果證明CogTree對(duì)大模型復(fù)雜任務(wù)上的回答準(zhǔn)確率提升明顯。

基于知識(shí)遷移的跨語言機(jī)器閱讀理解算法

大規(guī)模預(yù)訓(xùn)練語言模型的廣泛應(yīng)用狡逢，促進(jìn)了NLP各個(gè)下游任務(wù)準(zhǔn)確度大幅提升宁舰，然而，傳統(tǒng)的自然語言理解任務(wù)通常需要大量的標(biāo)注數(shù)據(jù)來微調(diào)預(yù)訓(xùn)練語言模型奢浑。但低資源語言缺乏標(biāo)注數(shù)據(jù)集蛮艰，難以獲取。大部分現(xiàn)有的機(jī)器閱讀理解（MRC）數(shù)據(jù)集都是英文的雀彼，這對(duì)于其他語言來說是一個(gè)困難壤蚜。其次即寡，不同語言之間存在語言和文化的差異，表現(xiàn)為不同的句子結(jié)構(gòu)袜刷、詞序和形態(tài)特征聪富。例如，日語著蟹、中文墩蔓、印地語和阿拉伯語等語言具有不同的文字系統(tǒng)和更復(fù)雜的語法系統(tǒng)，這使得MRC模型難以理解這些語言的文本草则。為了解決這些挑戰(zhàn)钢拧，現(xiàn)有文獻(xiàn)中通常采用基于機(jī)器翻譯的數(shù)據(jù)增強(qiáng)方法，將源語言的數(shù)據(jù)集翻譯成目標(biāo)語言進(jìn)行模型訓(xùn)練炕横。然而源内，在MRC任務(wù)中，由于翻譯導(dǎo)致的答案跨度偏移份殿，無法直接使用源語言的輸出分布來教導(dǎo)目標(biāo)語言膜钓。

這一工作提出了一種名為X-STA的跨語言MRC方法，遵循三個(gè)原則：共享卿嘲、教導(dǎo)和對(duì)齊颂斜。共享方面，提出了梯度分解的知識(shí)共享技術(shù)拾枣，通過使用平行語言對(duì)作為模型輸入沃疮，從源語言中提取知識(shí)，增強(qiáng)對(duì)目標(biāo)語言的理解梅肤，同時(shí)避免源語言表示的退化司蔬。教導(dǎo)方面，本方法利用注意機(jī)制姨蝴，在目標(biāo)語言的上下文中尋找與源語言輸出答案語義相似的答案跨度俊啼，用于校準(zhǔn)輸出答案。對(duì)齊方面左医，多層次的對(duì)齊被利用來進(jìn)一步增強(qiáng)MRC模型的跨語言傳遞能力授帕。通過知識(shí)共享、教導(dǎo)和多層次對(duì)齊浮梢，本方法可以增強(qiáng)模型對(duì)不同語言的語言理解能力跛十。

image.png

為了驗(yàn)證X-STA算法的有效性，我們?cè)谌齻€(gè)跨語言MRC數(shù)據(jù)集上進(jìn)行了測(cè)試秕硝，效果證明X-STA對(duì)精度提升明顯芥映。

上述科研成果也在PAI產(chǎn)品的各個(gè)模塊進(jìn)行了深度的集成和整合，持續(xù)為PAI客戶提供AI模型訓(xùn)練相關(guān)服務(wù)。其中屏轰，BeautifulPrompt技術(shù)已經(jīng)作為SD WebUI的可擴(kuò)展插件和PAI-EAS在線推理服務(wù)進(jìn)行集成颊郎，使得PAI客戶在5分鐘內(nèi)就可以在PAI-EAS上一鍵部署SD WebUI，使用各種AIGC文圖生成功能霎苗。此外姆吭，PAI-QuickStart也集成了超過20個(gè)熱門大語言模型，及其多種訓(xùn)練和推理方式唁盏，使客戶更加簡(jiǎn)單地微調(diào)和部署大語言模型内狸。在未來，我們也將在PAI平臺(tái)上持續(xù)提供業(yè)界領(lǐng)先的算法和模型能力給廣大客戶厘擂。

論文信息

論文標(biāo)題：BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image Synthesis
論文作者：曹庭鋒昆淡、汪誠愚、劉冰雁刽严、吳梓恒昂灵、朱金輝、黃俊

論文pdf鏈接：https://arxiv.org/abs/2311.06752

論文標(biāo)題：Learning Knowledge-Enhanced Contextual Language Representations for Domain Natural Language Understanding
論文作者：徐如瑤舞萄、張濤林眨补、汪誠愚、段忠杰倒脓、陳岑撑螺、邱明輝、程大偉崎弃、何曉豐甘晤、錢衛(wèi)寧

論文pdf鏈接：https://arxiv.org/abs/2311.06761

論文標(biāo)題：From Complex to Simple: Unraveling the Cognitive Tree for Reasoning with Small Language Models
論文作者：嚴(yán)俊冰、汪誠愚饲做、張濤林线婚、何曉豐、黃俊艇炎、張偉

論文pdf鏈接：https://arxiv.org/abs/2311.06754

論文標(biāo)題：Sharing, Teaching and Aligning: Knowledgeable Transfer Learning for Cross-Lingual Machine Reading Comprehension
論文作者：曹庭鋒酌伊、汪誠愚腾窝、譚傳奇缀踪、黃俊、朱金輝

論文pdf鏈接：https://arxiv.org/abs/2311.06758

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末虹脯，一起剝皮案震驚了整個(gè)濱河市驴娃，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌循集，老刑警劉巖唇敞，帶你破解...
沈念sama閱讀 206,214評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡疆柔，警方通過查閱死者的電腦和手機(jī)咒精，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,307評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來旷档，“玉大人模叙，你說我怎么就攤上這事⌒” “怎么了范咨？”我有些...
開封第一講書人閱讀 152,543評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)厂庇。經(jīng)常有香客問我渠啊，道長(zhǎng)，這世上最難降的妖魔是什么权旷？我笑而不...
開封第一講書人閱讀 55,221評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任替蛉，我火速辦了婚禮，結(jié)果婚禮上拄氯，老公的妹妹穿的比我還像新娘灭返。我一直安慰自己，他們只是感情好坤邪，可當(dāng)我...
茶點(diǎn)故事閱讀 64,224評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布熙含。她就那樣靜靜地躺著，像睡著了一般艇纺。火紅的嫁衣襯著肌膚如雪怎静。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,007評(píng)論 1贊 284
城市分裂傳說
那天黔衡，我揣著相機(jī)與錄音蚓聘，去河邊找鬼。笑死盟劫，一個(gè)胖子當(dāng)著我的面吹牛夜牡，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播侣签，決...
沈念sama閱讀 38,313評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼塘装，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了影所？” 一聲冷哼從身側(cè)響起蹦肴，我...
開封第一講書人閱讀 36,956評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎猴娩，沒想到半個(gè)月后阴幌，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體勺阐，經(jīng)...
沈念sama閱讀 43,441評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,925評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年矛双，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了渊抽。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,018評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡议忽，死狀恐怖腰吟，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情徙瓶，我是刑警寧澤毛雇，帶...
沈念sama閱讀 33,685評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站侦镇，受9級(jí)特大地震影響灵疮，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜壳繁，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,234評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一震捣、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧闹炉，春花似錦蒿赢、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,240評(píng)論 0贊 19
一樁弒父案羡棵，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至嗅钻，卻和暖如春皂冰，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背养篓。一陣腳步聲響...
開封第一講書人閱讀 31,464評(píng)論 1贊 261
情欲美人皮
我被黑心中介騙來泰國打工秃流，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人柳弄。一個(gè)月前我還...
沈念sama閱讀 45,467評(píng)論 2贊 352
代替公主和親
正文我出身青樓舶胀，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國和親碧注。傳聞我的和親對(duì)象是個(gè)殘疾皇子嚣伐，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,762評(píng)論 2贊 345

阿里云人工智能平臺(tái)PAI多篇論文入選EMNLP 2023

論文簡(jiǎn)述

面向Stable Diffusion的自動(dòng)Prompt工程算法BeautifulPrompt

面向垂直領(lǐng)域的知識(shí)預(yù)訓(xùn)練語言模型

基于大語言模型的復(fù)雜任務(wù)認(rèn)知推理算法CogTree

基于知識(shí)遷移的跨語言機(jī)器閱讀理解算法

論文信息

推薦閱讀更多精彩內(nèi)容