為期一周的人工智能和機器學(xué)習(xí)領(lǐng)域頂級會議 NeurlPS 正在美國路易斯安那州新奧爾良市舉辦中统倒。螞蟻集團(tuán)有 20 篇論文被本屆會議收錄,其中《Language
Models Can Improve Event Prediction by Few-Shot Abductive Reasoning》是由螞蟻基礎(chǔ)智能技術(shù)部爷贫、消費金融技術(shù)部與芝加哥豐田工業(yè)大學(xué)、芝加哥大學(xué)合作完成补憾。
論文作者簡介:薛思喬是這篇論文的主要作者漫萄,也是螞蟻集團(tuán)高級算法專家,主要研究方向是生成式序列模型 (sequential modeling)余蟹,他的研究成果曾多次發(fā)表于主流機器學(xué)習(xí)相關(guān)會議 (NeurIPS/ICML/AAAI)卷胯。最近一年團(tuán)隊的主要工作聚焦于大語言模型與時間序列的交叉方向,在 NeurIPS'23 發(fā)表了事件序列預(yù)測模型的持續(xù)學(xué)習(xí)方法 "PromptTPP" 以及利用大語言模型支持事件序列預(yù)測的方法 "LAMP" 兩篇論文威酒。
論文通訊作者介紹:梅洪源,美國豐田工業(yè)大學(xué)芝加哥分校 (Toyota Technological Institute at Chicago) 研究助理教授挺峡,2021 年獲得約翰霍普金斯大學(xué)計算機系博士學(xué)位葵孤。主要研究方向包括大規(guī)模概率空間序列模型、機器人智能橱赠、自然語言處理等尤仍。至今已在 ICML,NeuIPS狭姨,NAACL 和 AAAI 等頂級國際會議發(fā)表論學(xué)術(shù)論文近 20 篇宰啦,其中部分論文有極高的引用率苏遥,得到了美國財富雜志 (Fortune Magazine) 和彭博科技 (TechAtBloomberg) 的報道。由于杰出的研究貢獻(xiàn)赡模,他獲得了彭博數(shù)據(jù)科學(xué)博士獎學(xué)金田炭、Jelinke 獎學(xué)金以及 Adobe Faculty Award 等項目的資助。
本文中漓柑,薛思喬會帶大家了解論文《Language Models Can Improve Event Prediction by Few-Shot Abductive Reasoning》的背景和主要研究成果教硫,完整論文可點擊閱讀原文查看。
背景和動機
商業(yè)場景的事件序列(時間序列)辆布,通常帶有一些文字信息瞬矩,如圖一所示,比如用戶購買商品會伴隨著文字點評記錄锋玲,用戶申贖基金后也可能會參與社區(qū)討論景用。
以往我們通常的做法是對這些文字做編碼到高緯度空間,然后通過某些方式并入主模型的架構(gòu)中惭蹂,然后再輸出預(yù)測值丛肢。有了大語言模型(LLM) 后,我們希望可以直接利用其強大的文字理解和推理能力剿干,來支持序列預(yù)測蜂怎。這個方法更直接,隨著LLM 理解能力的突飛猛進(jìn)置尔,這個方法很可能也更有效杠步。我們在一篇被 NeurIPS'23 接收的文章 Language Model Can Improve Event Prediction by Few-shot Abductive Reasoning 中提出了新的架構(gòu) LAMP,實現(xiàn)了這個目標(biāo)榜轿。
圖1:用戶購買商品的點評序列示意圖
方法
01 整體思路
LLM 的引入類似于推薦里面的檢索和精排機制幽歼。在 Base model 的預(yù)測值基礎(chǔ)上,利用 LLM 推理并且從歷史序列中檢索出 cause events谬盐,根據(jù)這些事件序列甸私,重新再做一次精排,最終輸出預(yù)測值飞傀。
圖2:整體思路示意圖
02 模型架構(gòu)
LAMP 架構(gòu)可以分成三個部分:
Event Sequence Model:經(jīng)典的序列模型皇型,比如點過程模型、時序圖譜模型等砸烦,對所有預(yù)測集合中的預(yù)測值(下文中的effect event)做一個打分弃鸦。
LLM: 給一個 effect event, 推導(dǎo)出他的 cause event幢痘。因為LLM 生成的是虛擬的事件唬格,所以要做一個模式匹配(text matching), 然后從真實的數(shù)據(jù)上找到真實的事件,重新拼成一個序列。
對上一步拼成的序列重新再做一次打分购岗。
03 Prompt 模版
04 訓(xùn)練與預(yù)測
Event Sequence Model 和 Ranking Model 都是用經(jīng)典方法單獨訓(xùn)練的汰聋, LLM 直接調(diào)用接口,不做微調(diào)喊积。訓(xùn)練與預(yù)測的細(xì)節(jié)見論文烹困。論文原文:https://arxiv.org/abs/2305.16646
05 實驗
我們在三個開源數(shù)據(jù)集,兩個是時序圖譜數(shù)據(jù)集 GDELT 和 ICEWS注服,一個是 推薦系統(tǒng)常用的 Amazon Review 序列數(shù)據(jù)韭邓。我們用Mean Rank 作為指標(biāo)來衡量模型的性能。從 Base Model 的預(yù)測值中取出分?jǐn)?shù)最高的M個溶弟,然后對這M個進(jìn)行重排(第二步和第三步)女淑,我們看 ground truth event 的排名會不會更好 (Rank 數(shù)值會更低,比如從排名第8 到 排名第 2)辜御。
LLM 我們測試了 GPT-3.0 和 GPT-3.5 兩個選擇鸭你。在消融實驗的時候我們也測試了 Llama2,詳見文章的實驗部分擒权。
從結(jié)果來看袱巨,不同的 Base Model 和 Ranking Model 組合下,GPT-3.5 都能提升最終的預(yù)測性能碳抄,GPT-3.0 效果相對一般愉老。開源的 LLM 中 Llama2 也表現(xiàn)較好。
更多細(xì)節(jié)見論文的 section4 以及附錄部分剖效。論文原文: https://arxiv.org/abs/2305.16646
結(jié)論
我們完成了首個把 LLM 推理能力引入事件序列領(lǐng)域的工作嫉入。代碼、數(shù)據(jù)均已經(jīng)開源璧尸,并將集成進(jìn)開源庫 EasyTPP咒林。
EasyTPP GitHub:
https://github.com/ant-research/EasyTemporalPointProcess