1. 簡介
- 本文發(fā)表在NAACL2019會議上钱骂,提出了一個新的任務(wù) - 中文地址解析任務(wù)。 中文地址解析任務(wù)的目標是將中文字映射到有意義的chunk上挪鹏。通常來說可以使用序列標注方法解決中文地址解析任務(wù)见秽,但是我們觀察到此類任務(wù)中l(wèi)abel之間存在著復(fù)雜的依賴。本文提出了一種使用潛在變量的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型讨盒,建模中文地址中豐富的結(jié)構(gòu)信息解取。最終的模型結(jié)合了線性結(jié)構(gòu)(linear structure)和潛在變量的樹結(jié)構(gòu)(latent-variable tree structure)。潛在變量的樹結(jié)構(gòu)用于捕獲地址尾部chunk之間存在的依賴信息返顺,線性鏈式結(jié)構(gòu)用于捕獲地址開頭chunk之間存在的依賴信息禀苦。 并且本文發(fā)布了一個中文地址解析任務(wù)數(shù)據(jù)集總共包含15000條標注數(shù)據(jù)蔓肯。
2. 方法說明
- 下圖給出了 中文地址解析 任務(wù)的兩個例子。第一個例子是比較正常的包含一些常見label信息(province, city, district等)振乏。第二個例子缺少省蔗包、市等成分,并且包含一些冗余的信息(REDUNDANT)比如“5單元”慧邮。
中文地址解析任務(wù)例子說明.png
- 數(shù)據(jù)集說明如下:論文中使用的數(shù)據(jù)爬取自 https://b2b.huangye88.com/ 和 lbs.amap.com 中的geocoding服務(wù)调限。最終定義了21個標注label,如下表所示:
中文地址標注使用的label集合.png
2.1 潛在樹結(jié)構(gòu)(Latent Tree Structures)
- 從圖1中的第2個例子可以看出误澳,地址結(jié)尾“9棟耻矮,5單元”既可能是HOUSENO, CELLNO也可能是REDUNDANT。對于每一個原始label忆谓,我們都引進一個輔助的label淘钟。比如對于
這個label,我們引進的輔助label為
陪毡。輔助label作為樹中的非葉子結(jié)點米母。
- 潛在樹結(jié)構(gòu)將label作為葉子結(jié)點,輔助label作為非葉子結(jié)點構(gòu)造二叉樹毡琉,并且保證每一個非葉子結(jié)點至少有一個子結(jié)點铁瞒。 潛在樹結(jié)構(gòu)構(gòu)造過程如下:(1)首先我們隨機選擇一個結(jié)點作為葉子結(jié)點;(2)選擇當前葉子結(jié)點對應(yīng)label桅滋,左邊的label或者右邊的label作為另外一個葉子結(jié)點慧耍,生成一個父結(jié)點;父結(jié)點的label為葉子結(jié)點中ID較大的label對應(yīng)的輔助label丐谋。(3)此時將新生成的父結(jié)點作為一個可選的結(jié)點芍碧,在當前父結(jié)點左右label選擇一個作為葉子結(jié)點生成新的輔助label,重復(fù)這個過程号俐。
潛在樹.png
2.2 常規(guī)鏈式結(jié)構(gòu)(Regular Chain Structures)
- 一般對于地址開頭泌豆,會存在一些常規(guī)的鏈式結(jié)構(gòu),比如圖1中的(PROVINCE, CITY, DISTRICT)這種連續(xù)出現(xiàn)的label吏饿。文本定義一個分割點(Split Point踪危,SP)將label序列分割為兩組,分割點左邊的序列形成一個鏈式結(jié)構(gòu)猪落,分割點右邊的序列形成一個樹結(jié)構(gòu)贞远,正如圖2給出的例子所示。
- 加入sp = LAST表示分割點在地址最后位置笨忌,則只會存在鏈式結(jié)構(gòu)蓝仲。如果SP=COUNTRY,則表示分割點在句子的開頭,則只會存在樹結(jié)構(gòu)袱结。
2.3 chunk表示&模型
-
文中使用一個雙向字符級別LSTM計算每個span(一個span由多個字符組成)的表示亮隙,最終得到單個span為每個label的得分。
計算span表示.png
2.4 xxx
3. 實驗設(shè)置
- 本文提出的模型稱為:Address Parser with Latent Trees (APLT)擎勘,文中設(shè)置不同的sp做了很多的實驗。對比baseline模型為
(線性鏈條件隨機場),
(semi-Markov CRF),
(標準雙向LSTM模型),
,
,
(transition)模型颖榜。 本文使用word2vec預(yù)訓(xùn)練字符的詞向量棚饵,詞向量維度為100。
4. 實驗結(jié)果及分析
- 最終各個模型的對比結(jié)果如下:
各模型對比結(jié)果.png
參考資料
- APLT模型論文:Neural Chinese Address Parsing https://aclanthology.org/N19-1346/
- sCRF論文:https://proceedings.neurips.cc/paper/2004/file/eb06b9db06012a7a4179b8f3cb5384d3-Paper.pdf
- git地址:https://github.com/leodotnet/neural-chinese-address-parsing/