文檔智能理解相關(guān)

文檔智能理解:通用文檔預(yù)訓(xùn)練模型與數(shù)據(jù)集
附錄

[1 ]LayoutLM 論文:https://arxiv.org/abs/1912.13318
[2 ]LayoutLM 代碼&模型:https://aka.ms/layoutlm
[3 ]DocBank 論文:https://arxiv.org/abs/2006.01038
[4 ]DocBank 數(shù)據(jù)集&模型:https://github.com/doc-analysis/DocBank
[5 ]TableBank 論文:https://arxiv.org/abs/1903.01949
[6 ]TableBank 數(shù)據(jù)集&模型:https://github.com/doc-analysis/TableBank
[7 ]“Injecting Artificial Intelligence into Financial Analysis”:https://medium.com/reimagine-banking/injecting-artificial-intelligence-into-financial-analysis-54718fbd5949
[8 ]“Document Visual Question Answering”:https://medium.com/@anishagunjal7/document-visual-question-answering-e6090f3bddee

Paper 1

LayoutLM: Pre-training of Text and Layout for Document Image Understanding
摘要:

利用pre-training技術(shù)铐懊,在處理一些通用文檔的nlp任務(wù)時(shí)悯嗓,不但是考慮到文本級(jí)別的信息松却,同時(shí)考慮到文本的位置信息茎杂,已經(jīng)圖像信息等.即基于多模態(tài)的方式去實(shí)現(xiàn),NLP的處理.創(chuàng)新點(diǎn)在于首次充分考慮的布局信息(Layout)和文本等特征的結(jié)合.在這個(gè)預(yù)訓(xùn)練基礎(chǔ)上起意,在幾個(gè)下游任務(wù)進(jìn)行的測(cè)試驗(yàn)證说贝,包括表單理解(70.72 -> 79.27), 票據(jù)理解(94.02->95.24),文檔圖片的分類(93.07->94.42).


樣例圖片
主要貢獻(xiàn):

1.將文本信息和文檔掃描圖的文本布局信息結(jié)合到一個(gè)框架中,2.使用masked-visual-lanuage model和multi-label document classification做為訓(xùn)練的目標(biāo)践惑,針對(duì)帶圖像文檔分類任務(wù)做到sota 3.代碼論文公開

具體模型結(jié)構(gòu):

layoutlm 結(jié)構(gòu)示例

在此需要提前回顧下bert的內(nèi)容绑洛,1. MLM, 2. NSP.
以下開始細(xì)說LayoutLM: 模型主體上還是基于Bert實(shí)現(xiàn),關(guān)鍵在于如何融入富文本信息.兩種重要的信息需要被加入:
分別是文檔布局信息(Document layout information), 視覺信息(visual information).
文檔布局信息: 為了表達(dá)文檔布局信息童本,就是在原先bert的輸入基礎(chǔ)之上,加入2-D位置信息脸候,即bbox的左上(x_0, y_0)和右下(x_1, y_1)坐標(biāo).即2-D position embedding.
視覺信息: 包括兩個(gè)穷娱,一個(gè)是整個(gè)圖片的特征矩陣绑蔫,一個(gè)是單個(gè)box對(duì)應(yīng)的圖像特征矩陣.即Image-Embedding.
2-D position Embedding,針對(duì)不同的維度泵额,是有不一樣的embedding表的配深,比如x坐標(biāo)的都對(duì)應(yīng)x軸的embedding向量,y坐標(biāo)對(duì)應(yīng)的y軸的一個(gè)embedding向量表嫁盲,這樣意思就是有些坐標(biāo)如x_0==y_0篓叶,但是這個(gè)兩個(gè)向量是應(yīng)該不一樣的,因?yàn)閳D像的寬高也是不一樣的.
Image Embedding羞秤,正如bert的序列向量表達(dá)是以[CLS]開始缸托,第一個(gè)輸出的表示的是整個(gè)句子向量,后續(xù)的輸出才是對(duì)應(yīng)的token的信息.這里也采用同樣的邏輯瘾蛋,進(jìn)行image embedding的構(gòu)建俐镐,第一個(gè)是整個(gè)圖片的特征矩陣,后面才是每個(gè)bbox所對(duì)應(yīng)的小圖像.
預(yù)訓(xùn)練的任務(wù): (task1:Masked Visual-Lanuage Model)哺哼,也是再M(fèi)LM基礎(chǔ)上提出MVLM佩抹,整體思路就是能學(xué)習(xí)到加入的2-d位置信息.隨機(jī)mask住幾個(gè)單詞,但是保留這些單詞的2-D信息取董,然后模型根據(jù)給定的全文來預(yù)測(cè)這幾個(gè)mask住單詞.這樣就不僅僅利用了文本上下文信息棍苹,而且融入了2-D信息.(這里有個(gè)疑問:就是全文信息的拼接長度過長是否有辦法處理,或者按照段落截?cái)?)
(task2: Multi-label Document Classification)茵汰,使用IIT-CDP數(shù)據(jù)集枢里,該數(shù)據(jù)集每個(gè)圖片文檔都有對(duì)應(yīng)的多個(gè)分類標(biāo)簽,該task就是在這個(gè)訓(xùn)練集上去訓(xùn)練文本分類的能力经窖,來監(jiān)督pre-train的過程坡垫,但是該任務(wù)對(duì)數(shù)據(jù)量的需求會(huì)比較大.

實(shí)驗(yàn)部分

微調(diào)的數(shù)據(jù)集: FUNSD, The SROIE, The RVL-CDIP.
文檔的預(yù)處理: 通過ocr拿到text和2-D
模型的pre-training: 1) mask的比例設(shè)定 2).加入2-D的(x_0, y_0, x_1, y_1),不是真實(shí)值画侣,需要規(guī)范化處理冰悠,即除以寬或者高.
特定任務(wù)的微調(diào):
1.表單理解:該任務(wù)分成兩個(gè)子任務(wù), semantic labeling和semantic linking.將單詞作為semantic entity,去打標(biāo)簽.linking則是對(duì)semantic entity進(jìn)行二分類的關(guān)系預(yù)測(cè).這個(gè)任務(wù)里只關(guān)注semantic labeling配乱,即sequence labeling 問題.
2.收據(jù)理解:首先有個(gè)預(yù)先定義好的semantic slots溉卓,根據(jù)票據(jù)內(nèi)容的抽取指定的信息,去填充這個(gè)semantic slots
3.文檔圖片理解:結(jié)合圖像信息用于對(duì)帶圖片的文檔進(jìn)行分類.
后續(xù)具體實(shí)驗(yàn)結(jié)果可以看論文中部分.

Paper 2

DocBank: A Benchmark Dataset for Document Layout Analysis
摘要:

創(chuàng)建了一個(gè)數(shù)據(jù)集用于進(jìn)行文檔布局分析的任務(wù)評(píng)估.


數(shù)據(jù)樣例

https://github.com/johnson7788/DocBank

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末搬泥,一起剝皮案震驚了整個(gè)濱河市桑寨,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌忿檩,老刑警劉巖尉尾,帶你破解...
    沈念sama閱讀 216,402評(píng)論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異燥透,居然都是意外死亡沙咏,警方通過查閱死者的電腦和手機(jī)辨图,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來肢藐,“玉大人故河,你說我怎么就攤上這事∵罕” “怎么了鱼的?”我有些...
    開封第一講書人閱讀 162,483評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長痘煤。 經(jīng)常有香客問我凑阶,道長,這世上最難降的妖魔是什么速勇? 我笑而不...
    開封第一講書人閱讀 58,165評(píng)論 1 292
  • 正文 為了忘掉前任晌砾,我火速辦了婚禮,結(jié)果婚禮上烦磁,老公的妹妹穿的比我還像新娘养匈。我一直安慰自己,他們只是感情好都伪,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,176評(píng)論 6 388
  • 文/花漫 我一把揭開白布呕乎。 她就那樣靜靜地躺著,像睡著了一般陨晶。 火紅的嫁衣襯著肌膚如雪猬仁。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,146評(píng)論 1 297
  • 那天先誉,我揣著相機(jī)與錄音湿刽,去河邊找鬼。 笑死褐耳,一個(gè)胖子當(dāng)著我的面吹牛诈闺,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播铃芦,決...
    沈念sama閱讀 40,032評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼雅镊,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了刃滓?” 一聲冷哼從身側(cè)響起仁烹,我...
    開封第一講書人閱讀 38,896評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎咧虎,沒想到半個(gè)月后卓缰,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,311評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,536評(píng)論 2 332
  • 正文 我和宋清朗相戀三年征唬,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了震叮。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,696評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡鳍鸵,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出尉间,到底是詐尸還是另有隱情偿乖,我是刑警寧澤,帶...
    沈念sama閱讀 35,413評(píng)論 5 343
  • 正文 年R本政府宣布哲嘲,位于F島的核電站贪薪,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏眠副。R本人自食惡果不足惜画切,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,008評(píng)論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望囱怕。 院中可真熱鬧霍弹,春花似錦、人聲如沸娃弓。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽台丛。三九已至耍缴,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間挽霉,已是汗流浹背防嗡。 一陣腳步聲響...
    開封第一講書人閱讀 32,815評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留侠坎,地道東北人蚁趁。 一個(gè)月前我還...
    沈念sama閱讀 47,698評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像硅蹦,于是被迫代替她去往敵國和親荣德。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,592評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容