文檔智能理解:通用文檔預(yù)訓(xùn)練模型與數(shù)據(jù)集
附錄
[1 ]LayoutLM 論文:https://arxiv.org/abs/1912.13318
[2 ]LayoutLM 代碼&模型:https://aka.ms/layoutlm
[3 ]DocBank 論文:https://arxiv.org/abs/2006.01038
[4 ]DocBank 數(shù)據(jù)集&模型:https://github.com/doc-analysis/DocBank
[5 ]TableBank 論文:https://arxiv.org/abs/1903.01949
[6 ]TableBank 數(shù)據(jù)集&模型:https://github.com/doc-analysis/TableBank
[7 ]“Injecting Artificial Intelligence into Financial Analysis”:https://medium.com/reimagine-banking/injecting-artificial-intelligence-into-financial-analysis-54718fbd5949
[8 ]“Document Visual Question Answering”:https://medium.com/@anishagunjal7/document-visual-question-answering-e6090f3bddee
Paper 1
LayoutLM: Pre-training of Text and Layout for Document Image Understanding
摘要:
利用pre-training技術(shù)铐懊,在處理一些通用文檔的nlp任務(wù)時(shí)悯嗓,不但是考慮到文本級(jí)別的信息松却,同時(shí)考慮到文本的位置信息茎杂,已經(jīng)圖像信息等.即基于多模態(tài)的方式去實(shí)現(xiàn),NLP的處理.創(chuàng)新點(diǎn)在于首次充分考慮的布局信息(Layout)和文本等特征的結(jié)合.在這個(gè)預(yù)訓(xùn)練基礎(chǔ)上起意,在幾個(gè)下游任務(wù)進(jìn)行的測(cè)試驗(yàn)證说贝,包括表單理解(70.72 -> 79.27), 票據(jù)理解(94.02->95.24),文檔圖片的分類(93.07->94.42).
主要貢獻(xiàn):
1.將文本信息和文檔掃描圖的文本布局信息結(jié)合到一個(gè)框架中,2.使用masked-visual-lanuage model和multi-label document classification做為訓(xùn)練的目標(biāo)践惑,針對(duì)帶圖像文檔分類任務(wù)做到sota 3.代碼論文公開
具體模型結(jié)構(gòu):
在此需要提前回顧下bert的內(nèi)容绑洛,1. MLM, 2. NSP.
以下開始細(xì)說LayoutLM: 模型主體上還是基于Bert實(shí)現(xiàn),關(guān)鍵在于如何融入富文本信息.兩種重要的信息需要被加入:
分別是文檔布局信息(Document layout information), 視覺信息(visual information).
文檔布局信息: 為了表達(dá)文檔布局信息童本,就是在原先bert的輸入基礎(chǔ)之上,加入2-D位置信息脸候,即bbox的左上(
視覺信息: 包括兩個(gè)穷娱,一個(gè)是整個(gè)圖片的特征矩陣绑蔫,一個(gè)是單個(gè)box對(duì)應(yīng)的圖像特征矩陣.即Image-Embedding.
2-D position Embedding,針對(duì)不同的維度泵额,是有不一樣的embedding表的配深,比如x坐標(biāo)的都對(duì)應(yīng)x軸的embedding向量,y坐標(biāo)對(duì)應(yīng)的y軸的一個(gè)embedding向量表嫁盲,這樣意思就是有些坐標(biāo)如
Image Embedding羞秤,正如bert的序列向量表達(dá)是以[CLS]開始缸托,第一個(gè)輸出的表示的是整個(gè)句子向量,后續(xù)的輸出才是對(duì)應(yīng)的token的信息.這里也采用同樣的邏輯瘾蛋,進(jìn)行image embedding的構(gòu)建俐镐,第一個(gè)是整個(gè)圖片的特征矩陣,后面才是每個(gè)bbox所對(duì)應(yīng)的小圖像.
預(yù)訓(xùn)練的任務(wù): (task1:Masked Visual-Lanuage Model)哺哼,也是再M(fèi)LM基礎(chǔ)上提出MVLM佩抹,整體思路就是能學(xué)習(xí)到加入的2-d位置信息.隨機(jī)mask住幾個(gè)單詞,但是保留這些單詞的2-D信息取董,然后模型根據(jù)給定的全文來預(yù)測(cè)這幾個(gè)mask住單詞.這樣就不僅僅利用了文本上下文信息棍苹,而且融入了2-D信息.(這里有個(gè)疑問:就是全文信息的拼接長度過長是否有辦法處理,或者按照段落截?cái)?)
(task2: Multi-label Document Classification)茵汰,使用IIT-CDP數(shù)據(jù)集枢里,該數(shù)據(jù)集每個(gè)圖片文檔都有對(duì)應(yīng)的多個(gè)分類標(biāo)簽,該task就是在這個(gè)訓(xùn)練集上去訓(xùn)練文本分類的能力经窖,來監(jiān)督pre-train的過程坡垫,但是該任務(wù)對(duì)數(shù)據(jù)量的需求會(huì)比較大.
實(shí)驗(yàn)部分
微調(diào)的數(shù)據(jù)集: FUNSD, The SROIE, The RVL-CDIP.
文檔的預(yù)處理: 通過ocr拿到text和2-D
模型的pre-training: 1) mask的比例設(shè)定 2).加入2-D的(),不是真實(shí)值画侣,需要規(guī)范化處理冰悠,即除以寬或者高.
特定任務(wù)的微調(diào):
1.表單理解:該任務(wù)分成兩個(gè)子任務(wù), semantic labeling和semantic linking.將單詞作為semantic entity,去打標(biāo)簽.linking則是對(duì)semantic entity進(jìn)行二分類的關(guān)系預(yù)測(cè).這個(gè)任務(wù)里只關(guān)注semantic labeling配乱,即sequence labeling 問題.
2.收據(jù)理解:首先有個(gè)預(yù)先定義好的semantic slots溉卓,根據(jù)票據(jù)內(nèi)容的抽取指定的信息,去填充這個(gè)semantic slots
3.文檔圖片理解:結(jié)合圖像信息用于對(duì)帶圖片的文檔進(jìn)行分類.
后續(xù)具體實(shí)驗(yàn)結(jié)果可以看論文中部分.
Paper 2
DocBank: A Benchmark Dataset for Document Layout Analysis
摘要:
創(chuàng)建了一個(gè)數(shù)據(jù)集用于進(jìn)行文檔布局分析的任務(wù)評(píng)估.