提高"左右分欄式簡歷"的解析效果

在視覺效果上产禾,左右分欄式的簡歷比上下更具有視覺吸引力排作,正受到求職者的廣泛使用。目前市面上至少有15%的簡歷使用左右分欄布局亚情。然而妄痪,正確處理左右分欄的簡歷是一個(gè)令人頭疼的計(jì)算機(jī)視覺問題。為解決第三方計(jì)算機(jī)視覺軟件在簡歷文件處理上性能不佳或處理速度很慢的問題楞件,小析智能自研了一套處理列布局文檔的系統(tǒng)衫生,并通過后續(xù)應(yīng)用各種人工智能技術(shù)極大地改進(jìn)了此類簡歷的解析。因此土浸,無論文檔如何分欄布局罪针,小析智能都能夠提供最優(yōu)的解析效果。

介紹

簡歷解析的第一步是將文檔轉(zhuǎn)換為可以提取信息的原始文本黄伊。提取出準(zhǔn)確的文字并保持正確的結(jié)果至關(guān)重要:任何錯(cuò)誤都會(huì)影響后續(xù)模型的表現(xiàn)泪酱。為許多不同類型的文檔生成呈現(xiàn)良好的文本表示是一個(gè)很難解決的問題还最。一種以自上而下并按行從左至右的順序呈現(xiàn)文本的簡單方法通常足以滿足具有標(biāo)準(zhǔn)布局的文檔(如圖一)墓阀。

圖1

然而,簡歷有一些其他布局憋活,人類很容易理解岂津,但對機(jī)器來說可能具有挑戰(zhàn)性虱黄。我們在簡歷文件中發(fā)現(xiàn)的一種常見布局是使用左右分割布局悦即。左右分割布局的簡歷在視覺上很吸引人,被求職者廣泛使用橱乱。候選人希望在他們的簡歷中整齊地組織信息并提供視覺結(jié)構(gòu)辜梳,例如通過包含他們的聯(lián)系信息的邊欄。對于傳統(tǒng)簡歷解析系統(tǒng)泳叠,對于這種左右分割的簡歷(如圖二)作瞄,很有可能提取出來的文字是會(huì)把聯(lián)系方式和工作經(jīng)歷連在一起

圖2

錯(cuò)誤文本提取對于某些任務(wù)仍然有用:例如一些可以通過搜索關(guān)鍵字來獲取的字段。但是危纫,會(huì)對很多下有任務(wù)宗挥,比如大段分割(基本信息,教育經(jīng)歷等)种蝶,小段分割(不同工作經(jīng)歷之前的切割)帶來極大的困難契耿。因此,要提高我們簡歷解析對特殊格式簡歷的提取螃征,我們需要制定特殊的文本提取方法搪桂。

傳統(tǒng)的方法

通過傳統(tǒng)的方法能夠處理市面上大多數(shù)類型的文檔布局

該方法有 3 個(gè)步驟。

第1步:掃描 PDF 的文本內(nèi)容并識別它們之間的視覺間隙(參見下面的示例)盯滚。

第2步:基于規(guī)則的系統(tǒng)決定視覺間隙是否為列分隔符踢械。正如您在下面的示例中看到的酗电,基于這些預(yù)測,并非所有視覺間隙都是列分隔符内列,并且不應(yīng)因這些間隙而中斷從左到右的閱讀撵术。

第3步:將通過分隔所有已識別的列來呈現(xiàn)文本。?

圖3

然而德绿,利用視覺間隙的方法會(huì)在諸多問題荷荤,例如:對于下面這種文本,會(huì)將左右兩部分分開移稳,從而導(dǎo)致字段提取不正確蕴纳。

圖4

在系統(tǒng)自檢過程中,我們的系統(tǒng)在許多情況下都取得了良好的文本抽取效果(>85%)个粱,但仍然無法預(yù)測某些列分隔符古毛。根據(jù)損失函數(shù)的設(shè)計(jì),系統(tǒng)在預(yù)測視覺間隙是列分隔符時(shí)非常精確(即正類的精度非常高)都许,其原理是當(dāng)沒有列分隔符時(shí)(即假陽性)預(yù)測列分隔符會(huì)帶來巨大的懲罰:即如果提取出來的文本將是錯(cuò)誤的稻薇,會(huì)嚴(yán)重影響解析質(zhì)量。改善這樣的系統(tǒng)需要一種以模型為方法胶征,然而增加訓(xùn)練數(shù)據(jù)覆蓋面非常困難塞椎。當(dāng)我們遇到一個(gè)新的案例時(shí),我們需要為它實(shí)施一個(gè)新的規(guī)則睛低,確保它與其他規(guī)則庫兼容案狠,并選擇如何應(yīng)用和組合規(guī)則。隨著我們添加的規(guī)則越多钱雷,系統(tǒng)復(fù)雜性會(huì)變得非常高骂铁。

理想情況下,我們希望我們的解決方案以數(shù)據(jù)為中心罩抗,這樣我們就可以通過收集系統(tǒng)應(yīng)該如何執(zhí)行的示例來提高其性能拉庵,并將我們的注意力集中在管理和改進(jìn)示例數(shù)據(jù)上。我們還想要一個(gè)能夠保持處理速度的解決方案套蒂。

第一次改進(jìn)試驗(yàn)

我們分析了幾個(gè)可能幫助我們改進(jìn)系統(tǒng)的預(yù)訓(xùn)練模型钞支,這些預(yù)訓(xùn)練模型中的大多數(shù)利用了計(jì)算機(jī)視覺方法,將文本視作圖像從而提取文本操刀。這些方法都需要昂貴的算法支撐烁挟,因此文字提取速度變得非常緩慢。同時(shí)馍刮,在簡歷解析的任務(wù)中信夫,他們的表現(xiàn)并不比我們以前基于規(guī)則的方法好多少。因此,我們放棄了直接采用預(yù)訓(xùn)練模型

由于我們主要的目標(biāo)只是改進(jìn)我們的列處理静稻,而并不需要識別文本中的所有間隙警没,只有較大的垂直視覺間隙應(yīng)該才應(yīng)該被考慮≌裢澹基于這些簡化的假設(shè)杀迹,我們想出了一種新方法來檢測文檔圖像表示中空白直方圖的最大垂直視覺間隙,如圖五所示押搪。

圖5

我們可以看到兩種布局在空白分布方面的區(qū)別树酪,使用此表示來訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型以在列布局和常規(guī)布局之間進(jìn)行分類。然而通過分類器的方法不符合我們的所有要求:我們?nèi)匀粵]法獲取的分隔列內(nèi)容的坐標(biāo)大州。此外续语,我們還注意到,解析速度將成為一個(gè)潛在問題厦画。

我們的新方法

我們解決方案的核心是:決定視覺間隙是否分隔相關(guān)或不相關(guān)的內(nèi)容(例如疮茄,列分隔符)。這是一個(gè)二元分類問題根暑,我們可以為此訓(xùn)練機(jī)器學(xué)習(xí)模型來復(fù)制決策力试。通過使用我們基于規(guī)則的系統(tǒng),我們可以通過將規(guī)則轉(zhuǎn)換為特征并將輸出決策作為我們希望新模型學(xué)習(xí)的標(biāo)簽來生成訓(xùn)練數(shù)據(jù)排嫌。通過這樣做畸裳,我們可以開始專注于改進(jìn)訓(xùn)練數(shù)據(jù)的收集和管理,并在每次模型迭代時(shí)能夠容易地重新訓(xùn)練模型淳地,而不是向我們的代碼庫添加更多規(guī)則怖糊。

新的迭代流程變成了:?

數(shù)據(jù)選擇 ->?手動(dòng)注釋?-> 模型訓(xùn)練?->?標(biāo)簽校正?->?評估

圖6

數(shù)據(jù)選擇

與需要數(shù)百個(gè)示例來開發(fā)和測試規(guī)則的基于規(guī)則的系統(tǒng)不同,我們將需要成千上萬個(gè)訓(xùn)練樣本來監(jiān)督我們的模型訓(xùn)練薇芝。

我們從客戶在反饋中與我們分享的有問題的文件開始進(jìn)行自查蓬抄。但是這個(gè)集合非常蟹峒巍(大約 20000 個(gè)簡歷)夯到。當(dāng)它們僅占訓(xùn)練數(shù)據(jù)的 10-15% 左右時(shí),我們?nèi)绾尾拍苷业礁嗟淖笥曳謾诘暮啔v饮亏?還記得從我們最初的嘗試開始耍贾,我們就有了一個(gè)基于神經(jīng)網(wǎng)絡(luò)的列分類器。雖然不足以取代我們舊的基于規(guī)則的系統(tǒng)路幸,但它是挖掘具有列布局的文檔的好方法荐开。即使這個(gè)分類器不是 100% 準(zhǔn)確,它仍然比隨機(jī)選擇文檔(準(zhǔn)確率為 10-15%)要好简肴。此外晃听,我們還收集了隨機(jī)的文檔樣本,以確保我們的方法適用于所有布局。

數(shù)據(jù)集的生成

為了生成我們的數(shù)據(jù)集能扒,我們通過現(xiàn)有的渲染管道處理我們的文檔集佣渴。對于每個(gè)視覺間隙,目標(biāo)標(biāo)簽最初設(shè)置為我們基于規(guī)則的系統(tǒng)做出的決定初斑。我們通過使用在這個(gè)決定中計(jì)算的變量和規(guī)則來引導(dǎo)特征辛润。此外,我們添加了幾個(gè)新功能见秤,可以更好地量化列布局的某些屬性砂竖。

手動(dòng)注釋

在上一步中,我們生成了一個(gè)偽標(biāo)記數(shù)據(jù)集:標(biāo)簽來自我們現(xiàn)有的系統(tǒng)鹃答,未經(jīng)人工驗(yàn)證乎澄。為了確保我們的機(jī)器學(xué)習(xí)模型不會(huì)簡單地學(xué)習(xí)重現(xiàn)基于規(guī)則的系統(tǒng)的錯(cuò)誤,我們還手動(dòng)注釋了一小部分左右分列簡歷测摔。

模型訓(xùn)練

有了訓(xùn)練數(shù)據(jù)后三圆,我們現(xiàn)在可以通過訓(xùn)練機(jī)器學(xué)習(xí)模型來模仿我們基于規(guī)則的系統(tǒng)決策了。我們從決策樹算法開始我們的實(shí)驗(yàn)避咆。這是一種應(yīng)用于我們的數(shù)據(jù)集的簡單算法舟肉,非常有效,提供良好的分類性能查库,同時(shí)應(yīng)用速度非陈访模快,這是我們在我們評估方法的重要標(biāo)準(zhǔn)?

然而樊销,決策樹有幾個(gè)問題:它們?nèi)菀走^度擬合并遭受偏差和方差誤差整慎。這會(huì)導(dǎo)致對新數(shù)據(jù)的預(yù)測不可靠。這可以通過組合幾個(gè)決策樹模型來改進(jìn)围苫。組合這些模型將帶來更好的泛化能力

有幾種方法可以實(shí)現(xiàn)這一點(diǎn)裤园,更流行的方法是Bagging,其中多個(gè)模型在數(shù)據(jù)子集上并行訓(xùn)練:這種方法的一個(gè)例子是隨機(jī)森林剂府。另一種集成方法是Boosting拧揽,其中模型按順序訓(xùn)練,每個(gè)模型都被訓(xùn)練以糾正前一個(gè)模型的錯(cuò)誤:這種方法的一個(gè)例子是梯度提升算法腺占。

在測試了幾個(gè)選項(xiàng)之后淤袜,我們選擇了使用梯度提升方法來訓(xùn)練該模型

高效的標(biāo)簽校正

由于該模型的大部分訓(xùn)練數(shù)據(jù)來自偽標(biāo)記示例,我們的新模型主要經(jīng)過訓(xùn)練來學(xué)習(xí)我們基于規(guī)則的系統(tǒng)的決策衰伯,一定程度會(huì)傾向于重現(xiàn)已有的規(guī)則铡羡。為此,我們定義了一種方法可以手動(dòng)分析并糾正新模型與基于規(guī)則的系統(tǒng)的預(yù)測之間的差異意鲸。我們稱這種方法為delta annotation烦周。這個(gè)過程會(huì)專注于標(biāo)記標(biāo)記將對模型訓(xùn)練有改進(jìn)的數(shù)據(jù)尽爆。

有了這個(gè)部分校正的數(shù)據(jù)集,我們可以重新訓(xùn)練我們的模型读慎,我們可以通過在最新模型和舊模型之間進(jìn)行增量注釋來不斷迭代和改進(jìn)我們的數(shù)據(jù)集教翩。在我們的例子中,兩次迭代足以使差異飽和并在視覺差距級別達(dá)到良好的性能贪壳。

這使我們能夠遵循以數(shù)據(jù)為中心的方法饱亿,我們可以專注于系統(tǒng)地改進(jìn)我們的數(shù)據(jù),以提高我們模型的性能闰靴。

圖7

評估

我們現(xiàn)在有了更好的文本提取模型彪笼,但實(shí)際上仍然面臨著巨大的挑戰(zhàn)。我們?nèi)绾未_保視覺間隙級別的的識別改進(jìn)能夠轉(zhuǎn)化為原文本提取的整體改進(jìn)(回想一下蚂且,一個(gè)文檔可以有多個(gè)視覺間隙)配猫。更重要的是,這是否轉(zhuǎn)化為簡歷解析質(zhì)量的提高杏死?為了驗(yàn)證這些問題泵肄,我們需要在多個(gè)層面評估我們的新系統(tǒng)。

首先淑翼,我們進(jìn)行了模型評估腐巢,以了解我們是否更擅長在視覺差距層面做出決策。為此玄括,我們可以簡單地使用盲測集并將新模型的性能與舊模型進(jìn)行比較冯丙。在 600 多個(gè)視覺差距上,我們的新模型在 91% 的情況下做出了正確的決定遭京,而我們的舊規(guī)則庫系統(tǒng)只有 82%胃惜。然而,視覺差距并不都同樣重要哪雕,有些比其他的更重要:在我們的例子中船殉,與列對應(yīng)的視覺差距是最重要的。對于這個(gè)重要的子集斯嚎,我們看到性能從 60% 提高到 82%利虫。換句話說,錯(cuò)誤率減少了一半以上孝扛。

其次列吼,我們看看視覺間隙分類的改進(jìn)是否轉(zhuǎn)化為更好的原文本提扔谋馈(回想一下苦始,在一個(gè)文檔中可能有多個(gè)視覺間隙)。換句話說慌申,我們是否在不混合左右分欄簡歷中的部分方面做得更好陌选?然而理郑,由于多個(gè)種分割方式可能都是正確的,因此很難標(biāo)注單個(gè)“正確”的渲染咨油。因此您炉,我們不得不對原文本提取結(jié)果進(jìn)行主觀評價(jià)。使用我們信得過標(biāo)注服務(wù)役电,我們將新舊系統(tǒng)的原文本提取結(jié)果并排顯示給我們的注釋者(他們不知道哪一面是哪一面)赚爵。注釋者評估文本現(xiàn)在是更好地分離、更差還是與以前大致相同法瑟。一組大約 7000 份簡歷的結(jié)果中有4200份都認(rèn)為新版本更好冀膝,2400認(rèn)為差不多,只有400份認(rèn)為原來的更好霎挟。

最后窝剖,我們看看更好的原文本提取是否能轉(zhuǎn)化為更好的解析結(jié)果。我們知道酥夭,在舊系統(tǒng)失敗的左右分欄簡歷中赐纱,我們的解析器有時(shí)會(huì)提取較少的信息,尤其是姓名熬北、電話和地址等聯(lián)系信息疙描。因此,最有效的方法是簡單地檢查填充率是否在增加讶隐。在超過 12000 份隨機(jī)簡歷中淫痰,我們看到聯(lián)系信息填充率絕對增加了 8%。但更多并不一定意味著更好整份!因此待错,我們還投資評估了使用舊系統(tǒng)的解析器和使用新系統(tǒng)的解析器之間的 1000 多個(gè)差異。下圖中的結(jié)果顯示了我們的新系統(tǒng)已修復(fù)的錯(cuò)誤百分比烈评。以上數(shù)據(jù)確認(rèn)了我們現(xiàn)在擁有了一個(gè)端到端更好的解析器火俄!?

圖8

總結(jié)我們的改進(jìn)

通過利用機(jī)器學(xué)習(xí)和海量數(shù)據(jù)來取代我們基于規(guī)則的原文本提取系統(tǒng)使得我們現(xiàn)在能夠精準(zhǔn)解析更多的簡歷布局樣式,以下是主要的優(yōu)化數(shù)據(jù)

1. 對于與列對應(yīng)的視覺差距讲冠,視覺差距級別的正確決策從 60% 提高到 82%

2. 原文本提取質(zhì)量從 62% 提高到 90%

3. 聯(lián)系信息填充率絕對值增加了8%

4. 聯(lián)系信息錯(cuò)誤率從 33% 減少到 100%

5. 與我們基于規(guī)則的系統(tǒng)相比瓜客,速度影響可以忽略不計(jì)(額外 10 毫秒)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市竿开,隨后出現(xiàn)的幾起案子谱仪,更是在濱河造成了極大的恐慌,老刑警劉巖否彩,帶你破解...
    沈念sama閱讀 212,718評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件疯攒,死亡現(xiàn)場離奇詭異,居然都是意外死亡列荔,警方通過查閱死者的電腦和手機(jī)敬尺,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評論 3 385
  • 文/潘曉璐 我一進(jìn)店門枚尼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人砂吞,你說我怎么就攤上這事署恍。” “怎么了蜻直?”我有些...
    開封第一講書人閱讀 158,207評論 0 348
  • 文/不壞的土叔 我叫張陵盯质,是天一觀的道長。 經(jīng)常有香客問我概而,道長唤殴,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,755評論 1 284
  • 正文 為了忘掉前任到腥,我火速辦了婚禮朵逝,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘乡范。我一直安慰自己配名,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,862評論 6 386
  • 文/花漫 我一把揭開白布晋辆。 她就那樣靜靜地躺著渠脉,像睡著了一般。 火紅的嫁衣襯著肌膚如雪瓶佳。 梳的紋絲不亂的頭發(fā)上芋膘,一...
    開封第一講書人閱讀 50,050評論 1 291
  • 那天,我揣著相機(jī)與錄音霸饲,去河邊找鬼为朋。 笑死,一個(gè)胖子當(dāng)著我的面吹牛厚脉,可吹牛的內(nèi)容都是我干的习寸。 我是一名探鬼主播,決...
    沈念sama閱讀 39,136評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼傻工,長吁一口氣:“原來是場噩夢啊……” “哼霞溪!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起中捆,我...
    開封第一講書人閱讀 37,882評論 0 268
  • 序言:老撾萬榮一對情侶失蹤鸯匹,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后泄伪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體殴蓬,經(jīng)...
    沈念sama閱讀 44,330評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,651評論 2 327
  • 正文 我和宋清朗相戀三年臂容,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了科雳。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片根蟹。...
    茶點(diǎn)故事閱讀 38,789評論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡脓杉,死狀恐怖糟秘,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情球散,我是刑警寧澤尿赚,帶...
    沈念sama閱讀 34,477評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站蕉堰,受9級特大地震影響凌净,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜屋讶,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,135評論 3 317
  • 文/蒙蒙 一冰寻、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧皿渗,春花似錦斩芭、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至挤土,卻和暖如春琴庵,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背仰美。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評論 1 267
  • 我被黑心中介騙來泰國打工迷殿, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人咖杂。 一個(gè)月前我還...
    沈念sama閱讀 46,598評論 2 362
  • 正文 我出身青樓贪庙,卻偏偏與公主長得像,于是被迫代替她去往敵國和親翰苫。 傳聞我的和親對象是個(gè)殘疾皇子止邮,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,697評論 2 351

推薦閱讀更多精彩內(nèi)容