我們在上學(xué)的時(shí)候經(jīng)常會做閱讀理解的題目箭窜,根據(jù)文章內(nèi)容提取出其中的答案。NLP中的閱讀理解同樣是提出文章中的中心句衍腥,不過不同的是磺樱,這是利用機(jī)器自動提取出來,其中涉及到NLP中LR(邏輯回歸)分類算法紧阔、XGboost模型坊罢。
LR(邏輯回歸)分類算法是一個(gè)二分類算法,主要作用是預(yù)測事務(wù)發(fā)生的概率擅耽。通過利用一致的自變量來預(yù)測一個(gè)離散型因變量的值活孩。
優(yōu)點(diǎn):計(jì)算代價(jià)不高,易于理解和實(shí)現(xiàn)
缺點(diǎn):容易欠擬合乖仇,分類精度可能不高
適用數(shù)據(jù)類型:數(shù)值型和標(biāo)稱型數(shù)據(jù)
XGboost模型一個(gè)監(jiān)督模型憾儒,xgboost對應(yīng)的模型是一堆CART樹。xgboost出名的原因一是準(zhǔn)乃沙,二是快起趾,之所以快,其中就有選用CART樹的一份功勞警儒。由于CART樹的葉子節(jié)點(diǎn)對應(yīng)的值是一個(gè)實(shí)際的分?jǐn)?shù)训裆,而非一個(gè)確定的類別,這將有利于實(shí)現(xiàn)高效的優(yōu)化算法
業(yè)務(wù)訴求
利用閱讀理解的技術(shù)蜀铲,提取word文檔中重點(diǎn)內(nèi)容边琉。當(dāng)用戶提出問題后,機(jī)器能自動從多個(gè)文檔中找到對應(yīng)的答案推送給用戶查看记劝,從而解決用戶的問題
解決思路
用戶要咨詢的問題作為作為一個(gè)輸入源变姨,大量的文檔是檢索的對象。
根據(jù)問題內(nèi)容厌丑,機(jī)器去多個(gè)文檔中檢索定欧,找出前N個(gè)與問題相關(guān)的所有文檔中的段落,可以是意思相近怒竿,可以是包含相同關(guān)鍵詞等砍鸠。找出后利用LR算法進(jìn)行二次分類,提取出其中機(jī)器認(rèn)為質(zhì)量較好的前30個(gè)段落愧口。
然后再利用xgboost模型做分類睦番,從30個(gè)段落中,找出前10個(gè)段落。使用閱讀理解方式托嚣,從10個(gè)段落中挑選一個(gè)段落出來巩检,作為多文檔閱讀理解的最終答案
存在的問題
1.僅將用戶的問題作為輸入,范圍太小示启,需要將問題進(jìn)行語義泛化
2.僅憑問題去多個(gè)文檔中進(jìn)行檢索答案兢哭,準(zhǔn)確性有多高還需待驗(yàn)證