NLP自然語言處理中的閱讀理解

我們在上學(xué)的時(shí)候經(jīng)常會做閱讀理解的題目箭窜,根據(jù)文章內(nèi)容提取出其中的答案。NLP中的閱讀理解同樣是提出文章中的中心句衍腥,不過不同的是磺樱,這是利用機(jī)器自動提取出來,其中涉及到NLP中LR(邏輯回歸)分類算法紧阔、XGboost模型坊罢。

LR(邏輯回歸)分類算法是一個(gè)二分類算法,主要作用是預(yù)測事務(wù)發(fā)生的概率擅耽。通過利用一致的自變量來預(yù)測一個(gè)離散型因變量的值活孩。

優(yōu)點(diǎn):計(jì)算代價(jià)不高,易于理解和實(shí)現(xiàn)

缺點(diǎn):容易欠擬合乖仇,分類精度可能不高

適用數(shù)據(jù)類型:數(shù)值型和標(biāo)稱型數(shù)據(jù)

XGboost模型一個(gè)監(jiān)督模型憾儒,xgboost對應(yīng)的模型是一堆CART樹。xgboost出名的原因一是準(zhǔn)乃沙,二是快起趾,之所以快,其中就有選用CART樹的一份功勞警儒。由于CART樹的葉子節(jié)點(diǎn)對應(yīng)的值是一個(gè)實(shí)際的分?jǐn)?shù)训裆,而非一個(gè)確定的類別,這將有利于實(shí)現(xiàn)高效的優(yōu)化算法

業(yè)務(wù)訴求

利用閱讀理解的技術(shù)蜀铲,提取word文檔中重點(diǎn)內(nèi)容边琉。當(dāng)用戶提出問題后,機(jī)器能自動從多個(gè)文檔中找到對應(yīng)的答案推送給用戶查看记劝,從而解決用戶的問題

解決思路

用戶要咨詢的問題作為作為一個(gè)輸入源变姨,大量的文檔是檢索的對象。

根據(jù)問題內(nèi)容厌丑,機(jī)器去多個(gè)文檔中檢索定欧,找出前N個(gè)與問題相關(guān)的所有文檔中的段落,可以是意思相近怒竿,可以是包含相同關(guān)鍵詞等砍鸠。找出后利用LR算法進(jìn)行二次分類,提取出其中機(jī)器認(rèn)為質(zhì)量較好的前30個(gè)段落愧口。

然后再利用xgboost模型做分類睦番,從30個(gè)段落中,找出前10個(gè)段落。使用閱讀理解方式托嚣,從10個(gè)段落中挑選一個(gè)段落出來巩检,作為多文檔閱讀理解的最終答案

存在的問題

1.僅將用戶的問題作為輸入,范圍太小示启,需要將問題進(jìn)行語義泛化

2.僅憑問題去多個(gè)文檔中進(jìn)行檢索答案兢哭,準(zhǔn)確性有多高還需待驗(yàn)證

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市夫嗓,隨后出現(xiàn)的幾起案子迟螺,更是在濱河造成了極大的恐慌,老刑警劉巖舍咖,帶你破解...
    沈念sama閱讀 217,734評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件矩父,死亡現(xiàn)場離奇詭異,居然都是意外死亡排霉,警方通過查閱死者的電腦和手機(jī)窍株,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來攻柠,“玉大人球订,你說我怎么就攤上這事」迮ィ” “怎么了冒滩?”我有些...
    開封第一講書人閱讀 164,133評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長浪谴。 經(jīng)常有香客問我开睡,道長,這世上最難降的妖魔是什么苟耻? 我笑而不...
    開封第一講書人閱讀 58,532評論 1 293
  • 正文 為了忘掉前任士八,我火速辦了婚禮,結(jié)果婚禮上梁呈,老公的妹妹穿的比我還像新娘。我一直安慰自己蘸秘,他們只是感情好官卡,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,585評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著醋虏,像睡著了一般寻咒。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上颈嚼,一...
    開封第一講書人閱讀 51,462評論 1 302
  • 那天毛秘,我揣著相機(jī)與錄音,去河邊找鬼。 笑死叫挟,一個(gè)胖子當(dāng)著我的面吹牛艰匙,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播抹恳,決...
    沈念sama閱讀 40,262評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼员凝,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了叶圃?” 一聲冷哼從身側(cè)響起历恐,我...
    開封第一講書人閱讀 39,153評論 0 276
  • 序言:老撾萬榮一對情侶失蹤速警,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后糖埋,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,587評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡窃这,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,792評論 3 336
  • 正文 我和宋清朗相戀三年瞳别,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片钦听。...
    茶點(diǎn)故事閱讀 39,919評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡洒试,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出朴上,到底是詐尸還是另有隱情垒棋,我是刑警寧澤,帶...
    沈念sama閱讀 35,635評論 5 345
  • 正文 年R本政府宣布痪宰,位于F島的核電站叼架,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏衣撬。R本人自食惡果不足惜乖订,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,237評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望具练。 院中可真熱鬧乍构,春花似錦、人聲如沸扛点。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽陵究。三九已至眠饮,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間铜邮,已是汗流浹背仪召。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評論 1 269
  • 我被黑心中介騙來泰國打工寨蹋, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人扔茅。 一個(gè)月前我還...
    沈念sama閱讀 48,048評論 3 370
  • 正文 我出身青樓已旧,卻偏偏與公主長得像,于是被迫代替她去往敵國和親咖摹。 傳聞我的和親對象是個(gè)殘疾皇子评姨,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,864評論 2 354

推薦閱讀更多精彩內(nèi)容