query correction

https://web.stanford.edu/class/cs276/pa/pa2.pdf
語(yǔ)料:
lm corpus: 99,904 documents
query corpus: 819,722 編輯距離最多為1
Levenshtein automaton

比較清晰的ppt:
http://web.stanford.edu/class/cs276/handouts/spell_correction.pdf
目前的做法:

image.png

提升的方法:
image.png

額外的加分項(xiàng):

  1. 考慮編輯距離在1以上的情況
  2. 除了斯坦福網(wǎng)站的語(yǔ)料朴沿,嘗試其他語(yǔ)料
  3. 訓(xùn)練語(yǔ)言模型的時(shí)候撬腾,考慮其他的平滑方式,例如 Kneser-Ney smoothing
  4. K-gram index
  5. Levenshtein Automata:uses a finite state automata for fuzzy matching of words
    git:https://gist.github.com/Arachnid/491973
    blog:http://blog.notdot.net/2010/07/Damn-Cool-Algorithms-Levenshtein-Automata

https://github.com/aitounejjar/pa2-Spell-Corrector
https://github.com/pangolulu/spelling-corrector
Moore 文章語(yǔ)音+拼寫model

  1. Toutanova K, Moore R C. Pronunciation modeling for improved spelling correction[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2002: 144-151.

Moore 之前的文章:拼寫model

  1. Brill E, Moore R C. An improved error model for noisy channel spelling correction[C]//Proceedings of the 38th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2000: 286-293.

引用了Moore的文章

  1. Martins B, Silva M J. Spelling correction for search engine queries[M]//Advances in Natural Language Processing. Springer, Berlin, Heidelberg, 2004: 372-383.
  2. Sun X, Gao J, Micol D, et al. Learning phrase-based spelling error models from clickthrough data[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 266-274.
  3. Multi-level feature extraction for spelling correction

  1. Wilcox-O’Hearn A, Hirst G, Budanitsky A. Real-word spelling correction with trigrams: A reconsideration of the Mays, Damerau, and Mercer model[C]//International conference on intelligent text processing and computational linguistics. Springer, Berlin, Heidelberg, 2008: 605-616.

Gao J, Li X, Micol D, et al. A large scale ranker-based system for search query spelling correction[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Association for Computational Linguistics, 2010: 358-366.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末关斜,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖屯换,帶你破解...
    沈念sama閱讀 222,946評(píng)論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異伶氢,居然都是意外死亡趟径,警方通過(guò)查閱死者的電腦和手機(jī)瘪吏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,336評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)蜗巧,“玉大人掌眠,你說(shuō)我怎么就攤上這事∧灰伲” “怎么了蓝丙?”我有些...
    開封第一講書人閱讀 169,716評(píng)論 0 364
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)望拖。 經(jīng)常有香客問(wèn)我渺尘,道長(zhǎng),這世上最難降的妖魔是什么说敏? 我笑而不...
    開封第一講書人閱讀 60,222評(píng)論 1 300
  • 正文 為了忘掉前任鸥跟,我火速辦了婚禮,結(jié)果婚禮上盔沫,老公的妹妹穿的比我還像新娘医咨。我一直安慰自己,他們只是感情好架诞,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,223評(píng)論 6 398
  • 文/花漫 我一把揭開白布拟淮。 她就那樣靜靜地躺著,像睡著了一般谴忧。 火紅的嫁衣襯著肌膚如雪很泊。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,807評(píng)論 1 314
  • 那天沾谓,我揣著相機(jī)與錄音委造,去河邊找鬼。 笑死搏屑,一個(gè)胖子當(dāng)著我的面吹牛争涌,可吹牛的內(nèi)容都是我干的粉楚。 我是一名探鬼主播辣恋,決...
    沈念sama閱讀 41,235評(píng)論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼模软!你這毒婦竟也來(lái)了伟骨?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,189評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤燃异,失蹤者是張志新(化名)和其女友劉穎携狭,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體回俐,經(jīng)...
    沈念sama閱讀 46,712評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡逛腿,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,775評(píng)論 3 343
  • 正文 我和宋清朗相戀三年稀并,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片单默。...
    茶點(diǎn)故事閱讀 40,926評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡碘举,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出搁廓,到底是詐尸還是另有隱情引颈,我是刑警寧澤,帶...
    沈念sama閱讀 36,580評(píng)論 5 351
  • 正文 年R本政府宣布境蜕,位于F島的核電站蝙场,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏粱年。R本人自食惡果不足惜售滤,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,259評(píng)論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望台诗。 院中可真熱鬧趴泌,春花似錦、人聲如沸拉庶。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,750評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)氏仗。三九已至吉捶,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間皆尔,已是汗流浹背呐舔。 一陣腳步聲響...
    開封第一講書人閱讀 33,867評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留慷蠕,地道東北人珊拼。 一個(gè)月前我還...
    沈念sama閱讀 49,368評(píng)論 3 379
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像流炕,于是被迫代替她去往敵國(guó)和親澎现。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,930評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容

  • 《侏羅紀(jì)公園2》承接了第一集的主題每辟,致力于將白堊紀(jì)剑辫、侏羅紀(jì)時(shí)期的古生物保護(hù)好,結(jié)果人類抑制不住自己的...
    里二少閱讀 261評(píng)論 0 1
  • 大家好渠欺,我是佳媽妹蔽,是兩個(gè)寶寶的媽媽,大寶9歲,小寶10個(gè)月胳岂。 我的職業(yè)是一名專職心理咨詢師编整,在學(xué)校從事學(xué)生心理健康...
    佳媽雷新花閱讀 1,146評(píng)論 0 0
  • 看很多成功人士的介紹,讓人注意的乳丰,是他們幾十年如一日的堅(jiān)持闹击。日復(fù)一日的作息習(xí)慣,同樣的工作態(tài)度成艘。同樣是人赏半,為什么他...
    諸敬文閱讀 491評(píng)論 0 5
  • 首先,我需要一個(gè)GitHub的空repo淆两,名為Cissy.github.io断箫。 然后,在git bash中依次操作...
    Cissy_fba3閱讀 169評(píng)論 0 0