淺談基于模糊音的中文匹配算法

沒有具體代碼展示铁坎，只做思路分享，有更好的思路犁苏，歡迎交流硬萍。查看原文

背景介紹

字符串的相似度算法在許多領(lǐng)域都能經(jīng)常用到，在數(shù)據(jù)清理傀顾、語音識(shí)別襟铭、語音糾錯(cuò)、搜索等領(lǐng)域有重要的用處。本文主要介紹基于模糊音的方式匹配中文字符串寒砖，文末還會(huì)有作者對(duì)中文相似度匹配算法的其它想法赐劣。

問題描述

在語音識(shí)別領(lǐng)域，由于我國方言眾多哩都，所以需要精準(zhǔn)地匹配每個(gè)地方的方言目前還不太現(xiàn)實(shí)魁兼。市面上的語音識(shí)別服務(wù)基本上對(duì)普通話的識(shí)別率是最高的，但是也需要用戶用很標(biāo)準(zhǔn)的普通話來講漠嵌。這就涉及到模糊音匹配的問題了咐汞。

提出問題

用戶說：“大娘水餃好吃嗎”，被語音識(shí)別成了“大亮睡覺好吃嘛”（舉個(gè)栗子而已）儒鹿，這個(gè)時(shí)候怎么將語音識(shí)別后的結(jié)果轉(zhuǎn)換成我想要的結(jié)果化撕。

解決思路

中文漢字大致有幾個(gè)特征：1）聲母约炎；2）韻母植阴；3）聲調(diào)；4）偏旁圾浅；5）結(jié)構(gòu)掠手；6）筆畫
這幾個(gè)特征中，在語音識(shí)別后的處理過程中狸捕，1喷鸽、2、3的權(quán)重要高一些灸拍，其中做祝，1、2最為重要株搔，也就是語音識(shí)別為什么出錯(cuò)的原因剖淀，要做的事情就是通過模糊音將聲母、韻母來進(jìn)行匹配纤房。

先將23個(gè)聲母編號(hào)：

聲母	編號(hào)	聲母	編號(hào)	聲母	編號(hào)	聲母	編號(hào)
b	1	p	2	m	3	f	4
d	5	t	6	n	7	l	7
g	8	k	9	h	4	j	B
q	C	x	D	zh	E	ch	F
sh	G	r	H	z	E	c	F
s	G	y	I	w	J

韻母編號(hào)：

韻母	編號(hào)	韻母	編號(hào)	韻母	編號(hào)	韻母	編號(hào)
a	1	o	2	e	3	i	4
u	5	v	6	ai	7	ei	7
ui	8	ao	9	ou	A	iu	B
ie	C	ue	D	er	E	an	F
en	G	in	H	un	I	ven	J
ang	F	eng	G	ing	H	ong	K
ian	L	uan	M	iang	N	uang	O
iong	P	iao	Q

我把常用模糊音的聲母和韻母各自都標(biāo)成相同的纵隔，比如n、l都是7炮姨，這樣便于后面處理捌刮。

將語音識(shí)別結(jié)果按照 “聲母-韻母-聲母-韻母” 這樣的格式轉(zhuǎn)換成編號(hào)就變成了“517NG8BQA9F431”，關(guān)鍵字中“大娘水餃”拼音編碼后是“517NG8BQ”舒岸，這個(gè)時(shí)候可以看出有兩個(gè)字符串已經(jīng)相同了绅作。

所以目前可以想到的基于模糊音的中文匹配算法大概就是：先將原語句通過聲母表和韻母表編碼，再將自建的關(guān)鍵詞庫（事先也通過這種方法編碼）與其對(duì)比蛾派，如果有相同的字符串俄认，則很大概率可以直接替換掉原文个少，當(dāng)然也有少數(shù)情況兩個(gè)關(guān)鍵詞拼音都一樣。

思維發(fā)散

目前這種方式是基于絕對(duì)匹配來做的眯杏，也就是關(guān)鍵詞庫和原語句必須完全相同才能相互替換夜焦，但是需要用到模糊匹配上面似乎這種方式已經(jīng)不行了。

不過岂贩，在這種方式的基礎(chǔ)上茫经，再利用到Edit Distance的算法似乎也可以實(shí)現(xiàn)模糊匹配，找出距離最相近的關(guān)鍵詞萎津，這種方式我沒有試過卸伞，算法可參見Edit Distance。

我真正想說的是下面的東西锉屈。

在輸入法上面會(huì)有簡拼的用法荤傲，相信大家很習(xí)慣了‘wzry’就會(huì)匹配到‘王者榮耀’這樣的輸入方式。這個(gè)用法會(huì)給我一個(gè)啟發(fā)部念，在模糊匹配的時(shí)候弃酌，有時(shí)候不需要用到韻母，有時(shí)候也不需要用到聲母儡炼，特別是在長語句當(dāng)中，簡拼這種方式尤其受人喜歡查蓉。我們可以將上面例子中的原語句只將聲母編碼出來“57GBAF3”乌询，“大娘水餃”關(guān)鍵詞的聲母是“57GB”，這個(gè)時(shí)候如果嫌精度不夠高的話豌研，可以把韻母加在后面妹田，原語句為“57GBAF31N8Q941”，關(guān)鍵詞為“57GB1N8Q”鹃共，這樣精度就高了點(diǎn)鬼佣，而且可以當(dāng)作hash來使用，查找的時(shí)候復(fù)雜度為O(1)霜浴，這個(gè)時(shí)候再用上前面的Edit Distance的算法的話晶衷，基本上基于模糊音的中文匹配精度就很高了。

如果不只是對(duì)語音識(shí)別后的語句做調(diào)整的話阴孟，還可以在前面編碼的過程中加入字形的特征晌纫，偏旁結(jié)構(gòu)筆畫等做到根據(jù)字形也能智能糾錯(cuò)。

甚至如果在有大量統(tǒng)計(jì)數(shù)據(jù)的情況下永丝，將每個(gè)聲母或者韻母的編號(hào)用出現(xiàn)的概率來表示的話锹漱，還可以定量地計(jì)算出兩個(gè)字符串之間的相似度，但是遺憾沒有這么大量的數(shù)據(jù)慕嚷。

中文字符串相似度算法還有很多可以拓展的哥牍，還需讀者自行探索下去毕泌。

最后編輯于：2017.12.08 16:34:08

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市嗅辣，隨后出現(xiàn)的幾起案子懈词，更是在濱河造成了極大的恐慌，老刑警劉巖辩诞，帶你破解...
沈念sama閱讀 218,122評(píng)論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件坎弯，死亡現(xiàn)場離奇詭異，居然都是意外死亡译暂，警方通過查閱死者的電腦和手機(jī)抠忘，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,070評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來外永，“玉大人崎脉，你說我怎么就攤上這事〔ィ” “怎么了囚灼？”我有些...
開封第一講書人閱讀 164,491評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長祭衩。經(jīng)常有香客問我灶体，道長，這世上最難降的妖魔是什么掐暮？我笑而不...
開封第一講書人閱讀 58,636評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任蝎抽，我火速辦了婚禮，結(jié)果婚禮上路克，老公的妹妹穿的比我還像新娘樟结。我一直安慰自己，他們只是感情好精算，可當(dāng)我...
茶點(diǎn)故事閱讀 67,676評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布瓢宦。她就那樣靜靜地躺著，像睡著了一般灰羽。火紅的嫁衣襯著肌膚如雪驮履。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,541評(píng)論 1贊 305
城市分裂傳說
那天谦趣，我揣著相機(jī)與錄音疲吸，去河邊找鬼。笑死前鹅，一個(gè)胖子當(dāng)著我的面吹牛摘悴，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播舰绘，決...
沈念sama閱讀 40,292評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼蹂喻，長吁一口氣：“原來是場噩夢(mèng)啊……” “哼葱椭！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起口四，我...
開封第一講書人閱讀 39,211評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤孵运，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后蔓彩，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體治笨，經(jīng)...
沈念sama閱讀 45,655評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,846評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年赤嚼，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了旷赖。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,965評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡更卒，死狀恐怖等孵，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情蹂空，我是刑警寧澤俯萌，帶...
沈念sama閱讀 35,684評(píng)論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站上枕，受9級(jí)特大地震影響咐熙，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜姿骏，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,295評(píng)論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一糖声、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧分瘦，春花似錦、人聲如沸琉苇。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,894評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽并扇。三九已至去团，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間穷蛹，已是汗流浹背土陪。一陣腳步聲響...
開封第一講書人閱讀 33,012評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留肴熏，地道東北人鬼雀。一個(gè)月前我還...
沈念sama閱讀 48,126評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像蛙吏，于是被迫代替她去往敵國和親源哩。傳聞我的和親對(duì)象是個(gè)殘疾皇子鞋吉，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,914評(píng)論 2贊 355