分享工程算法在業(yè)務(wù)開發(fā)中的應(yīng)用

工程算法，說白了就是leetcode上那些傳統(tǒng)算法熔任，常見的應(yīng)用是……面試褒链。本文分享幾例在業(yè)務(wù)開發(fā)中的應(yīng)用

一、搜索提示

市面上的搜索引擎都有搜索提示功能疑苔，基礎(chǔ)的功能是前綴匹配甫匹，其他還有拼寫糾錯（如圖，值得打成了指的夯巷，依然有推薦“值得”）赛惩、按照一些統(tǒng)計數(shù)據(jù)優(yōu)化推薦（比如搜索量越大的排在越上面）

image.png

開發(fā)一個面向C端用戶的完善的搜索提示要考慮上述很多功能細(xì)節(jié)，比較麻煩趁餐，但是在工作中喷兼，我們肯定會接手各種各樣的輸入框，這些輸入框并沒有那么關(guān)鍵（總不能是個輸入框就按照上面搞一套搜索提示）后雷，或者是僅對公司內(nèi)部人員開放的內(nèi)部配置平臺季惯，給這些輸入框添加只支持前綴匹配的搜索提示還是比較簡單的。
那么臀突，前綴匹配怎么做呢勉抓？

1.1. 方案A: 數(shù)據(jù)庫like查詢

這種方案比較直接，不細(xì)說了候学。缺點(diǎn)是數(shù)據(jù)量大的時候查庫比較慢藕筋，而且如果這個輸入框是個面向C端用戶的輸入框，那還得考慮如果流量大怎么辦梳码、如果流量不大但是被惡意訪問導(dǎo)致流量大了怎么辦隐圾。
另外還有個缺點(diǎn)伍掀，數(shù)據(jù)庫不好做拼寫糾錯

1.2. 方案B: 在內(nèi)存里構(gòu)建字典樹

另一種方案是在內(nèi)存中構(gòu)建一個字典樹緩存，輸入數(shù)據(jù)后直接通過字典樹做前綴匹配暇藏，這種方案的優(yōu)點(diǎn)是匹配更快蜜笤，且不用擔(dān)心流量大的情況，能做拼寫糾錯（下文詳述）盐碱。我找了下leetcode還真有這樣的面試題把兔，感興趣的可以嘗試下。

1.2.1. 實踐中的優(yōu)化與細(xì)節(jié)

1.2.1.1. 注意字符集大小

如果自己實現(xiàn)一個R-way Trie（就是每個節(jié)點(diǎn)在數(shù)組里存儲下一個節(jié)點(diǎn)）會存在一個問題：空間復(fù)雜度是O(NwR)瓮顽，依賴于字符集的大小R县好，如果只是26個英文字母還好，而如果是字符集2字節(jié)趣倾，每個節(jié)點(diǎn)就要開辟大小是65536的數(shù)組聘惦，太耗費(fèi)空間。
因此實踐中我用的是 Apache包下的Patricia Trie儒恋。Patricia Trie相對于普通的R-way Trie，一方面把只有單節(jié)點(diǎn)的細(xì)長分支壓縮成了一個節(jié)點(diǎn)黔漂，另一方面其基于2進(jìn)制比較诫尽，空間復(fù)雜度與字符集大小R無關(guān)（嚴(yán)格的說是和logR相關(guān)），其存儲結(jié)構(gòu)大概如圖炬守，每個節(jié)點(diǎn)只有兩個子節(jié)點(diǎn)（而普通的Trie里每個節(jié)點(diǎn)要開R個空間用來存子節(jié)點(diǎn)）

image.png

1.2.1.2. 并發(fā)安全

大致看了Apache實現(xiàn)里的代碼牧嫉，沒做并發(fā)安全的處理，因此自己封裝了一層讀寫鎖减途。

1.2.1.3. Patricia Trie做前綴匹配：有些API會遍歷所有數(shù)據(jù)

用之前建議仔細(xì)看文檔或源碼酣藻，有些操作prefixMap("xxx").firstKey()是會遍歷所有數(shù)據(jù)的，需要避免使用

1.2.2. Follow Up:內(nèi)存存不下怎么辦鳍置？

假如這是一場技術(shù)面試辽剧，那么到這里自然會產(chǎn)生下一個問題：如果數(shù)據(jù)太多，內(nèi)存里存不下整個Trie該怎么辦税产？
解決的思路是把Trie分散放在多臺機(jī)器上怕轿。可以對前兩個字符做一致性hash來路由機(jī)器辟拷，比如以ab開頭的詞都在機(jī)器1撞羽，以ac開頭的詞都在機(jī)器3。
當(dāng)然衫冻，假如這是一場技術(shù)面試诀紊，那么隨之而來又會產(chǎn)生新的問題：假如有數(shù)據(jù)傾斜怎么辦，有訪問熱點(diǎn)怎么辦隅俘？這里就不展開了邻奠，哈哈笤喳。

二、拼寫糾錯

搜索引擎還有個常用功能惕澎，如果拼寫錯了會進(jìn)行糾錯并提示用戶莉测，如圖。

image.png

完善的拼寫糾錯功能往往使用基于統(tǒng)計的算法唧喉，我們的思路還是簡單的問題簡單解決捣卤，不是關(guān)鍵輸入框就不搞那么復(fù)雜（其實是因為復(fù)雜的算法我不會，嘿嘿）這里介紹基于編輯距離的拼寫糾錯八孝。

2.1. 方案A:計算兩個單詞的最小編輯距離

首先想到的算法是遍歷字典董朝，求輸入字符串和字典里每個單詞的最小編輯距離，這感覺是很經(jīng)典的動態(tài)規(guī)劃題目（來來來干跛，復(fù)習(xí)下動態(tài)規(guī)劃子姜，來寫下這道題）
但是這么搞需要對字典里每個單詞都求一次，時間復(fù)雜度太高楼入。怎么優(yōu)化呢哥捕？

2.2. 方案B:反向編輯距離

如果字典里單詞太多，一個優(yōu)化思路是反過來嘉熊，即先從查詢詞生成可能的候選集遥赚，找出候選集里在詞典出現(xiàn)的詞。例如用戶輸入birthdai阐肤，我們發(fā)現(xiàn)這個詞搜不到東西凫佛，那么先來找只需要做一次修改操作就能生成birthdai的詞，包括*irthdai,b*rthdai,bi*thdai...birthda* 然后一個一個看他們是否在字典中出現(xiàn)孕惜。

2.2.1. 實踐中的取舍

2.2.1.0. 使用哪種編輯距離

編輯距離問題有很多種愧薛，有的是支持增、刪操作衫画，有的是支持增刪改操作毫炉，鑒于實踐中經(jīng)常把兩個字母打錯位(比如chain打成了chian)，我選擇的是支持增碧磅、刪碘箍、改、交換操作的編輯距離鲸郊。

2.2.1.1. 把數(shù)據(jù)都放到內(nèi)存

全放數(shù)據(jù)庫的話丰榴，做一次拼寫糾錯就要調(diào)幾百次數(shù)據(jù)庫。

2.2.1.2. 震驚秆撮！Apache的Patricia Trie不支持通配符匹配

我寫代碼寫到一半才發(fā)現(xiàn)Apache的Patricia Trie不支持通配符匹配……
沒辦法四濒，簡單一點(diǎn)，用丑一點(diǎn)的算法。假設(shè)拼寫糾錯算法只支持由英文字母和下劃線構(gòu)成的字符串盗蟆，比如用戶想打birthday但是輸入了birthdai戈二，算法對每一個字符嘗試替換、刪除喳资、插入觉吭、交換，替換只嘗試替換為英文字母和下劃線仆邓。例如嘗試把第一位的b替換為acdef...,相應(yīng)的字符串為airthdai,cirthdai,dirthdai...以此類推鲜滩。

三、年會上的程序員：抽獎算法怎么寫节值？

年會的時候少不了抽獎環(huán)節(jié)徙硅，抽獎算法怎么寫呢？
來來來搞疗，請做題：
有50個員工參加年會嗓蘑，抽取一二三等獎，分別有1匿乃、2桩皿、3人中獎。
有100個員工參加年會幢炸，抽取一二三等獎和陽光普照獎业簿，分別有1、2阳懂、3、50個員工中獎（我也不知道為啥陽光普照照不到剩下的人）
……
有20萬員工柜思，抽取5萬人獲得陽光普照獎岩调。
有14億員工，抽取1萬人獲得陽光普照獎赡盘。
有N個員工号枕，抽取K個員工獲得陽光普照獎。
應(yīng)該怎么寫才能保證抽獎公平呢陨享？

3.1. hashmap判重唄

把中過獎的員工id存到hashmap里葱淳，每次生成一個隨機(jī)數(shù)代表員工id，看看hashmap里有沒有抛姑，有就重新隨機(jī)赞厕，沒有就說明這人中獎了。

3.2. 排序

給每個員工生成一個隨機(jī)數(shù)代表他們的得分定硝，然后找出分值排名在前K個的員工皿桑，代表中獎。

3.3. 洗牌算法

《算法導(dǎo)論》介紹過把數(shù)組隨機(jī)打亂的洗牌算法，感興趣可以復(fù)習(xí)一下

3.4. 蓄水池抽樣

洗牌算法得把整個數(shù)組都放內(nèi)存里诲侮，假如在14億人中抽取1萬人發(fā)獎（镀虐？？）如果14億人全放內(nèi)存里太大了沟绪，那么可以用蓄水池抽樣刮便，內(nèi)存里只需要放1萬人就好了

3.5. 黑名單映射法

每次隨機(jī)范圍縮小，對黑名單建立映射绽慈。見
https://leetcode-cn.com/problems/random-pick-with-blacklist/solution/hei-ming-dan-zhong-de-sui-ji-shu-by-leetcode-2

3.6. 填窟窿法

https://leetcode-cn.com/problems/insert-delete-getrandom-o1-duplicates-allowed

你會用哪種算法呢恨旱？

最后編輯于：2020.10.02 09:00:45

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市久信，隨后出現(xiàn)的幾起案子窖杀，更是在濱河造成了極大的恐慌，老刑警劉巖裙士，帶你破解...
沈念sama閱讀 221,331評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件入客，死亡現(xiàn)場離奇詭異，居然都是意外死亡腿椎，警方通過查閱死者的電腦和手機(jī)桌硫，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,372評論 3贊 398
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來啃炸，“玉大人铆隘，你說我怎么就攤上這事∧嫌茫” “怎么了膀钠？”我有些...
開封第一講書人閱讀 167,755評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長裹虫。經(jīng)常有香客問我肿嘲，道長，這世上最難降的妖魔是什么筑公？我笑而不...
開封第一講書人閱讀 59,528評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任雳窟，我火速辦了婚禮，結(jié)果婚禮上匣屡，老公的妹妹穿的比我還像新娘封救。我一直安慰自己，他們只是感情好捣作，可當(dāng)我...
茶點(diǎn)故事閱讀 68,526評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布誉结。她就那樣靜靜地躺著，像睡著了一般虾宇。火紅的嫁衣襯著肌膚如雪搓彻。梳的紋絲不亂的頭發(fā)上如绸，一...
開封第一講書人閱讀 52,166評論 1贊 308
城市分裂傳說
那天，我揣著相機(jī)與錄音旭贬，去河邊找鬼怔接。笑死，一個胖子當(dāng)著我的面吹牛稀轨，可吹牛的內(nèi)容都是我干的扼脐。我是一名探鬼主播，決...
沈念sama閱讀 40,768評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼奋刽，長吁一口氣：“原來是場噩夢啊……” “哼瓦侮！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起佣谐，我...
開封第一講書人閱讀 39,664評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤肚吏，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后狭魂，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體罚攀，經(jīng)...
沈念sama閱讀 46,205評論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,290評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年雌澄，在試婚紗的時候發(fā)現(xiàn)自己被綠了斋泄。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,435評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡镐牺，死狀恐怖炫掐，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情睬涧，我是刑警寧澤募胃，帶...
沈念sama閱讀 36,126評論 5贊 349
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站畦浓，受9級特大地震影響摔认，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜宅粥，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,804評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望电谣。院中可真熱鬧秽梅，春花似錦、人聲如沸剿牺。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,276評論 0贊 23
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽晒来。三九已至钞诡，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背荧降。一陣腳步聲響...
開封第一講書人閱讀 33,393評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工接箫，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人朵诫。一個月前我還...
沈念sama閱讀 48,818評論 3贊 376
代替公主和親
正文我出身青樓辛友，卻偏偏與公主長得像，于是被迫代替她去往敵國和親剪返。傳聞我的和親對象是個殘疾皇子废累，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,442評論 2贊 359

分享工程算法在業(yè)務(wù)開發(fā)中的應(yīng)用

一、搜索提示

1.1. 方案A: 數(shù)據(jù)庫like查詢

1.2. 方案B: 在內(nèi)存里構(gòu)建字典樹

1.2.1. 實踐中的優(yōu)化與細(xì)節(jié)

1.2.1.1. 注意字符集大小

1.2.1.2. 并發(fā)安全

1.2.1.3. Patricia Trie做前綴匹配：有些API會遍歷所有數(shù)據(jù)

1.2.2. Follow Up:內(nèi)存存不下怎么辦鳍置？

二、拼寫糾錯

2.1. 方案A:計算兩個單詞的最小編輯距離

2.2. 方案B:反向編輯距離

2.2.1. 實踐中的取舍

2.2.1.0. 使用哪種編輯距離

2.2.1.1. 把數(shù)據(jù)都放到內(nèi)存

2.2.1.2. 震驚秆撮！Apache的Patricia Trie不支持通配符匹配

三、年會上的程序員：抽獎算法怎么寫节值？

3.1. hashmap判重唄

3.2. 排序

3.3. 洗牌算法

3.4. 蓄水池抽樣

3.5. 黑名單映射法

3.6. 填窟窿法

推薦閱讀更多精彩內(nèi)容