搜索產(chǎn)品有很多,其中有哪些需要注意的問(wèn)題今穿?在技術(shù)之外,我們還需要知道什么伦籍?
搜索本身是一個(gè)比較技術(shù)的事情蓝晒,小白產(chǎn)品想要學(xué)習(xí)搜索的產(chǎn)品知識(shí),就會(huì)發(fā)現(xiàn)各大論壇上的搜索相關(guān)內(nèi)容都是技術(shù)為主帖鸦。即使買(mǎi)上幾本搜索相關(guān)的書(shū)籍也大部分講的是搜索引擎的原理芝薇,無(wú)從下手去學(xué)習(xí),入門(mén)就更難了作儿。
那對(duì)于一個(gè)搜索小白來(lái)說(shuō)剩燥,到底應(yīng)該怎么樣去設(shè)計(jì)一個(gè)搜索引擎呢?
搜索路徑:輸入搜索詞-抓取數(shù)據(jù)-分析用戶(hù)搜索意圖-識(shí)別意圖并召回內(nèi)容-結(jié)果集排序。
一灭红、抓取數(shù)據(jù)
搜索引擎:在全網(wǎng)中抓取盡可能全的數(shù)據(jù),供搜索引擎查詢(xún)口注。
垂類(lèi)搜索引擎:這些數(shù)據(jù)95%以上都是平臺(tái)自建的变擒,所以不需要去其他平臺(tái)抓取數(shù)據(jù)。如:淘寶寝志、美團(tuán)都是平臺(tái)自己維護(hù)的數(shù)據(jù)娇斑,平臺(tái)需要做的事情就是盡量讓數(shù)據(jù)準(zhǔn)確、真實(shí)材部。如果一個(gè)賣(mài)衣服的商品錄入的信息全是賣(mài)鞋的毫缆,即使引擎再好也無(wú)法識(shí)別這件“衣服”。
二乐导、分析用戶(hù)搜索意圖:分詞苦丁、詞語(yǔ)處理、詞語(yǔ)識(shí)別
1. 分詞:?jiǎn)巫址衷~物臂、短語(yǔ)分詞
1)單字分詞
就是用戶(hù)輸入詞分成單個(gè)字旺拉,每個(gè)單字匹配上搜索域就可以被搜索,這種分詞簡(jiǎn)單易開(kāi)發(fā)棵磷,適合spu和品類(lèi)較少的平臺(tái)蛾狗。但這種分詞方式有一個(gè)弊病,那就是搜索結(jié)果不準(zhǔn)仪媒。
就比如我想搜索“小金鎖”的面膜沉桌,那搜索域中匹配上“小”、“金”算吩、“鎖”三個(gè)字就可以被召回留凭,真實(shí)案例就是搜索結(jié)果出現(xiàn)“金色小米手機(jī)人臉解鎖”的手機(jī),尷尬至極赌莺。
2)短語(yǔ)分詞
這種分詞方式需要準(zhǔn)備一個(gè)基于自己平臺(tái)的分詞詞庫(kù)(如果沒(méi)有找一個(gè)開(kāi)源詞庫(kù))冰抢,分詞引擎基于這個(gè)分詞庫(kù)來(lái)分詞并進(jìn)行搜索。
比如你想搜索“小金鎖”艘狭,分詞庫(kù)中包含“金鎖”挎扰、“小金鎖”,那你搜索的詞就會(huì)被分成“小”巢音、“金鎖”遵倦、“小金鎖”,那搜索域中是“金色小米手機(jī)人臉解鎖”的sku就不會(huì)被搜索出來(lái)官撼,因?yàn)椤敖疰i”梧躺、“小金鎖”這兩個(gè)詞并沒(méi)有匹配上。
部分垂類(lèi)需要自建自己平臺(tái)的分詞庫(kù),比如電商類(lèi)的平臺(tái)掠哥,就可以從品類(lèi)名稱(chēng)巩踏、地域名稱(chēng)、品牌名稱(chēng)续搀、店鋪名稱(chēng)去搭建一個(gè)基礎(chǔ)庫(kù)塞琼。提供一個(gè)思路大家自己去思考,下一步應(yīng)該怎么搞禁舷?
2. 詞語(yǔ)處理類(lèi)
用戶(hù)搜索詞千奇百怪彪杉,避免不了同一個(gè)搜索結(jié)果,每個(gè)人搜索的詞不相同牵咙。但為了保證無(wú)論用戶(hù)輸入什么搜索詞派近,都可以變成想要的結(jié)果,這個(gè)時(shí)候就需要同義詞洁桌、近義詞渴丸、錯(cuò)別字、屏蔽詞來(lái)干預(yù)战坤。
1)同義詞
因?yàn)榻Y(jié)果集取并集曙强,所以用戶(hù)無(wú)論搜索同義詞中的哪個(gè)詞,得到的結(jié)果都是相同的途茫。
同義詞庫(kù)搭建的時(shí)盡量保證詞庫(kù)的真實(shí)碟嘴、準(zhǔn)確,如果匹配分詞庫(kù)時(shí)有專(zhuān)業(yè)的業(yè)務(wù)部分囊卜,最好和業(yè)務(wù)部分確認(rèn)好后再配置娜扇。如:剃須刀、刮胡刀栅组,書(shū)雀瓢、圖書(shū),上海九院玉掸、上海第九人民醫(yī)院刃麸,拖鞋、鞋拖司浪。
2)近義詞
近義詞是兩種詞的定義接近但又不是同一個(gè)東西的時(shí)候泊业,一般配置近義詞。如:生抽啊易、老抽吁伺,獼猴桃、奇異果租谈。
有的人認(rèn)為不是一種東西篮奄,有的人又非說(shuō)是一種東西(人的認(rèn)知邊界,此處不接受杠)。所以窟却,近義詞可以完美解決這種情況昼丑。排序的時(shí)候優(yōu)先展示搜索詞的結(jié)果集,配置的近義詞在搜索詞結(jié)果展示完后展示夸赫;當(dāng)然也可以穿插展示矾克,具體情況具體設(shè)計(jì)。
3)錯(cuò)別字
錯(cuò)別字需要做的是定義主詞和錯(cuò)別字詞憔足,錯(cuò)別字在沒(méi)有進(jìn)入搜索引擎的前一步就完成的替換。
錯(cuò)別字情況在搜索引擎中最常見(jiàn)酒繁,如:雅詩(shī)蘭黛滓彰、雅思蘭黛、雅詩(shī)蘭戴州袒、雅詩(shī)藍(lán)黛揭绑。這種情況簡(jiǎn)單點(diǎn)就走同義詞,但對(duì)應(yīng)的搜索詞和搜索域的相似度會(huì)有一定程度的影響郎哭,所以錯(cuò)別字還是最有解決方案他匪。
4)屏蔽詞
屏蔽掉一些無(wú)關(guān)或者無(wú)意義的詞。
如各種奇奇怪怪的標(biāo)點(diǎn)符號(hào)夸研、各種反d反d的詞語(yǔ)等邦蜜,行業(yè)內(nèi)有很多標(biāo)準(zhǔn)詞庫(kù)。在技術(shù)論壇上查找亥至,不過(guò)多介紹悼沈。
3. 詞語(yǔ)識(shí)別類(lèi)
主要還是標(biāo)記一些詞為特殊詞,可以在用戶(hù)搜索該類(lèi)詞的時(shí)候姐扮,給出一些特殊樣式的驚喜絮供,就比如搜索“雅詩(shī)蘭黛”,不僅僅展示“雅詩(shī)蘭黛”商品茶敏,也可以展示“雅詩(shī)蘭黛”店鋪壤靶、“雅詩(shī)蘭黛”活動(dòng)入口等等,給用戶(hù)的驚喜也是很大的惊搏!
三贮乳、識(shí)別意圖并召回內(nèi)容
1. 搜索域:搜索域就是搜索詞匹配相似度的文本
初級(jí)的搜索產(chǎn)品,可能會(huì)覺(jué)得所有的信息都放進(jìn)搜索域中就行了胀屿。其實(shí)大錯(cuò)特錯(cuò)塘揣,這樣導(dǎo)致的結(jié)果就是非常不準(zhǔn)確。這個(gè)時(shí)候宿崭,搜索產(chǎn)品一定要克制亲铡,盡量把重要的字段放在搜索域中,就比如:商品標(biāo)題、品類(lèi)奖蔓、標(biāo)簽赞草、sku名稱(chēng)、sku規(guī)格等吆鹤。
2.?相似度:搜索詞和搜索域匹配度也叫相似度(偏技術(shù)可略過(guò))
1)分詞方式
如用戶(hù)搜索:“你說(shuō)的確實(shí)在理”厨疙。
“你說(shuō)”、“的”疑务、“確實(shí)”沾凄、“在理”=1*2+2*1+3*2+4*2=18
“你說(shuō)”、“的確”知允、“實(shí)”撒蟀、“在理”=1*2+2*1+3*1+4*2=15
“你說(shuō)”、“的確”温鸽、“實(shí)在”保屯、“理”=1*2+2*1+3*2+4*1=14
機(jī)器無(wú)法判定那種分詞方式是對(duì),但是數(shù)字可以判斷大小涤垫。所以姑尺,搜索詞先判定了第一種分詞方式(真正的分詞比這個(gè)還要復(fù)雜,用分詞數(shù)量和分詞位置比較好理解蝠猬,下幾篇文字會(huì)詳細(xì)講下如何分詞)切蟋。
2)匹配方式or和and
or和and無(wú)非就是用戶(hù)搜索詞和搜索域匹配的結(jié)果集是要部分匹配還是完全匹配,用哪種模式還是比較看行業(yè)的吱雏。電商敦姻、020建議用and較好,社區(qū)歧杏、視頻等內(nèi)容類(lèi)建議用or較好镰惦。
3)文本相似度=余弦相似度
余弦相似度,就是通過(guò)一個(gè)向量空間中兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)個(gè)體之間差異的大小犬绒。把1設(shè)為相同旺入,0設(shè)為不同,那么相似度的值就是在0~1之間凯力。余弦相似度的特點(diǎn)是余弦值接近1茵瘾,夾角趨于0,表明兩個(gè)向量越相似咐鹤。
看下圖:
比如:{你說(shuō) 的 確實(shí) 在理}拗秘、{你說(shuō) 的 在理},對(duì)應(yīng)的向量分別是{1祈惶,1雕旨,1扮匠,1}、{1凡涩,1棒搜,0,1}套入到的公式中活箕,相似度約等于80.4%
PS:但相似度是不準(zhǔn)確的力麸,“你真好看”和“你真難看”相似度75%,但其實(shí)他們一點(diǎn)也不相似育韩。所以克蚂,機(jī)器學(xué)習(xí)、語(yǔ)義識(shí)別筋讨、神經(jīng)語(yǔ)言等還是需要逐漸搞起來(lái)的(小廠謹(jǐn)慎搞)陨舱。
四、結(jié)果集排序
1. 業(yè)務(wù)因子排序
基于行業(yè)特性版仔,定義一些業(yè)務(wù)因子來(lái)綜合打分行程排序。
基于多維度的分?jǐn)?shù)來(lái)定義對(duì)應(yīng)的結(jié)果集误墓,一般可以加一些ctr蛮粮、單uv價(jià)值、單pv價(jià)值谜慌、退款因子然想、轉(zhuǎn)發(fā)互動(dòng)因子等等。要知道搜索結(jié)果不僅要準(zhǔn)確欣范,還要足夠受歡迎变泄。
2. 人工干預(yù)排序
對(duì)于特定的詞或者類(lèi)型,給予一些人工干預(yù)恼琼,保證搜索結(jié)果的準(zhǔn)確性妨蛹。
3. 個(gè)性化排序
基于用戶(hù)標(biāo)簽,在搜索結(jié)果集中加權(quán)值晴竞。
比如技術(shù)宅搜索”蘋(píng)果“蛙卤,大概率是想要iphone手機(jī),那吃貨當(dāng)然更希望是水果嘍噩死。
搜索底層路徑基本就這四大節(jié)點(diǎn)颤难,底層動(dòng)作圍繞著四個(gè)節(jié)點(diǎn)有很多標(biāo)準(zhǔn)的行業(yè)解決方案,歡迎大家一起聊聊已维!
純?cè)瓌?chuàng)行嗤,歡迎轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)留言垛耳!
關(guān)注公眾號(hào)不迷路:老韓帶你侃職場(chǎng)