作者:商倩蘭? 來源:JDTech
今天只講搜索引擎的一個小模塊村怪,所以上半部分赫蛇,先說搜索引擎的基礎(chǔ)模塊。這個圖是我給京東內(nèi)部員工和我團隊產(chǎn)品經(jīng)理培訓(xùn)時畫的勋又,目前網(wǎng)頁搜索、電商平臺類搜索换帜,或各種名目繁多的垂直搜索楔壤,都可以簡單描述成這樣的結(jié)構(gòu)。
抽象說惯驼,圍繞用戶搜索產(chǎn)品做四部分內(nèi)容:
1蹲嚣、輔助用戶輸入,提升用戶表達需求的效率祟牲;
2隙畜、理解用戶意圖,對用戶輸入進行理解说贝,涉及到自然語言议惰、數(shù)據(jù)挖掘等知識,目前一般的的用戶輸入方式還是關(guān)鍵詞乡恕,語音言询、圖片等交互方式還沒有興起,都嘗試傲宜,尤其app运杭、電視這種關(guān)鍵詞交互方式受制的客戶端,在積累對用戶交互的理解函卒。但總歸需要對用戶輸入的東西進行理解辆憔,比如搜“紅豆”,在淘寶前面都是紅豆男裝报嵌,在京東都是糧油調(diào)味虱咧,這是不同平臺對大多數(shù)用戶需求的理解;
3锚国、檢索返回內(nèi)容腕巡,依據(jù)理解用戶意圖的模塊帶來的信息,進行精確的檢索和排序跷叉;
4逸雹、呈現(xiàn)营搅,頁面結(jié)構(gòu)云挟、視覺和交互的設(shè)計來承載返回的內(nèi)容。
今天的內(nèi)容只是第1點中的一個產(chǎn)品:
在阿里巴巴\淘寶叫smart suggestion转质,京東叫下拉框推薦园欣,雅虎叫自動補全,起到輸入法的作用休蟹,提高搜索效率沸枯。因為推薦和搜索產(chǎn)品都是策略類產(chǎn)品日矫,所以基本都跟數(shù)據(jù)挖掘有關(guān),目前下拉框推薦詞的數(shù)據(jù)源有三部分組成绑榴。
淘寶哪轿、京東最開始都只采取most popular的數(shù)據(jù)策略,這樣雖然一個詞搜索量大翔怎,里面需求比較零散(基于消費者表達意思還是短詞多的現(xiàn)狀)窃诉,可以最大程度滿足大多數(shù)人的需求。所以包含當(dāng)前已經(jīng)輸入在搜索框內(nèi)容的詞列表赤套,按pv從大到小排序飘痛,再加上一些反作弊策略即可應(yīng)用。
我在搭建目前京東海外站搜索產(chǎn)品的時候容握,尤其英文站的下拉框推薦詞數(shù)據(jù)源宣脉,直接抓取亞馬遜的,再檢驗下載京東有商品即可剔氏,也是Most popular的策略塑猖。
最開始都是most popular,形成平臺上的馬太效應(yīng)之后介蛉,流量不精準(zhǔn)問題萌庆,必然想到走向個性化,比如在京東搜索框輸入“RY”币旧,下拉框推薦詞都是榮耀践险,但在淘寶確有“R語言”的推薦詞。
策略類產(chǎn)品的不同吹菱,有時候不是因為兩邊技術(shù)的差異巍虫,而是平臺不同,消費者行為數(shù)據(jù)造成的鳍刷,走向個性化占遥,就是以上三個數(shù)據(jù)策略中的后兩項。
7月8日晚小流量上線的設(shè)計就是挖掘session下數(shù)據(jù)输瓜,來探索實時個性化的策略瓦胎。
如果用戶搜索了“nike錢包”,在下一次搜索中會搜 “adidas錢包” 的概率是704/4648 = 15.1%; 如果用戶在下一個Query中輸入 Adidas 應(yīng)該提示 “Adidas 錢包”尤揣,同時去觀察同session下用戶的數(shù)據(jù)搔啊,需求是有趨同的意圖,類似這種:
所以北戏,我們挖掘出很多詞對組成一份數(shù)據(jù)源负芋,根據(jù)用戶上一步的關(guān)鍵詞表達實時推薦相關(guān)詞。舉一個例子:
這就是挖掘出來的詞對數(shù)據(jù)源嗜愈,有了它之后旧蛾,當(dāng)用戶在一個session中前面有一個詞是“十三香”莽龟,當(dāng)用戶在搜索框中輸入“五”這個字的時候,可以推薦“五香粉”給它锨天,而沒有做實時個性化推薦前毯盈,所有京東用戶在搜索框輸入“五”的時候都看到一樣的下拉框推薦詞,都是這個:
產(chǎn)品假設(shè)病袄、數(shù)據(jù)挖掘都是在用戶歷史行為中得出的猜想奶镶,7月8日已小流量上線了,等看后續(xù)數(shù)據(jù)陪拘。
【Q&A環(huán)節(jié)】
Q:session值是目前所有在線用戶同時搜索的這個關(guān)鍵詞么厂镇?可以理解SESSION CONTEXT就是找“尿布和啤酒”么?
A:必然不是,京東每天的session量是個很大的數(shù),session是什么意思大家知道左刽,數(shù)據(jù)挖掘捺信,策略類產(chǎn)品不是特別好懂,就是訪問會話欠痴。進到www.jd.com迄靠,搜了n多詞,點擊了一堆商品喇辽,買或不買了幾個商品掌挚,然后關(guān)掉www.jd.com,session就結(jié)束了
Q:session值是目前所有在線用戶點擊的關(guān)鍵詞么菩咨?
A:不對吠式,session會記錄所有用戶在你網(wǎng)站的行為,但因為搜索的產(chǎn)品抽米,我們只用其中關(guān)鍵詞搜索來做嘗試特占。你們在京東任何地方,點了商品云茸,再回到首頁后是目,有個推薦產(chǎn)品叫“猜你喜歡”都會變化。
Q:那可以理解為标捺,根據(jù)一次會話的兩個詞共同出現(xiàn)次數(shù)(有序的)懊纳,虛擬兩個詞之間的相關(guān)程度,然后根據(jù)已輸入的Q2的分詞亡容,根據(jù)相關(guān)程度排序嗤疯,按順序進行詞語推薦么?
A:根據(jù)所有搜過“十三香”的session中其他搜索詞數(shù)據(jù)萍倡,挖掘詞的相關(guān)關(guān)系身弊。
Q:目前是否是用平臺上匯總的全部session來做的推薦辟汰?有結(jié)合當(dāng)前用戶的畫像/分類/行為進一步精細化的計劃么列敲?
A:如是是一兩個阱佛,那就沒有統(tǒng)計意義,但其實策略類產(chǎn)品很好玩戴而,比如去年做過價格模型凑术,加上業(yè)務(wù)的努力,京東服裝部的每日3000W RMB所意,提到到去年底的8000W淮逊。
Q:有搜索推薦入門書籍推薦嗎?
A:搜索推薦這類產(chǎn)品涉及很多知識扶踊,可以先從偏技術(shù)類書入門泄鹏,對以后有好處。
您也可以加微信號1025792036備注“設(shè)計”進入微信群討論秧耗。
想系統(tǒng)的學(xué)習(xí)了解如何在項目中循序漸進的思考體驗設(shè)計和體驗創(chuàng)新备籽。個人參與可以學(xué)習(xí)到如何成為合格的用戶體驗設(shè)計師,團隊參與可以推動團隊在用戶體驗思維角度的主動思考分井,以幫助建立跨團隊的用戶體驗協(xié)作的意識和初步能力车猬。我們提倡把用戶體驗作為思維方式在企業(yè)中跨角色推廣。若要獲得產(chǎn)品和服務(wù)體驗的全面提升和突破創(chuàng)新尺锚,需要團隊成員對用戶體驗的思維方式的共同理解珠闰、認同和深入人心的貫徹執(zhí)行。你不但可以聽到理念方法講授瘫辩、案例分享伏嗜,還有現(xiàn)場的小組實踐項目練習(xí)幫你吸收、應(yīng)用伐厌。
點擊“工作坊詳情”或掃描下圖中的二維碼進入報名頁阅仔。