##[1號(hào)店]電商用戶畫像(下)

電商用戶畫像(下) http://sanwen.net/a/bawuobo.html

商品標(biāo)簽存儲(chǔ)在hbase的product_tags表
格式為梅掠,


用戶標(biāo)簽存儲(chǔ)在hbase的user_tags表
格式為辣垒,


實(shí)際生產(chǎn)環(huán)境中充尉,HBase會(huì)有不少坑,離線寫可以通過bulkload等批量寫的方式辣辫,但是對(duì)于在線讀兽掰,應(yīng)避免特別大的Scan,我們把畫像的數(shù)據(jù)也寫在了分布式索引的Solr试浙,對(duì)于批量讀队他,或者二級(jí)索引可以優(yōu)先走Solr,其次再考慮HBase的二級(jí)索引卷仑,減少HBase的壓力。


實(shí)踐過程
3.3主題推薦標(biāo)簽麸折、用戶命名實(shí)體等新增標(biāo)簽補(bǔ)充進(jìn)畫像
主題推薦標(biāo)簽
主題和標(biāo)簽的映射關(guān)系:


使用標(biāo)簽表中的關(guān)鍵詞列表锡凝,結(jié)合商品的評(píng)論、標(biāo)題數(shù)據(jù)給商品打標(biāo)簽磕谅。
商品打標(biāo)簽公式為:

商品標(biāo)簽存儲(chǔ)在hbase的product_tags表
格式為私爷,

用戶打標(biāo)簽公式為:

用戶標(biāo)簽存儲(chǔ)在hbase的user_tags表
格式為,

值得注意的是膊夹,在這一步需要統(tǒng)計(jì)平均每個(gè)用戶被打上標(biāo)簽的數(shù)量衬浑。針對(duì)標(biāo)簽稀疏問題,我們?cè)?.3中嘗試使用CF對(duì)用戶標(biāo)簽做平滑處理放刨。
用戶命名實(shí)體識(shí)別的標(biāo)簽
通過用戶歷史訂單地址做地址結(jié)構(gòu)化,再對(duì)結(jié)構(gòu)化中的地址做用戶命名實(shí)時(shí)識(shí)別,最后對(duì)每一個(gè)用戶的地址做地址匹配,即可識(shí)別出用戶的公司工秩、小區(qū)、校園標(biāo)簽进统,具體實(shí)現(xiàn)方法見作者在2015年qcon上的分享助币,識(shí)別的命名實(shí)時(shí)數(shù)目如下:

3.4HBase的離線和在線分離、KV讀和批量讀分離
離線Hadoop任務(wù)會(huì)對(duì)數(shù)據(jù)庫某段時(shí)間I/O頻繁訪問螟碎,影響實(shí)時(shí)的性能眉菱,把離線和實(shí)時(shí)的集群分開。在離線集群上應(yīng)用bulkload生成HBase的元文件hfile掉分,在實(shí)時(shí)線上集群上拉取離線集群的hfile:
Hadoop dfs -cp hftp://ip1:port/userProfileBulkLoad hdfs://ip2:port / userProfileBulkLoad
實(shí)時(shí)線上集群通過LoadIncrementalHFiles命令俭缓,補(bǔ)上丟失的增量數(shù)據(jù):
HBase org.apache.Hadoop.HBase.mapreduce.LoadIncrementalHFiles / userProfileBulkLoad userProfile
這樣做避免了對(duì)數(shù)據(jù)庫頻繁寫入的壓力,也避免了離線任務(wù)對(duì)實(shí)時(shí)任務(wù)的影響酥郭。


另外华坦,實(shí)際生產(chǎn)環(huán)境中,HBase會(huì)有不少坑不从,離線寫可以通過bulkload等批量寫的方式惜姐,但是對(duì)于在線讀,應(yīng)避免特別大的Scan,我們把畫像的數(shù)據(jù)也寫在了分布式索引的Solr椿息,對(duì)于批量讀歹袁,或者二級(jí)索引可以優(yōu)先走Solr,其次再考慮HBase的二級(jí)索引,減少HBase的壓力寝优。

3.5畫像性能優(yōu)化
處理邏輯和規(guī)則
a)離線部分的track解析遷移至統(tǒng)一的行為解析數(shù)據(jù)庫宇攻,在加快運(yùn)行速度的同時(shí),還可以提高行為解析的準(zhǔn)確率倡勇。
待商榷:
用戶行為數(shù)據(jù)設(shè)計(jì)到userid和guid:
1)在同一sessionid中逞刷,若userid出現(xiàn)過,則該sessionid中的所有行為對(duì)應(yīng)至該userid
2)在guid和userid的對(duì)應(yīng)關(guān)系中妻熊,濾掉公用電腦和黃牛賬戶夸浅;
b)為了進(jìn)一步提高離線部分的計(jì)算速度,用戶的行為權(quán)重計(jì)算亦可以增量計(jì)算扔役。
設(shè)Wh為用戶對(duì)某個(gè)類目的歷史行為權(quán)重帆喇,Wc為用戶最新一天的行為權(quán)重,則總的行為權(quán)重
Wt = λWh + Wc, 0<λ<1
采用此權(quán)重亿胸,帶入模型坯钦,計(jì)算偏好预皇。
然后更新Wh = Wt。
如果采用上述方法婉刀,則不必遍歷用戶的所有的行為數(shù)據(jù)吟温,每次更新時(shí),只需遍歷一天的數(shù)據(jù)即可突颊。

3.6數(shù)據(jù)存儲(chǔ)優(yōu)化
畫像離線與在線數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)
離線的數(shù)據(jù)結(jié)構(gòu)采用Hive鲁豪。
在線的數(shù)據(jù)存儲(chǔ):第一版畫像的數(shù)據(jù)存儲(chǔ)在Hbase中,每天可支撐數(shù)千萬次的訪問律秃,時(shí)延10ms左右爬橡,性能尚可,并且存儲(chǔ)的數(shù)據(jù)量是TB級(jí)棒动,如果用傳統(tǒng)的數(shù)據(jù)庫糙申,隨著標(biāo)簽急速的增加,勢(shì)必要不停的分表船惨,存儲(chǔ)的擴(kuò)展性不是很好郭宝,新版畫像的在線存儲(chǔ)系統(tǒng)仍然使用HBase≈朗考慮到類目偏好使用比較頻繁粘室,而導(dǎo)購屬性偏好數(shù)據(jù)量遠(yuǎn)大于類目偏好,將兩者分開存儲(chǔ)卜范。
類目偏好離線數(shù)據(jù)結(jié)構(gòu)-Hive


離線的全量數(shù)據(jù)進(jìn)行過濾之后衔统,導(dǎo)入在線部分。過濾原則:
a)每個(gè)用戶的偏好類目數(shù)量小于一個(gè)固定值
b)用戶偏好得分大于下限海雪,該下限可假設(shè)用戶當(dāng)天在某個(gè)類目只有一個(gè)加車行為锦爵,然后帶入模型反推出來
類目偏好在線數(shù)據(jù)結(jié)構(gòu)-HBase
Rowkey: userid,
ColumnFamily:category_level
Column:category_id
Value: weight
導(dǎo)購屬性偏好離線數(shù)據(jù)結(jié)構(gòu)-Hive

離線的全量數(shù)據(jù)進(jìn)行過濾之后,導(dǎo)入在線部分奥裸。過濾原則:
屬性偏好大于一個(gè)固定的下限
屬性值的數(shù)量小于一個(gè)上限
屬性值偏好大于一個(gè)固定下限

效果評(píng)價(jià)
畫像系統(tǒng)使得公司廣告投放ROI提升3%险掀;
實(shí)時(shí)畫像(意圖)對(duì)猜你喜歡欄位的共享占比60%多
首頁大輪播的GMV提升千分之三;
應(yīng)用到首頁猜你喜歡湾宙、團(tuán)購樟氢、閃購、搜索侠鳄、推薦埠啃、營銷等欄位或者產(chǎn)品;
了解受眾群體的變遷伟恶,適時(shí)推出適合的產(chǎn)品碴开;
降低自營商品的采購數(shù)量,指導(dǎo)了廠商優(yōu)化產(chǎn)品結(jié)構(gòu)
基于標(biāo)簽畫像的千人千面上線效果:


推廣建議
提煉出該案例(或項(xiàng)目)的哲理、方法論潦牛。
算法準(zhǔn)確度眶掌、數(shù)據(jù)規(guī)模、更新速度相互制衡巴碗,提高某些指標(biāo)朴爬,必須犧牲其他指標(biāo)
一個(gè)系統(tǒng)遇到性能瓶頸的時(shí)候,適度分解系統(tǒng)良价,以滿足不同場(chǎng)景
系統(tǒng)給在線欄位用的時(shí)候,一定得考慮降級(jí)和延遲環(huán)境
數(shù)據(jù)流各個(gè)環(huán)節(jié)都可能出錯(cuò)蒿叠,自動(dòng)化檢查各個(gè)節(jié)點(diǎn)的中間數(shù)據(jù)
系統(tǒng)演進(jìn)的時(shí)候明垢,有不同的方案,爭(zhēng)取多數(shù)人支持市咽,減少一個(gè)人拍板的方案
不同版本開發(fā)的時(shí)候痊银,適度換些開發(fā)者,融入新的思路施绎,避免少數(shù)人思維定式
避免運(yùn)營驅(qū)動(dòng)溯革,不同時(shí)期,過來新的標(biāo)簽需求谷醉,如果研發(fā)團(tuán)隊(duì)只管添加致稀,大部分標(biāo)簽會(huì)沉睡,后面基本用不到俱尼。研發(fā)團(tuán)隊(duì)首先確定自己的標(biāo)準(zhǔn)和規(guī)范抖单,以篩選新需求的標(biāo)簽和排優(yōu)先級(jí)
數(shù)據(jù)驅(qū)動(dòng),通過觀察和研究數(shù)據(jù)遇八,對(duì)數(shù)據(jù)有一定的敏感度矛绘,產(chǎn)生新的用戶畫像數(shù)據(jù)。

作者簡(jiǎn)介
陳敏敏
1號(hào)店精準(zhǔn)化部門架構(gòu)團(tuán)隊(duì)負(fù)責(zé)人刃永,《Storm技術(shù)內(nèi)幕與大數(shù)據(jù)實(shí)踐》一書作者,在此之前曾服務(wù)于微軟和三星電子等公司,長期從事大數(shù)據(jù)赦邻、搜索和推薦平臺(tái)相關(guān)工作江兢,目前主要關(guān)注于NoSQL、實(shí)時(shí)計(jì)算框架读规、推薦劫灶、大數(shù)據(jù)營銷等相關(guān)技術(shù)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末掖桦,一起剝皮案震驚了整個(gè)濱河市本昏,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌枪汪,老刑警劉巖涌穆,帶你破解...
    沈念sama閱讀 211,194評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件怔昨,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡宿稀,警方通過查閱死者的電腦和手機(jī)趁舀,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來祝沸,“玉大人矮烹,你說我怎么就攤上這事≌秩瘢” “怎么了奉狈?”我有些...
    開封第一講書人閱讀 156,780評(píng)論 0 346
  • 文/不壞的土叔 我叫張陵,是天一觀的道長涩惑。 經(jīng)常有香客問我仁期,道長,這世上最難降的妖魔是什么竭恬? 我笑而不...
    開封第一講書人閱讀 56,388評(píng)論 1 283
  • 正文 為了忘掉前任跛蛋,我火速辦了婚禮,結(jié)果婚禮上痊硕,老公的妹妹穿的比我還像新娘赊级。我一直安慰自己,他們只是感情好岔绸,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,430評(píng)論 5 384
  • 文/花漫 我一把揭開白布此衅。 她就那樣靜靜地躺著,像睡著了一般亭螟。 火紅的嫁衣襯著肌膚如雪挡鞍。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,764評(píng)論 1 290
  • 那天预烙,我揣著相機(jī)與錄音墨微,去河邊找鬼。 笑死扁掸,一個(gè)胖子當(dāng)著我的面吹牛翘县,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播谴分,決...
    沈念sama閱讀 38,907評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼锈麸,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了牺蹄?” 一聲冷哼從身側(cè)響起忘伞,我...
    開封第一講書人閱讀 37,679評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后氓奈,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體翘魄,經(jīng)...
    沈念sama閱讀 44,122評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,459評(píng)論 2 325
  • 正文 我和宋清朗相戀三年舀奶,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了暑竟。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,605評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡育勺,死狀恐怖但荤,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情涧至,我是刑警寧澤腹躁,帶...
    沈念sama閱讀 34,270評(píng)論 4 329
  • 正文 年R本政府宣布,位于F島的核電站化借,受9級(jí)特大地震影響潜慎,放射性物質(zhì)發(fā)生泄漏捡多。R本人自食惡果不足惜蓖康,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,867評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望垒手。 院中可真熱鬧蒜焊,春花似錦、人聲如沸科贬。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽榜掌。三九已至优妙,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間憎账,已是汗流浹背套硼。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評(píng)論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留胞皱,地道東北人邪意。 一個(gè)月前我還...
    沈念sama閱讀 46,297評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像反砌,于是被迫代替她去往敵國和親雾鬼。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,472評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容