淘寶通過相似人群用戶擴展的思考

原文鏈接:https://mp.weixin.qq.com/s?__biz=MzAxNDEwNjk5OQ==&mid=2650403806&idx=1&sn=1664e1ca295c99b23844d156010fbd87&chksm=83953bc6b4e2b2d0374d2bbf3275b6c6daf537589469cdefec186219016a9e3fced29d23818d&mpshare=1&scene=1&srcid=&sharer_sharetime=1566385203203&sharer_shareid=b395a997417f0cc8d103e8415247369c#rd

用戶增長團隊主要是與運營和產品相協(xié)作实蓬,實現(xiàn)對各個業(yè)務領域對用戶群特征的深入理解和洞察陵吸,從而在更大的新數(shù)據(jù)(可能是其他相關或者類似業(yè)務上的數(shù)據(jù))上挖掘出潛在的本業(yè)務的新用戶预愤。
(0)數(shù)據(jù)準備
搭建數(shù)據(jù)平臺,包含用戶基本特征(性別呜师,年齡,收入,位置膘盖,人生階段等)转锈;利用用戶評論等文本信息挖掘用戶傾向盘寡;并利用分享,轉發(fā)等挖掘用戶之間關系信息黑忱。
(1)生成種子用戶宴抚。
首先勒魔,運營根據(jù)業(yè)務經(jīng)驗,將業(yè)務需求轉化為標簽菇曲,然后根據(jù)標簽劃分出已有的用戶作為種子用戶冠绢。這些種子用戶是在特殊場景下收集到的,對商品常潮,服務需求和興趣一致弟胀。數(shù)量比較少。根據(jù)已有標簽體系喊式,為所有用戶打上標簽孵户。沒有標簽的用戶通過GBDT生成。
(2)生成擴展用戶岔留。
首先對用戶文本信息進行向量化(doc2vec)夏哭,然后進行聚類,提取聚類中心向量献联。根據(jù)用戶文本所在聚類得到用戶價值傾向對向量表達竖配。(具體實現(xiàn)不明,推測為用戶性格里逆,是否關注產品體驗进胯,等進行文本信息特征提取,隨后進行聚類)原押;
其次胁镐,使用圖模型對用戶關系數(shù)據(jù)進行轉化,利用node2vec得到用戶關系網(wǎng)絡圖向量化表示诸衔。(這個用戶關系網(wǎng)絡圖對作用和表示不明)盯漂;
最后和用戶基本特征進行拼接,得到用戶組合特征笨农。多特征向量集(User Vector Set宠能,UVS)。這么做是因為僅僅使用用戶的屬性特征和標簽特征進行人群擴散過于粗獷磁餐,人與人的興趣差異不光光是興趣標簽決定的违崇,往往和時間、環(huán)境诊霹、友人等其他的因素息息相關羞延。各個維度當特征做好歸一化。(特征更加細粒度化脾还,同時是否做了主成分分析不明)伴箩。
多特征向量聚類并存庫(存聚類中心和對應ID)。(具體聚類算法和實現(xiàn)細節(jié)不明鄙漏,用戶關系數(shù)據(jù)聚類有點不明作用)生成擴展用戶群特征嗤谚。擴展用戶應該是淘系所有產品線用戶棺蛛。
(3)使用方法,當運營在平臺上傳種子用戶ID后巩步,根據(jù)種子用戶ID判斷其是否在UVS中旁赊,將存在的也通過以上方法和數(shù)據(jù)生成對應聚類中心。通過相似性度量方法找到與種子人群類簇中心距離最小的 topN 個擴展用戶類簇椅野,其中高緯度數(shù)據(jù)使用余弦相似度效果較好终畅。(種子用戶和擴展用戶各生成多少個聚類中心不明)。將這N各用戶類簇的用戶ID輸出竟闪。
(5)分群評價指標离福。覆蓋度和相似度。
覆蓋度:對種子人群進行隨機采樣炼蛤,切分為 A妖爷、B 兩個人群, A 人群通過相似人群挖掘算法得到擴散后的人群 C 理朋,覆蓋度 =B∩C/B 赠涮,覆蓋度表示擴人群中人群 B 的占比,考驗的是算法通過人群 A 對人群 B 的“恢復”能力暗挑,具體實驗中通過將種子人群進行 5 倍擴散后根據(jù)相似人群的覆蓋度是否有提升來對模型進行迭代優(yōu)化。人群覆蓋度指標并不能完全表征相似人群與種子人群的的近似程度斜友,需要配合人群相似度一起評估炸裆。
相似度:人群相似度用來控制人群規(guī)模。首先分別計算擴散人群到種子人群聚類中心的 cosine 距離鲜屏;其次進行歸一化烹看。人群相似度基于擴散人群與種子人群間的距離計算,能夠表征擴散人群與種子人群的相似程度洛史。
(6)進一步擴展
特征表達優(yōu)化惯殊;根據(jù)業(yè)務的人群劃分豐富;特征豐富也殖;效果反饋和迭代土思。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市忆嗜,隨后出現(xiàn)的幾起案子己儒,更是在濱河造成了極大的恐慌,老刑警劉巖捆毫,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件闪湾,死亡現(xiàn)場離奇詭異,居然都是意外死亡绩卤,警方通過查閱死者的電腦和手機途样,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門江醇,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人何暇,你說我怎么就攤上這事陶夜。” “怎么了赖晶?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵律适,是天一觀的道長。 經(jīng)常有香客問我遏插,道長捂贿,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任胳嘲,我火速辦了婚禮厂僧,結果婚禮上,老公的妹妹穿的比我還像新娘了牛。我一直安慰自己颜屠,他們只是感情好,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布鹰祸。 她就那樣靜靜地躺著甫窟,像睡著了一般。 火紅的嫁衣襯著肌膚如雪蛙婴。 梳的紋絲不亂的頭發(fā)上粗井,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天,我揣著相機與錄音街图,去河邊找鬼浇衬。 笑死,一個胖子當著我的面吹牛餐济,可吹牛的內容都是我干的耘擂。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼絮姆,長吁一口氣:“原來是場噩夢啊……” “哼醉冤!你這毒婦竟也來了?” 一聲冷哼從身側響起篙悯,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤冤灾,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后辕近,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體韵吨,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了归粉。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片椿疗。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖糠悼,靈堂內的尸體忽然破棺而出届榄,到底是詐尸還是另有隱情,我是刑警寧澤倔喂,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布铝条,位于F島的核電站,受9級特大地震影響席噩,放射性物質發(fā)生泄漏班缰。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一悼枢、第九天 我趴在偏房一處隱蔽的房頂上張望埠忘。 院中可真熱鬧,春花似錦馒索、人聲如沸莹妒。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽旨怠。三九已至,卻和暖如春蜈块,著一層夾襖步出監(jiān)牢的瞬間鉴腻,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工疯趟, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人谋梭。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓信峻,卻偏偏與公主長得像,于是被迫代替她去往敵國和親瓮床。 傳聞我的和親對象是個殘疾皇子盹舞,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內容

  • 概述及標簽體系搭建 1 概述 隨著信息技術的迅速發(fā)展和信息內容的日益增長,“信息過載”問題愈來愈嚴重隘庄,愈發(fā)帶來很大...
    JinkeyAI閱讀 22,755評論 10 241
  • source code 說明:本文章主要介紹一種基于標簽有向圖的聚合推薦方法踢步,主要針對基于標簽的音樂推薦,在文章最...
    SamDing閱讀 4,943評論 0 15
  • 由于簡書對latex公式支持不太友好丑掺,因此為了更好的閱讀體驗获印,你可以移步至: 【TPAMI重磅綜述】 SIFT與C...
    keloli閱讀 6,152評論 0 18
  • | 導語在產品的增長分析當中,想關注符合某些條件的一部分用戶街州,不僅想知道這些人的整體行為(訪問次數(shù)兼丰,訪問時長等)玻孟,...
    饅頭白魚閱讀 5,977評論 0 29
  • 寫給自己。 我以為和那些好朋友鳍征,會是一輩子的友情黍翎。可經(jīng)歷過一些事情后艳丛,就開始慢慢陌生匣掸,也根本找不到當初的感覺。一件...
    南柒乚閱讀 82評論 0 0