有時(shí)候不愿回學(xué)校去鸵赫,因?yàn)椋チ嗽僮呔褪怯肋h(yuǎn)宵蕉。
或許我喜歡你吧酝静。
這次回學(xué)校,多了一個(gè)朋友羡玛。也多了一個(gè)特別的人别智。
用戶(hù)畫(huà)像的流程:
1.你那個(gè)文檔我看了下..?首先要寫(xiě)一下做用戶(hù)畫(huà)像要解決的問(wèn)題...
2.然后將社會(huì)畫(huà)像..?行為畫(huà)像分開(kāi)來(lái)寫(xiě)...??模型那塊你可以用數(shù)學(xué)表達(dá)式來(lái)表示.
3.?最重要的..畫(huà)像的基礎(chǔ)是基于統(tǒng)計(jì)分析的....你將統(tǒng)計(jì)分析的需求列出來(lái)....
4.最后用到的聚類(lèi)那塊,,你將算法的原理列出來(lái)..可行性分析,.,,然后訓(xùn)練集和測(cè)試集列一下...
5.最后寫(xiě)一下你的方案的存在的問(wèn)題..后期怎么解決..目前市面上別人的方案是啥...后期的計(jì)劃什么的
6.然后一步一步的完善你的方案.
東哥???我理解的社會(huì)畫(huà)像就是用戶(hù)的基本信息畫(huà)像了??行為畫(huà)像就是用戶(hù)的點(diǎn)贊??關(guān)注等的畫(huà)像???不知道我有沒(méi)有理解對(duì)呢
恩..通常都是這么叫的...
好??OK???明白
你那個(gè)慢慢來(lái)...我想的是,你趁這個(gè)空檔期..把每個(gè)部分都研究透徹點(diǎn).....?查一下網(wǎng)上別人怎么弄..可以把相關(guān)的鏈接都記錄下來(lái).....
但是用戶(hù)畫(huà)像的一個(gè)基本要求畫(huà)像必須是可以通用的。 就需要有一系列的規(guī)范來(lái)保證每個(gè)字段必須是可解釋的稼稿, 數(shù)據(jù)的輸出是規(guī)范一致的薄榛。一切的一切都應(yīng)該是有文檔來(lái)記錄以保證畫(huà)像的通用性。也即用戶(hù)畫(huà)像中的所有的字段適合所有的用戶(hù)让歼,只是輸入和輸出的數(shù)據(jù)不一樣而已敞恋。用戶(hù)畫(huà)像也可以當(dāng)作一個(gè)模型,輸入數(shù)據(jù)谋右,輸出相應(yīng)的數(shù)據(jù)硬猫。
用戶(hù)畫(huà)像的體系建設(shè)
單個(gè)的用戶(hù)畫(huà)像很好做,但用戶(hù)畫(huà)像真正想發(fā)揮用途改执,必須得建立起自己的體系來(lái)啸蜜。這樣才能對(duì)一個(gè)用戶(hù)進(jìn)行全方面的描述。打包賣(mài)給別人的話辈挂,也更加值錢(qián)衬横。初步來(lái)看用戶(hù)畫(huà)像的體系建設(shè)應(yīng)該包括幾個(gè)方面
1.標(biāo)簽系統(tǒng)的頂層設(shè)計(jì),具體就是我們這個(gè)標(biāo)簽系統(tǒng)系統(tǒng)需要為哪些業(yè)務(wù)方服務(wù)呢岗,需要涵蓋哪些類(lèi)別冕香,需要做哪些標(biāo)簽
2.標(biāo)簽系統(tǒng)的維度系統(tǒng)建設(shè),我們的畫(huà)像對(duì)外輸出后豫,如果只是輸出中文的話悉尾,不大好用,有時(shí)候也不大好處理挫酿,就需要我們將標(biāo)簽的輸出的值數(shù)值化构眯,維度化。整個(gè)標(biāo)簽系統(tǒng)的值都可以通過(guò)一個(gè)統(tǒng)一的數(shù)值系統(tǒng)或者向量系統(tǒng)來(lái)進(jìn)行描述早龟。
3.標(biāo)簽開(kāi)發(fā)規(guī)范惫霸,這個(gè)是保證標(biāo)簽代碼的可維護(hù)性猫缭,易讀性。
4.標(biāo)簽系統(tǒng)的可擴(kuò)展性壹店,由于很多業(yè)務(wù)方都需要根據(jù)自己的需求來(lái)定制化標(biāo)簽猜丹,就要求我們的標(biāo)簽系統(tǒng)應(yīng)該是可擴(kuò)展的,外部業(yè)務(wù)方自己定制的標(biāo)簽如果符合我們標(biāo)簽的維度系統(tǒng)以及開(kāi)發(fā)規(guī)范硅卢,就應(yīng)該是可以擴(kuò)展進(jìn)我們本身的標(biāo)簽系統(tǒng)的射窒,供給全公司使用。
5.標(biāo)簽對(duì)外平臺(tái)的開(kāi)發(fā)将塑,所有的標(biāo)簽最好只能有一個(gè)統(tǒng)一的輸出口徑對(duì)外輸出脉顿,這樣就可以切實(shí)保證只有符合我們標(biāo)簽開(kāi)發(fā)規(guī)范的標(biāo)簽接入其中,同時(shí)也能做好標(biāo)簽系統(tǒng)的權(quán)限管理点寥。
?用戶(hù)畫(huà)像當(dāng)前的困境
? ? ? ?目前大部分用戶(hù)畫(huà)像都是基于統(tǒng)計(jì)的方法來(lái)做的艾疟,這種方法的優(yōu)點(diǎn)是基礎(chǔ)準(zhǔn)確率比較高敢辩,但是整體的覆蓋率不會(huì)很高蔽莱。比如我要在一個(gè)購(gòu)物網(wǎng)站做用戶(hù)感興趣的商品的畫(huà)像。如果我使用基于統(tǒng)計(jì)的方法利用用戶(hù)在購(gòu)物網(wǎng)站 pc责鳍,m碾褂,app端的點(diǎn)擊兽间,瀏覽历葛,下單,購(gòu)買(mǎi)等一系列用戶(hù)行為來(lái)對(duì)用戶(hù)打標(biāo)簽嘀略,只能夠得到用戶(hù)關(guān)于她/他 已經(jīng)點(diǎn)擊恤溶,瀏覽,下單帜羊,購(gòu)買(mǎi)的商品的畫(huà)像咒程。但是其他商品,我雖然沒(méi)有點(diǎn)擊讼育,不代表我對(duì)這些商品沒(méi)有興趣帐姻,可是基于統(tǒng)計(jì)的方法無(wú)法推廣到這些用戶(hù)沒(méi)用點(diǎn)擊,瀏覽奶段,下單饥瓷,購(gòu)買(mǎi)的商品。
基于統(tǒng)計(jì)的方法無(wú)法進(jìn)行更深層次的推廣痹籍,也就是缺乏我們常說(shuō)的泛化能力呢铆,只會(huì)死讀書(shū),不會(huì)舉一反三蹲缠。我們更多的會(huì)通過(guò)使用機(jī)器學(xué)習(xí)或者其他算法來(lái)嘗試解決這個(gè)問(wèn)題棺克。遺憾的是對(duì)于業(yè)界來(lái)說(shuō)悠垛,這種標(biāo)簽占整個(gè)用戶(hù)畫(huà)像體系的比例也不會(huì)很高。因?yàn)檫@種標(biāo)簽做的費(fèi)時(shí)費(fèi)力娜谊,而且效果不一定好确买。有一個(gè)很關(guān)鍵的原因,我們舉一個(gè)例子來(lái)嘗試說(shuō)明一下纱皆。比如某個(gè)汽車(chē)網(wǎng)站想預(yù)測(cè)用戶(hù)有車(chē)無(wú)車(chē)拇惋,很多時(shí)候該汽車(chē)網(wǎng)站通過(guò)和4s店合作等等途徑能夠獲取到只有哪些用戶(hù)確切有車(chē)。我們?cè)陬A(yù)測(cè)的時(shí)候抹剩,可以把這些有車(chē)的用戶(hù)當(dāng)作正樣本來(lái)處理撑帖。問(wèn)題在于我們找不到確切無(wú)車(chē)的用戶(hù),相當(dāng)于找不到負(fù)樣本澳眷。
? ? 一般的做法是我們把流量日志當(dāng)中那些不是確切有車(chē)的的用戶(hù)都當(dāng)作無(wú)車(chē)用戶(hù)來(lái)看胡嘿,也就是當(dāng)做負(fù)樣本來(lái)看。但是這個(gè)只能說(shuō)明這些用戶(hù)只是在該公司的數(shù)據(jù)庫(kù)里是沒(méi)有買(mǎi)車(chē)的钳踊,他現(xiàn)實(shí)生活中可能是有車(chē)的衷敌,但是該公司并不清楚這一點(diǎn)。這樣做的后果就是負(fù)樣本里面參入了正樣本拓瞪,更可怕的是參入的比例有時(shí)候我們也不大好估計(jì)缴罗。這種情況就會(huì)導(dǎo)致模型在訓(xùn)練的時(shí)候準(zhǔn)確率下降。
? ? 這樣看來(lái)很多基于機(jī)器學(xué)習(xí)的算法其實(shí)都有樣本標(biāo)注的問(wèn)題祭埂,對(duì)于這類(lèi)標(biāo)注的問(wèn)題面氓,一方面我們可以通過(guò)其他不同的數(shù)據(jù)來(lái)源,相互驗(yàn)證來(lái)保證標(biāo)注的數(shù)據(jù)盡量準(zhǔn)確蛆橡。一方面可以考慮一下無(wú)監(jiān)督的學(xué)習(xí)算法比如聚類(lèi)算法來(lái)解決這個(gè)問(wèn)題舌界。但是目前來(lái)看,還不大清楚有沒(méi)有其他比較實(shí)用的方式來(lái)解決這類(lèi)問(wèn)題泰演。
一呻拌、如何建立用戶(hù)畫(huà)像
說(shuō)白了主要是對(duì)兩類(lèi)客戶(hù)的認(rèn)知和判斷:
現(xiàn)存客戶(hù) (Existing Customer) - 我的現(xiàn)存客戶(hù)是怎么樣,喜歡什么睦焕,什么消費(fèi)習(xí)慣藐握,哪些客戶(hù)最值錢(qián)等等
潛在客戶(hù) (Prospect Customer) - 潛在用戶(hù)又分:認(rèn)知客戶(hù)和競(jìng)品客戶(hù),我的潛在客戶(hù)在哪垃喊,他們喜歡什么猾普,通過(guò)什么渠道獲取,獲客成本是多少等等
分析的維度缔御,可以按照人口屬性和產(chǎn)品行為屬性進(jìn)行綜合分析抬闷,
人口屬性:地域、年齡、性別笤成、文化评架、職業(yè)、收入炕泳、生活習(xí)慣纵诞、消費(fèi)習(xí)慣等;
產(chǎn)品行為:產(chǎn)品類(lèi)別培遵、活躍頻率浙芙、產(chǎn)品喜好、產(chǎn)品驅(qū)動(dòng)籽腕、使用習(xí)慣嗡呼、產(chǎn)品消費(fèi)等;
這個(gè)問(wèn)題從本質(zhì)上看是兩類(lèi)問(wèn)題:
1皇耗、對(duì)用戶(hù)畫(huà)像南窗,打上標(biāo)簽。這是個(gè)聚類(lèi)問(wèn)題郎楼,將同一類(lèi)用戶(hù)通過(guò)算法聚合成一類(lèi)万伤。
2、對(duì)不同用戶(hù)進(jìn)行精準(zhǔn)營(yíng)銷(xiāo)呜袁。這個(gè)問(wèn)題是個(gè)預(yù)測(cè)問(wèn)題敌买,對(duì)用戶(hù)行為建模,預(yù)測(cè)某一類(lèi)用戶(hù)會(huì)對(duì)什么更感興趣阶界。
一虹钮、先說(shuō)第一類(lèi)問(wèn)題,聚類(lèi)荐操。這個(gè)成熟的算法很多芜抒,具體選擇哪種就要看你的數(shù)據(jù)有什么了珍策。既然叫做數(shù)據(jù)分析托启,那邊必然是以你的數(shù)據(jù)為準(zhǔn)基礎(chǔ)的,看你的數(shù)據(jù)包含什么攘宙,如果能把用戶(hù)映射到某一個(gè)空間里面屯耸,表示成向量(也就是高維空間的坐標(biāo)),就可以kmeans蹭劈,DBscan等等方法來(lái)進(jìn)行聚類(lèi)疗绣,如果只能給出兩兩用戶(hù)的相似度,那么就是用基于層次聚類(lèi)的算法铺韧。再重申一遍多矮,關(guān)鍵是數(shù)據(jù)。
二、就是對(duì)用戶(hù)行為建模塔逃,同樣因?yàn)椴涣私鈹?shù)據(jù)讯壶,就只能簡(jiǎn)單講一講普通的流程。精準(zhǔn)營(yíng)銷(xiāo)這個(gè)問(wèn)題可以規(guī)約為預(yù)測(cè)用戶(hù)對(duì)什么商品感興趣湾盗。這個(gè)建模流程簡(jiǎn)單來(lái)說(shuō)應(yīng)該包含下面幾個(gè)過(guò)程:
a伏蚊、選取特征,從歷史數(shù)據(jù)中選擇躏吊、構(gòu)造出一些特征比伏,假設(shè)這些特征和要預(yù)測(cè)的值之間的一個(gè)關(guān)系(這個(gè)關(guān)系也就是你的模型)肤舞。這一步是定性的過(guò)程。
b、確定模型中的未知系數(shù),也就是定量的過(guò)程宰僧。
c嘁捷、計(jì)算模型的置信度,根據(jù)測(cè)試集數(shù)據(jù)(從歷史數(shù)據(jù)中選擇一部分出來(lái)履肃,分割方法很多膘螟,自行百度交叉驗(yàn)證)來(lái)判斷預(yù)測(cè)準(zhǔn)確性内斯,如果符合要求俘闯,就可以用這個(gè)模型來(lái)預(yù)測(cè)用戶(hù)喜歡什么,進(jìn)行精準(zhǔn)營(yíng)銷(xiāo)忽冻,如果準(zhǔn)確性不滿足要求真朗,那么就再重復(fù)上述過(guò)程,構(gòu)造更復(fù)雜的特征僧诚,或者收集更多數(shù)據(jù)遮婶,嘗試其他模型。
(1)定性與定量相結(jié)合的研究方法
定性的方法湖笨,表現(xiàn)為對(duì)產(chǎn)品旗扑、行為、用戶(hù)個(gè)體的性質(zhì)和特征作出概括慈省,形成對(duì)應(yīng)的產(chǎn)品標(biāo)簽臀防、行為標(biāo)簽、用戶(hù)標(biāo)簽辫呻。是描述性的
定量的方法清钥,則是在定性的基礎(chǔ)上,給每一個(gè)標(biāo)簽打上特定的權(quán)重放闺,最后通過(guò)數(shù)學(xué)公式計(jì)算得出總的標(biāo)簽權(quán)重,從而形成完整的用戶(hù)模型缕坎。是可量化的怖侦。
關(guān)于建立用戶(hù)畫(huà)像、標(biāo)簽化的問(wèn)題,不僅需要從已有的用戶(hù)數(shù)據(jù)進(jìn)行定量分析匾寝,還需要以問(wèn)卷搬葬、訪談等形式進(jìn)行定性研究。定量和定性分析相結(jié)合艳悔,才有可能得出一個(gè)更為精準(zhǔn)的用戶(hù)畫(huà)像急凰。但更重要的是以用戶(hù)為中心,而不是以數(shù)據(jù)為中心猜年。
用戶(hù)的行為抡锈,我們可以用4w表示:WHO(誰(shuí));WHEN(什么時(shí)候)乔外;WHERE(在哪里)床三;WHAT(做了什么),具體分析如下:
WHO(誰(shuí)):定義用戶(hù)杨幼,明確我們的研究對(duì)象撇簿。主要是用來(lái)用戶(hù)分類(lèi),劃分用戶(hù)群體差购。網(wǎng)絡(luò)上的用戶(hù)識(shí)別四瘫,包括但不僅限于用戶(hù)注冊(cè)的ID、昵稱(chēng)欲逃、手機(jī)號(hào)莲组、郵箱、身份證暖夭、微信微博號(hào)等等锹杈。
WHEN(時(shí)間):這里的時(shí)間包含了時(shí)間跨度和時(shí)間長(zhǎng)度兩個(gè)方面÷踝牛“時(shí)間跨度”是以天為單位計(jì)算的時(shí)長(zhǎng)竭望,指某行為發(fā)生到現(xiàn)在間隔了多長(zhǎng)時(shí)間;“時(shí)間長(zhǎng)度”則為了標(biāo)識(shí)用戶(hù)在某一頁(yè)面的停留時(shí)間長(zhǎng)短裕菠。越早發(fā)生的行為標(biāo)簽權(quán)重越小咬清,越近期權(quán)重越大,這就是所謂的“時(shí)間衰減因子”奴潘。
WHERE(在哪里):就是指用戶(hù)發(fā)生行為的接觸點(diǎn)旧烧,里面包含有內(nèi)容+網(wǎng)址。內(nèi)容是指用戶(hù)作用于的對(duì)象標(biāo)簽画髓,比如小米手機(jī)掘剪;網(wǎng)址則指出用戶(hù)行為發(fā)生的具體地點(diǎn),比如小米官方網(wǎng)站奈虾。權(quán)重是加在網(wǎng)址標(biāo)簽上的夺谁,比如買(mǎi)小米手機(jī)廉赔,在小米官網(wǎng)買(mǎi)權(quán)重計(jì)為1,,在京東買(mǎi)計(jì)為0.8匾鸥,在淘寶買(mǎi)計(jì)為0.7蜡塌。
WHAT(做了什么):就是指的用戶(hù)發(fā)生了怎樣的行為,根據(jù)行為的深入程度添加權(quán)重勿负。比如馏艾,用戶(hù)購(gòu)買(mǎi)了權(quán)重計(jì)為1,用戶(hù)收藏了計(jì)為0.85奴愉,用戶(hù)僅僅是瀏覽了計(jì)為0.7琅摩。
當(dāng)上面的單個(gè)標(biāo)簽權(quán)重確定下來(lái)后,就可以利用標(biāo)簽權(quán)重公式計(jì)算總的用戶(hù)標(biāo)簽權(quán)重:
標(biāo)簽權(quán)重=時(shí)間衰減因子×行為權(quán)重×網(wǎng)址權(quán)重
舉個(gè)直觀的例子躁劣,通過(guò)用戶(hù)的行為數(shù)據(jù)迫吐,“B用戶(hù)今天在蘋(píng)果官網(wǎng)購(gòu)買(mǎi)了iPhone6”反映出的用戶(hù)標(biāo)簽可能是“果粉1”;而“A用戶(hù)三天前在天貓收藏了iPhone6”反映出的標(biāo)簽可能只是“果粉0.448”账忘,這些可以給不同用戶(hù)打上不同的標(biāo)簽和權(quán)重志膀。
有了標(biāo)簽和權(quán)重后,這將在后續(xù)的營(yíng)銷(xiāo)決策中發(fā)揮指導(dǎo)作用鳖擒,比如廣告重點(diǎn)推送給這些用戶(hù)溉浙,以及協(xié)同推薦。
二蒋荚、用戶(hù)畫(huà)像的利用
關(guān)于得到用戶(hù)畫(huà)像后可以區(qū)分不同用戶(hù)級(jí)別從而進(jìn)行相應(yīng)的精準(zhǔn)營(yíng)銷(xiāo)的問(wèn)題戳稽,推薦引擎利用特殊的信息過(guò)濾技術(shù),將不同的內(nèi)容推薦給可能感興趣的用戶(hù)期升。較常見(jiàn)的推薦引擎通用算法有
(1)基于關(guān)聯(lián)規(guī)則的推薦算法(如買(mǎi)了泳衣的用戶(hù)可能會(huì)買(mǎi)泳鏡)惊奇;
(2)基于內(nèi)容的推薦算法(需要用戶(hù)的歷史數(shù)據(jù),例如我在淘寶上買(mǎi)了個(gè)貓砂盆播赁,轉(zhuǎn)眼第二天又給我推薦了一個(gè)貓砂盆)颂郎;
(3)協(xié)同過(guò)濾推薦算法。
協(xié)同過(guò)濾推薦的核心是找到和目標(biāo)用戶(hù)興趣相似的用戶(hù)群容为,技術(shù)上叫“最近鄰居”(Nearest Neighbor)乓序。
通過(guò)最近鄰居對(duì)商品的加權(quán)評(píng)價(jià)來(lái)預(yù)測(cè)出目標(biāo)用戶(hù)對(duì)該商品的喜好,從而進(jìn)行精準(zhǔn)推薦坎背。套到題主所說(shuō)的用戶(hù)畫(huà)像替劈,那么可以理解為:系統(tǒng)匹配與目標(biāo)用戶(hù)的畫(huà)像所相似的用戶(hù)群,然后推薦這類(lèi)用戶(hù)群感興趣的商品給目標(biāo)用戶(hù)得滤。
簡(jiǎn)單來(lái)說(shuō)陨献,物以類(lèi)聚,人以群分耿戚。?
最后補(bǔ)充一點(diǎn)關(guān)于協(xié)同過(guò)濾推薦的最主要的優(yōu)缺點(diǎn)湿故。
優(yōu)點(diǎn):可以過(guò)濾難以進(jìn)行內(nèi)容分析的商品阿趁,例如音樂(lè)膜蛔。且推薦具有新穎性坛猪。
缺點(diǎn):用戶(hù)做出評(píng)價(jià)較少的情況下,數(shù)據(jù)不充足皂股,產(chǎn)生稀疏性問(wèn)題墅茉。