【DTalk回顧】沈國(guó)陽(yáng):我們?cè)谡動(dòng)脩舢?huà)像的時(shí)候到底在談什么向图?

2017年9月6日晚标沪,DTalk邀請(qǐng)到了沈國(guó)陽(yáng)老師,他參與了美團(tuán)用戶畫(huà)像服務(wù)從無(wú)到有的過(guò)程檩赢,進(jìn)行了一次關(guān)于《美團(tuán)點(diǎn)評(píng)沈國(guó)陽(yáng):我們?cè)谡動(dòng)脩舢?huà)像的時(shí)候到底在談什么贞瞒?》的微信群線上主題分享趁曼。

分享活動(dòng)共分成兩個(gè)部分,第一部分是沈國(guó)陽(yáng)老師分享關(guān)于用戶畫(huà)像大家關(guān)心的乒融,第二部分是老師和大家的Q&A的互動(dòng)環(huán)節(jié)摄悯。以下是活動(dòng)內(nèi)容的完整文字稿。

1碟摆、通车渫桑互聯(lián)網(wǎng)的用戶畫(huà)像是指什么罗洗?

用戶畫(huà)像這個(gè)詞在互聯(lián)網(wǎng)公司用得很廣泛,但是可能很多人沒(méi)有注意到轩缤,這個(gè)詞包 含了2種不同的含義。

  • User Persona:這是對(duì)一個(gè)用戶群體的整體抽象壶愤。產(chǎn)品原型設(shè)計(jì)階段的用戶畫(huà)像征椒, 這是在前期的產(chǎn)品研發(fā)過(guò)程中對(duì)目標(biāo)用戶進(jìn)行定義的過(guò)程湃累。這個(gè)工作的目標(biāo)是充分 理解目標(biāo)用戶,從而在產(chǎn)品功能的設(shè)計(jì)和取舍上作出正確的決策蒙秒。這種用戶畫(huà)像的 具體執(zhí)行方法宵统,主要是通過(guò)深入用戶所在地區(qū)進(jìn)行用戶訪談,或者線上的問(wèn)卷調(diào)研 得到益兄。

  • User Profile:這是對(duì)每一個(gè)個(gè)體的畫(huà)像净捅。這是在產(chǎn)品用戶量有一定規(guī)模以后進(jìn)行 的辩块,利用用戶的行為數(shù)據(jù)或者填報(bào)的資料進(jìn)行的用戶屬性標(biāo)簽提取。這時(shí)候主要是 從在線數(shù)據(jù)上去提取標(biāo)簽国章,或者利用在線數(shù)據(jù)進(jìn)行用戶標(biāo)簽的預(yù)測(cè)豆村。這些標(biāo)簽可以 應(yīng)用到方方面面的工作中去∷膯可以用到哪些方面柑晒,具體的特征提取或者挖掘的方法 有哪些眷射,如果評(píng)估特征提取的效果佛掖,這部分是我們接下來(lái)要重點(diǎn)展開(kāi)介紹的芥被。

2脾猛、User Profile 用戶畫(huà)像的業(yè)務(wù)場(chǎng)景

下面我們就重點(diǎn)談?wù)刄ser Profile類型的用戶畫(huà)像(后續(xù)簡(jiǎn)稱“用戶畫(huà)像”)壁榕。從表面上來(lái)說(shuō),用戶畫(huà)像主要是標(biāo)簽提取或者標(biāo)簽預(yù)測(cè)的工作愉昆。然而跛溉,事實(shí)上扮授,選擇哪些標(biāo)簽,為什么要選擇那些標(biāo)簽去提取堪侯,這背后的邏輯才是最重要的荔仁。在標(biāo)簽集合的選擇上乏梁,可以依據(jù)一些理論知識(shí)和過(guò)往經(jīng)驗(yàn)去建立一套不重不漏的標(biāo)簽體系。但這樣建立的標(biāo)簽體系會(huì)過(guò)于龐雜卖毁,必須從中挑選出符合業(yè)務(wù)目標(biāo)的標(biāo)簽落萎,按照一定的優(yōu)先級(jí)去逐步實(shí)現(xiàn)。在互聯(lián)網(wǎng)企業(yè)里面禁悠,需要使用用戶畫(huà)像的業(yè)務(wù)場(chǎng)景非常多兑宇。下面用一個(gè)圖大致描述一下:

一方面,用戶畫(huà)像可以支持這么多業(yè)務(wù)站玄,每一個(gè)業(yè)務(wù)方向都是對(duì)公司非常重要的方 向濒旦,可見(jiàn)用戶畫(huà)像對(duì)公司來(lái)說(shuō)是非常重要的。另一方面晾剖,這么多方向都需要用戶畫(huà) 像梯嗽,每個(gè)方向都有自己獨(dú)特的需求灯节,這就要求用戶畫(huà)像團(tuán)隊(duì)對(duì)支撐的業(yè)務(wù)要進(jìn)行深 入的理解,了解什么樣的標(biāo)簽對(duì)這個(gè)業(yè)務(wù)有幫助卡骂,從而做好價(jià)值排序形入,對(duì)業(yè)務(wù)進(jìn)行 精準(zhǔn)支持。

3螟蒸、美團(tuán)推薦系統(tǒng)是如何做用戶畫(huà)像的崩掘?

首先我們要了解一下推薦系統(tǒng)的業(yè)務(wù)目標(biāo)。根據(jù)公司業(yè)務(wù)形態(tài)的不同诵原,業(yè)務(wù)發(fā)展階段的不同挽放,對(duì)推薦系統(tǒng)的要求也是不一樣的。早期的美團(tuán)app是以交易為主導(dǎo)的一個(gè)本地生活服務(wù)平臺(tái)吗蚌,因此蚯妇,對(duì)于當(dāng)時(shí)的美團(tuán)推薦系統(tǒng)而言,我們會(huì)非常關(guān)注用戶的下單率指標(biāo)箩言,因此在做用戶畫(huà)像的時(shí)候,我們關(guān)注點(diǎn)也是饭豹,用戶的哪些屬性對(duì)達(dá)成交易有幫助务漩。用戶的品類偏好屬性很關(guān)鍵。用戶喜歡中餐還是西餐還是日料肾砂,喜歡火鍋還是自助餐宏悦,如果抓不住用戶的品類偏好特征饼煞,我們的推薦很可能被用戶拒絕诗越。

其次嚷狞,作為一個(gè)本地生活服務(wù)平臺(tái),用戶的地理位置也是非常關(guān)鍵的信息竭翠。一般來(lái)說(shuō)薇搁,我們不能給他推薦離他非常遠(yuǎn)的餐廳。我們可以在工作日給他們推薦公司附近的餐廳传货,而周末推薦居住地附近的餐廳宏娄。如果他離開(kāi)了他的常住城市,他很可能需要尋找酒店或者旅游景點(diǎn)粮宛。用戶的消費(fèi)水平也是很關(guān)鍵的信息。一個(gè)通常只吃20元左右快餐的用戶窟勃,頻繁給他推薦200元大餐,那也是大概率要被拒絕的眷昆。最后亚斋,用戶的一些基礎(chǔ)信息攘滩,例如年齡、性別赖瞒、職業(yè)類型等蚤假,對(duì)推薦系統(tǒng)也有一定幫助,這些信息也有一定的必要進(jìn)行補(bǔ)充袍嬉。

當(dāng)然灶平,以上提到的特征是主要的幾類特征,事實(shí)上對(duì)這些特征的還可以做很多的優(yōu)化罐监,同時(shí)還有很多其他的特征可以進(jìn)一步提取拼苍。在團(tuán)隊(duì)精力有限的情況下,先把上述的特征做好就可以達(dá)到不錯(cuò)的效果吆你。

4妇多、屬性標(biāo)簽提取的方法

確定需要的用戶屬性標(biāo)簽以后燕侠,對(duì)每個(gè)屬性標(biāo)簽的提取方法立莉,大體分為2類蜓耻,一類是數(shù)據(jù)統(tǒng)計(jì)的方法械巡;一類是模型預(yù)測(cè)的方法。

有些標(biāo)簽只需要進(jìn)行一些數(shù)據(jù)統(tǒng)計(jì)就可以有勾,例如地理位置相關(guān)的標(biāo)簽蔼卡,工作地挣磨、居住地、常駐城市等喝峦,通常只要統(tǒng)計(jì)用戶不同時(shí)段頻繁出沒(méi)的地點(diǎn)和城市呜达,并輔以一些人工的規(guī)則(比如在一個(gè)城市停留多久才把這個(gè)城市定位常駐城市查近,什么時(shí)段頻繁出沒(méi)算做工作地等)即可挤忙。年齡性別的標(biāo)簽,很多公司可能需要通過(guò)用戶填寫(xiě)的信息或者用戶問(wèn)卷反饋信息來(lái)得到一些標(biāo)注戈泼,后期進(jìn)行模型的訓(xùn)練來(lái)對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行識(shí)別赏僧;而對(duì)于一些有支付能力的公司,可以從用戶填報(bào)的身份證信息中獲取年齡性別籍貫的信息(當(dāng)然這里面就存在數(shù)據(jù)安全這樣重大的問(wèn)題了)挽绩。而像前面提到的品類偏好標(biāo)簽唉堪,我們有一種提取方法就是用模型去識(shí)別的。我們采用的建模方法唠亚,是根據(jù)用戶的歷史行為特征來(lái)預(yù)測(cè)他下一次會(huì)對(duì)哪個(gè)品類進(jìn)行下單,這個(gè)品類就是他的品類偏好了祟蚀。用戶的品類偏好實(shí)際上是在動(dòng)態(tài)變化的占调,因此,不能只是統(tǒng)計(jì)他過(guò)去的下單情況薪者,而要對(duì)未來(lái)進(jìn)行預(yù)測(cè)剿涮。

5、效果評(píng)估的方法

用戶畫(huà)像團(tuán)隊(duì)會(huì)開(kāi)發(fā)大量屬性標(biāo)簽悬槽,這些工作是需要耗費(fèi)大量的時(shí)間和精力的瞬浓。在追求結(jié)果導(dǎo)向的互聯(lián)網(wǎng)公司猿棉,工作量顯然不能成為評(píng)價(jià)工作的指標(biāo)。那么用戶畫(huà)像的效果如何評(píng)價(jià)呢弊琴?

對(duì)于不同的具體任務(wù)來(lái)說(shuō)杖爽,需要的評(píng)估指標(biāo)是不一樣的。這里主要結(jié)合推薦系統(tǒng)腋寨、廣告營(yíng)銷等類型的應(yīng)用實(shí)踐來(lái)談?wù)勑喊铩S脩舢?huà)像標(biāo)簽在推薦系統(tǒng)、廣告營(yíng)銷這類場(chǎng)景上的應(yīng)用脂倦,通常是作為轉(zhuǎn)化(點(diǎn)擊、下單等)率預(yù)估模型的特征來(lái)用赖阻。因此火欧,我們主要關(guān)心標(biāo)簽加入模型以后,對(duì)模型的效果提升有沒(méi)有幫助苇侵。標(biāo)簽建好以后,首先進(jìn)行離線評(píng)估于未。

對(duì)于統(tǒng)計(jì)類特征陡鹃,離線評(píng)估有2個(gè)重要指標(biāo)。一是覆蓋率指標(biāo)闷叉,就是有多大比例的用戶我們能夠得到這個(gè)屬性標(biāo)簽的標(biāo)簽值脊阴。通常來(lái)說(shuō),標(biāo)簽覆蓋率如果比較低的話(比如低于50%)藕咏,這個(gè)標(biāo)簽對(duì)模型效果的貢獻(xiàn)就會(huì)受到限制秽五。二是標(biāo)簽有效性指標(biāo)坦喘,這類指標(biāo)主要目的是衡量特征加入模型以后是否能夠在模型中起作用西设,以及起多大作用。這類指標(biāo)一般在標(biāo)簽使用方去考慮棠笑。但是如果用戶畫(huà)像團(tuán)隊(duì)需要主動(dòng)推動(dòng)相關(guān)業(yè)務(wù)方使用自己產(chǎn)出的標(biāo)簽的話蓖救,自己能計(jì)算會(huì)有更好的說(shuō)服力。這個(gè)類型的指標(biāo)較多循捺,有各種相關(guān)性指標(biāo):余弦相似性、皮爾遜相關(guān)系數(shù)念赶、卡方檢驗(yàn)恰力、互信息等,以及征信評(píng)分卡里面喜歡用的IV值等停局。還可以直接看模型中的特征權(quán)重驻民。線性模型(LR,貝葉斯方法等)可以直接得到準(zhǔn)確的權(quán)重值裆泳,樹(shù)模型一般也能夠給出特征權(quán)重的參考值(但是并不準(zhǔn)確)柠硕。對(duì)于預(yù)測(cè)類指標(biāo),除了上述2種指標(biāo)之外闻葵,還需要評(píng)估預(yù)測(cè)的準(zhǔn)確性癣丧。如果是分類問(wèn)題,例如性別厢钧、年齡段嬉橙、職業(yè)類型等,一般用precision霞扬,recall,auc等指標(biāo)萤彩;如果是回歸問(wèn)題乒疏,則可以根據(jù)業(yè)務(wù)需求選用RMSE饮焦,MAPE,MAE等指標(biāo)转绷。

離線評(píng)估完成以后硼啤,如果結(jié)果符合預(yù)期,那么就應(yīng)該進(jìn)入線上實(shí)驗(yàn)環(huán)節(jié)了煞肾。線上實(shí)驗(yàn)一般采用ABtesting的方法嗓袱。也就是把用戶均勻分成2組,一組是使用了該標(biāo)簽的模型或者策略蝙昙,一組是未使用該標(biāo)簽的模型或者策略梧却,然后看看2組用戶的指標(biāo)差異如何。ABtesting其實(shí)是一個(gè)挺復(fù)雜的工作烈拒,從流量分割到數(shù)據(jù)跟蹤到效果評(píng)估指標(biāo)計(jì)算广鳍,都有很多需要注意的地方。

6、對(duì)于非BAT的公司來(lái)說(shuō)耿战,用戶畫(huà)像事情怎么做,怎么衡量投入產(chǎn) 出比狐胎?

不管是什么公司歌馍,資源都是永遠(yuǎn)不夠的,做任何事情都是需要衡量投入產(chǎn)出比的暴浦。用戶畫(huà)像是一個(gè)基礎(chǔ)工作晓锻,因此這個(gè)工作是否值得做,主要還是看有沒(méi)有相關(guān)的業(yè)務(wù)需求独撇,在相關(guān)的業(yè)務(wù)里面能否發(fā)揮較大的作用躁锁。如果一開(kāi)始大家判斷不好應(yīng)不應(yīng)該投入資源到用戶畫(huà)像工作里面去,或者不知道應(yīng)該投入到用戶畫(huà)像的具體哪個(gè)任務(wù)里面去搜立,那么可以和做過(guò)相關(guān)工作的公司或者團(tuán)隊(duì)學(xué)習(xí)匣吊,了解用戶畫(huà)像的哪個(gè)方向的工作能夠產(chǎn)生的價(jià)值較大(例如美團(tuán)的品類偏好屬性,LBS屬性就對(duì)推薦業(yè)務(wù)產(chǎn)生了很大的作用)社痛。另外一定要多和業(yè)務(wù)感覺(jué)好的同學(xué)交流命雀,這樣會(huì)得到很多有價(jià)值的信息,對(duì)用戶畫(huà)像的工作會(huì)有很好的指導(dǎo)吏砂。

以下是沈國(guó)陽(yáng)老師回答提問(wèn)部分的完整內(nèi)容

Q1狐血、「黃方勝:在用戶比較少的情況,user persona可能比較合適浪默,這個(gè)實(shí)踐能分享下嗎?」


回答:這個(gè)主要是要找準(zhǔn)目標(biāo)用戶纳决,然后去做深入的調(diào)研。我在百度移動(dòng)互聯(lián)網(wǎng)事業(yè)部工作的時(shí)候饵史,他們就很重視用戶調(diào)研胜榔,會(huì)到廣東的工廠去做大量的用戶訪談,因?yàn)楫?dāng)時(shí)移動(dòng)互聯(lián)網(wǎng)的主要用戶群體之一就是農(nóng)民工厌蔽。另外還有一招是把目標(biāo)用戶轉(zhuǎn)化成產(chǎn)品經(jīng)理摔癣,百度早期喜歡從網(wǎng)吧里面尋找產(chǎn)品經(jīng)理,就是這個(gè)道理戴卜。所以百度早期產(chǎn)品做得還不錯(cuò)琢岩。

Q2、「 王小久-bi-游戲-上海: 想了解一下數(shù)據(jù)庫(kù)如何準(zhǔn)備江锨?初創(chuàng)團(tuán)隊(duì)啄育,目前只有日志的積累拌消,如何邁出最初的第一步?」


【分享嘉賓】有日志的積累氓英,這個(gè)就有基礎(chǔ)了鹦筹。邁出第一步,關(guān)鍵就是尋找業(yè)務(wù)落腳點(diǎn)徘键,你要看你準(zhǔn)備在哪個(gè)場(chǎng)景用,然后和那個(gè)業(yè)務(wù)場(chǎng)景的負(fù)責(zé)人啊鸭,研發(fā)人員溝通赠制,看看他們最需要了解用戶哪方面的信息

【顧青 DTalk.org創(chuàng)始人】這個(gè)話題涉及數(shù)據(jù)采集(包括前端埋點(diǎn)挟憔、后端日志、數(shù)據(jù)清洗政恍、數(shù)據(jù)標(biāo)簽產(chǎn)品达传、數(shù)據(jù)分析產(chǎn)品、數(shù)據(jù)可視化產(chǎn)品等)宗弯,但是首先你需要把數(shù)據(jù)采集和數(shù)據(jù)整合做好.

Q3搂妻、「 Courage_sen: 征信風(fēng)控模型建模一般根據(jù)什么指標(biāo)進(jìn)行建模」


這個(gè)用戶歷史的征信記錄是重點(diǎn)邓厕,也會(huì)利用用戶在平臺(tái)上面的消費(fèi)行為數(shù)據(jù)進(jìn)行分析扁瓢,還有其他一些獨(dú)特的特征,不過(guò)這種涉及公司安全是不能分享的单雾。4硅堆、對(duì)于像汽車這類大宗贿讹,高額,低頻的品類會(huì)有哪些標(biāo)簽更重要呢茄菊?

Q4、「 張?zhí)?博郡汽車-上海: 對(duì)于像汽車這類大宗面殖,高額,低頻的品類會(huì)有哪些標(biāo)簽更重要呢相叁? 」


這個(gè)比較專業(yè)了辽幌,我對(duì)這個(gè)業(yè)務(wù)接觸得不多。而且需要看具體業(yè)務(wù)場(chǎng)景虑润。如果是做汽車推薦的話加酵,我建議看看用戶的收入水平,消費(fèi)能力舞蔽,品牌偏好等

Q5码撰、「 天祺: 怎樣保障用戶畫(huà)像的精確度? 」


這個(gè)精確度我理解主要指預(yù)測(cè)類標(biāo)簽的精確度朵栖。這種標(biāo)簽的預(yù)測(cè)依賴于其他的特征/標(biāo)簽柴梆,同時(shí)需要有準(zhǔn)確的標(biāo)注數(shù)據(jù),有足夠的數(shù)據(jù)量门扇,然后用合適的模型來(lái)建模預(yù)測(cè)偿渡。

Q6、「 沙沙-會(huì)員營(yíng)銷-北京: 上線前如何評(píng)價(jià)推薦模型優(yōu)劣吉拳?推薦產(chǎn)品和預(yù)訂產(chǎn)品的命中率适揉?多少算達(dá)標(biāo)呢煤惩?」


上線前的評(píng)估就是離線評(píng)估魄揉,離線評(píng)估的標(biāo)注數(shù)據(jù)其實(shí)是來(lái)自于線上的真實(shí)數(shù)據(jù)拭宁。有了這些標(biāo)注數(shù)據(jù),我們會(huì)把模型預(yù)測(cè)的結(jié)果和標(biāo)注的真實(shí)結(jié)果進(jìn)行比較,計(jì)算precision,recall,或者auc等指標(biāo)降铸。推薦的命中率多少算達(dá)標(biāo)應(yīng)該沒(méi)有一個(gè)標(biāo)準(zhǔn)答案,一般是會(huì)給一個(gè)簡(jiǎn)單的策略做baseline桶蝎,后面迭代過(guò)程中不斷提高谅畅。早期應(yīng)該會(huì)有倍數(shù)的提高

Q7、「李靜Jing-博郡汽車-上海:沈老師胜茧,請(qǐng)問(wèn)用戶畫(huà)像的“個(gè)性”和“共性”怎么有效取舍或者結(jié)合呻顽?」


userprofile是對(duì)用戶個(gè)性的描述丹墨,但是放到模型里面去以后,模型會(huì)想辦法去把相似的用戶放到一起去思考喉前,通過(guò)和這個(gè)用戶有共同特征的用戶來(lái)預(yù)測(cè)當(dāng)前用戶的行為王财,我想這就是一種結(jié)合。不知道這是不是你想表達(dá)的意思

Q8狭握、「letv-crm-茜茜:用戶未來(lái)喜好如何做預(yù)測(cè)疯溺?可否分享一下成功案例哎垦?」


我們之前做過(guò)一版是這樣的:把用戶過(guò)去一段時(shí)間(比如60天)的行為記錄作為特征(比較簡(jiǎn)單的方法是把用戶對(duì)物品的點(diǎn)擊或者下單行為做成特征向量)漏设,把用戶接來(lái)下的發(fā)生行為的品類(例如:接下來(lái)下單的物品的品類) 作為用戶未來(lái)偏好的標(biāo)注今妄,這樣形成樣本作為模型的輸入,訓(xùn)練好模型以后犬性,把用戶最近60天的行為作為特征輸入給模型腾仅,就可以預(yù)測(cè)他下一次行為的偏好了。

Q9鹤耍、「烽火普天-孫天祺-ImageQ負(fù)責(zé)人:這是已有數(shù)據(jù)的用戶最難突破的验辞,各種渠道獲取的數(shù)據(jù)都是不一樣的格式,也很難做到統(tǒng)一杆怕。用戶畫(huà)像也是很多的壳贪,一個(gè)用戶多個(gè)畫(huà)像,怎樣確保是用一個(gè)人呢撑教?」


確保每個(gè)用戶都對(duì)準(zhǔn)確實(shí)比較困難醉拓,除非每個(gè)平臺(tái)上都用用戶的身份證號(hào)作為主鍵。如果沒(méi)有身份證號(hào)愤兵,可以利用手機(jī)號(hào)排吴,銀行卡,郵箱等進(jìn)行關(guān)聯(lián)。

Q10肛冶、「烽火普天-孫天祺-ImageQ負(fù)責(zé)人:關(guān)鍵在于目前用戶畫(huà)像大多都是都是分散的睦袖,匯總的也只是大概率是而已荣刑。除非征信數(shù)據(jù)是最靠譜的。除此之外真的好無(wú)法打通各自的數(shù)據(jù)壁壘厉亏。」


有賴于各個(gè)平臺(tái)制定統(tǒng)一標(biāo)準(zhǔn)阱飘。據(jù)我了解虱颗,央行征信接口是要求上報(bào)證件號(hào)的忘渔,如果每家都按照央行征信接口的規(guī)范來(lái)存儲(chǔ)數(shù)據(jù)(不管接入還是不接入央行征信)缰儿,那么數(shù)據(jù)打通的問(wèn)題就解決了。

Q11宣赔、「唐浮云:標(biāo)簽的有效性指標(biāo)中瞪浸,提到了卡方檢驗(yàn)等很多統(tǒng)計(jì)學(xué)的理論知識(shí),這一部分在實(shí)際營(yíng)銷過(guò)程中钩蚊,有沒(méi)有例子可以參考學(xué)習(xí)那蹈矮?謝謝老師~」


關(guān)于卡方檢驗(yàn),網(wǎng)上資料比較多蝠咆。例如:https://segmentfault.com/a/1190000003719712

Q12、「復(fù)星大數(shù)據(jù)-姜辰希Selina:除了第一梯隊(duì)互聯(lián)網(wǎng)公司積累了海量數(shù)據(jù)以外闸翅,其他中小型企業(yè)數(shù)據(jù)積累有限赡茸。僅從自身場(chǎng)景進(jìn)行挖掘出的畫(huà)像或標(biāo)簽是否會(huì)存在嚴(yán)重偏差,是否能起到指導(dǎo)運(yùn)營(yíng)的效果遗菠?是否應(yīng)著重考慮外部合作华蜒?」


我認(rèn)為還是要立足自身,除非自己有很關(guān)鍵的數(shù)據(jù)是其他公司需要的贺拣,可以進(jìn)行數(shù)據(jù)交換的合作捂蕴,否則很難獲得其他公司的數(shù)據(jù)。據(jù)我了解涡匀,基本上大部分平臺(tái)的用戶的行為頻次都是服從長(zhǎng)尾分布的溉知,總有一些頭部用戶行為比較密集,大部分長(zhǎng)尾用戶行為很稀疏舌劳。所以依賴統(tǒng)計(jì)的用戶畫(huà)像標(biāo)簽總是只對(duì)部分人效果較好玫荣,對(duì)很大一部分人效果較差。

Q13材诽、「 人民日?qǐng)?bào)新媒體中心的產(chǎn)品趙宇威: 老師恒傻,您好,我的理解是對(duì)于用戶的喜好偏好實(shí)體集很好做睁枕,但是預(yù)測(cè)集就很難了,就像今日頭條注簿,他會(huì)用數(shù)據(jù)來(lái)訓(xùn)練模型跳仿,神經(jīng)元,二分類妄辩,不斷矯正系數(shù)山上,但是如果沒(méi)有那么大量的數(shù)據(jù)訓(xùn)練模型怎么辦?」


線下溝通了解到該用戶的實(shí)體集是指通過(guò)行為數(shù)據(jù)統(tǒng)計(jì)出來(lái)的用戶畫(huà)像標(biāo)簽哮伟。預(yù)測(cè)集是指根據(jù)用戶的歷史行為預(yù)測(cè)他接下來(lái)可能喜歡什么妄帘。數(shù)據(jù)量不夠確實(shí)沒(méi)法做模型預(yù)測(cè),需要不斷累積數(shù)據(jù)鬼廓。

Q14婶恼、「 人民日?qǐng)?bào)新媒體中心的產(chǎn)品趙宇威: 請(qǐng)教老師關(guān)于做征信勾邦,確定模型后割择,但是很多個(gè)體的數(shù)據(jù)源各個(gè)渠道,比如爬蟲(chóng)啊等等蕉饼,但是如果有拿不到的數(shù)據(jù),那這個(gè)指標(biāo)項(xiàng)在模型里怎么處理呢」


如果所有樣本都拿不到這一維度的數(shù)據(jù)昧港,那就相當(dāng)于整個(gè)模型少了一個(gè)維度支子。只要其他維度還在影響也不大。如果是只有一部分樣本拿不到這一維度的數(shù)據(jù),那么是可以有缺失值處理的辦法的巩搏。常用的是中位數(shù)趾代,平均數(shù)等進(jìn)行填充。

干貨專訪和文章

【DTalk精華】網(wǎng)易鄭棟:前端數(shù)據(jù)采集與分析的那些事第一彈: 從數(shù)據(jù)埋點(diǎn)到AB測(cè)試

【DTalk精華】滴滴出行譙洪敏:前端數(shù)據(jù)采集與分析的那些事第二彈:企業(yè)如何選擇自動(dòng)埋點(diǎn)和可視化埋點(diǎn)

【DTalk精華】滴滴出行譙洪敏:前端數(shù)據(jù)采集與分析的那些事第三彈:埋點(diǎn)需求整理原則于埋點(diǎn)流程規(guī)范

【DTalk專訪】滴滴譙洪敏:百家爭(zhēng)鳴的前端技術(shù)時(shí)代

【DTalk思考】顧青:互聯(lián)網(wǎng)團(tuán)隊(duì)的數(shù)據(jù)驅(qū)動(dòng)能力從哪里來(lái)禽捆?

【DTalk專訪】彭圣才:AI超越人類大腦睦擂,是一場(chǎng)「別有用心者」的騙局嗎杖玲?

【DTalk專訪】翁嘉頎:AI行業(yè)現(xiàn)階段最需要什么樣的人才?

【DTalk專訪】趙華:攜程怎么把機(jī)器學(xué)習(xí)與實(shí)際業(yè)務(wù)相結(jié)合臼闻?

【DTalk專訪】網(wǎng)易鄭棟:BI囤采、可視化數(shù)據(jù)產(chǎn)品和大數(shù)據(jù)的幾個(gè)核心問(wèn)題

【DTalk回顧】美團(tuán)點(diǎn)評(píng)沈國(guó)陽(yáng):我們?cè)谡動(dòng)脩舢?huà)像的時(shí)候到底在談什么?

【DTalk專訪】王曄:谷歌數(shù)據(jù)如何用于決策乓搬?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末进肯,一起剝皮案震驚了整個(gè)濱河市棉磨,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌乘瓤,老刑警劉巖,帶你破解...
    沈念sama閱讀 207,113評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件抬吟,死亡現(xiàn)場(chǎng)離奇詭異拗军,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)发侵,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)盅弛,“玉大人叔锐,你說(shuō)我怎么就攤上這事√趾校” “怎么了步责?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,340評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)遂鹊。 經(jīng)常有香客問(wèn)我蔗包,道長(zhǎng),這世上最難降的妖魔是什么舟陆? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,449評(píng)論 1 279
  • 正文 為了忘掉前任耻矮,我火速辦了婚禮,結(jié)果婚禮上宦赠,老公的妹妹穿的比我還像新娘米母。我一直安慰自己毡琉,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布慧耍。 她就那樣靜靜地躺著,像睡著了一般芍碧。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上定庵,一...
    開(kāi)封第一講書(shū)人閱讀 49,166評(píng)論 1 284
  • 那天踪危,我揣著相機(jī)與錄音,去河邊找鬼畴博。 笑死,一個(gè)胖子當(dāng)著我的面吹牛俱病,可吹牛的內(nèi)容都是我干的杂曲。 我是一名探鬼主播,決...
    沈念sama閱讀 38,442評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼咱揍,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼棚饵!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起硼砰,我...
    開(kāi)封第一講書(shū)人閱讀 37,105評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤题翰,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后豹障,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體焦匈,經(jīng)...
    沈念sama閱讀 43,601評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評(píng)論 2 325
  • 正文 我和宋清朗相戀三年累魔,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片吕世。...
    茶點(diǎn)故事閱讀 38,161評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡梯投,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出吮龄,到底是詐尸還是另有隱情,我是刑警寧澤漓帚,帶...
    沈念sama閱讀 33,792評(píng)論 4 323
  • 正文 年R本政府宣布尝抖,位于F島的核電站,受9級(jí)特大地震影響昧辽,放射性物質(zhì)發(fā)生泄漏登颓。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評(píng)論 3 307
  • 文/蒙蒙 一咕痛、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧茉贡,春花似錦者铜、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,352評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)藻烤。三九已至头滔,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間坤检,已是汗流浹背期吓。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,584評(píng)論 1 261
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留箭跳,地道東北人潭千。 一個(gè)月前我還...
    沈念sama閱讀 45,618評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像屉来,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子茄靠,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評(píng)論 2 344