Lookalike 技術(shù)調(diào)研

歸檔至github

What

基本上所有的互聯(lián)網(wǎng)公司都有其廣告投放平臺(tái),這是給廣告主投放廣告的一個(gè)頁(yè)面。廣告主可以通過(guò)廣告提交頁(yè)面提交自己的廣告需求,后臺(tái)會(huì)給廣告主圈定一部分潛在用戶,這個(gè)就是我們稱(chēng)為L(zhǎng)ookalike的模塊脏毯。
lookalike 不是某一種特定的算法,而是一類(lèi)方法的統(tǒng)稱(chēng)幔崖,這類(lèi)方法綜合運(yùn)用多種技術(shù)食店,最終達(dá)到目的。

How

第一種就是顯性的定位赏寇,廣告主根據(jù)用戶的標(biāo)簽直接定位
比如說(shuō)通過(guò)年齡吉嫩、性別、地域這樣的標(biāo)簽來(lái)直接圈定一部分用戶進(jìn)行投放蹋订。這個(gè)時(shí)候我們的技術(shù)支持就是后臺(tái)的用戶畫(huà)像的挖掘率挣。

第二種做法,通過(guò)一個(gè)機(jī)器學(xué)習(xí)的模型露戒,來(lái)定位廣告主的潛在用戶
廣告主提交一批客戶名單,我們稱(chēng)之為種子用戶捶箱,它作為機(jī)器學(xué)習(xí)的正樣本智什。負(fù)樣本我們會(huì)從非種子用戶,或者是說(shuō)平臺(tái)會(huì)積累歷史的一些相似的廣告作為負(fù)樣本丁屎,這個(gè)問(wèn)題就轉(zhuǎn)化為一個(gè)二分類(lèi)的模型荠锭,正負(fù)樣本組成學(xué)習(xí)的樣本,訓(xùn)練模型之后晨川,利用模型結(jié)構(gòu)對(duì)活躍用戶進(jìn)行打分证九,最后得到廣告主需要的目標(biāo)人群删豺。

通過(guò)機(jī)器學(xué)習(xí)方法定位目標(biāo)人群

各大廠的做法

對(duì)于特征和模型算法,不同的公司各有差異:特征取決于公司有哪些數(shù)據(jù)愧怜;在模型算法上呀页,F(xiàn)acebook 和Google對(duì)外公布的說(shuō)法就是一個(gè)預(yù)測(cè)模型,Yahoo發(fā)表過(guò)幾篇論文拥坛,詳細(xì)介紹過(guò)它的算法蓬蝶,比如LR,Linear SVM猜惋,GBDT都有嘗試丸氛,論文里面提到的是GBDT的效果比較好。下圖列出了不同公司的做法著摔,供大家參考

吐槽 google 和 非死不可的 predict model 怕不是用了深度學(xué)習(xí)缓窜? 私以為 兩家公司 節(jié)操?zèng)]這么高。

各大廠做法

需要哪些特征

  1. 行為結(jié)果數(shù)據(jù)
    所謂行為結(jié)果數(shù)據(jù)是已經(jīng)采取了具體行動(dòng)的數(shù)據(jù)谍咆,例如購(gòu)買(mǎi)數(shù)據(jù)雹洗,入資數(shù)據(jù)等。
  2. 行為意向數(shù)據(jù)
    所謂行為意向數(shù)據(jù)是傾向于采取某種行為的人群數(shù)據(jù)卧波,最典型的是搜索引擎的數(shù)據(jù)时肿,一般來(lái)說(shuō)消費(fèi)者在做最終的購(gòu)買(mǎi)決策之前,往往會(huì)通過(guò)搜索引擎了解產(chǎn)品周邊的一些相關(guān)信息港粱,相關(guān)搜索關(guān)鍵字?jǐn)?shù)據(jù)可以定位到一個(gè)有強(qiáng)購(gòu)買(mǎi)傾向的人螃成。這也是很多廣告主投入較多預(yù)算在SEM上的原因。但這種數(shù)據(jù)一般很難從搜索引擎?zhèn)全@取查坪,購(gòu)買(mǎi)關(guān)鍵字的成本也越來(lái)越高寸宏。一般來(lái)說(shuō),通過(guò)行為意向數(shù)據(jù)來(lái)尋找人群偿曙,轉(zhuǎn)化率會(huì)比較高,因?yàn)樾袨橐庀蛉巳和呀?jīng)達(dá)到了轉(zhuǎn)化前的最后一步的關(guān)鍵時(shí)刻,此時(shí)對(duì)意向人群進(jìn)行營(yíng)銷(xiāo),效果往往很明顯。但同時(shí)廣告主也面臨一定的風(fēng)險(xiǎn)喧笔,因?yàn)檫@時(shí)客戶可能已被別的競(jìng)品在更早的環(huán)節(jié)進(jìn)行了影響,轉(zhuǎn)化成本也相應(yīng)提高尼变。
  3. 行為偏好數(shù)據(jù)
    對(duì)于大多數(shù)第三方DMP平臺(tái)來(lái)說(shuō)梗劫,主要還是通過(guò)這一類(lèi)數(shù)據(jù)來(lái)幫助廣告主找到潛在的人群蛉威,從業(yè)務(wù)邏輯來(lái)說(shuō),具有某種偏好或者屬于某種類(lèi)型的人群往往會(huì)更傾向于購(gòu)買(mǎi)某款產(chǎn)品,對(duì)于這部分?jǐn)?shù)據(jù)的學(xué)習(xí)也能促成最終的轉(zhuǎn)化栅盲。而且行為偏好數(shù)據(jù)會(huì)保證廣告主在潛在客群覆蓋規(guī)模和精準(zhǔn)度之間達(dá)到一個(gè)很好的平衡,因此也是廣告主普遍選用的一種數(shù)據(jù)谈秫。
  4. 行為模式數(shù)據(jù)
    所謂行為模式是指通過(guò)分析消費(fèi)者的行為與時(shí)間硕淑、空間的關(guān)系曹阔,以及一系列行為之間的時(shí)間和空間序列關(guān)系,總結(jié)出的具有一定一致性意義的行為表現(xiàn),通過(guò)這些一致性模式預(yù)測(cè)相關(guān)行為。行為模式數(shù)據(jù)往往應(yīng)用于場(chǎng)景營(yíng)銷(xiāo)炭序,但是由于加工行為模式的數(shù)據(jù)計(jì)算復(fù)雜度較高相恃,同時(shí)對(duì)分析的實(shí)時(shí)性要求也很高扫俺,因此目前還處在探索和優(yōu)化階段,實(shí)際的應(yīng)用落地不多倦挂。

應(yīng)用tips

  1. 結(jié)合聚類(lèi)算法一起使用
    有時(shí)候客戶提供過(guò)來(lái)的種子人群成分是非常復(fù)雜的畸颅,往往是參雜了大量子類(lèi)人群的總和,如果直接拿這些種子人群進(jìn)行l(wèi)ookaLike方援,則相當(dāng)于把人群的特征進(jìn)行了弱化没炒,最終找出來(lái)的相似人群特征會(huì)變得不明顯。例如某奢侈品牌犯戏,他們的一方種子人群中包含2類(lèi)送火,一類(lèi)是真正有錢(qián)的人群,平時(shí)開(kāi)豪車(chē)住別墅的先匪,另外一類(lèi)是普通的城市小白領(lǐng)种吸,他們往往攢好幾個(gè)月的工資進(jìn)行一次消費(fèi)。這2種人群必須先通過(guò)聚類(lèi)算法區(qū)分出來(lái)呀非,然后再輸入lookaLike算法去擴(kuò)大坚俗。
  2. 在什么媒體上用
    LookaLike算法選出的人群最終是在媒體的流量人群中實(shí)現(xiàn)觸達(dá)镜盯,因此媒體自身流量對(duì)最終lookaLike算法落地的效果影響非常大,例如我們做過(guò)的某次營(yíng)銷(xiāo)案例猖败,選取某DSP做為精準(zhǔn)營(yíng)銷(xiāo)的落地媒體速缆,在整個(gè)4周的營(yíng)銷(xiāo)過(guò)程中,最終選取的精準(zhǔn)人群只有2%曝光成功恩闻。(一方面由于該DSP媒體流量均為長(zhǎng)尾流量艺糜,而我們選取的目標(biāo)人群為金融類(lèi)目標(biāo)人群,該DSP對(duì)目標(biāo)人群覆蓋率低幢尚,另外由于低價(jià)策略破停,競(jìng)價(jià)成功率低也導(dǎo)致了最終觸達(dá)的精準(zhǔn)人群規(guī)模比較小。)最終我們分析了這2%成功曝光的人群尉剩,發(fā)現(xiàn)他們也是Lookalike算法相似度相對(duì)較低的真慢,也就是說(shuō)最相似的那部分目標(biāo)人群在該媒體上并沒(méi)有出現(xiàn)和競(jìng)得。
    因此為了保證lookaLike算法落地的效果边涕,選取與廣告主自身產(chǎn)品相對(duì)匹配的目標(biāo)媒體以及合適的出價(jià)都非常重要晤碘。
  3. 根據(jù)效果數(shù)據(jù)優(yōu)化lookaLike算法
    一旦精準(zhǔn)營(yíng)銷(xiāo)活動(dòng)開(kāi)始后,就可以回收消費(fèi)者對(duì)營(yíng)銷(xiāo)的反饋數(shù)據(jù)做為正樣本來(lái)對(duì)lookaLike算法進(jìn)行優(yōu)化功蜓。通過(guò)TalkingData對(duì)大量歷史投放數(shù)據(jù)的分析园爷,動(dòng)態(tài)優(yōu)化lookaike算法可以極大的提升算法的轉(zhuǎn)化效果:在同樣選取相似度TOP100w樣本進(jìn)行精準(zhǔn)投放的情況下,每日優(yōu)化樣本庫(kù)組相比較不優(yōu)化組在一周的投放周期內(nèi)式撼,可提升激活率180%以上童社。樣本庫(kù)優(yōu)化的周期可以根據(jù)效果數(shù)據(jù)回收的量級(jí)、媒體的技術(shù)支持能力著隆、以及DMP平臺(tái)自身的數(shù)據(jù)更新周期綜合決定扰楼,建議每1-2日更新目標(biāo)用戶群。

一些實(shí)際例子

利用用戶畫(huà)像美浦,給用戶打標(biāo)簽弦赖,利用相同標(biāo)簽找到目標(biāo)人群

實(shí)例:美的豆?jié){機(jī)通過(guò)Youmi DSP進(jìn)行了Look-alike人群擴(kuò)展投放
有米廣告取得美的家電第一方消費(fèi)者數(shù)據(jù),涵蓋瀏覽浦辨、購(gòu)買(mǎi)行為等ID信息蹬竖。通過(guò)導(dǎo)入Youmi DMP進(jìn)行全庫(kù)記錄匹配,找到個(gè)體的在線歷史大數(shù)據(jù)流酬。經(jīng)由人群分析模型币厕,有米洞察到美的用戶的個(gè)性傾向特征,通過(guò)標(biāo)簽算法挖掘芽腾,將數(shù)據(jù)庫(kù)中擁有高相似畫(huà)像的人群列為一類(lèi)精準(zhǔn)用戶旦装。根據(jù)標(biāo)簽?zāi)P停贸鲞@些用戶具有較多且重合的“健康”“時(shí)尚”“親子”“女性”“中高收入”“一二線城市”等細(xì)分人群畫(huà)像摊滔。

分析:利用用戶畫(huà)像給用戶打上各類(lèi)標(biāo)簽阴绢。根據(jù)種子人群分析大部分種子用戶具有的標(biāo)簽特征 例如:家庭女性店乐、30-40歲、已婚旱函,未生小孩响巢,健康描滔。那么對(duì)于一個(gè)標(biāo)簽為:上班族棒妨,30-40歲、已婚含长,未生小孩券腔,健康 女性就是其目標(biāo)人群。

利用分類(lèi)算法來(lái)實(shí)現(xiàn)的:種子人群為正樣本拘泞,候選對(duì)象為負(fù)樣本纷纫,訓(xùn)練分類(lèi)模型,然后用模型對(duì)所有候選對(duì)象進(jìn)行篩選陪腌。

顯然候選樣本并發(fā)所有的樣本都是負(fù)樣本辱魁,所有這是一個(gè)典型的PU learning問(wèn)題
PU learning:Positive and unlabeled learning

利用社交網(wǎng)絡(luò)進(jìn)行人群擴(kuò)散:利用好友關(guān)系,將種子人群標(biāo)簽傳給社區(qū)中的好友诗鸭,從而實(shí)現(xiàn)人群擴(kuò)散

實(shí)現(xiàn)

  1. 數(shù)據(jù)準(zhǔn)備
     ∪敬亍① 獲得用戶的屬性(User Profile),如性別强岸、年齡锻弓、學(xué)歷、職業(yè)蝌箍、地域青灼、能力標(biāo)簽等;
     〖嗣ぁ② 根據(jù)項(xiàng)目?jī)?nèi)容和活動(dòng)內(nèi)容制定一套受眾標(biāo)簽(Audience Label)杂拨;
      ③ 提取用戶之間的關(guān)注關(guān)系悯衬,微博之間的轉(zhuǎn)發(fā)關(guān)系弹沽;
      ④ 獲取微博message 中的文本內(nèi)容甚亭;
     〈摇⑤ 獲得微博message 中的圖片內(nèi)容。

  2. 用戶標(biāo)簽特征處理
     】髡① 根據(jù)步驟1 中用戶屬性信息和已有的部分受眾標(biāo)簽系統(tǒng)役纹。利用GBDT 算法(可以直接用xgboost)將沒(méi)有標(biāo)簽的受眾全部打上標(biāo)簽。這個(gè)分類(lèi)問(wèn)題中請(qǐng)注意處理連續(xù)值變量以及歸一化暇唾。
     〈俾觥② 將標(biāo)簽進(jìn)行向量化處理辰斋,這個(gè)問(wèn)題轉(zhuǎn)化成對(duì)中文單詞進(jìn)行向量化,這里用word2vec 處理后得到用戶標(biāo)簽的向量化信息Label2vec瘸味。這一步也可以使用word2vec在中文的大數(shù)據(jù)樣本下進(jìn)行預(yù)訓(xùn)練宫仗,再用該模型對(duì)標(biāo)簽加以提取,對(duì)特征的提取有一定的提高旁仿,大約在0.5%左右藕夫。

  3. 文本特征處理
      清洗整理步驟1 中提取到的所有微博message 文本內(nèi)容,訓(xùn)練doc2vec 模型枯冈,得到單個(gè)文本的向量化表示毅贮,對(duì)所得的文本作聚類(lèi)(KMeans,在30 萬(wàn)的微博用戶的message 上測(cè)試尘奏,K 取128 對(duì)文本的區(qū)分度較強(qiáng))滩褥,最后提取每個(gè)cluster 的中心向量,并根據(jù)每個(gè)用戶所占有的cluster 獲得用戶所發(fā)微博的文本信息的向量表示Content2vec炫加。

  4. 圖像特征
      將步驟1 中提取到的所有的message 圖片信息進(jìn)行整理分類(lèi)瑰煎,使用預(yù)訓(xùn)練卷積網(wǎng)絡(luò)模型(這里為了平衡效率選取VGG16 作為卷積網(wǎng)絡(luò))提取圖像信息,對(duì)每個(gè)用戶message 中的圖片做向量化處理俗孝,形成Image2vec酒甸,如果有多張圖片則將多張圖片分別提取特征值再接一層Max Pooling 提取重要信息后輸出。

  5. 社交關(guān)系建立(node2vec 向量化)
      將步驟1 數(shù)據(jù)準(zhǔn)備中獲得的用戶之間的關(guān)系和微博之間的轉(zhuǎn)發(fā)評(píng)論關(guān)系轉(zhuǎn)化成圖結(jié)構(gòu)驹针,并提取用戶關(guān)系sub-graph烘挫,最后使用node2vec 算法得到每個(gè)用戶的社交網(wǎng)絡(luò)圖向量化表示。下圖為社交關(guān)系化后的部分圖示柬甥。

社交關(guān)系向量化

fully connected layers,FC
將步驟2345 得到的向量做拼接饮六,經(jīng)過(guò)兩層FC,得到表示每個(gè)用戶的多特征向量集(User Vector Set, UVS)苛蒲。這里取的輸出單元個(gè)數(shù)時(shí)可以根據(jù)性能和準(zhǔn)確度做平衡卤橄,目前英特實(shí)現(xiàn)的是輸出512 個(gè)單元,最后的特征輸出表達(dá)了用戶的社交關(guān)系臂外、用戶屬性窟扑、發(fā)出的內(nèi)容、感興趣的內(nèi)容等的混合特征向量漏健,這些特征向量將作為下一步比對(duì)相似性的輸入值嚎货。
  分別計(jì)算種子用戶和潛在目標(biāo)用戶的向量集,并比對(duì)相似性蔫浆。英特使用的是余弦相似度計(jì)算相似性殖属,將步驟6 得到的用戶特征向量集作為輸入x 和y,代入下面公式計(jì)算相似性瓦盛。


注意:余弦相似度更多是從方向上區(qū)分差異洗显,而對(duì)絕對(duì)的數(shù)值不敏感外潜,因此沒(méi)法衡量每個(gè)維度值的差異。這里要在每個(gè)維度上減去一個(gè)均值或者乘以一個(gè)系數(shù)挠唆,或者在之前做好歸一化处窥。

  1. 受眾擴(kuò)展
      ① 獲取種子受眾名單玄组,以及目標(biāo)受眾的數(shù)量N滔驾;
      ② 檢查種子用戶是否存在于UVS 中巧勤,將存在的用戶向量化嵌灰;
      ③ 計(jì)算受眾名單中用戶和UVS 中用戶的相似度颅悉,提取最相似的前N 個(gè)用戶作為目標(biāo)受眾。

最后將以上步驟串聯(lián)起來(lái)迁匠,形成流程圖剩瓶。

Lookalike 算法流程圖

在以上步驟提取完特征后,英特使用一個(gè)兩層的神經(jīng)網(wǎng)絡(luò)做最后的特征歸并提取城丧,算法結(jié)構(gòu)示意圖如下

Lookalike 算法結(jié)構(gòu)示意圖

其中FC1 層也可以替換成Max Pooling延曙,Max Pooling 層具有強(qiáng)解釋性,也就是把用戶特征群上提取的最重要的特征點(diǎn)作為下一層的輸入亡哄,讀者可以自行嘗試枝缔,這里限于篇幅問(wèn)題就不做展開(kāi)了。

來(lái)自Youtube & google

深度候選人生成模型 + 分布式打分模型
使用的是分類(lèi)方式蚊惯,將客戶分成可能的N類(lèi)愿卸,選取打分最高的類(lèi)
引入DNN 的好處在于大多數(shù)類(lèi)型的連續(xù)特征和離散特征可以直接添加到模型當(dāng)中。

ref:

Deep Neural Networks for YouTube Recommendations
Audience Expansion for Online Social Network Advertising
微信廣告推廣的
綜述類(lèi)型的

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末截型,一起剝皮案震驚了整個(gè)濱河市趴荸,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌宦焦,老刑警劉巖发钝,帶你破解...
    沈念sama閱讀 206,311評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)弦悉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,339評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)登钥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人良价,你說(shuō)我怎么就攤上這事。” “怎么了夺英?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,671評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵晌涕,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我痛悯,道長(zhǎng)余黎,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,252評(píng)論 1 279
  • 正文 為了忘掉前任载萌,我火速辦了婚禮惧财,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘扭仁。我一直安慰自己垮衷,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,253評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布乖坠。 她就那樣靜靜地躺著搀突,像睡著了一般。 火紅的嫁衣襯著肌膚如雪熊泵。 梳的紋絲不亂的頭發(fā)上仰迁,一...
    開(kāi)封第一講書(shū)人閱讀 49,031評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音顽分,去河邊找鬼徐许。 笑死,一個(gè)胖子當(dāng)著我的面吹牛卒蘸,可吹牛的內(nèi)容都是我干的雌隅。 我是一名探鬼主播,決...
    沈念sama閱讀 38,340評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼缸沃,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼恰起!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起和泌,我...
    開(kāi)封第一講書(shū)人閱讀 36,973評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤村缸,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后武氓,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體梯皿,經(jīng)...
    沈念sama閱讀 43,466評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,937評(píng)論 2 323
  • 正文 我和宋清朗相戀三年县恕,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了东羹。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,039評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡忠烛,死狀恐怖属提,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤冤议,帶...
    沈念sama閱讀 33,701評(píng)論 4 323
  • 正文 年R本政府宣布斟薇,位于F島的核電站,受9級(jí)特大地震影響恕酸,放射性物質(zhì)發(fā)生泄漏堪滨。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,254評(píng)論 3 307
  • 文/蒙蒙 一蕊温、第九天 我趴在偏房一處隱蔽的房頂上張望袱箱。 院中可真熱鬧,春花似錦义矛、人聲如沸发笔。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,259評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)了讨。三九已至,卻和暖如春噪矛,著一層夾襖步出監(jiān)牢的瞬間量蕊,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工艇挨, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人韭赘。 一個(gè)月前我還...
    沈念sama閱讀 45,497評(píng)論 2 354
  • 正文 我出身青樓缩滨,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親泉瞻。 傳聞我的和親對(duì)象是個(gè)殘疾皇子脉漏,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,786評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容