What
基本上所有的互聯(lián)網(wǎng)公司都有其廣告投放平臺(tái),這是給廣告主投放廣告的一個(gè)頁(yè)面。廣告主可以通過(guò)廣告提交頁(yè)面提交自己的廣告需求,后臺(tái)會(huì)給廣告主圈定一部分潛在用戶,這個(gè)就是我們稱(chēng)為L(zhǎng)ookalike的模塊脏毯。
lookalike 不是某一種特定的算法,而是一類(lèi)方法的統(tǒng)稱(chēng)幔崖,這類(lèi)方法綜合運(yùn)用多種技術(shù)食店,最終達(dá)到目的。
How
第一種就是顯性的定位赏寇,廣告主根據(jù)用戶的標(biāo)簽直接定位
比如說(shuō)通過(guò)年齡吉嫩、性別、地域這樣的標(biāo)簽來(lái)直接圈定一部分用戶進(jìn)行投放蹋订。這個(gè)時(shí)候我們的技術(shù)支持就是后臺(tái)的用戶畫(huà)像的挖掘率挣。
第二種做法,通過(guò)一個(gè)機(jī)器學(xué)習(xí)的模型露戒,來(lái)定位廣告主的潛在用戶
廣告主提交一批客戶名單,我們稱(chēng)之為種子用戶捶箱,它作為機(jī)器學(xué)習(xí)的正樣本智什。負(fù)樣本我們會(huì)從非種子用戶,或者是說(shuō)平臺(tái)會(huì)積累歷史的一些相似的廣告作為負(fù)樣本丁屎,這個(gè)問(wèn)題就轉(zhuǎn)化為一個(gè)二分類(lèi)的模型荠锭,正負(fù)樣本組成學(xué)習(xí)的樣本,訓(xùn)練模型之后晨川,利用模型結(jié)構(gòu)對(duì)活躍用戶進(jìn)行打分证九,最后得到廣告主需要的目標(biāo)人群删豺。
各大廠的做法
對(duì)于特征和模型算法,不同的公司各有差異:特征取決于公司有哪些數(shù)據(jù)愧怜;在模型算法上呀页,F(xiàn)acebook 和Google對(duì)外公布的說(shuō)法就是一個(gè)預(yù)測(cè)模型,Yahoo發(fā)表過(guò)幾篇論文拥坛,詳細(xì)介紹過(guò)它的算法蓬蝶,比如LR,Linear SVM猜惋,GBDT都有嘗試丸氛,論文里面提到的是GBDT的效果比較好。下圖列出了不同公司的做法著摔,供大家參考
吐槽 google 和 非死不可的 predict model 怕不是用了深度學(xué)習(xí)缓窜? 私以為 兩家公司 節(jié)操?zèng)]這么高。
需要哪些特征
- 行為結(jié)果數(shù)據(jù)
所謂行為結(jié)果數(shù)據(jù)是已經(jīng)采取了具體行動(dòng)的數(shù)據(jù)谍咆,例如購(gòu)買(mǎi)數(shù)據(jù)雹洗,入資數(shù)據(jù)等。 - 行為意向數(shù)據(jù)
所謂行為意向數(shù)據(jù)是傾向于采取某種行為的人群數(shù)據(jù)卧波,最典型的是搜索引擎的數(shù)據(jù)时肿,一般來(lái)說(shuō)消費(fèi)者在做最終的購(gòu)買(mǎi)決策之前,往往會(huì)通過(guò)搜索引擎了解產(chǎn)品周邊的一些相關(guān)信息港粱,相關(guān)搜索關(guān)鍵字?jǐn)?shù)據(jù)可以定位到一個(gè)有強(qiáng)購(gòu)買(mǎi)傾向的人螃成。這也是很多廣告主投入較多預(yù)算在SEM上的原因。但這種數(shù)據(jù)一般很難從搜索引擎?zhèn)全@取查坪,購(gòu)買(mǎi)關(guān)鍵字的成本也越來(lái)越高寸宏。一般來(lái)說(shuō),通過(guò)行為意向數(shù)據(jù)來(lái)尋找人群偿曙,轉(zhuǎn)化率會(huì)比較高,因?yàn)樾袨橐庀蛉巳和呀?jīng)達(dá)到了轉(zhuǎn)化前的最后一步的關(guān)鍵時(shí)刻,此時(shí)對(duì)意向人群進(jìn)行營(yíng)銷(xiāo),效果往往很明顯。但同時(shí)廣告主也面臨一定的風(fēng)險(xiǎn)喧笔,因?yàn)檫@時(shí)客戶可能已被別的競(jìng)品在更早的環(huán)節(jié)進(jìn)行了影響,轉(zhuǎn)化成本也相應(yīng)提高尼变。 - 行為偏好數(shù)據(jù)
對(duì)于大多數(shù)第三方DMP平臺(tái)來(lái)說(shuō)梗劫,主要還是通過(guò)這一類(lèi)數(shù)據(jù)來(lái)幫助廣告主找到潛在的人群蛉威,從業(yè)務(wù)邏輯來(lái)說(shuō),具有某種偏好或者屬于某種類(lèi)型的人群往往會(huì)更傾向于購(gòu)買(mǎi)某款產(chǎn)品,對(duì)于這部分?jǐn)?shù)據(jù)的學(xué)習(xí)也能促成最終的轉(zhuǎn)化栅盲。而且行為偏好數(shù)據(jù)會(huì)保證廣告主在潛在客群覆蓋規(guī)模和精準(zhǔn)度之間達(dá)到一個(gè)很好的平衡,因此也是廣告主普遍選用的一種數(shù)據(jù)谈秫。 - 行為模式數(shù)據(jù)
所謂行為模式是指通過(guò)分析消費(fèi)者的行為與時(shí)間硕淑、空間的關(guān)系曹阔,以及一系列行為之間的時(shí)間和空間序列關(guān)系,總結(jié)出的具有一定一致性意義的行為表現(xiàn),通過(guò)這些一致性模式預(yù)測(cè)相關(guān)行為。行為模式數(shù)據(jù)往往應(yīng)用于場(chǎng)景營(yíng)銷(xiāo)炭序,但是由于加工行為模式的數(shù)據(jù)計(jì)算復(fù)雜度較高相恃,同時(shí)對(duì)分析的實(shí)時(shí)性要求也很高扫俺,因此目前還處在探索和優(yōu)化階段,實(shí)際的應(yīng)用落地不多倦挂。
應(yīng)用tips
- 結(jié)合聚類(lèi)算法一起使用
有時(shí)候客戶提供過(guò)來(lái)的種子人群成分是非常復(fù)雜的畸颅,往往是參雜了大量子類(lèi)人群的總和,如果直接拿這些種子人群進(jìn)行l(wèi)ookaLike方援,則相當(dāng)于把人群的特征進(jìn)行了弱化没炒,最終找出來(lái)的相似人群特征會(huì)變得不明顯。例如某奢侈品牌犯戏,他們的一方種子人群中包含2類(lèi)送火,一類(lèi)是真正有錢(qián)的人群,平時(shí)開(kāi)豪車(chē)住別墅的先匪,另外一類(lèi)是普通的城市小白領(lǐng)种吸,他們往往攢好幾個(gè)月的工資進(jìn)行一次消費(fèi)。這2種人群必須先通過(guò)聚類(lèi)算法區(qū)分出來(lái)呀非,然后再輸入lookaLike算法去擴(kuò)大坚俗。 - 在什么媒體上用
LookaLike算法選出的人群最終是在媒體的流量人群中實(shí)現(xiàn)觸達(dá)镜盯,因此媒體自身流量對(duì)最終lookaLike算法落地的效果影響非常大,例如我們做過(guò)的某次營(yíng)銷(xiāo)案例猖败,選取某DSP做為精準(zhǔn)營(yíng)銷(xiāo)的落地媒體速缆,在整個(gè)4周的營(yíng)銷(xiāo)過(guò)程中,最終選取的精準(zhǔn)人群只有2%曝光成功恩闻。(一方面由于該DSP媒體流量均為長(zhǎng)尾流量艺糜,而我們選取的目標(biāo)人群為金融類(lèi)目標(biāo)人群,該DSP對(duì)目標(biāo)人群覆蓋率低幢尚,另外由于低價(jià)策略破停,競(jìng)價(jià)成功率低也導(dǎo)致了最終觸達(dá)的精準(zhǔn)人群規(guī)模比較小。)最終我們分析了這2%成功曝光的人群尉剩,發(fā)現(xiàn)他們也是Lookalike算法相似度相對(duì)較低的真慢,也就是說(shuō)最相似的那部分目標(biāo)人群在該媒體上并沒(méi)有出現(xiàn)和競(jìng)得。
因此為了保證lookaLike算法落地的效果边涕,選取與廣告主自身產(chǎn)品相對(duì)匹配的目標(biāo)媒體以及合適的出價(jià)都非常重要晤碘。 - 根據(jù)效果數(shù)據(jù)優(yōu)化lookaLike算法
一旦精準(zhǔn)營(yíng)銷(xiāo)活動(dòng)開(kāi)始后,就可以回收消費(fèi)者對(duì)營(yíng)銷(xiāo)的反饋數(shù)據(jù)做為正樣本來(lái)對(duì)lookaLike算法進(jìn)行優(yōu)化功蜓。通過(guò)TalkingData對(duì)大量歷史投放數(shù)據(jù)的分析园爷,動(dòng)態(tài)優(yōu)化lookaike算法可以極大的提升算法的轉(zhuǎn)化效果:在同樣選取相似度TOP100w樣本進(jìn)行精準(zhǔn)投放的情況下,每日優(yōu)化樣本庫(kù)組相比較不優(yōu)化組在一周的投放周期內(nèi)式撼,可提升激活率180%以上童社。樣本庫(kù)優(yōu)化的周期可以根據(jù)效果數(shù)據(jù)回收的量級(jí)、媒體的技術(shù)支持能力著隆、以及DMP平臺(tái)自身的數(shù)據(jù)更新周期綜合決定扰楼,建議每1-2日更新目標(biāo)用戶群。
一些實(shí)際例子
利用用戶畫(huà)像美浦,給用戶打標(biāo)簽弦赖,利用相同標(biāo)簽找到目標(biāo)人群
實(shí)例:美的豆?jié){機(jī)通過(guò)Youmi DSP進(jìn)行了Look-alike人群擴(kuò)展投放
有米廣告取得美的家電第一方消費(fèi)者數(shù)據(jù),涵蓋瀏覽浦辨、購(gòu)買(mǎi)行為等ID信息蹬竖。通過(guò)導(dǎo)入Youmi DMP進(jìn)行全庫(kù)記錄匹配,找到個(gè)體的在線歷史大數(shù)據(jù)流酬。經(jīng)由人群分析模型币厕,有米洞察到美的用戶的個(gè)性傾向特征,通過(guò)標(biāo)簽算法挖掘芽腾,將數(shù)據(jù)庫(kù)中擁有高相似畫(huà)像的人群列為一類(lèi)精準(zhǔn)用戶旦装。根據(jù)標(biāo)簽?zāi)P停贸鲞@些用戶具有較多且重合的“健康”“時(shí)尚”“親子”“女性”“中高收入”“一二線城市”等細(xì)分人群畫(huà)像摊滔。
分析:利用用戶畫(huà)像給用戶打上各類(lèi)標(biāo)簽阴绢。根據(jù)種子人群分析大部分種子用戶具有的標(biāo)簽特征 例如:家庭女性店乐、30-40歲、已婚旱函,未生小孩响巢,健康描滔。那么對(duì)于一個(gè)標(biāo)簽為:上班族棒妨,30-40歲、已婚含长,未生小孩券腔,健康 女性就是其目標(biāo)人群。
利用分類(lèi)算法來(lái)實(shí)現(xiàn)的:種子人群為正樣本拘泞,候選對(duì)象為負(fù)樣本纷纫,訓(xùn)練分類(lèi)模型,然后用模型對(duì)所有候選對(duì)象進(jìn)行篩選陪腌。
顯然候選樣本并發(fā)所有的樣本都是負(fù)樣本辱魁,所有這是一個(gè)典型的PU learning問(wèn)題
PU learning:Positive and unlabeled learning
利用社交網(wǎng)絡(luò)進(jìn)行人群擴(kuò)散:利用好友關(guān)系,將種子人群標(biāo)簽傳給社區(qū)中的好友诗鸭,從而實(shí)現(xiàn)人群擴(kuò)散
實(shí)現(xiàn)
數(shù)據(jù)準(zhǔn)備
∪敬亍① 獲得用戶的屬性(User Profile),如性別强岸、年齡锻弓、學(xué)歷、職業(yè)蝌箍、地域青灼、能力標(biāo)簽等;
〖嗣ぁ② 根據(jù)項(xiàng)目?jī)?nèi)容和活動(dòng)內(nèi)容制定一套受眾標(biāo)簽(Audience Label)杂拨;
③ 提取用戶之間的關(guān)注關(guān)系悯衬,微博之間的轉(zhuǎn)發(fā)關(guān)系弹沽;
④ 獲取微博message 中的文本內(nèi)容甚亭;
〈摇⑤ 獲得微博message 中的圖片內(nèi)容。用戶標(biāo)簽特征處理
】髡① 根據(jù)步驟1 中用戶屬性信息和已有的部分受眾標(biāo)簽系統(tǒng)役纹。利用GBDT 算法(可以直接用xgboost)將沒(méi)有標(biāo)簽的受眾全部打上標(biāo)簽。這個(gè)分類(lèi)問(wèn)題中請(qǐng)注意處理連續(xù)值變量以及歸一化暇唾。
〈俾觥② 將標(biāo)簽進(jìn)行向量化處理辰斋,這個(gè)問(wèn)題轉(zhuǎn)化成對(duì)中文單詞進(jìn)行向量化,這里用word2vec 處理后得到用戶標(biāo)簽的向量化信息Label2vec瘸味。這一步也可以使用word2vec在中文的大數(shù)據(jù)樣本下進(jìn)行預(yù)訓(xùn)練宫仗,再用該模型對(duì)標(biāo)簽加以提取,對(duì)特征的提取有一定的提高旁仿,大約在0.5%左右藕夫。文本特征處理
清洗整理步驟1 中提取到的所有微博message 文本內(nèi)容,訓(xùn)練doc2vec 模型枯冈,得到單個(gè)文本的向量化表示毅贮,對(duì)所得的文本作聚類(lèi)(KMeans,在30 萬(wàn)的微博用戶的message 上測(cè)試尘奏,K 取128 對(duì)文本的區(qū)分度較強(qiáng))滩褥,最后提取每個(gè)cluster 的中心向量,并根據(jù)每個(gè)用戶所占有的cluster 獲得用戶所發(fā)微博的文本信息的向量表示Content2vec炫加。圖像特征
將步驟1 中提取到的所有的message 圖片信息進(jìn)行整理分類(lèi)瑰煎,使用預(yù)訓(xùn)練卷積網(wǎng)絡(luò)模型(這里為了平衡效率選取VGG16 作為卷積網(wǎng)絡(luò))提取圖像信息,對(duì)每個(gè)用戶message 中的圖片做向量化處理俗孝,形成Image2vec酒甸,如果有多張圖片則將多張圖片分別提取特征值再接一層Max Pooling 提取重要信息后輸出。社交關(guān)系建立(node2vec 向量化)
將步驟1 數(shù)據(jù)準(zhǔn)備中獲得的用戶之間的關(guān)系和微博之間的轉(zhuǎn)發(fā)評(píng)論關(guān)系轉(zhuǎn)化成圖結(jié)構(gòu)驹针,并提取用戶關(guān)系sub-graph烘挫,最后使用node2vec 算法得到每個(gè)用戶的社交網(wǎng)絡(luò)圖向量化表示。下圖為社交關(guān)系化后的部分圖示柬甥。
fully connected layers,FC
將步驟2345 得到的向量做拼接饮六,經(jīng)過(guò)兩層FC,得到表示每個(gè)用戶的多特征向量集(User Vector Set, UVS)苛蒲。這里取的輸出單元個(gè)數(shù)時(shí)可以根據(jù)性能和準(zhǔn)確度做平衡卤橄,目前英特實(shí)現(xiàn)的是輸出512 個(gè)單元,最后的特征輸出表達(dá)了用戶的社交關(guān)系臂外、用戶屬性窟扑、發(fā)出的內(nèi)容、感興趣的內(nèi)容等的混合特征向量漏健,這些特征向量將作為下一步比對(duì)相似性的輸入值嚎货。
分別計(jì)算種子用戶和潛在目標(biāo)用戶的向量集,并比對(duì)相似性蔫浆。英特使用的是余弦相似度計(jì)算相似性殖属,將步驟6 得到的用戶特征向量集作為輸入x 和y,代入下面公式計(jì)算相似性瓦盛。
注意:余弦相似度更多是從方向上區(qū)分差異洗显,而對(duì)絕對(duì)的數(shù)值不敏感外潜,因此沒(méi)法衡量每個(gè)維度值的差異。這里要在每個(gè)維度上減去一個(gè)均值或者乘以一個(gè)系數(shù)挠唆,或者在之前做好歸一化处窥。
- 受眾擴(kuò)展
① 獲取種子受眾名單玄组,以及目標(biāo)受眾的數(shù)量N滔驾;
② 檢查種子用戶是否存在于UVS 中巧勤,將存在的用戶向量化嵌灰;
③ 計(jì)算受眾名單中用戶和UVS 中用戶的相似度颅悉,提取最相似的前N 個(gè)用戶作為目標(biāo)受眾。
最后將以上步驟串聯(lián)起來(lái)迁匠,形成流程圖剩瓶。
在以上步驟提取完特征后,英特使用一個(gè)兩層的神經(jīng)網(wǎng)絡(luò)做最后的特征歸并提取城丧,算法結(jié)構(gòu)示意圖如下
其中FC1 層也可以替換成Max Pooling延曙,Max Pooling 層具有強(qiáng)解釋性,也就是把用戶特征群上提取的最重要的特征點(diǎn)作為下一層的輸入亡哄,讀者可以自行嘗試枝缔,這里限于篇幅問(wèn)題就不做展開(kāi)了。
來(lái)自Youtube & google
深度候選人生成模型 + 分布式打分模型
使用的是分類(lèi)方式蚊惯,將客戶分成可能的N類(lèi)愿卸,選取打分最高的類(lèi)
引入DNN 的好處在于大多數(shù)類(lèi)型的連續(xù)特征和離散特征可以直接添加到模型當(dāng)中。
ref:
Deep Neural Networks for YouTube Recommendations
Audience Expansion for Online Social Network Advertising
微信廣告推廣的
綜述類(lèi)型的