要提高在線廣告的效果,受眾定向是最重要的核心技術(shù)之一召川。
12.1 受眾定向技術(shù)分類
首先按照其有效性和在廣告信息接受過程中起作用的階段給出一些市場上比較流行的定向方式,如下圖所示胸遇。
注:這里建議結(jié)合計(jì)算廣告第二章提到的廣告接受過程來理解http://www.reibang.com/p/169256d037f4
總體上看荧呐,按照計(jì)算框架的不同,這些受眾定向技術(shù)可以分為以下三種類型。
(1)用戶標(biāo)簽坛增,即可以表示成t(u)形式的標(biāo)簽获雕,這是以用戶歷史行為數(shù)據(jù)為依據(jù),為用戶打上的標(biāo)簽收捣。
(2)上下文標(biāo)簽届案,即可以表示成t(c)形式的標(biāo)簽,這是根據(jù)用戶當(dāng)前的訪問行為得到的即時標(biāo)簽罢艾。
(3)定制化標(biāo)簽楣颠,即可以表示成t(a,u)形式的標(biāo)簽,這也是一種用戶標(biāo)簽咐蚯,不同之處在于是針對某一特定廣告主而言的童漩,因而必須根據(jù)廣告主的某些屬性或數(shù)據(jù)來加工。
以上各種定向中春锋,地域定向矫膨、頻道定向和上下文定向?qū)儆趖(c)的定向方式;人口屬性定向期奔、行為定向?qū)儆趖(u)的定向方式侧馅;而重定向和新客推薦(look-alike)則是t(a,u)的定向方式。各種定向的標(biāo)簽被應(yīng)用于根據(jù)用戶和環(huán)境信息選取廣告候選的過程呐萌,因而對廣告投送的結(jié)果有比較顯著的影響馁痴。t(c)和t(u)兩種定向方式,一個是根據(jù)當(dāng)前環(huán)境信息肺孤,一個是根據(jù)歷史日志數(shù)據(jù)罗晕,因而在技術(shù)方案上有比較大的區(qū)別。
12.2 上下文定向(t(c))
從打標(biāo)簽的方法上來看赠堵,上下文定向主要有以下幾種思路小渊。
(1)用規(guī)則將頁面歸類到一些頻道或主題分類。例如顾腊,將auto.sohu.com下的網(wǎng)頁歸在“汽車”這個分類中粤铭。這種方法相對簡單。
(2)提取頁面中的關(guān)鍵詞杂靶。這是在將搜索引擎的關(guān)鍵詞匹配技術(shù)推廣到媒體廣告上時自然產(chǎn)生的,也是上下文定向的基本方法酱鸭。
(3)提取頁面入鏈(即進(jìn)入當(dāng)前地址的源鏈接)錨文本中的關(guān)鍵詞吗垮。這需要一個全網(wǎng)的爬蟲作支持,因此已經(jīng)超出了一般意義下廣告系統(tǒng)的范疇凹髓,有興趣的讀者可以參考搜索引擎方面的有關(guān)文獻(xiàn)烁登。
(4)提取頁面流量來源中的搜索關(guān)鍵詞。這種方法除了頁面內(nèi)容,也需要頁面訪問的日志數(shù)據(jù)作支持饵沧,從技術(shù)方案上看更接近后面介紹的行為定向锨络。
(5)用主題模型將頁面內(nèi)容映射到語義空間的一組主題上,這樣做的目的是為了泛化廣告主的需求狼牺,提高市場的流動性和競價水平羡儿。
確定了對上下文頁面打標(biāo)簽的方法以后,在在線廣告投放時是钥,頁面標(biāo)簽系統(tǒng)需要對廣告投放機(jī)查詢的某一個URL快速返回其對應(yīng)的標(biāo)簽掠归。復(fù)雜的打標(biāo)簽計(jì)算是不可能馬上完成的,不過在廣告的問題中悄泥,某一次展示時標(biāo)簽的缺失并不是致命性的虏冻。根據(jù)廣告的這一特點(diǎn),可以用一種半在線的方式實(shí)現(xiàn)頁面抓取和打標(biāo)簽的邏輯弹囚。
半在線抓取系統(tǒng)
半在線抓取系統(tǒng)的工作原理厨相,簡單來說就是,當(dāng)在線的廣告請求到來時進(jìn)行如下操作鸥鹉。
(1)如果該請求的上下文URL在緩存中存在蛮穿,那么直接返回其對應(yīng)的標(biāo)簽。
(2)如果該URL在服務(wù)中不存在宋舷,為了廣告請求能及時得到處理绪撵,當(dāng)時返回空的標(biāo)簽集合,同時立刻向后臺的抓取隊(duì)列中加入此URL祝蝠,這樣在較短的一段時間(通常為秒至分鐘量級)之后該URL就被抓取下來并打上標(biāo)簽存入緩存中音诈。
(3)考慮到頁面內(nèi)容可能會不定期更新,可以設(shè)置緩存合適的TTL(Time to Live)以做到自動更新標(biāo)簽绎狭。
半在線的上下文抓取系統(tǒng)非常典型地揭示了在線廣告系統(tǒng)弱一致的業(yè)務(wù)需求:只要保證大多數(shù)的廣告決策最優(yōu)正常细溅,很少量的次優(yōu)決策甚至隨機(jī)決策都是可以接受的。
12.3 文本主題挖掘(t(c))
根據(jù)上下文內(nèi)容進(jìn)行受眾定向的粒度可以精細(xì)到關(guān)鍵詞儡嘶,也可以粗略到頁面的類型喇聊。除了這兩種極端情況,我們也可以考慮將頁面內(nèi)容直接映射到一組有概括性意義的主題上蹦狂,比如將一個講編程語言的博客頁面映射到“IT 技術(shù)”這樣的主題上誓篱。假設(shè)這一文檔集合主題模型對應(yīng)著{1,2凯楔,···窜骄,T}這一組主題,我們的目的就是對每個文檔得到其在這些主題上的強(qiáng)度{zn1,zn2,···,znT}摆屯。
LSA模型
通過對文檔和詞組成的矩陣進(jìn)行矩陣分解邻遏,找到這一矩陣的主要模式,這一方法稱為潛在語義分析。LSA的分解過程可以表示如下:
其中K為矩陣X的秩准验,s1,s2,...sk為X的K個奇異值赎线。左側(cè)的矩陣就是將潛在語義空間中的主題映射到某個文檔的變換矩陣,而右側(cè)的矩陣則是主題映射到某個文檔詞表中某個詞的變換矩陣糊饱。最多可以得到的主題數(shù)目等于矩陣X 的秩K垂寥,不過一般情況下,都會選擇一個遠(yuǎn)小于K 的主題數(shù)目用來建模济似。
PLSI模型
LSA類似的思想也可以用概率建模的方式來表達(dá)矫废,這就是概率潛在語義索引PLSI。PLSI方法是通過對文檔生成的過程進(jìn)行概率建模來進(jìn)行主題分析砰蠢。這一模型下的文檔生成過程可以表述為以下兩個步驟蓖扑。
(1)根據(jù)每個文檔dn 生成對應(yīng)的一個主題z。
(2)給定主題台舱,對應(yīng)一個詞的多項(xiàng)式分布p(wn|z,β)律杠,據(jù)此生成一個詞wi;其中的參數(shù)β=(β1,···,βK)竞惋,而βk即為當(dāng)zk =1時對應(yīng)的多項(xiàng)式分布參數(shù)柜去。
對應(yīng)于上面的生成過程,文檔集X 的生成似然值可以表達(dá)為:
LDA模型
貝葉斯方法也可以應(yīng)用于PLSI模型拆宛,這樣做的目的是在文檔信息不足或者噪聲較大時能夠利用貝葉斯的框架對結(jié)果進(jìn)行有效的平滑嗓奢。這一思路也就產(chǎn)生了潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)方法 [10] 浑厚。在LDA方法中股耽,我們視PLSI模型的參數(shù)為隨機(jī)變量,對于某一篇文檔钳幅,其生成過程可以描述如下物蝙。
(1)根據(jù)一個泊松分布選擇文檔的長度M。
(2)根據(jù)ω 的先驗(yàn)分布Dir(α)生成ω敢艰。
(3)對每個文檔中的詞 m∈{1诬乞,···,M}钠导,根據(jù) Multi(ω)分布選擇一個主題 z震嫉;給定主題,對應(yīng)一個詞的多項(xiàng)式分布p(wm |z,β)牡属,據(jù)此生成一個詞wm责掏。
把這一生成過程與 PLSI對比可以知道,這相當(dāng)于 PLSI的貝葉斯版本湃望,即給 Topic的分布 w 加上了先驗(yàn)分布,而先驗(yàn)分布采用的是共軛形式,即狄利克雷分布证芭。
如果采用經(jīng)驗(yàn)貝葉斯的方法來確定超參數(shù)α瞳浦,那么此時原來的參數(shù)ω就變成了隱變量,優(yōu)化的參數(shù)除了α废士,還包括參數(shù)β叫潦,優(yōu)化的目標(biāo)函數(shù)可以寫成:
LDA 模型常用的更新方法是吉布斯采樣法。
詞嵌入word2vec
詞嵌入將詞級別的語義信息映射成稠密的實(shí)數(shù)向量來表達(dá)官硝。具體來說矗蕊,把詞典大小的維度降維到一個K維的特征空間,每個詞對應(yīng)特征空間內(nèi)的一個點(diǎn)氢架,即一個K維的稠密的實(shí)數(shù)向量傻咖。相近的詞會出現(xiàn)在特征空間中離得更近的地方,從而使詞的表示具有一定的泛化性岖研。
word2vec一般有skip-gram和cbow兩種模型學(xué)習(xí)方式卿操,由于較為通用,這里不再陳述孙援。
12.4 行為定向(t(u))
t(u)的受眾定向方式包括從用戶網(wǎng)上瀏覽記錄加工得到的興趣定向以及根據(jù)用戶歷史所在的地域得到的用戶主要居住地的“Where on Earth”定向等害淤。由于這些都是根據(jù)用戶的歷史行為進(jìn)行挖掘的問題,因此把它們統(tǒng)稱為行為定向(Behaviorial Targeting拓售,BT)窥摄。
行為定向需要進(jìn)行大規(guī)模的數(shù)據(jù)挖掘,是在線廣告中數(shù)據(jù)利用和變現(xiàn)最重要的計(jì)算問題之一础淤。行為定向的用到的標(biāo)簽體系崭放、建模方法、特征生成和評測指標(biāo)等問題將在下面分別討論值骇。
行為定向建模問題
行為定向問題的目標(biāo)是找出在某個類型的廣告上 eCPM相對較高的人群莹菱。如果假設(shè)在該類型的廣告上點(diǎn)擊價值近似一致,那么問題就轉(zhuǎn)化為找出在該類型廣告上點(diǎn)擊率較高的人群吱瘩。
行為定向模型要做的就是把用戶的行為與頻繁性參數(shù)λt聯(lián)系起來道伟。如果利用線性模型聯(lián)系用戶行為和λt,則有:
這里的wt=(wt1,···,wtN) 即為標(biāo)簽t對應(yīng)的行為定向模型需要優(yōu)化的參數(shù)使碾,n表示不同的行為類型蜜徽,如搜索、網(wǎng)頁瀏覽票摇、購買等拘鞋。將原始行為 b 先經(jīng)過特征選擇函數(shù) xtn(b),再將結(jié)果作為特征用在模型中矢门。
這是工程上一種非常典型的建模思路:當(dāng)面對一個多自變量的回歸問題時盆色,可以先根據(jù)目標(biāo)值的特性選擇合適的指數(shù)族分布來描述灰蛙,并用線性模型將多個自變量和指數(shù)族分布的參數(shù)聯(lián)系起來。這樣做隔躲,可以利用線性模型更新簡單和可解釋性強(qiáng)的特點(diǎn)摩梧,同時又對目標(biāo)變量的類型有較強(qiáng)的適應(yīng)性。這種建模方法稱為廣義線性模型(Generalized Linear Model宣旱,GLM)仅父。類似于邏輯回歸、softmax回歸都屬于廣義線性模型浑吟。
行為定向特征生成
行為定向特征的生成過程有兩點(diǎn)需要討論:一是特征選擇函數(shù) x tn 的確定笙纤,二是公式12.5對應(yīng)模型的訓(xùn)練集的組織和生成方式。行為定向的特征生成過程组力,由于樣本量比較大省容,處理的高效性是在工程中主要考慮的問題。
最常用的特征選擇函數(shù)xtn(b)是將一段時間內(nèi)的原始用戶行為映射到確定的標(biāo)簽體系上忿项,同時計(jì)算出各行為在對應(yīng)標(biāo)簽上的累積強(qiáng)度作為模型的特征輸入蓉冈。模型中wtn的作用實(shí)際上就是在調(diào)整搜索、瀏覽等不同行為類型的重要程度轩触。
這里要注意寞酿,我們考慮的是“一段時間內(nèi)的行為”,因?yàn)檫^于久遠(yuǎn)的行為對于用戶興趣的貢獻(xiàn)是很小的脱柱。如何將行為累計(jì)控制在一段時間以內(nèi)伐弹,工程上有兩種常用的方法,分別是滑動窗口法和時間衰減法榨为,兩者的計(jì)算公式分別為:
一般而言惨好,時間衰減法更為通用。
各類行為的標(biāo)簽化方法(xtn(b))
特征選擇函數(shù)x tn (b)的計(jì)算方法随闺,即搜索日川、廣告點(diǎn)擊、網(wǎng)頁瀏覽等行為映射到一個或多個定向標(biāo)簽上矩乐。這是行為定向計(jì)算過程中最關(guān)鍵的環(huán)節(jié)龄句,以下介紹工程中的實(shí)用方案。
(1)網(wǎng)頁瀏覽散罕、分享等與內(nèi)容相關(guān)的行為可以通過 之前提到的有監(jiān)督文本主題模型的方法分歇,將其映射到預(yù)先定義好的標(biāo)簽體系上,也可以直接提取內(nèi)容中的關(guān)鍵詞作為標(biāo)簽欧漱。
(2)廣告點(diǎn)擊等與廣告活動相關(guān)的行為可以轉(zhuǎn)化為對廣告落地頁內(nèi)容的分析职抡,因此可以使用與網(wǎng)頁瀏覽相同的方法感耙。
(3)最值得重視的是搜索比勉、搜索點(diǎn)擊等與查詢相關(guān)的行為瞧预。由于查詢的信息量較少弊决,很難直接提取標(biāo)簽√阋龋可行的方案有兩種岳遥,都要用到搜索引擎:第一種方案是利用搜索引擎做內(nèi)容擴(kuò)展,即將查詢送入搜索引擎裕寨,用返回的若干結(jié)果描述或者鏈接頁的內(nèi)容作為該查詢對應(yīng)的內(nèi)容,這種方案借助通用搜索引擎即可派继;第二種方案是對查詢進(jìn)行某垂直領(lǐng)域分類時宾袜,直接利用相應(yīng)垂直媒體的標(biāo)簽體系和搜索引擎。
(4)轉(zhuǎn)化驾窟、預(yù)轉(zhuǎn)化等需求方行為往往可以對應(yīng)到一個單品庆猫。同樣,利用該單品的分類信息可以將其映射到某個標(biāo)簽上绅络,
12.5人口屬性預(yù)測
年齡月培、性別、教育程度恩急、收入水平等人口屬性并不屬于用戶的興趣杉畜,而是用戶確定的特點(diǎn)描述。不過在實(shí)際定向廣告系統(tǒng)中衷恭,除了一些實(shí)名的社交網(wǎng)絡(luò)以外此叠,規(guī)模化地獲得人口屬性比較困難随珠,因此往往還是需要數(shù)據(jù)驅(qū)動的模型灭袁,以用戶的行為為基礎(chǔ)自動預(yù)測其人口屬性。
有很多機(jī)器學(xué)習(xí)模型都可以用于性別預(yù)測問題窗看,比如采用最大后驗(yàn)概率的框架茸歧,則預(yù)測問題可以表示成:
其他的模型,如支持向量機(jī)(Support Vector Machine显沈,SVM) 软瞎、AdaBoost 等,都可以考慮构罗,需要根據(jù)自己的數(shù)據(jù)特點(diǎn)具體判斷哪種模型更合理铜涉。
除了性別以外的其他人口屬性用簡單的分類模型并不太準(zhǔn)確。以年齡為例遂唧,假設(shè)我們把標(biāo)簽設(shè)定成五個年齡段芙代,那么將第一個年齡段的認(rèn)錯分到第二個年齡段與錯分到第三個年齡段的代價應(yīng)該是不同的,而如果采用簡單的5個類的分類模型盖彭,這一差別就被忽略了纹烹。因此页滚,需要在分類模型中明確考慮不同類之間的錯分代價,其他的屬性如教育程度铺呵、收入水平也類似裹驰。不過總體上說,從用戶行為上預(yù)測非性別的人口屬性是比較困難的任務(wù)片挂。
12.6數(shù)據(jù)管理平臺
略
章節(jié)相關(guān)名詞
*TTL 生存時間 time to live
*SVD 奇異值分解 singular value decomposition
*LSA 潛在語義分析 Latent Semantic Analysis
*PLSI 概率潛在語義索引 Probabilistic Latent Semantic Indexing
*LDA 潛在狄利克雷分配 Latent Dirichlet Allocation
*CBOW Continuous Bag of Words
*BT 行為定向 Behavioral Targeting
*GLM 廣義線性模型 Generalized Linear Model