ctr預(yù)估解析

(轉(zhuǎn)自:http://www.meihua.info/a/72378

CTR預(yù)估是競價廣告核心的邏輯之一,衛(wèi)夕老師今天嘗試用人話來解釋CTR預(yù)估的來龍去脈,本文不會涉及到任何高深難懂的公式和技術(shù)邏輯担败,看得懂中文的同學(xué)都能明白其中的邏輯磁滚。

我們在刷微信和微博的時候兰怠,有時候會驚嘆廣告非常精準(zhǔn)——“就是我想要的垃僚!”,有時候又會感覺廣告極其不靠譜——“我怎么可能點呢错妖?”绿鸣,所有的這些背后,廣告的工程師們已經(jīng)做了他們最大的努力——

即便在我們看來并不精準(zhǔn)暂氯,但在所有定向給你的廣告中潮模,他們已經(jīng)挑出機(jī)器認(rèn)為你最可能點的廣告,而這背后依賴的就是CTR預(yù)估技術(shù)痴施。

CTR預(yù)估是競價廣告核心的邏輯之一擎厢,很多人認(rèn)為CTR預(yù)估非常高深究流,根本搞不清其中的邏輯,的確锉矢,CTR預(yù)估作為一個純技術(shù)的模塊梯嗽,要做一個簡單的科普并不容易。

致力于用簡潔語言描述復(fù)雜問題的衛(wèi)夕今天嘗試用人話來解釋CTR預(yù)估的來龍去脈沽损,放心,本文不會涉及到任何高深難懂的公式和技術(shù)邏輯循头,看得懂中文的同學(xué)都能明白其中的邏輯绵估。

一、CTR在競價廣告系統(tǒng)中起神馬作用卡骂?

CTR(Click-Through-Rate)為點擊率国裳,它是互聯(lián)網(wǎng)廣告中最基本的概念,我們先來看看點擊率對于一個競價廣告系統(tǒng)而言意味著神馬全跨?

我們先來做一道簡單的題目——阿迪和耐克作為廣告主來競價缝左,阿迪出2塊錢一個點擊,耐克出1塊錢一個點擊浓若,假如微信廣告平臺有100次曝光渺杉,它應(yīng)該給誰?阿迪還是耐克挪钓?有人說是越,當(dāng)然是給阿迪啊,它出的價錢高碌上。

這個答案是不對的倚评,如果阿迪的點擊率為1%,耐克的點擊率為5%馏予,那么給阿迪能產(chǎn)生1個點擊天梧,每個點擊1塊錢,微信能賺2塊霞丧;給耐克則產(chǎn)生5個點擊呢岗,每個點擊1塊,微信能賺5塊蚯妇,廣告平臺不傻敷燎,當(dāng)然要給耐克!

好箩言,從這個簡單的案例中硬贯,我們可以看出幾點:

1.廣告平臺關(guān)心自己的流量價值——即自己的流量曝光賣的貴還是便宜,一般用ECPM(earning cost per mille)這個指標(biāo)來衡量,即每1000次曝光帶來收入陨收。

2.廣告主一般按點擊進(jìn)行扣費饭豹,即廣告主通常關(guān)心結(jié)果鸵赖,出價原則就看一個點擊需要花多少錢。

3.廣告平臺需要把點擊出價轉(zhuǎn)化成ECPM進(jìn)行扣費和排序拄衰。

4.CTR架起了從點擊到曝光的一座橋梁它褪,為排序提供基礎(chǔ)。

總結(jié)起來就是一個簡單的公式——ECPM=1000*CTR*點擊出價翘悉,在上面這個案例中阿迪的ECPM=1000*1?%*2=20茫打,而耐克的ECPM=1000*5%*1=50,顯然耐克的ECPM大于阿迪的妖混,因此耐克會在這次競價中勝出老赤。

從這個案例中我們可以看到CTR是為廣告排序用的,而排序本身就是競價廣告的核心制市,因此CTR預(yù)估也是競價廣告的核心技術(shù)之一抬旺。

不僅廣告系統(tǒng)需要CTR預(yù)估來排序,推薦系統(tǒng)也需要CTR預(yù)估來排序祥楣,因此CTR預(yù)估應(yīng)用其實比我們想象的要更加廣泛:

YouTube开财、亞馬遜、今日頭條等等涉及到個性化推薦的系統(tǒng)都會應(yīng)用到CTR預(yù)估误褪,即他們要把你最可能點的內(nèi)容推薦給你责鳍。

而廣告系統(tǒng)的CTR預(yù)估在具體的數(shù)值上比推薦系統(tǒng)要求更高,比如推薦系統(tǒng)可能只需要知道A的CTR比B大就可以排序了振坚,而廣告由于不是直接用CTR進(jìn)行排序薇搁,還加上了出價,因此廣告系統(tǒng)不僅要知道A的CTR比B大渡八,而且還需要知道A的CTR比B的CTR大多少啃洋。

二、為什么要進(jìn)行CTR預(yù)估屎鳍?

到這里大家已經(jīng)明白CTR的重要性了宏娄,即CTR是廣告排序的前提,它連接了點擊和曝光逮壁,這時候大家又會有一個新的問題:那CTR為什么要預(yù)估呢孵坚?多少投放一點不就知道了它的CTR了嗎?

“多少投放一點不就知道了它的CTR了嗎窥淆?”這句話大體上沒錯卖宠,但事情遠(yuǎn)沒有這么簡單,我舉一個例子你就知道了忧饭。

假如廣告平臺有四個廣告主來投廣告扛伍,這個廣告平臺總共有4000個用戶,這四個廣告主分別為賣布娃娃的词裤、賣游戲機(jī)的刺洒、賣西裝的和賣高跟鞋的鳖宾,出價都是1塊錢一個點擊。

這時候我們不知道CTR的情況下逆航,我們應(yīng)該怎么辦鼎文,于是我們試投了一下,每個廣告投了100個曝光因俐,最后發(fā)現(xiàn)他們的CTR都是25%拇惋,出價一樣、CTR一樣抹剩。

按照我們上面的公式蚤假,ECPM就一樣,而我們按ECPM來排序吧兔,因此我們就沒辦法排序——每個人ECPM都相同,因此最終就只能在廣告平臺隨機(jī)出這四個廣告了袍嬉。

ECPM=1000*CTR*點擊出價

但我們回去看一看實際情況境蔼,這個25%的點擊率是如何發(fā)生的我們就能明白總體CTR是不靠譜的,真相是平臺總共有4000個用戶伺通,而他們均勻分成了四組:

分別是1000為成熟男人箍土;1000成熟女人、1000少女罐监、1000少男吴藻,這四個人群只點擊他們喜歡的東西,如成熟男人只點擊西裝弓柱,他們對自己喜歡的東西的點擊率為100%沟堡,對自己不喜歡的點擊率為0%,當(dāng)我們隨機(jī)投放的時候矢空,每個人的點擊率都是25%航罗。

好,現(xiàn)在你看到了屁药,直接拿試投這個點擊率去預(yù)估導(dǎo)致的結(jié)果就是用群體數(shù)據(jù)代表了個體差異粥血,即當(dāng)一位成熟男人來請求廣告的時候,我們會認(rèn)為投給他一個布娃娃和投給他一套西裝沒有任何區(qū)別酿箭。

因為在試投階段布娃娃和西裝的整體點擊率都是25%复亏,盡管實際上他們的點擊率有天壤之別,一個是100%缭嫡、另一個是0%缔御。

因此,當(dāng)我們通過特征差異能正確地個性化預(yù)估CTR的時候械巡,我們才能正確地排序刹淌,當(dāng)一位成熟男人來請求廣告的時候饶氏,西裝這個廣告主就會在競價中勝出,因為我們知道它的CTR100%高于布娃娃有勾、高跟鞋疹启、游戲機(jī)的0%。

所以從這個案例中我們就能明白蔼卡,不能直接籠統(tǒng)地看試投的點擊率喊崖,而應(yīng)該有針對性地針對個體單獨預(yù)估,試投這個階段依然存在雇逞,但我們會通過某個模型用交叉特征地看每一個個體的點擊率荤懂,從而下一個擁有該特征的人群來訪問的時候,我們就能相對更加準(zhǔn)確地預(yù)估了塘砸。

同時节仿,我們也從上面的案例中發(fā)現(xiàn),正確預(yù)估提升了CTR掉蔬,從原來的25%提升到了100%廊宪,同樣廣告平臺的收入也會提升,這就是CTR預(yù)估的意義女轿。

三箭启、CTR預(yù)估是如何進(jìn)行的?

通過這個案例我們看到蛉迹,至少有三個特征決定了一個廣告的點擊率——廣告主行業(yè)傅寡、用戶的年齡、用戶的性別北救,事實上荐操,在實際的廣告系統(tǒng)中,有無數(shù)的因素決定了廣告的點擊率扭倾,我們把這些因素主要分成3類——

第一是廣告主側(cè)淀零,比如廣告創(chuàng)意、廣告的表現(xiàn)形式膛壹、廣告主行業(yè)等驾中,一個勞斯萊斯的廣告和一個可口可樂的廣告點擊率肯定有天壤之別。

第二是用戶側(cè)模聋,如人群屬性肩民,以上的案例是年齡和性別,事實上链方,決定創(chuàng)意的因素人群屬性極其多——年齡持痰、性別、地域祟蚀、手機(jī)型號工窍、WiFi環(huán)境割卖、興趣........

第三是廣告平臺側(cè),比如不同的廣告位患雏、投放時間鹏溯、流量分配機(jī)制、頻次控制策略等淹仑。

這些決定因素在CTR預(yù)估中被稱之為特征丙挽,而CTR預(yù)估的第一步就是“特征工程”,即把這些特征找到并數(shù)據(jù)化匀借。

特征工程是一件復(fù)雜的工程颜阐,光判斷不同特征能否對CTR產(chǎn)生影響就是一個浩大的工程,特征工程的攻城獅們第一步得列出來不同的特征可能對CTR產(chǎn)生影響吓肋,這有時候靠直覺凳怨,有時候靠經(jīng)驗,

確定了特征之后就需要對這些特征進(jìn)行處理——即把特征數(shù)據(jù)化是鬼,比如把所有的特征變成0和1的二值化猿棉,把連續(xù)的特征離散化,把特征的值平滑化屑咳、把多個特征向量化.......

以上這一段看不懂?看不懂沒關(guān)系,你只需要明白弊琴,所有的這些特征都會被攻城獅們編碼變成一串可計算的數(shù)組就行兆龙,特征工程是一項重要的基礎(chǔ)工作,像今日頭條敲董、百度這樣的廣告平臺都有一個龐大的團(tuán)隊來做特征工程的工作紫皇。

好,特征工程完成之后就開始建立模型了腋寨,很多同學(xué)看到“模型”二字就開始皺眉頭了聪铺,沒關(guān)系,你可以這樣理解模型:

模型就是一個黑盒子萄窜,在盒子的一方我們輸入一大堆參數(shù)铃剔,盒子的另一端就會輸入一個CTR的值。

比如我們輸入這樣的參數(shù):一個高跟鞋廣告主查刻、投放給北京地區(qū)键兜、年齡20-30歲、對財經(jīng)感興趣的女性用戶穗泵,在周末投放在微信的朋友圈第三位.......請給出一個CTR的值普气。模型就會根據(jù)不同特征的值計算出一個值。

至于它是如何計算的佃延,非技術(shù)同學(xué)理解起來難度會非常大现诀,我們可以簡單理解為CTR是無數(shù)特征的一個函數(shù)夷磕,CTR=f(x1,x2,x3,x4,x5……),而模型就是選擇神馬樣的函數(shù)來進(jìn)預(yù)測。

我舉個大家最容易理解的線性函數(shù):CTR=ax1+bx2+cX3+dx4+ex5……(這只是一個假設(shè)仔沿,實際上模型要比這個復(fù)雜N多倍)坐桩。

每一個函數(shù)都有相應(yīng)的參數(shù)( 比如剛剛案例中的a、 b于未、c撕攒、d),而這些參數(shù)是如何確定的呢烘浦,就需要歷史數(shù)據(jù)進(jìn)行訓(xùn)練抖坪,就是把已經(jīng)知道的一些數(shù)據(jù)去喂這個模型,模型根據(jù)這些數(shù)據(jù)不斷地調(diào)整參數(shù)闷叉,喂的越多調(diào)教的就越準(zhǔn)確擦俐,最終預(yù)測的效果也就越好。

在所有的這些特征中握侧,有些特征影響因子會大一些蚯瞧,有一些會小一些,比如搜索廣告中品擎,搜索關(guān)鍵詞和廣告關(guān)鍵詞匹配程度就是一個影響因子極大的因子埋合、歷史CTR也是一個影響因子極大的因子,其他因子會有不同程度上的影響萄传。

工程師們每天的工作就是嘗試新特征甚颂、嘗試新模型、訓(xùn)練不同的模型參數(shù)秀菱,以便讓CTR預(yù)估更加準(zhǔn)確振诬,谷歌、Facebook衍菱、阿里赶么、百度這些公司的工程師已經(jīng)在這些領(lǐng)域發(fā)表了很多篇頂級論文。

四脊串、如何評估CTR預(yù)估的效果辫呻?

好,接下來的一個問題琼锋,如何評估CTR預(yù)估的效果印屁?工程師們會有特定的指標(biāo)去衡量效果,對于非技術(shù)同學(xué)斩例,有人會直觀地說雄人,那當(dāng)然是看CTR有沒有變高啊:

正確預(yù)估CTR不就是為了把真正高CTR的廣告挑出并展示出來么,錯誤地預(yù)估——把高的CTR低估或把低的CTR高估都會讓高的CTR不會排在最前面础钠,從而會降低CTR恰力。

這個說法在推薦系統(tǒng)中是成立的,但在廣告系統(tǒng)里是不準(zhǔn)確的旗吁,因為廣告的排序不僅僅是CTR排序踩萎,它還綜合了出價進(jìn)行排序,即ECPM進(jìn)行排序很钓,有時候CTR預(yù)估準(zhǔn)確香府,反而(實際)CTR會降,我們看一個實際的例子:

這一大堆數(shù)字大家可能看不懂码倦,我們只需要明白以下幾個邏輯就能看懂了:

1.廣告通過預(yù)估ECPM的大小來判斷誰勝出企孩,而預(yù)估ECPM等于預(yù)估CTR*出價,在這個案例中袁稽,圖一CTR預(yù)測正確勿璃,阿迪的預(yù)測CTR30高于耐克的20因而勝出。

2.廣告實際ECPM是勝出者的ECPM推汽,因為廣告平臺把所有的曝光都給了勝出者补疑,它等于勝出者的實際CTR*出價。

3.圖二里把耐克的CTR從2%錯誤地預(yù)估到了4%歹撒,導(dǎo)致其預(yù)測ECPM高而勝出莲组,而實際上投放出來的CTR為2%。

4.這個情況中暖夭,預(yù)測正確反而CTR低胁编,預(yù)測錯誤反而CTR高,但是沒關(guān)系圖一預(yù)估正確的情況下實際的ECPM30高于圖二預(yù)測錯誤ECPM20鳞尔。

所以從這個案例中我們可以看到,從結(jié)果指標(biāo)來看早直,ECPM是衡量CTR預(yù)估最為重要的指標(biāo)寥假,當(dāng)然,在實際的實踐過程中霞扬,CTR預(yù)測正確通常ECPM糕韧、CTR、收入這些指標(biāo)通常都會漲喻圃。

另外一個很簡單的方法就是把預(yù)估CTR和真實CTR直接進(jìn)行對比萤彩,由于預(yù)估CTR針對每一次廣告展示都會預(yù)估,比如這一次預(yù)估CTR為2%斧拍,但單次廣告真實CTR只有兩個結(jié)果雀扶,點或不點,即100%、0%愚墓,所以看單次結(jié)果是沒有意義的予权,我們應(yīng)該從一個群體來看——

將每一次廣告曝光按照預(yù)測的CTR從小到大排序,然后按某個單位(比如每10000個曝光)分別統(tǒng)計平均預(yù)估CTR和實際CTR浪册,就能知道預(yù)測CTR的準(zhǔn)確程度了扫腺。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市村象,隨后出現(xiàn)的幾起案子笆环,更是在濱河造成了極大的恐慌,老刑警劉巖厚者,帶你破解...
    沈念sama閱讀 211,265評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件躁劣,死亡現(xiàn)場離奇詭異,居然都是意外死亡籍救,警方通過查閱死者的電腦和手機(jī)习绢,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蝙昙,“玉大人闪萄,你說我怎么就攤上這事∑娴撸” “怎么了败去?”我有些...
    開封第一講書人閱讀 156,852評論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長烈拒。 經(jīng)常有香客問我圆裕,道長,這世上最難降的妖魔是什么荆几? 我笑而不...
    開封第一講書人閱讀 56,408評論 1 283
  • 正文 為了忘掉前任吓妆,我火速辦了婚禮,結(jié)果婚禮上吨铸,老公的妹妹穿的比我還像新娘行拢。我一直安慰自己,他們只是感情好诞吱,可當(dāng)我...
    茶點故事閱讀 65,445評論 5 384
  • 文/花漫 我一把揭開白布舟奠。 她就那樣靜靜地躺著,像睡著了一般房维。 火紅的嫁衣襯著肌膚如雪沼瘫。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,772評論 1 290
  • 那天咙俩,我揣著相機(jī)與錄音耿戚,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛溅话,可吹牛的內(nèi)容都是我干的晓锻。 我是一名探鬼主播,決...
    沈念sama閱讀 38,921評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼飞几,長吁一口氣:“原來是場噩夢啊……” “哼砚哆!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起屑墨,我...
    開封第一講書人閱讀 37,688評論 0 266
  • 序言:老撾萬榮一對情侶失蹤躁锁,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后卵史,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體战转,經(jīng)...
    沈念sama閱讀 44,130評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,467評論 2 325
  • 正文 我和宋清朗相戀三年以躯,在試婚紗的時候發(fā)現(xiàn)自己被綠了槐秧。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,617評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡忧设,死狀恐怖刁标,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情址晕,我是刑警寧澤膀懈,帶...
    沈念sama閱讀 34,276評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站谨垃,受9級特大地震影響启搂,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜刘陶,卻給世界環(huán)境...
    茶點故事閱讀 39,882評論 3 312
  • 文/蒙蒙 一胳赌、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧匙隔,春花似錦疑苫、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽纳决。三九已至碰逸,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間阔加,已是汗流浹背饵史。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人胳喷。 一個月前我還...
    沈念sama閱讀 46,315評論 2 360
  • 正文 我出身青樓湃番,卻偏偏與公主長得像,于是被迫代替她去往敵國和親吭露。 傳聞我的和親對象是個殘疾皇子吠撮,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,486評論 2 348

推薦閱讀更多精彩內(nèi)容