瑞獅網(wǎng)絡(luò)Vlion-RTB入門指導(dǎo)

RTB(Real Time Bidding)是目前計(jì)算廣告技術(shù)中最新的階段,從效率和效果上是遠(yuǎn)遠(yuǎn)領(lǐng)先網(wǎng)盟和流量平臺(tái)。RTB業(yè)務(wù)上包括DSP、Ad Exchange帘营、DMP三大產(chǎn)品形態(tài),技術(shù)上涉及到機(jī)器學(xué)習(xí)逐哈、大數(shù)據(jù)處理芬迄、流式系統(tǒng)、高并發(fā)系統(tǒng)四個(gè)部分昂秃,是目前尖端計(jì)算機(jī)工程技術(shù)和算法應(yīng)用和驗(yàn)證的核心領(lǐng)域薯鼠。

新的工程技術(shù)通常很難找到技術(shù)方案或資料,需要自己做大量的實(shí)驗(yàn)械蹋、摸索,踩無數(shù)的坑羞芍,閱讀國(guó)外大量的資料哗戈,往往才能穩(wěn)定、高性能地使用起來荷科,算法模型更是唯咬,往往是facebook纱注、google、criteo這樣的公司掌握了最新的科研成果胆胰,國(guó)內(nèi)使用的算法模型普遍晚1-3年狞贱,模型部分做的好的國(guó)內(nèi)也就百度了,目前瑞獅網(wǎng)絡(luò)使用的預(yù)測(cè)引擎和反作弊引擎是與交通大學(xué)APEX實(shí)驗(yàn)和UCL計(jì)算機(jī)系聯(lián)合研發(fā)的蜀涨,有理論上的高地優(yōu)勢(shì)瞎嬉,下面簡(jiǎn)單的介紹一下各個(gè)部分的入門知識(shí)。

大數(shù)據(jù)處理:目前瑞獅Vlion綜合使用CDH集群厚柳,分在線業(yè)務(wù)集群和離線業(yè)務(wù)集群,組件上包括HBase氧枣、Spark、HDFS别垮、HIVE等便监。

CDH集群主要用來進(jìn)行離線批處理,基于HDFS進(jìn)行MR碳想、HIVE處理廣告數(shù)據(jù)和營(yíng)銷點(diǎn)數(shù)據(jù)烧董。Spark主要用于一些實(shí)時(shí)查詢,HBase用于存儲(chǔ)基于HDFS的有實(shí)時(shí)特性的中間數(shù)據(jù)胧奔。從傳統(tǒng)行業(yè)程序員過來主要得學(xué)習(xí)Map Reduce的基本原理逊移,學(xué)習(xí)HBase列存儲(chǔ)的原理,熟悉hive的思考方式葡盗。學(xué)習(xí)過程中要注意多看報(bào)錯(cuò)日志螟左,這樣才能慢慢學(xué)會(huì)調(diào)優(yōu)性能。

高性能系統(tǒng):目前瑞獅網(wǎng)絡(luò)Vlion 的競(jìng)價(jià)服務(wù)器QPS達(dá)到25萬觅够,單機(jī)QPS達(dá)到8000胶背。技術(shù)架構(gòu)使用Go和ngx-lua混合模式,使用go之前是用的c語言喘先,綜合比較下來如下:

ngx_lua采用“one-coroutine-per-request”的處理模型钳吟,對(duì)于每個(gè)用戶請(qǐng)求,ngx_lua會(huì)喚醒一個(gè)協(xié)程用于執(zhí)行用戶代碼處理請(qǐng)求窘拯,當(dāng)請(qǐng)求處理完成這個(gè)協(xié)程會(huì)被銷毀红且。每個(gè)協(xié)程都有一個(gè)獨(dú)立的全局環(huán)境(變量空間),繼承于全局共享的涤姊、只讀的“comman data”暇番。所以,被用戶代碼注入全局空間的任何變量都不會(huì)影響其他請(qǐng)求的處理思喊,并且這些變量在請(qǐng)求處理完成后會(huì)被釋放壁酬,這樣就保證所有的用戶代碼都運(yùn)行在一個(gè)“sandbox”(沙箱),這個(gè)沙箱與請(qǐng)求具有相同的生命周期。

? 得益于Lua協(xié)程的支持舆乔,ngx_lua在處理10000個(gè)并發(fā)請(qǐng)求時(shí)只需要很少的內(nèi)存岳服。根據(jù)測(cè)試,ngx_lua處理每個(gè)請(qǐng)求只需要2KB的內(nèi)存希俩,如果使用LuaJIT則會(huì)更少吊宋。所以ngx_lua非常適合用于實(shí)現(xiàn)可擴(kuò)展的、高并發(fā)的服務(wù)颜武。

流式系統(tǒng):目前瑞獅網(wǎng)絡(luò)Vlion 使用flume+kafka+storm的技術(shù)框架來構(gòu)建的流式系統(tǒng)璃搜,Storm集群?jiǎn)螜C(jī)處理20000條/秒。

n Flume agent不能過多占用宿主服務(wù)器的計(jì)算性能盒刚,推薦使用內(nèi)存模式腺劣,用內(nèi)存換CPU,多個(gè)agent建議不能直接導(dǎo)向kafka因块,而是先合并到一臺(tái)日志服務(wù)器橘原,再?gòu)脑摲?wù)器統(tǒng)一flume到kafka。

n Storm 的輸出一般需要自己構(gòu)建和管理緩存涡上,topology要有異常日志輸出趾断,方便排查錯(cuò)誤。

機(jī)器學(xué)習(xí):目前瑞獅網(wǎng)絡(luò)Vlion 在動(dòng)態(tài)創(chuàng)意優(yōu)化DCO吩愧、反作弊芋酌、競(jìng)價(jià)策略、CVR預(yù)測(cè)雁佳、Audience Segmentation五個(gè)部分應(yīng)用了機(jī)器學(xué)習(xí)技術(shù)脐帝。

n 動(dòng)態(tài)創(chuàng)意優(yōu)化綜合使用了基于標(biāo)簽tag的推薦和Slope One協(xié)同過濾推薦,主要應(yīng)用在電商的重定向投放中使用糖权;

n 反作弊使用了SVM模型和規(guī)則引擎堵腹,目前過濾了接近60%的流量。

n 競(jìng)價(jià)決策使用了Direct functional optimization星澳,競(jìng)價(jià)函數(shù)如下:

n CVR預(yù)測(cè)主要基于Star Tree和GBDT,AUC大概在82%疚顷,目前正在spark集群上嘗試FTRL模型。

n 受眾細(xì)分針對(duì)不同的客戶采用了不同的模型禁偎,如游戲客戶采用k-means腿堤,電商行業(yè)采用SMO。

以上僅是簡(jiǎn)單介紹如暖,后續(xù)會(huì)陸續(xù)推出更詳細(xì)的介紹~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末笆檀,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子盒至,更是在濱河造成了極大的恐慌误债,老刑警劉巖浸船,帶你破解...
    沈念sama閱讀 218,386評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異寝蹈,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)登淘,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門箫老,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人黔州,你說我怎么就攤上這事耍鬓。” “怎么了流妻?”我有些...
    開封第一講書人閱讀 164,704評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵牲蜀,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我绅这,道長(zhǎng)涣达,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,702評(píng)論 1 294
  • 正文 為了忘掉前任证薇,我火速辦了婚禮度苔,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘浑度。我一直安慰自己寇窑,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,716評(píng)論 6 392
  • 文/花漫 我一把揭開白布箩张。 她就那樣靜靜地躺著甩骏,像睡著了一般。 火紅的嫁衣襯著肌膚如雪先慷。 梳的紋絲不亂的頭發(fā)上饮笛,一...
    開封第一講書人閱讀 51,573評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音熟掂,去河邊找鬼缎浇。 笑死,一個(gè)胖子當(dāng)著我的面吹牛赴肚,可吹牛的內(nèi)容都是我干的素跺。 我是一名探鬼主播,決...
    沈念sama閱讀 40,314評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼誉券,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼指厌!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起踊跟,我...
    開封第一講書人閱讀 39,230評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤踩验,失蹤者是張志新(化名)和其女友劉穎鸥诽,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體箕憾,經(jīng)...
    沈念sama閱讀 45,680評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡牡借,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,873評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了袭异。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片钠龙。...
    茶點(diǎn)故事閱讀 39,991評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖御铃,靈堂內(nèi)的尸體忽然破棺而出碴里,到底是詐尸還是另有隱情,我是刑警寧澤上真,帶...
    沈念sama閱讀 35,706評(píng)論 5 346
  • 正文 年R本政府宣布咬腋,位于F島的核電站,受9級(jí)特大地震影響睡互,放射性物質(zhì)發(fā)生泄漏根竿。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,329評(píng)論 3 330
  • 文/蒙蒙 一湃缎、第九天 我趴在偏房一處隱蔽的房頂上張望犀填。 院中可真熱鬧,春花似錦嗓违、人聲如沸九巡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,910評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽冕广。三九已至,卻和暖如春偿洁,著一層夾襖步出監(jiān)牢的瞬間撒汉,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,038評(píng)論 1 270
  • 我被黑心中介騙來泰國(guó)打工涕滋, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留睬辐,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,158評(píng)論 3 370
  • 正文 我出身青樓宾肺,卻偏偏與公主長(zhǎng)得像溯饵,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子锨用,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,941評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容