Pinterest主頁(yè)的機(jī)器學(xué)習(xí)

Pinterest主頁(yè)的機(jī)器學(xué)習(xí)#

Pinterest擁有超過(guò)300億(正在增長(zhǎng))附有背景和視覺(jué)信息的“pin”瞭亮。1000W用戶(hù)每天通過(guò)瀏覽器睛榄、搜索匈棘、pin以及通過(guò)點(diǎn)擊外部網(wǎng)站訪(fǎng)問(wèn)交互飘蚯。主頁(yè)收集用戶(hù)發(fā)布的pins,公布到boards并按興趣劃分艳吠,同時(shí)為用戶(hù)挑選推薦麦备,因此主頁(yè)成為最重要的用戶(hù)參與服務(wù),并貢獻(xiàn)相當(dāng)大比例的repins讲竿。越來(lái)越多的用戶(hù)pin,人們可以獲取更好的Pinterest,我們處于一個(gè)獨(dú)特的位置為探索持續(xù)不斷的提供靈感泥兰。
??主頁(yè)是發(fā)現(xiàn)新事物的關(guān)鍵弄屡,對(duì)用戶(hù)來(lái)講最有價(jià)值的部分题禀,但是面臨一個(gè)挑戰(zhàn)性的問(wèn)題。鑒于從各種渠道不斷增加的Pins,我們?nèi)绾瓮诰蜃顐€(gè)性化膀捷、最相關(guān)的pins?我們的答案是Pinnability迈嘹!
??Pinnability是我們幫助用戶(hù)在其主頁(yè)發(fā)現(xiàn)最好內(nèi)容的機(jī)器學(xué)習(xí)模型總稱(chēng)。她是智能主頁(yè)技術(shù)的一部分全庸,去年八月秀仲,我們推出、估計(jì)用戶(hù)與之交互的pin的相關(guān)度壶笼。有了準(zhǔn)確預(yù)測(cè)神僵,我們優(yōu)先考慮具有高相關(guān)度的pins,并展示在主頁(yè)的最頂端覆劈。

Pinnability 所帶來(lái)的好處##

在推出Pinnability幾個(gè)月之前保礼,所有主頁(yè)都是按照時(shí)間順序排列的沛励,沒(méi)有考慮哪個(gè)pins是用戶(hù)最感興趣的。換句話(huà)講炮障,來(lái)至同一源的新pin目派,在舊pin之前總是出現(xiàn)的。這個(gè)簡(jiǎn)單的規(guī)則是易于理解和實(shí)現(xiàn)的胁赢,但是它缺少有效幫助用戶(hù)發(fā)現(xiàn)他們真正感興趣的pin的能力企蹭。因?yàn)椋粋€(gè)低相關(guān)度的pin可能恰好出現(xiàn)在高相關(guān)度pin之前智末。

<center>
</center>

<center>圖 1 在Pinnability之前的主頁(yè)谅摄,顏色代表相關(guān)度</center>
??隨著在Pinnability的啟動(dòng),主頁(yè)使用Pinnability模型對(duì)候選pin評(píng)分系馆。評(píng)分代表用戶(hù)和候選pin之間個(gè)性化的相關(guān)程度螟凭。主頁(yè)中的pin按相似度評(píng)分排序。如圖2所示:

<center>
</center>
<center>圖 1 在Pinnability之后的主頁(yè)它呀,pin按個(gè)性化相似度評(píng)分排序</center>

強(qiáng)大的Pinnability與機(jī)器學(xué)習(xí)##

如何準(zhǔn)確預(yù)測(cè)用戶(hù)與其交互的Pin的相關(guān)程度螺男,使用最先進(jìn)的機(jī)器學(xué)習(xí)模型,包括Logistic回歸纵穿、支持向量機(jī)下隧、梯度提升決策樹(shù)(GBDT)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)。提取測(cè)試對(duì)于準(zhǔn)確預(yù)測(cè)相關(guān)性評(píng)分有用的成千上萬(wàn)個(gè)文本和圖像特征谓媒。在我們推出一個(gè)在線(xiàn)的A/B實(shí)驗(yàn)?zāi)P颓跋海覀兺耆鶕?jù)歷史數(shù)據(jù)評(píng)估其離線(xiàn)性能。
??圖3概括了Pinnability流的三個(gè)主要部件句惯,分別為訓(xùn)練實(shí)例生成土辩、Pinnability模型生成和主頁(yè)服務(wù)。
<center>

</center>
<center>圖 3 Pinnability過(guò)程概覽</center>

訓(xùn)練實(shí)例生成##

Pinnability訓(xùn)練數(shù)據(jù)的基礎(chǔ)是用戶(hù)與主頁(yè)pin交互的歷史數(shù)據(jù)抢野。例如拷淘,在主頁(yè)查看了一個(gè)pin之后,用戶(hù)有可能選擇喜歡指孤、repin启涯、單擊pin關(guān)閉、點(diǎn)擊率恃轩、評(píng)論结洼、隱藏或者什么也不做。記錄一些“positive actions”和“negative actions”作為訓(xùn)練實(shí)例叉跛。很明顯松忍,pin被查看的次數(shù)通常大于用戶(hù)做出positive actions數(shù)量,因此筷厘,以不同的比例對(duì)正例和負(fù)例進(jìn)行采樣鸣峭。有了這些定義伟桅,我們測(cè)試成千上萬(wàn)的信息特征,提高Pinnability預(yù)測(cè)精度叽掘。
??其獨(dú)特的數(shù)據(jù)包含豐富的人力策劃內(nèi)容楣铁,以便對(duì)pin,board和用戶(hù)動(dòng)態(tài)提供大量Pinnability準(zhǔn)確預(yù)測(cè)的信息特征。這些特征可以分為三大類(lèi):pin特征更扁,用戶(hù)特征和交互特征:

  • Pin特征捕獲一個(gè)Pin的固有性質(zhì)盖腕,例如歷史流行度,Pin新鮮度和“垃圾”似然性浓镜。CNN中的視覺(jué)特征也包括在內(nèi)溃列。
  • 用戶(hù)特征關(guān)于用戶(hù)的細(xì)節(jié),例如pin的活躍程度膛薛、性別和board的狀態(tài)听隐。
  • 交互特征代表用戶(hù)與相似類(lèi)型Pin的過(guò)去交互信息。
    ??一些特征受轉(zhuǎn)化(transformation)和標(biāo)準(zhǔn)化(normalization)影響哄啄。例如雅任,對(duì)數(shù)變換應(yīng)用于許多“計(jì)數(shù)特征”,如用戶(hù)擁有的Pin的數(shù)量具有友好的回歸分布咨跌。
    ??在開(kāi)發(fā)一個(gè)健壯的訓(xùn)練數(shù)據(jù)生成過(guò)程面臨的主要挑戰(zhàn)是如何應(yīng)對(duì)大數(shù)據(jù)的規(guī)模沪么。使用Mapreduce生成訓(xùn)練實(shí)例,每個(gè)代表用戶(hù)/pin的交互锌半。一個(gè)訓(xùn)練實(shí)例包含三部分信息:
  • 當(dāng)我們想訓(xùn)練禽车、分析訓(xùn)練實(shí)例子集的Pinnability模型,會(huì)對(duì)原始數(shù)據(jù)(Pin ID 刊殉,用戶(hù)ID殉摔,交互信息,時(shí)間戳等等)分組记焊。如為你挑選(PFY)模型逸月。
  • 目標(biāo)變量表示用戶(hù)在查看pin是否做出positive action。我們和訓(xùn)練獨(dú)立模型亚亲,優(yōu)化不同positive actions彻采,如repin和點(diǎn)擊率。
  • 特征向量包含信息信號(hào)的交互預(yù)測(cè)捌归。

Pinnability模型生成##

在訓(xùn)練Pinnability模型中,使用AUC岭粤、R^2和RMSE作為離線(xiàn)模型的評(píng)估指標(biāo)惜索。優(yōu)化AUC,不僅因?yàn)槠鋸V泛應(yīng)用于類(lèi)似預(yù)測(cè)系統(tǒng)中剃浇,而且由于觀(guān)察到離線(xiàn)測(cè)試下的AUC增益和在線(xiàn)A/B實(shí)驗(yàn)中用戶(hù)參與的增長(zhǎng)具有強(qiáng)正相關(guān)性巾兆。Pinnability模型實(shí)現(xiàn)AUC得分均值為90%左右猎物。
??我們嘗試多種機(jī)器學(xué)習(xí)模型,包括LR角塑、GBDT蔫磨、SVM和CNN,在10-折交叉驗(yàn)證和90/10切分訓(xùn)練-測(cè)試數(shù)據(jù)集設(shè)置下圃伶,使用AUC得分評(píng)估模型參數(shù)堤如。觀(guān)察得出,對(duì)于給定的固定特征集合窒朋,Pinnability的最優(yōu)模型總是趨于LR或GBDT搀罢。對(duì)于在線(xiàn)A/B實(shí)驗(yàn),基于離線(xiàn)AUC得分優(yōu)先模型侥猩。
??向訓(xùn)練實(shí)例加入了上千種特征榔至,選擇的特征能夠顯著增強(qiáng)作為在線(xiàn)A/B實(shí)驗(yàn)候選人的離線(xiàn)AUC指標(biāo)。由于有大量特征欺劳,通常在小組中測(cè)試新特征唧取,如新舊程度、Pin所有者的性質(zhì)和分類(lèi)匹配特征划提。A/B實(shí)驗(yàn)比較用戶(hù)參與在生產(chǎn)特征和使用新實(shí)驗(yàn)特征的小組兵怯。如果結(jié)果為正,我們?cè)u(píng)估額外的數(shù)據(jù)大小和添加新特征到生產(chǎn)環(huán)境Pinnability模型的延時(shí)影響腔剂。通過(guò)健壯的訓(xùn)練實(shí)例生成媒区、模型訓(xùn)練和評(píng)估快速迭代。為了持續(xù)監(jiān)控模型性能掸犬,保留小部分沒(méi)有暴露給Pinnability模型的截留用戶(hù)小組袜漩。比較截留組和啟用組之間差異,為Pinnability 長(zhǎng)久表現(xiàn)提供寶貴見(jiàn)解湾碎。
??現(xiàn)在宙攻,使用離線(xiàn)批處理數(shù)據(jù)訓(xùn)練模型。這將造成一個(gè)潛在的問(wèn)題介褥,我們不利用最新數(shù)據(jù)去動(dòng)態(tài)調(diào)整服務(wù)中模型的參數(shù)座掘。另一方面,在訓(xùn)練由數(shù)天切分?jǐn)?shù)據(jù)的不同批次是柔滔,測(cè)試并確認(rèn)模型參數(shù)基本不變溢陪。因此,在線(xiàn)模型調(diào)整收益于進(jìn)一步評(píng)估睛廊。
??同時(shí)探索實(shí)時(shí)情況下在線(xiàn)訓(xùn)練的方法形真,提升離線(xiàn)訓(xùn)練過(guò)程,所以在收集主頁(yè)活動(dòng)數(shù)據(jù)后超全,模型立即被校準(zhǔn)咆霜。在線(xiàn)訓(xùn)練帶來(lái)機(jī)器學(xué)習(xí)過(guò)程算法和主頁(yè)服務(wù)框架新的挑戰(zhàn)邓馒。

主頁(yè)服務(wù)##

主頁(yè)是由內(nèi)部的智能主頁(yè)基礎(chǔ)構(gòu)架提供的。當(dāng)一個(gè)新的Pin被repin時(shí)蛾坯,智能主頁(yè)worker為repin的pin和所有關(guān)注repin用戶(hù)和board發(fā)送相關(guān)性評(píng)分的請(qǐng)求到Pinnability服務(wù)器光酣。
??當(dāng)一個(gè)用戶(hù)登錄或刷新主頁(yè),智能主頁(yè)內(nèi)容生成器在各個(gè)池遵循相關(guān)性評(píng)分同時(shí)脉课,從各種池中物化新的內(nèi)容救军,智能主頁(yè)服務(wù)呈現(xiàn)按相關(guān)性評(píng)分優(yōu)先的用戶(hù)主頁(yè)。

Pinnability成果##

將繼續(xù)完善Pinnability并發(fā)布一些最新的改進(jìn)下翎。隨著每次循環(huán)缤言,發(fā)現(xiàn)用戶(hù)參與顯著提升,包括以超過(guò)20%速率增長(zhǎng)的主頁(yè)repin計(jì)數(shù)视事。同樣也觀(guān)察到其他指標(biāo)包括repin總數(shù)和點(diǎn)擊率的顯著受益胆萧。
??鑒于主頁(yè)的重要性和用戶(hù)參與的提升,Pinnability繼續(xù)作為構(gòu)建發(fā)現(xiàn)引擎的核心項(xiàng)目俐东。同時(shí)擴(kuò)大使用Pinnability模型幫助提高主頁(yè)以外的其他產(chǎn)品跌穗。
??我們一直在尋找聰明的工程師加入Pinterest,幫助解決類(lèi)似Pinnability影響力的問(wèn)題虏辫。
??云松郭是關(guān)于推薦團(tuán)隊(duì)軟件工程師蚌吸。
??致謝:Pinnability是與Mukund Narasimhan, Chris Pinchak, Yuchen Liu, Dmitry Chechik and Hui Xu合作開(kāi)發(fā)的一項(xiàng)長(zhǎng)期戰(zhàn)略工程。這個(gè)團(tuán)隊(duì)砌庄,以及整個(gè)公司的人羹唠,以他們的技術(shù)見(jiàn)解和寶貴的反饋意見(jiàn)幫助這個(gè)項(xiàng)目實(shí)現(xiàn)。
??對(duì)于Pinterest工程的新聞和更新娄昆,關(guān)注我們的Pinterest佩微,Facebook and Twitter。有興趣加入這個(gè)團(tuán)隊(duì)萌焰?請(qǐng)看我們的招聘網(wǎng)站哺眯。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市扒俯,隨后出現(xiàn)的幾起案子奶卓,更是在濱河造成了極大的恐慌,老刑警劉巖撼玄,帶你破解...
    沈念sama閱讀 217,907評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件夺姑,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡互纯,警方通過(guò)查閱死者的電腦和手機(jī)瑟幕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)留潦,“玉大人只盹,你說(shuō)我怎么就攤上這事⊥迷海” “怎么了殖卑?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,298評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀(guān)的道長(zhǎng)坊萝。 經(jīng)常有香客問(wèn)我孵稽,道長(zhǎng),這世上最難降的妖魔是什么十偶? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,586評(píng)論 1 293
  • 正文 為了忘掉前任菩鲜,我火速辦了婚禮,結(jié)果婚禮上惦积,老公的妹妹穿的比我還像新娘接校。我一直安慰自己,他們只是感情好狮崩,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布蛛勉。 她就那樣靜靜地躺著,像睡著了一般睦柴。 火紅的嫁衣襯著肌膚如雪诽凌。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,488評(píng)論 1 302
  • 那天坦敌,我揣著相機(jī)與錄音侣诵,去河邊找鬼。 笑死狱窘,一個(gè)胖子當(dāng)著我的面吹牛杜顺,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播训柴,決...
    沈念sama閱讀 40,275評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼哑舒,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了幻馁?” 一聲冷哼從身側(cè)響起洗鸵,我...
    開(kāi)封第一講書(shū)人閱讀 39,176評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎仗嗦,沒(méi)想到半個(gè)月后膘滨,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,619評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡稀拐,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評(píng)論 3 336
  • 正文 我和宋清朗相戀三年火邓,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,932評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡铲咨,死狀恐怖躲胳,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情纤勒,我是刑警寧澤坯苹,帶...
    沈念sama閱讀 35,655評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站摇天,受9級(jí)特大地震影響粹湃,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜泉坐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評(píng)論 3 329
  • 文/蒙蒙 一为鳄、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧腕让,春花似錦孤钦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,871評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至液南,卻和暖如春壳猜,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背滑凉。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,994評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工统扳, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人畅姊。 一個(gè)月前我還...
    沈念sama閱讀 48,095評(píng)論 3 370
  • 正文 我出身青樓咒钟,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親若未。 傳聞我的和親對(duì)象是個(gè)殘疾皇子朱嘴,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容