AI前線出品| ID:ai-front
今天想和大家分享泄伪,如何使用大規(guī)模機(jī)器學(xué)習(xí)解決真實(shí)的業(yè)務(wù)問題。我們今天會(huì)以機(jī)器學(xué)習(xí)中的一個(gè)典型場景為例來講解匿级,即基于大規(guī)模機(jī)器學(xué)習(xí)模型的推薦系統(tǒng)蟋滴。
推薦系統(tǒng)的本質(zhì)是什么?
比如說我們看到手機(jī)淘寶首頁痘绎,往下一拉津函,就能看到各種各樣推薦的商品;比如說百度孤页,它會(huì)給我們推薦廣告尔苦,在某種程度上他的工作方式也很像推薦系統(tǒng);再比如說今日頭條,今日頭條從數(shù)十萬的新聞中選出會(huì)被我們看到的數(shù)十個(gè)新聞允坚,這也是推薦系統(tǒng)魂那。
盡管我們?cè)谏钪袝?huì)已經(jīng)見過非常多的推薦系統(tǒng),但是在用機(jī)器學(xué)習(xí)搭建推薦系統(tǒng)之前稠项,我們還是應(yīng)當(dāng)先思考一下涯雅,推薦系統(tǒng)要解決的到底是個(gè)什么樣的問題?
推薦系統(tǒng)在本質(zhì)上是一個(gè)信息檢索的系統(tǒng)展运。它和搜索最大的區(qū)別是活逆,搜索是主動(dòng)式的,根據(jù)關(guān)鍵詞和引擎參數(shù)拗胜、搜索引擎召回蔗候、機(jī)器學(xué)習(xí)排序,決定給你看到的是哪些內(nèi)容埂软。而我們看到的推薦系統(tǒng)琴庵,在大多數(shù)情況下是沒有主動(dòng)輸入的(有時(shí)會(huì)有一些簡單的反饋動(dòng)作),是被動(dòng)出現(xiàn)的仰美。
推薦系統(tǒng)是利用上下文,根據(jù)當(dāng)前用戶所處的環(huán)境儿礼,根據(jù)信息的特點(diǎn)來決定給你推薦什么內(nèi)容和商品咖杂。而在我們進(jìn)一步去想之前,我們要問自己一個(gè)問題蚊夫,就像上節(jié)課田老師講的一樣诉字,推薦系統(tǒng)的目標(biāo)是什么,什么才是一個(gè)好的推薦系統(tǒng)知纷,要優(yōu)化的指標(biāo)是什么壤圃。
推薦系統(tǒng)的指標(biāo)是什么?
推薦系統(tǒng)是個(gè)產(chǎn)品琅轧,產(chǎn)品當(dāng)然是想方設(shè)法讓用戶去喜歡的伍绳,或者至少是不討厭的。因而乍桂,我們需要把喜歡和討厭這兩件事情定義出來冲杀。同時(shí)我們畢竟不是用戶肚子里的蛔蟲,我們只能用我們可以測(cè)量到的數(shù)據(jù)來描述喜歡和討厭兩件事情睹酌。并用這些數(shù)據(jù)來決定我們做什么和不做什么权谁。
比如說:我是個(gè)電商,用戶表達(dá)對(duì)一個(gè)推薦商品喜歡的方式是:點(diǎn)擊憋沿、收藏旺芽、加購物車、甚至購買下單、分享到社交平臺(tái)上等等采章。用戶討厭一個(gè)推薦商品的方式运嗜,就是會(huì)投訴、會(huì)提意見共缕。因而我們要預(yù)防一些很可能會(huì)讓用戶討厭的推薦結(jié)果:比如說推薦成人用品和內(nèi)衣洗出,尤其是在上班時(shí)間;比如推薦用戶剛剛買過的商品图谷,等等翩活。
我們一定能為一個(gè)推薦系統(tǒng)去定義指標(biāo),我們可以給這些指標(biāo)分輕重緩急便贵,看能用什么順序?qū)崿F(xiàn)〔ふ颍現(xiàn)在我用的指標(biāo)可能有點(diǎn)投機(jī)取巧,我用的是點(diǎn)擊率承璃。而真實(shí)的指標(biāo)考慮的是很多的利耍,僅僅考慮點(diǎn)擊率的模型,可能會(huì)出現(xiàn)標(biāo)題黨盔粹,如果是電商就可能會(huì)出現(xiàn)一堆 9 塊 9 包郵隘梨,這可能不是我們業(yè)務(wù)想要的。
另外即使只考慮點(diǎn)擊率舷嗡,我們也知道其實(shí)我們推薦的是一個(gè)列表轴猎,列表的質(zhì)量不完全是由單一的商品決定的,而是整個(gè)列表的組合进萄、順序捻脖、多樣性所決定的。所以真實(shí)的業(yè)務(wù)中中鼠,我們會(huì)考慮用更復(fù)雜的目標(biāo)可婶,比如 MAP 來評(píng)價(jià)一個(gè)推薦列表的質(zhì)量。
但沒關(guān)系援雇,今天我們就用點(diǎn)擊率作為試點(diǎn)矛渴,介紹如何用機(jī)器學(xué)習(xí)來搭建推薦系統(tǒng)的完整過程。
選擇推薦系統(tǒng)的y和x
第一步惫搏, 我們已經(jīng)知道機(jī)器學(xué)習(xí)模型需要預(yù)測(cè)的就是優(yōu)化目標(biāo)曙旭,點(diǎn)擊率;那我們把用戶的點(diǎn)擊行為需要記錄下來晶府。這樣一來桂躏,對(duì)于機(jī)器學(xué)習(xí)來說,我們已經(jīng)有 y 了川陆。
第二步剂习,我們需要定義好 x,也就是特征。
一般來說推薦系統(tǒng)的特征體系由 3 個(gè)部分組成:用戶特征鳞绕、內(nèi)容特征失仁、上下文特征。
用戶特征:包括但不限于用戶姓名们何、性別萄焦、年齡、注冊(cè)時(shí)間冤竹、收貨地址拂封、常用區(qū)域等用戶特征。
內(nèi)容特征:包括但不限于以及商品鹦蠕、內(nèi)容的標(biāo)題分詞冒签、內(nèi)容的 TF-IDF、內(nèi)容來源钟病、內(nèi)容渠道萧恕、內(nèi)容生產(chǎn)者等等。
上下文特征:是代表用戶當(dāng)前時(shí)空狀態(tài)肠阱、最近一段時(shí)間的行為抽象的特征票唆。比如說用戶當(dāng)前的 GPS 坐標(biāo),大家可能覺得奇怪屹徘, GPS 坐標(biāo)怎么用來推薦呢惰说?其實(shí)很簡單,地球一圈是 4 萬公里缘回,GPS 一圈是 360°,一度大概是 100 公開典挑。如果我們把 GPS 坐標(biāo)保存到小數(shù)點(diǎn)后一位酥宴,組合起來,這樣的特征就是 10*10 公里的格子您觉,這就代表了一個(gè)有泛化能力的用戶的位置拙寡。
位置是一個(gè)非常強(qiáng)的特征,如果我們更進(jìn)一步琳水,做到了 1 公里肆糕,顯然我們可以相信,在中關(guān)村地區(qū)在孝,大家的偏好是有共性的诚啃,而在金融街,大家的喜好也是有共性的私沮。當(dāng)大家的數(shù)據(jù)足夠多的時(shí)候始赎,落在同一個(gè)格子里的人會(huì)非常多,GPS 就會(huì)成為非常重要的特征。
另外是 IP 地址造垛,比如最近瀏覽的內(nèi)容魔招、最近購買的商品,這些都會(huì)構(gòu)成上下文特征五辽。所以我們就是在用戶特征办斑、內(nèi)容特征和上下文特征的基礎(chǔ)上,預(yù)測(cè)用戶對(duì)當(dāng)前內(nèi)容的點(diǎn)擊率杆逗。
推薦系統(tǒng)的樣本構(gòu)造和數(shù)據(jù)拼接
一個(gè)成熟的推薦系統(tǒng)乡翅,它可能有非常復(fù)雜的樣本構(gòu)造方法,今天用了比較簡單的方法髓迎,讓問題變得簡單峦朗。另外,一個(gè)成熟的推薦系統(tǒng)排龄,它可能會(huì)有多個(gè)指標(biāo)和業(yè)務(wù)邊界條件波势。
那么接下來:基于已知的 x 和 y,我們要為機(jī)器學(xué)習(xí)構(gòu)造樣本橄维。什么是一條樣本尺铣?一個(gè)樣本代表機(jī)器學(xué)習(xí)預(yù)測(cè)的一個(gè)最小粒度的事件。當(dāng)你把一條內(nèi)容展現(xiàn)給用戶争舞,用戶點(diǎn)擊或不點(diǎn)擊凛忿,這就代表了一個(gè)最小粒度的事件,就是一條樣本竞川。再比如說我們給用戶展示了 10 條新聞店溢,用戶對(duì)應(yīng)每個(gè)新聞點(diǎn)擊或者不點(diǎn)擊,就是 10 條樣本委乌。
在樣本采集后趾盐,就要考慮數(shù)據(jù)怎么收集和拼接了妥泉。在拼接的時(shí)候要注意的是立砸,假如是為了優(yōu)化點(diǎn)擊率网沾,我不光要把用戶特征、上下文特征收集起來壕吹,我還要把點(diǎn)擊率拼回到當(dāng)時(shí)那一條樣本請(qǐng)求上去著蛙。所以系統(tǒng)一定要有這樣的考慮,記錄下時(shí)間和拼接的 ID 耳贬,同時(shí)還要考慮剛才說的三類特征是處于實(shí)時(shí)變化當(dāng)中的踏堡,日志也是實(shí)時(shí)產(chǎn)生的,而不是后面去拿的咒劲,因?yàn)檫@樣做很可能會(huì)出現(xiàn)問題暂吉。 數(shù)據(jù)一旦出問題胖秒,是非常難以 debug 的。給大家舉個(gè)栗子慕的,有一家公司阎肝,BAT 之一,他的推薦系統(tǒng)過去幾年 85% 的效果提升來源是把之前有問題的數(shù)據(jù)給修復(fù)了肮街,做對(duì)了风题。
推薦系統(tǒng)的場景思考
樣本構(gòu)造還需要考慮場景的問題,比如說我們會(huì)遇到一個(gè)問題嫉父,屏幕的大小是不一樣的沛硅,同樣展示 10 條新聞,我怎么知道用戶有沒有看到它绕辖。如果沒有看到就不應(yīng)該作為一條樣本摇肌。這時(shí)候就有兩種解決方案,第一種解決方案是把用戶真正看到的納入進(jìn)來仪际,因?yàn)榍岸耸悄阍O(shè)計(jì)的围小,所以你會(huì)知道哪些內(nèi)容是用戶的可見范圍內(nèi)。 當(dāng)然這會(huì)讓客戶端變得更重一些树碱。
第二種是一個(gè)比較簡單的方法肯适,把內(nèi)容的位置作為一個(gè)特征。因?yàn)槲覀冎莱砂瘢瑯邮且黄聊徽宫F(xiàn) 10 行內(nèi)容框舔,即便是一樣的內(nèi)容,用戶也會(huì)選擇一個(gè)他舒服的位置去點(diǎn)赎婚,這個(gè)可能是偏中上的位置刘绣。所以當(dāng)新聞在第三個(gè)位置被點(diǎn)擊的時(shí)候,這可能是一個(gè)容易被點(diǎn)擊的位置挣输,但不一定代表這個(gè)新聞比其他新聞要好纬凤。那我們?cè)趺崔k?我們就要通過某些手段歧焦,把這些偏置吸收掉,所以我們會(huì)把位置肚医、屏幕大小等作為特征绢馍,通過特征工程的方法來吸收這個(gè)偏差,變成無偏的模型肠套。
這時(shí)候有些人可能會(huì)問舰涌,這不是穿越嗎?因?yàn)樵诮o出預(yù)測(cè)的時(shí)候你稚,是不知道內(nèi)容最終的位置信息的瓷耙。但這相當(dāng)于把偏差的鍋由位置來背了朱躺,這是機(jī)器學(xué)習(xí)推薦系統(tǒng)中的一個(gè)策略。
剛才我們已經(jīng)構(gòu)造好特征了搁痛,現(xiàn)在給大家講怎么建模长搀。大家可能會(huì)認(rèn)為,前面的部分是快的鸡典,真正做機(jī)器學(xué)習(xí)源请,做特征工程、模型調(diào)參等彻况,這些是慢的谁尸。但是今天我們會(huì)看到,在成熟的工業(yè)界里面纽甘,其實(shí)前面要花的時(shí)間會(huì)多很多良蛮,后面的內(nèi)容在成熟的工具下會(huì)變得簡單。
在先知上完成推薦系統(tǒng)的建模歷程
我們會(huì)從一個(gè)真實(shí)的案例出發(fā)悍赢,雖然我們做了很多的推薦系統(tǒng)的案例决瞳,但畢竟不能把客戶的數(shù)據(jù)給大家看,所以我們用了一份公開的數(shù)據(jù)泽裳,這份數(shù)據(jù)和我們之前講的場景是相似的瞒斩。這份數(shù)據(jù)來自于 Kaggle,叫做 Criteo 點(diǎn)擊率預(yù)估比賽涮总。
數(shù)據(jù)預(yù)覽
首先我們看數(shù)據(jù)的樣子胸囱,第 1 列 col_1 代表的是廣告有沒有被點(diǎn)擊,1 代表被點(diǎn)擊瀑梗,0 代表沒有被點(diǎn)擊烹笔。然后我們看第 2 列到第 14 列,都是數(shù)值型的特征抛丽,因?yàn)檫@份數(shù)據(jù)已經(jīng)被匿名化了谤职,所以我們可能也不知道這些數(shù)值代表什么意思,也許是這個(gè)用戶的 PV亿鲜,或者標(biāo)簽的權(quán)重允蜈,不過我們也不需要知道。然后看第 15 列到 40 多列蒿柳,這些都是離散的特征饶套,這些特征都做了哈希化垒探,都做了匿名處理妓蛮。
這個(gè)數(shù)據(jù)有 3000 萬行 40 多列,按照我們傳統(tǒng)的做法圾叼,進(jìn)行特征工程以及 one-hot 編碼后蛤克,會(huì)有 4000 多萬個(gè)特征捺癞。真實(shí)的業(yè)務(wù)數(shù)據(jù)中,訓(xùn)練數(shù)據(jù)體積會(huì)更大构挤,往往達(dá)到上億髓介,同時(shí)原始特征數(shù)量會(huì)達(dá)到上百,因?yàn)闉榱撕玫膫€(gè)性化效果儿倒,我們會(huì)使用諸如 GPS 坐標(biāo)版保、手機(jī)型號(hào)、ip 地址夫否、最近瀏覽內(nèi)容等等精細(xì)化的特征彻犁,并進(jìn)行非常極致的特征工程,這樣的模型在特征工程之后的特征數(shù)會(huì)達(dá)到數(shù)億甚至幾百億凰慈。這樣規(guī)模的機(jī)器學(xué)習(xí)訓(xùn)練汞幢,挑戰(zhàn)的不僅是算法,更是如何在成本可承受的計(jì)算資源上進(jìn)行訓(xùn)練和實(shí)時(shí)預(yù)估微谓。
開發(fā)這樣一個(gè)規(guī)模的可以并行運(yùn)行的系統(tǒng)的挑戰(zhàn)更加大森篷,即使 BAT 這樣的大公司也會(huì)養(yǎng)一個(gè)百人的團(tuán)隊(duì),只為了做好機(jī)器學(xué)習(xí)模型訓(xùn)練和預(yù)估的工程實(shí)現(xiàn)豺型。下面我們會(huì)看到利用第四范式的先知平臺(tái)去做這件事情仲智,會(huì)大大降低我們開發(fā)和運(yùn)維一個(gè)在線機(jī)器學(xué)習(xí)系統(tǒng)的成本,讓我們更加聚焦在業(yè)務(wù)本身姻氨。下面我們會(huì)看到在先知平臺(tái)上對(duì)這份數(shù)據(jù)的建模會(huì)非常簡單钓辆。
數(shù)據(jù)拆分
首先我們把這份數(shù)據(jù)拆成了訓(xùn)練集和測(cè)試集,以 9:1 的方式肴焊。當(dāng)然這可能是不太合適的拆分方法前联,因?yàn)檎嬲?xùn)練一個(gè)機(jī)器學(xué)習(xí)模型,它的拆分是按照時(shí)間排序后再拆的娶眷,就是用前面的時(shí)間來訓(xùn)練模型似嗤,然后用這個(gè)模型來預(yù)測(cè)點(diǎn)擊。這樣訓(xùn)練和測(cè)試在時(shí)間上是正交的届宠,那么模型如果在這種實(shí)驗(yàn)設(shè)計(jì)下有好的效果烁落,這個(gè)效果就會(huì)有時(shí)間平移性,上線后就會(huì)有好的效果豌注。當(dāng)然伤塌,為什么我們?cè)谶@里沒有使用按照時(shí)間排序拆分的方式,是因?yàn)閰⒖剂艘黄撐牡淖龇ǎ?a target="_blank" rel="nofollow">https://arxiv.org/abs/1703.04247)幌羞,這樣同樣的做法結(jié)果可比寸谜。在真實(shí)的業(yè)務(wù)中竟稳,不建議大家按照這種方式來處理數(shù)據(jù)属桦。
特征工程熊痴、模型選擇和評(píng)估
然后就是做特征工程了,一般來說大家可能覺得很難聂宾,但只需要告訴電腦哪個(gè)是 Label果善,其他的直接默認(rèn)配置就好了。但天下沒有免費(fèi)的午餐系谐,特征簡單處理巾陕,我們要有更強(qiáng)的模型,所以我們用了線性分型分類器纪他。
一般來說鄙煤,推薦系統(tǒng)中會(huì)有離散特征和連續(xù)特征,當(dāng)我們用邏輯回歸這種寬的離散線性模型的時(shí)候茶袒,我就會(huì)遇到一個(gè)很大的問題梯刚,就是我需要對(duì)特征進(jìn)行分段,這樣才能學(xué)到連續(xù)特征的非線性結(jié)構(gòu)薪寓。比如說用戶年齡對(duì)點(diǎn)擊率的影響亡资,它并不是線性上升的,它可能會(huì)上升到 30 歲向叉,然后就下降了锥腻,甚至有更復(fù)雜的模式,這些是非線性的特性母谎。所以我們可以用機(jī)器對(duì)連續(xù)的特征做自動(dòng)搜索分段瘦黑,這樣的預(yù)處理效率就大大提高了。線性分形分類器就是做的這樣的事情销睁,基本上我花了不到 5 分鐘供璧,就跑出了 0.796 的 AUC。
AUC 代表了一個(gè)模型對(duì)樣本的排序能力冻记。如果這是一個(gè)完美的排序睡毒,點(diǎn)擊率高的 100% 排到了點(diǎn)擊率低的前面,那 AUC 就是 1冗栗。如果是隨機(jī)瞎排演顾,那 AUC 就是 0.5。所以 AUC 越接近于 1隅居,就代表了整體的排序能力越強(qiáng)∧浦粒現(xiàn)在的 AUC 是 0.796,比論文的 0.801 稍微差一點(diǎn)胎源,我只做了這么點(diǎn)就到了這個(gè)成績棉钧,我覺得還是可以的。
當(dāng)然這里進(jìn)一步說一下涕蚤,評(píng)估上線的時(shí)候宪卿,不能只是看 AUC的诵。例如說,我要看的是 User AUC佑钾,或者每一刷的 AUC西疤,因?yàn)槟P偷呐判蚰芰Γ徊糠謥碜杂趯?duì)每個(gè)用戶個(gè)性化的識(shí)別能力休溶,另一部分來自于對(duì)用戶本身的識(shí)別能力代赁。比如說有些用戶就是什么都愛點(diǎn),什么都點(diǎn)兽掰,而有些用戶基本只看標(biāo)題不點(diǎn)開芭碍。我們把這樣的人分開,對(duì)個(gè)性化推薦是有幫助的孽尽。所以我最終應(yīng)該看的是豁跑,在每一個(gè)用戶身上的 AUC,甚至是每一次展現(xiàn)的 AUC泻云,當(dāng)然先知也提供了工具艇拍,就不多贅述了。
但我還是想讓這個(gè)模型更好宠纯,怎么辦呢卸夕?在做推薦系統(tǒng)的時(shí)候,特征工程最重要的處理方法是特征組合婆瓜。比如說有兩個(gè)特征快集,一個(gè)是性別,另一個(gè)是新聞的色情等級(jí)廉白。我們可能會(huì)注意到个初,男同志比較喜歡火爆的新聞,女同志可能正好相反猴蹂。我把色情等級(jí)作為一個(gè)特征院溺,可能兩邊的喜好不同導(dǎo)致最終這個(gè)特征整體對(duì)點(diǎn)擊率的影響和一個(gè)隨機(jī)數(shù)一樣,它就不是好的特征磅轻,沒有預(yù)測(cè)能力珍逸。
但如果我把這些特征組合起來,我就對(duì)這些空間有更細(xì)致的分割能力聋溜,我就會(huì)做出很好的效果谆膳。性別、用戶 ID 和新聞色情等級(jí)組合起來撮躁,是新聞推薦非常有用的特征漱病。進(jìn)一步說,假如我們有 100 個(gè)特征,那么特征兩兩組合的空間杨帽,就是 一萬個(gè)凝果,這是個(gè)很大的工作量。
傳統(tǒng)的手段是睦尽,通過業(yè)務(wù)經(jīng)驗(yàn)和實(shí)驗(yàn)去篩選好的組合。但是工具可以幫我們做得更快更好型雳,先知的 FeatureGo 功能当凡,可以通過一系列的配置和優(yōu)化目標(biāo)設(shè)定,自動(dòng)搜索出好的特征組合纠俭,大大節(jié)省我們的工作時(shí)間沿量,讓人的工作由機(jī)器來完成。然后我就跑了 FeatureGo冤荆,找到了 18 和 28朴则,33 和 34 這些組合特征就不錯(cuò)。而如果計(jì)算資源足夠钓简,那你還可以搜索 3 階的特征乌妒,這是由人來做非常難的事情。
在用機(jī)器完成自動(dòng)特征組合后外邓,調(diào)參其實(shí)也可以自動(dòng)化的撤蚊。我們知道機(jī)器學(xué)習(xí)就像煉丹,煉丹就是調(diào)參损话,調(diào)參就是在參數(shù)空間里侦啸,根據(jù)我們的經(jīng)驗(yàn)去搜索一下,看什么參數(shù)是好的丧枪。我們也有好的工具光涂,可以自動(dòng)搜索到好的參數(shù)。當(dāng)把這些設(shè)定好之后拧烦,我就去睡覺了忘闻。第二天醒來后發(fā)現(xiàn),這個(gè)模型的 AUC 達(dá)到了 0.802恋博,已經(jīng)超過了論文的效果服赎。由于這篇論文還是今年比較有名的論文,我還是很滿意的交播。
模型上線
設(shè)計(jì)好模型后重虑,一般是用 Restful API 的模式服務(wù)的。比方說根據(jù)這個(gè) API秦士,就可以給不同的內(nèi)容進(jìn)行打分缺厉,打分后根據(jù)倒排后的結(jié)果,響應(yīng)推薦的內(nèi)容。
推薦系統(tǒng)相關(guān)組件
當(dāng)然提针,一個(gè)完整的推薦系統(tǒng)命爬,不僅僅需要機(jī)器學(xué)習(xí)排序,還需要相應(yīng)的組件辐脖。比方說我要有物料庫饲宛,把商品的特征維護(hù)起來,這需要一個(gè)高性能的緩存和數(shù)據(jù)庫嗜价,能夠增刪查改艇抠,能夠進(jìn)行特征的初步生成。我還需要一個(gè)日志系統(tǒng)久锥,日志系統(tǒng)通過唯一性的標(biāo)識(shí)家淤,把實(shí)時(shí)的請(qǐng)求和后續(xù)的反饋 Label 記錄并拼接起來。我還需要一個(gè)自學(xué)習(xí)的系統(tǒng)瑟由,機(jī)器學(xué)習(xí)的模型每天都是要更新的絮重,如果拿 7 天前學(xué)到的模型去推今天的商品,那豈不是用前朝的劍斬本朝的官歹苦,效果一定不好青伤,所以我們還需要自學(xué)習(xí),或者是增量的在線學(xué)習(xí)殴瘦,來保證模型捕捉到最新的用戶偏好和市場情況潮模。
然后我們還需要后續(xù)的預(yù)測(cè),比方說我的內(nèi)容有好幾十萬痴施,我并不是拿好幾十萬給機(jī)器學(xué)習(xí)去預(yù)估擎厢,我會(huì)用啟發(fā)式的方法,比如說 CF辣吃、熱度动遭、Tag 匹配等召回策略先生成候選集,然后才進(jìn)入到機(jī)器學(xué)習(xí)排序神得。召回策略同樣使得我們有更大的能力去影響機(jī)器學(xué)習(xí)排序的結(jié)果厘惦,比如我們可以過濾掉一些我們明知道不好的內(nèi)容或者增加我們認(rèn)為好的內(nèi)容的權(quán)重或出現(xiàn)比例。在機(jī)器學(xué)習(xí)排序后哩簿,我們也需要對(duì)結(jié)果進(jìn)行去重宵蕉、多樣化和隨機(jī)化,最后才做成一個(gè)好的推薦系統(tǒng)节榜。
今天和大家介紹的是羡玛,我們?nèi)绾卫脵C(jī)器學(xué)習(xí)去搭建一個(gè)推薦系統(tǒng)的排序環(huán)節(jié)∽诓裕總結(jié)起來是這么幾個(gè)點(diǎn):第一個(gè)是如何使用機(jī)器學(xué)習(xí)來剖析一個(gè)問題稼稿,我們用了推薦系統(tǒng)的例子薄榛。第二個(gè)是我們?nèi)绾螛?gòu)造一個(gè)推薦系統(tǒng)的樣本、數(shù)據(jù)并進(jìn)行建模让歼,當(dāng)我們有一個(gè)非常好的機(jī)器學(xué)習(xí)工具的時(shí)候敞恋,我們可以把精力聚焦在業(yè)務(wù)上,在怎么找到好的數(shù)據(jù)上谋右,以及在怎么定義好的目標(biāo)和規(guī)劃上硬猫。第三我們描述了機(jī)器學(xué)習(xí)系統(tǒng)是如何和其他系統(tǒng)發(fā)揮作用的,機(jī)器學(xué)習(xí)就像發(fā)動(dòng)機(jī)改执,汽車當(dāng)然需要發(fā)動(dòng)機(jī)啸蜜,但只有發(fā)動(dòng)機(jī)車是跑不起來的,你還需要周邊的配件天梧,這是系統(tǒng)化的工程。在這方面我們已經(jīng)做了一些工作霞丧,我們既有發(fā)動(dòng)機(jī)呢岗,也就是先知平臺(tái),大家可以在這里試用https://prophet.4paradigm.com蛹尝,我們也有整車后豫,就是整個(gè)推薦系統(tǒng)的解決方案。我們很高興和大家分享這樣的技術(shù)和能力突那,謝謝大家挫酿。
-全文完-
人工智能已不再停留在大家的想象之中,各路大牛也都紛紛抓住這波風(fēng)口愕难,投入AI創(chuàng)業(yè)大潮早龟。那么,2017年猫缭,到底都有哪些AI落地案例呢葱弟?機(jī)器學(xué)習(xí)、深度學(xué)習(xí)猜丹、NLP芝加、圖像識(shí)別等技術(shù)又該如何用來解決業(yè)務(wù)問題?
2018年1月11-14日射窒,AICon全球人工智能技術(shù)大會(huì)上藏杖,一些大牛將首次分享AI在金融、電商脉顿、教育蝌麸、外賣、搜索推薦艾疟、人臉識(shí)別祥楣、自動(dòng)駕駛开财、語音交互等領(lǐng)域的最新落地案例,應(yīng)該能學(xué)到不少東西误褪。目前大會(huì)8折報(bào)名倒計(jì)時(shí)责鳍,更多精彩可點(diǎn)擊閱讀原文詳細(xì)了解。