2019-04-01

推薦系統(tǒng)是為用戶推薦所需商品的軟件工具和技術(shù)蜻底。也即是向用戶建議有用物品的軟件工具和技術(shù)薄辅。這種建議適用于多種決策過程,如購買什么物品窿春、聽什么音樂采盒、在網(wǎng)上瀏覽什么新聞等磅氨。

2.數(shù)據(jù)挖掘的過程一般由三個連續(xù)執(zhí)行的步驟組成:

數(shù)據(jù)預(yù)處理延赌、數(shù)據(jù)分析挫以、結(jié)果解釋。

2.1數(shù)據(jù)預(yù)處理

我們把數(shù)據(jù)定義為一組對象及其屬性的集合,其中屬性定義為性質(zhì)或者對象的特征抡句。對象的其他名稱包括記錄量没、物品殴蹄、得分袭灯、樣本稽荧、觀察值或者實(shí)例姨丈。屬性也可以稱為變量蟋恬、字段歼争、特性或者特征旺坠。

真實(shí)數(shù)據(jù)通常需要經(jīng)過預(yù)處理取刃,以便于機(jī)器學(xué)習(xí)技術(shù)在分析階段使用。

2.1.1相似度度量方法

在一些只有二進(jìn)制屬性的物品案例中巷蚪,可以采用幾個相似度度量方法屁柏。首先計(jì)算M01淌喻、M10等的數(shù)量裸删,其中M01代表x是0同時y是1這個屬性的數(shù)量涯塔,以此類推,根據(jù)這些數(shù)值枷邪,可以計(jì)算得到簡單匹配系數(shù)SMC=M11+M00/M01+M10+M00+M11

2.1.2抽樣

抽樣是數(shù)據(jù)挖掘從大數(shù)據(jù)集中選擇相關(guān)數(shù)據(jù)子集的主要技術(shù)践惑。它可以被用來創(chuàng)建訓(xùn)練和測試數(shù)據(jù)集尔觉。訓(xùn)練集被用于分析階段學(xué)習(xí)參數(shù)或配置算法脸候。而測試集被用來評估訓(xùn)練階段獲得的模型或者配置泵额,確保它在將來產(chǎn)生的未知數(shù)據(jù)上運(yùn)行良好嫁盲。抽樣的關(guān)鍵是發(fā)現(xiàn)具有整個原始數(shù)據(jù)集代表性的子集羞秤,也就是說俐镐,其具有與整個數(shù)據(jù)集大概類似的興趣屬性佩抹。有隨機(jī)抽樣,分層抽樣(數(shù)據(jù)基于特殊特征被分成幾個部分枢里,之后對每個部分獨(dú)立進(jìn)行隨機(jī)抽樣蹂午。

在分離訓(xùn)練集和測試集時冰悠,通常是使用無替代的標(biāo)準(zhǔn)隨機(jī)抽樣,并且是80/20的訓(xùn)練集和測試集比例搬泥,一般來說忿檩,超過2/3的任何值作為訓(xùn)練集是合適的爆阶。

抽樣可能導(dǎo)致過特殊劃分的訓(xùn)練和測試數(shù)據(jù)集班套。因此吱韭,訓(xùn)練過程可以重復(fù)好幾次理盆,采用n折K次交叉驗(yàn)證猿规,然后求K次學(xué)習(xí)模型的平均性能姨俩。

2.1.3降維

推薦系統(tǒng)中不僅有定義高維空間特征的數(shù)據(jù)集哼勇,而且在空間中信息非常稀疏陨晶,例如先誉,每個對象就那么幾個有限的特征有值褐耳。應(yīng)用降維技術(shù)可以直接適用于計(jì)算推薦的預(yù)測值,應(yīng)用降維技術(shù)可以帶來這樣的結(jié)果刃滓,即它可以作為推薦系統(tǒng)設(shè)計(jì)的方法咧虎,而不僅是數(shù)據(jù)預(yù)處理技術(shù)。

2.1.3.1在推薦系統(tǒng)中最相關(guān)的降維方法:主成分分析(PCA)和奇異值分解(SVD)

主成分分析可以獲得獲得一組有序的成分列表茁彭,其根據(jù)最小平方誤差計(jì)算出變化最大的值苇瓣。列表中第一個成分所代表的變化量要比第二個成分所代表的變化量大哲嘲,以此類推眠副,我們可以通過忽略這些對變化貢獻(xiàn)較小的成分來降低維度霍弹。

SVD分解中的關(guān)鍵問題是發(fā)現(xiàn)低維特征空間典格,這些新特征代表概念以及在集合內(nèi)容中的每一個概念強(qiáng)度都是可以計(jì)算的耍缴。因?yàn)镾VD可以自動獲取到低維空間上的語義概念侠坎,它可以被用來实胸,當(dāng)作潛在語義分析的基礎(chǔ)涮瞻,潛在語義分析是一種在信息檢索中非常受歡迎的文本分類技術(shù)。奇異值矩陣中的奇異值是按特征值的平方根有序遞減的生音。因此缀遍,初始矩陣可以通過截取前K個特征值來近似構(gòu)造饱须。被截取的SVD代表降維成K維空間后的潛在結(jié)構(gòu)譬挚,這一般意味著特征向量中的噪聲被降低减宣。

SVD可以用來發(fā)現(xiàn)用戶和產(chǎn)品之間的潛在關(guān)系贼邓,為了完成這個目的塑径,他們首先用物品平均評分值去填充用戶—物品矩陣的0值項(xiàng)填具,然后通過減去用戶對所有物品平均評分值來正規(guī)化這些矩陣绑咱。SVD分解最基本的想法是把評分矩陣分解成兩個部分:一個部分包含描述用戶的特征描融,另一個部分包含描述物品的特征毛甲。

2.1.4去噪

數(shù)據(jù)挖掘中采集的數(shù)據(jù)可能會有各種噪聲玻募,如缺失數(shù)據(jù)跃惫,或者是異常數(shù)據(jù)爆存,去噪是非常重要的預(yù)處理步驟先较,其目的是在最大化信息量時去除掉不必要的影響噪叙。

在一般意義上睁蕾,我們把噪聲定義為數(shù)據(jù)收集階段收集到的一些可能影響數(shù)據(jù)分析和解釋結(jié)果的偽造數(shù)據(jù)债朵。

2.2分類

分類器是從特征空間到標(biāo)簽空間的映射臭杰,其中渴杆,特征代表需要分類的元素屬性,標(biāo)簽代表類別比搭。例如身诺,餐廳推薦系統(tǒng)能夠通過分類器來實(shí)現(xiàn)霉赡,其分類器基于許多特征描述把餐廳分成兩類中的一類9(好的,不好的)

2.2.1最近鄰

基于樣本的分類通過存儲訓(xùn)練記錄并使用它們來預(yù)測未知樣本的標(biāo)簽類別迫肖。一個常見的例子是所謂的死記硬背學(xué)習(xí)。這種分類器記住了所有的訓(xùn)練集隅津,并且只有在新記錄的屬性與訓(xùn)練集中樣本完全匹配時才會分類劲室。一個更加精確和通用的基于樣本的分類是近鄰分類充蓝。給出一個要分類的點(diǎn)谓苟,K近鄰分類器能夠從訓(xùn)練記錄中發(fā)現(xiàn)k個最近的點(diǎn)。然后按照它最近鄰的類標(biāo)簽來確定所屬類標(biāo)簽仑撞。算法的基本思想是隧哮,如果一個樣本落入由一個類標(biāo)簽主導(dǎo)的領(lǐng)域近迁,是因?yàn)檫@個樣本可能屬于這個類鉴竭。

2.2.2決策樹

推薦系統(tǒng)中的決策樹可以用在基于模型的方法里搏存,一種可能是用內(nèi)容特征建立決策樹模型璧眠,對描述用戶偏好的所有變量建模责静。建立一個試圖解釋決策過程中所有參數(shù)的決策樹是非常困難以及不現(xiàn)實(shí)的,但是決策樹可以被用來模擬系統(tǒng)的一個特殊部分腰鬼。

在推薦系統(tǒng)中另一個使用決策樹的選擇是使用它們作為物品排序的工具熄赡。使用決策樹來排序已經(jīng)在一些環(huán)境下被研究炊豪。

2.2.3基于規(guī)則的分類

基于規(guī)則分類器是通過一組“IF......THEN"的規(guī)則集合劃分?jǐn)?shù)據(jù)拧篮,規(guī)則的前提或條件是屬性連詞的表達(dá)式他托,規(guī)則的結(jié)論是一個正或者負(fù)的分類赏参。

為了建立一個基于規(guī)則的分類器把篓,我們可以用從數(shù)據(jù)中直接抽取規(guī)則的直接方法韧掩,另一方面坊谁,使用間接的方法從其他分類模型中抽取規(guī)則很常見滑臊。他的優(yōu)點(diǎn)是鬓椭,他們表示很明確关划,因?yàn)樗鼈兪欠柣牟⑶铱梢栽跊]有任何轉(zhuǎn)化的情況下操作數(shù)據(jù)的屬性裤翩,并且可以有效的分類新的對象岛都。

2.2.4貝葉斯分類器

貝葉斯分類器是解決分類問題的一個概率框架。它基于條件概率定義和貝葉斯理論扣孟。貝葉斯統(tǒng)計(jì)學(xué)派使用概率來代表從數(shù)據(jù)中學(xué)習(xí)到的關(guān)系的不確定性鸽斟。

一個特殊但是最常用的分類器是樸素貝葉斯分類器。

2.2.5人工神經(jīng)網(wǎng)絡(luò)(ANN)

人工神經(jīng)網(wǎng)絡(luò)由一組內(nèi)連接點(diǎn)和帶權(quán)鏈接組成立倍,其想法來自于生物大腦的結(jié)構(gòu),ANN中的節(jié)點(diǎn)稱為神經(jīng)元口注,類似于生物神經(jīng)。這些簡單的功能單元組成網(wǎng)絡(luò)材部,網(wǎng)絡(luò)在用有效數(shù)據(jù)訓(xùn)練之后能夠?qū)W習(xí)分類問題。

ANN的最簡單模型是感知器模型乐导,如果把激活函數(shù)特指為簡單的閾值函數(shù),則輸出的就是根據(jù)每條鏈接的權(quán)重將輸入值累加兽叮,然后和某個閾值相比較,感知模型是具有簡單和有效學(xué)習(xí)算法的線性聚分類器鹦聪,但是還有幾種其他對于激活函數(shù)通用的選擇,如正切雙曲等蒂秘。輸出函數(shù)有0和1兩個值。

今天中午吃完飯看到了不想看到的一幕姻僧,不要想了蒲牧,不要想了赌莺,這個社會艘狭,還是不要把什么事都想的那么美好,包括人巢音,坦然一點(diǎn),成長一點(diǎn)官撼,好好上班梧躺,這才是現(xiàn)在最應(yīng)該干的掠哥。

ANN可以有許多的層,在ANN中的層被分成三種類型:輸入斜筐、隱藏、輸出顷链,輸入層的單元響應(yīng)進(jìn)入網(wǎng)絡(luò)的數(shù)據(jù)。隱藏層接受從輸入單元中的帶權(quán)輸出嗤练。輸出層響應(yīng)隱藏層中的帶權(quán)輸出并且產(chǎn)生最終的網(wǎng)絡(luò)輸出。使用神經(jīng)元作為原子功能單元煞抬,在網(wǎng)絡(luò)中有許多種可能的架構(gòu)來把它們結(jié)合在一起。

ANN最主要的優(yōu)點(diǎn)是(取決于激活函數(shù))能做非線性分類任務(wù)革答,并且由于并行屬性战坤,它們高效甚至能夠在部分網(wǎng)絡(luò)受損的情況下操做途茫。ANN屬于一種次符號分類器,也就是說溪食,在推理知識的時候不提供任何語義知識,說白了,這是一種黑盒方法雀瓢。

2.2.6支持向量機(jī)

支持向量機(jī)分類的目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)的線性超平面(決策邊界),以邊界最大化的方式分離數(shù)據(jù)刃麸。如果決策邊界是非線性的,我們需要轉(zhuǎn)換數(shù)據(jù)到高維的空間排截,這個轉(zhuǎn)換的完成得益于核函數(shù)辐益。

2.2.7分類器的集成

使用分類器集成背后的最基本的思想是断傲,從訓(xùn)練數(shù)據(jù)構(gòu)造一系列的分類器认罩,并通過聚集預(yù)測值來預(yù)測類標(biāo)簽。只要我們能假設(shè)這些分類器都是獨(dú)立的续捂,分類器集成就有效。

2.2.8評估分類器

推薦系統(tǒng)中被接受最常用的指標(biāo)是預(yù)測興趣(評分)和測量值的均方差或均方根誤差牙瓢。如果把推薦看作分類問題,就可以使用評估分類器的著名指標(biāo)矾克,如準(zhǔn)確度和召回率。

為了評估一個模型胁附,我們一般考慮以下指標(biāo):真正(TP):分到類A且真的屬于類A的實(shí)例數(shù)量;真負(fù)(TN):沒有分到類A且真的不屬于類A的實(shí)例數(shù)量控妻;假正(FP):分到類A但不屬于類A的實(shí)例數(shù)量;假負(fù)(FN):沒有分到類A弓候,但屬于類A的實(shí)例數(shù)量。

最常用來衡量模型性能是定義正確分類的實(shí)例和總的實(shí)例數(shù)量之間的比率叫精確度菇存。但是這里就會存在類不平衡的問題夸研。

模型性能的其他常用指標(biāo)陈惰,特別是在信息檢索中,是準(zhǔn)確率和召回率,準(zhǔn)確率是分樣本到類A中犯錯誤的指標(biāo)井辆。召回率是衡量沒有留下本應(yīng)該劃分到類中的樣本的程度。在大部分的例子中杯缺,當(dāng)我們單獨(dú)使用這兩種指標(biāo)時是有誤導(dǎo)的。通過不分給任何的樣本到類A可以建立有完美預(yù)測準(zhǔn)確性的分類器萍肆,相反,通過分配所有的樣本到類A中可以建立完美召回率的分類器胀屿。事實(shí)上,有一種結(jié)合了預(yù)測和召回率到一個單一指標(biāo)中的指標(biāo)F1=2TP/2TP+FN+FP

有時候我們會比較幾個相互競爭的模型宿崭,而不是單獨(dú)評估它們的性能。用ROC曲線也已經(jīng)在評估推薦系統(tǒng)時使用葡兑,將ROC曲線下的面積作為評估的指標(biāo)。

2.3聚類分析

擴(kuò)展CF分類器的最大問題時計(jì)算距離時的操作量讹堤,即發(fā)現(xiàn)最好的K近鄰。聚類可以提高效率洲守,但是它不像降維方法那樣可以提高精確度。因此岖沛,在設(shè)計(jì)推薦系統(tǒng)時必須謹(jǐn)慎使用聚類暑始,必須小心的衡量提高效率和降低精確度之間的平衡廊镜。

聚類算法有兩個主要的類別:分層和劃分,劃分聚類算法把數(shù)據(jù)劃分成非重合的聚類唉俗,使得每一個數(shù)據(jù)項(xiàng)確切在一個聚類中。分層聚類算法在已知聚類上繼續(xù)聚合物品虫溜,生成聚類的嵌套集合,組成一個層級樹衡楞。

2.3.1k-means

k-means聚類是一種分塊方法。基礎(chǔ)的k-means是極其簡單和有效的算法歧杏。但是,它有幾個缺陷:1.為了選擇合適的k值犬绒,假定有先驗(yàn)的數(shù)據(jù)知識。2.最終的聚類對于初始對于初始的中心點(diǎn)非常敏感凯力。3.它會產(chǎn)生空聚類。k-means也有幾個關(guān)于數(shù)據(jù)的缺陷:當(dāng)聚類是不同的大小咐鹤、密度、非球狀形狀時慷暂,就會有問題,并且當(dāng)數(shù)據(jù)包含異常值時它會有問題行瑞。



到時候我們的推薦系統(tǒng)包括這幾個步驟...跟國內(nèi)其他大廠的差不多.....

你到時候需要理一下每個步驟的模型/算法/評估等./

召回:?基于相似用戶、相似物品血久、畫像屬性、上下文等進(jìn)行召回氧吐;

融合:?決定召回策略比例并截取物品數(shù)形成初步結(jié)果集,融合器有加權(quán)融合筑舅、概率融合、規(guī)則融合等等陨舱;

填充:?通過一些熱門填充、規(guī)則填充游盲,在工程上保證物品的數(shù)量,通過試投保證保證推薦的新穎度益缎;

過濾:?通過用戶歷史、行為讓推薦可以保證不出重復(fù)及無狀態(tài)服務(wù)的手段莺奔、同時還有負(fù)反饋計(jì)算;

重排:?通過模型、規(guī)則排序恼琼,提高點(diǎn)擊率的同時保證用戶體驗(yàn)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末驳癌,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子颓鲜,更是在濱河造成了極大的恐慌沮明,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,718評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件肮之,死亡現(xiàn)場離奇詭異,居然都是意外死亡衣摩,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評論 3 385
  • 文/潘曉璐 我一進(jìn)店門艾扮,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人泡嘴,你說我怎么就攤上這事∽糜瑁” “怎么了磺箕?”我有些...
    開封第一講書人閱讀 158,207評論 0 348
  • 文/不壞的土叔 我叫張陵松靡,是天一觀的道長。 經(jīng)常有香客問我雕欺,道長,這世上最難降的妖魔是什么广凸? 我笑而不...
    開封第一講書人閱讀 56,755評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮谅海,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘扭吁。我一直安慰自己盲镶,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,862評論 6 386
  • 文/花漫 我一把揭開白布溉贿。 她就那樣靜靜地躺著,像睡著了一般宇色。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上颁湖,一...
    開封第一講書人閱讀 50,050評論 1 291
  • 那天,我揣著相機(jī)與錄音抢蚀,去河邊找鬼。 笑死镰禾,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的吴侦。 我是一名探鬼主播,決...
    沈念sama閱讀 39,136評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼妈倔,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了盯蝴?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,882評論 0 268
  • 序言:老撾萬榮一對情侶失蹤捧挺,失蹤者是張志新(化名)和其女友劉穎尿瞭,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體声搁,經(jīng)...
    沈念sama閱讀 44,330評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,651評論 2 327
  • 正文 我和宋清朗相戀三年疏旨,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片檐涝。...
    茶點(diǎn)故事閱讀 38,789評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡法挨,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出幅聘,到底是詐尸還是另有隱情,我是刑警寧澤帝蒿,帶...
    沈念sama閱讀 34,477評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站葛超,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏巩掺。R本人自食惡果不足惜偏序,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,135評論 3 317
  • 文/蒙蒙 一研儒、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧独令,春花似錦、人聲如沸燃箭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至裙戏,卻和暖如春乘凸,著一層夾襖步出監(jiān)牢的瞬間累榜,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評論 1 267
  • 我被黑心中介騙來泰國打工壹罚, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人猖凛。 一個月前我還...
    沈念sama閱讀 46,598評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像形病,于是被迫代替她去往敵國和親客年。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,697評論 2 351

推薦閱讀更多精彩內(nèi)容