一稻薇,數(shù)據(jù)挖掘的基本流程
在正式講數(shù)據(jù)挖掘知識(shí)清單之前嫂冻,我先和你聊聊數(shù)據(jù)挖掘的基本流程。
數(shù)據(jù)挖掘的過(guò)程可以分成以下 6 個(gè)步驟塞椎。
1. 商業(yè)理解:數(shù)據(jù)挖掘不是我們的目的桨仿,我們的目的是更好地幫助業(yè)務(wù),所以第一步我們要從商業(yè)的角度理解項(xiàng)目需求案狠,在這個(gè)基礎(chǔ)上服傍,再對(duì)數(shù)據(jù)挖掘的目標(biāo)進(jìn)行定義。
2. 數(shù)據(jù)理解:嘗試收集部分?jǐn)?shù)據(jù)骂铁,然后對(duì)數(shù)據(jù)進(jìn)行探索吹零,包括數(shù)據(jù)描述、數(shù)據(jù)質(zhì)量驗(yàn)證等从铲。這有助于你對(duì)收集的數(shù)據(jù)有個(gè)初步的認(rèn)知瘪校。
3. 數(shù)據(jù)準(zhǔn)備:開始收集數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行清洗、數(shù)據(jù)集成等操作阱扬,完成數(shù)據(jù)挖掘前的準(zhǔn)備工作泣懊。
4. 模型建立:選擇和應(yīng)用各種數(shù)據(jù)挖掘模型,并進(jìn)行優(yōu)化麻惶,以便得到更好的分類結(jié)果馍刮。
5. 模型評(píng)估:對(duì)模型進(jìn)行評(píng)價(jià),并檢查構(gòu)建模型的每個(gè)步驟窃蹋,確認(rèn)模型是否實(shí)現(xiàn)了預(yù)定的商業(yè)目標(biāo)卡啰。
6. 上線發(fā)布:模型的作用是從數(shù)據(jù)中找到金礦,也就是我們所說(shuō)的“知識(shí)”警没,獲得的知識(shí)需要轉(zhuǎn)化成用戶可以使用的方式匈辱,呈現(xiàn)的形式可以是一份報(bào)告,也可以是實(shí)現(xiàn)一個(gè)比較復(fù)雜的杀迹、可重復(fù)的數(shù)據(jù)挖掘過(guò)程亡脸。數(shù)據(jù)挖掘結(jié)果如果是日常運(yùn)營(yíng)的一部分,那么后續(xù)的監(jiān)控和維護(hù)就會(huì)變得重要树酪。
二浅碾,數(shù)據(jù)挖掘的十大算法
為了進(jìn)行數(shù)據(jù)挖掘任務(wù),數(shù)據(jù)科學(xué)家們提出了各種模型续语,在眾多的數(shù)據(jù)挖掘模型中垂谢,國(guó)際權(quán)威的學(xué)術(shù)組織 ICDM (the IEEE International Conference on Data Mining)評(píng)選出了十大經(jīng)典的算法。
按照不同的目的疮茄,我可以將這些算法分成四類滥朱,以便你更好的理解。
l 分類算法:C4.5力试,樸素貝葉斯(Naive Bayes)焚虱,SVM,KNN懂版,Adaboost鹃栽,CART
l 聚類算法:K-Means,EM
l 關(guān)聯(lián)分析:Apriori
l 連接分析:PageRank
1. C4.5
C4.5 算法是得票最高的算法躯畴,可以說(shuō)是十大算法之首民鼓。C4.5 是決策樹的算法,它創(chuàng)造性地在決策樹構(gòu)造過(guò)程中就進(jìn)行了剪枝蓬抄,并且可以處理連續(xù)的屬性丰嘉,也能對(duì)不完整的數(shù)據(jù)進(jìn)行處理。它可以說(shuō)是決策樹分類中嚷缭,具有里程碑式意義的算法饮亏。
2. 樸素貝葉斯(Naive Bayes)
樸素貝葉斯模型是基于概率論的原理耍贾,它的思想是這樣的:對(duì)于給出的未知物體想要進(jìn)行分類,就需要求解在這個(gè)未知物體出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率路幸,哪個(gè)最大荐开,就認(rèn)為這個(gè)未知物體屬于哪個(gè)分類。
3. SVM
SVM 的中文叫支持向量機(jī)简肴,英文是 Support Vector Machine晃听,簡(jiǎn)稱 SVM。SVM 在訓(xùn)練中建立了一個(gè)超平面的分類模型砰识。如果你對(duì)超平面不理解能扒,沒(méi)有關(guān)系,我在后面的算法篇會(huì)給你進(jìn)行介紹辫狼。
4. KNN
KNN 也叫 K 最近鄰算法初斑,英文是 K-Nearest Neighbor。所謂 K 近鄰膨处,就是每個(gè)樣本都可以用它最接近的 K 個(gè)鄰居來(lái)代表越平。如果一個(gè)樣本,它的 K 個(gè)最接近的鄰居都屬于分類 A灵迫,那么這個(gè)樣本也屬于分類 A。
5. AdaBoost
Adaboost 在訓(xùn)練中建立了一個(gè)聯(lián)合的分類模型晦溪。boost 在英文中代表提升的意思瀑粥,所以 Adaboost 是個(gè)構(gòu)建分類器的提升算法。它可以讓我們多個(gè)弱的分類器組成一個(gè)強(qiáng)的分類器三圆,所以 Adaboost 也是一個(gè)常用的分類算法狞换。
6. CART
CART 代表分類和回歸樹,英文是 Classification and Regression Trees舟肉。像英文一樣修噪,它構(gòu)建了兩棵樹:一顆是分類樹,另一個(gè)是回歸樹路媚。和 C4.5 一樣黄琼,它是一個(gè)決策樹學(xué)習(xí)方法。
7. Apriori
Apriori 是一種挖掘關(guān)聯(lián)規(guī)則(association rules)的算法整慎,它通過(guò)挖掘頻繁項(xiàng)集(frequent item sets)來(lái)揭示物品之間的關(guān)聯(lián)關(guān)系脏款,被廣泛應(yīng)用到商業(yè)挖掘和網(wǎng)絡(luò)安全等領(lǐng)域中。頻繁項(xiàng)集是指經(jīng)常出現(xiàn)在一起的物品的集合裤园,關(guān)聯(lián)規(guī)則暗示著兩種物品之間可能存在很強(qiáng)的關(guān)系撤师。
8. K-Means
K-Means 算法是一個(gè)聚類算法。你可以這么理解拧揽,最終我想把物體劃分成 K 類剃盾。假設(shè)每個(gè)類別里面腺占,都有個(gè)“中心點(diǎn)”,即意見領(lǐng)袖痒谴,它是這個(gè)類別的核心∷ゲ現(xiàn)在我有一個(gè)新點(diǎn)要?dú)w類,這時(shí)候就只要計(jì)算這個(gè)新點(diǎn)與 K 個(gè)中心點(diǎn)的距離闰歪,距離哪個(gè)中心點(diǎn)近嚎研,就變成了哪個(gè)類別。
9. EM
EM 算法也叫最大期望算法,是求參數(shù)的最大似然估計(jì)的一種方法眼姐。原理是這樣的:假設(shè)我們想要評(píng)估參數(shù) A 和參數(shù) B陋率,在開始狀態(tài)下二者都是未知的,并且知道了 A 的信息就可以得到 B 的信息杆勇,反過(guò)來(lái)知道了 B 也就得到了 A”ヒ冢可以考慮首先賦予 A 某個(gè)初值蚜退,以此得到 B 的估值,然后從 B 的估值出發(fā)彪笼,重新估計(jì) A 的取值钻注,這個(gè)過(guò)程一直持續(xù)到收斂為止。
EM 算法經(jīng)常用于聚類和機(jī)器學(xué)習(xí)領(lǐng)域中配猫。
10. PageRank
PageRank 起源于論文影響力的計(jì)算方式幅恋,如果一篇文論被引入的次數(shù)越多,就代表這篇論文的影響力越強(qiáng)泵肄。同樣 PageRank 被 Google 創(chuàng)造性地應(yīng)用到了網(wǎng)頁(yè)權(quán)重的計(jì)算中:當(dāng)一個(gè)頁(yè)面鏈出的頁(yè)面越多捆交,說(shuō)明這個(gè)頁(yè)面的“參考文獻(xiàn)”越多,當(dāng)這個(gè)頁(yè)面被鏈入的頻率越高腐巢,說(shuō)明這個(gè)頁(yè)面被引用的次數(shù)越高品追。基于這個(gè)原理冯丙,我們可以得到網(wǎng)站的權(quán)重劃分肉瓦。
算法可以說(shuō)是數(shù)據(jù)挖掘的靈魂,也是最精華的部分胃惜。這 10 個(gè)經(jīng)典算法在整個(gè)數(shù)據(jù)挖掘領(lǐng)域中的得票最高的风宁,后面的一些其他算法也基本上都是在這個(gè)基礎(chǔ)上進(jìn)行改進(jìn)和創(chuàng)新。今天你先對(duì)十大算法有一個(gè)初步的了解蛹疯,你只需要做到心中有數(shù)就可以了戒财,具體內(nèi)容不理解沒(méi)有關(guān)系,后面我會(huì)詳細(xì)給你進(jìn)行講解捺弦。
三饮寞,數(shù)據(jù)挖掘的數(shù)學(xué)原理
我說(shuō)了這么多數(shù)據(jù)挖掘中的經(jīng)典算法孝扛,但是如果你不了解概率論和數(shù)理統(tǒng)計(jì),還是很難掌握算法的本質(zhì)幽崩;如果你不懂線性代數(shù)苦始,就很難理解矩陣和向量運(yùn)作在數(shù)據(jù)挖掘中的價(jià)值;如果你沒(méi)有最優(yōu)化方法的概念慌申,就對(duì)迭代收斂理解不深陌选。所以說(shuō),想要更深刻地理解數(shù)據(jù)挖掘的方法蹄溉,就非常有必要了解它后背的數(shù)學(xué)原理咨油。
1. 概率論與數(shù)理統(tǒng)計(jì)
概率論在我們上大學(xué)的時(shí)候,基本上都學(xué)過(guò)柒爵,不過(guò)大學(xué)里老師教的內(nèi)容役电,偏概率的多一些,統(tǒng)計(jì)部分講得比較少棉胀。在數(shù)據(jù)挖掘里使用到概率論的地方就比較多了法瑟。比如條件概率、獨(dú)立性的概念唁奢,以及隨機(jī)變量霎挟、多維隨機(jī)變量的概念。
很多算法的本質(zhì)都與概率論相關(guān)麻掸,所以說(shuō)概率論與數(shù)理統(tǒng)計(jì)是數(shù)據(jù)挖掘的重要數(shù)學(xué)基礎(chǔ)酥夭。
2. 線性代數(shù)
向量和矩陣是線性代數(shù)中的重要知識(shí)點(diǎn),它被廣泛應(yīng)用到數(shù)據(jù)挖掘中论笔,比如我們經(jīng)常會(huì)把對(duì)象抽象為矩陣的表示,一幅圖像就可以抽象出來(lái)是一個(gè)矩陣千所,我們也經(jīng)常計(jì)算特征值和特征向量狂魔,用特征向量來(lái)近似代表物體的特征。這個(gè)是大數(shù)據(jù)降維的基本思路淫痰。
基于矩陣的各種運(yùn)算最楷,以及基于矩陣的理論成熟,可以幫我們解決很多實(shí)際問(wèn)題待错,比如 PCA 方法籽孙、SVD 方法,以及 MF火俄、NMF 方法等在數(shù)據(jù)挖掘中都有廣泛的應(yīng)用犯建。
3. 圖論
社交網(wǎng)絡(luò)的興起,讓圖論的應(yīng)用也越來(lái)越廣瓜客。人與人的關(guān)系适瓦,可以用圖論上的兩個(gè)節(jié)點(diǎn)來(lái)進(jìn)行連接竿开,節(jié)點(diǎn)的度可以理解為一個(gè)人的朋友數(shù)。我們都聽說(shuō)過(guò)人脈的六度理論玻熙,在 Facebook 上被證明平均一個(gè)人與另一個(gè)人的連接否彩,只需要 3.57 個(gè)人。當(dāng)然圖論對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)的分析非常有效嗦随,同時(shí)圖論也在關(guān)系挖掘和圖像分割中有重要的作用列荔。
4. 最優(yōu)化方法
最優(yōu)化方法相當(dāng)于機(jī)器學(xué)習(xí)中自我學(xué)習(xí)的過(guò)程,當(dāng)機(jī)器知道了目標(biāo)枚尼,訓(xùn)練后與結(jié)果存在偏差就需要迭代調(diào)整贴浙,那么最優(yōu)化就是這個(gè)調(diào)整的過(guò)程。一般來(lái)說(shuō)姑原,這個(gè)學(xué)習(xí)和迭代的過(guò)程是漫長(zhǎng)悬而、隨機(jī)的。最優(yōu)化方法的提出就是用更短的時(shí)間得到收斂锭汛,取得更好的效果笨奠。
總結(jié)
今天我列了下學(xué)習(xí)數(shù)據(jù)挖掘你要掌握的知識(shí)清單,只有你對(duì)數(shù)據(jù)挖掘的流程唤殴、算法般婆、原理有更深的理解,你才能在實(shí)際工作中更好地運(yùn)用朵逝,我將在后面的章節(jié)中對(duì)它們進(jìn)行一一介紹蔚袍。
最后給你留道思考題吧。
今天我給你講了如何學(xué)習(xí)數(shù)據(jù)挖掘配名,你從中有什么樣的體會(huì)呢啤咽?如果某電商網(wǎng)站想挖掘商品之間的關(guān)聯(lián)關(guān)系,從而提升銷售額渠脉,你覺得可以采用上面的哪個(gè)算法宇整?為什么?
寫留言
精選留言
vincent
6
數(shù)學(xué)太差芋膘,畢業(yè)很久了怎么學(xué)習(xí)呢鳞青?
2018-12-19
作者回復(fù)
不用擔(dān)心,很多人都有這個(gè)問(wèn)題为朋。我覺得你可以嘗試:
1臂拓、培養(yǎng)興趣:興趣是最好的老師,我們大自然的很多科學(xué)都是和數(shù)學(xué)相關(guān)习寸,比如為什么雪花是六邊形胶惰?
2、刻意訓(xùn)練:你不需要通過(guò)做項(xiàng)目來(lái)做完整的數(shù)學(xué)訓(xùn)練霞溪,比如你和朋友去吃飯的時(shí)候童番,你可以腦算下一共花了多少錢精钮?很多時(shí)候,心算是數(shù)學(xué)的一個(gè)能力
3剃斧、價(jià)值暗示:數(shù)學(xué)可以幫你很多轨香,尤其是在算法效率、代碼質(zhì)量上幼东。很明顯臂容,數(shù)學(xué)好的人,寫出來(lái)的算法效率也更高根蟹。
所以一個(gè)代碼完成后脓杉,你可以問(wèn)自己個(gè)問(wèn)題:還有沒(méi)有更好的方法?
2018-12-19
五岳尋仙
2
總結(jié)與思考:
1. 商業(yè)理解:如老師之前所講简逮,數(shù)據(jù)挖掘是工具球散,要么幫我批處理,要么拓展我們思考的規(guī)模散庶。也就是說(shuō)問(wèn)題本身是人能夠處理得了的蕉堰,只是受限與時(shí)間太長(zhǎng)或者規(guī)模太大,需要借助計(jì)算機(jī)悲龟。人工智能是人思考的放大屋讶,如果一個(gè)問(wèn)題人都想不通,指望借助人工智能算法解決须教,目前恐怕還不現(xiàn)實(shí)皿渗。遇到問(wèn)題,首先要“商業(yè)理解”轻腺,形成一個(gè)思路乐疆,然后考慮如何借助算法。
2. 問(wèn)題歸類:要解決的問(wèn)題是屬于分類贬养,回歸挤土,聚類,還是關(guān)聯(lián)分析等煤蚌。每種類別的問(wèn)題都有相對(duì)應(yīng)的算法耕挨。不過(guò)有時(shí)候细卧,對(duì)數(shù)據(jù)做不同的處理尉桩,能使問(wèn)題適用于不同的算法。
3. 數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)準(zhǔn)備已經(jīng)能提現(xiàn)個(gè)人思想了贪庙,處理常規(guī)的缺失值處理蜘犁、標(biāo)準(zhǔn)化/歸一化,更重要的是所謂的“特征工程”止邮,它決定了數(shù)據(jù)呈現(xiàn)的方式这橙。同樣的數(shù)據(jù)奏窑,呈現(xiàn)方式不同,算法學(xué)到的東西也不同屈扎。
4. 模型評(píng)估埃唯。有很多不同的評(píng)估指標(biāo),需要根據(jù)具體問(wèn)題選擇鹰晨。模型的訓(xùn)練是一個(gè)最優(yōu)化問(wèn)題墨叛,目標(biāo)不同,優(yōu)化的方向也不同模蜡。
課后思考題:
根據(jù)老師文中講到的方法漠趁,我覺得有如下這些方法可以用來(lái)做商品間關(guān)聯(lián)分析:
1. Apriori:文中提到是通過(guò)挖掘頻繁項(xiàng)集,來(lái)揭示商品間關(guān)系忍疾。(不太了解這個(gè)算法闯传,期待后續(xù)學(xué)習(xí))
2. KNN:通過(guò)臨近商品,判斷該商品的特征卤妒。我不確定是否試用甥绿,但感覺應(yīng)該能解釋商品間的相似性。
以上是自己對(duì)課程的理解荚孵,有不對(duì)的地方妹窖,請(qǐng)老師和大家指正。
2018-12-19
房經(jīng)寶
1
C4.5算法中的剪枝是什么意思收叶?機(jī)器學(xué)習(xí)中的梯度下降法是不是也是以最優(yōu)化方法為數(shù)學(xué)基礎(chǔ)的骄呼?
2018-12-19
章靜
1
(1)數(shù)據(jù)挖掘?qū)W習(xí)方法體會(huì):有了知識(shí)清單,相當(dāng)于有了一個(gè)系統(tǒng)思維在那判没,對(duì)快速識(shí)別問(wèn)題的確很有幫助~很好的方法方便實(shí)踐蜓萄,就像巴菲特和芒格的投資是使用的公司盡調(diào)清單一樣,MECE的解決問(wèn)題
(2)基于電商商品的關(guān)聯(lián)進(jìn)行推薦從而提高銷售的話澄峰,個(gè)人認(rèn)為是Apriori算法嫉沽,其為了提取頻繁項(xiàng)集和一定置信度的關(guān)聯(lián)規(guī)則,即用戶購(gòu)買了X產(chǎn)品有多大概率去買Y俏竞,根據(jù)置信度高的原則推薦
2018-12-19
作者回復(fù)
總結(jié)的很好绸硕,大家可以看下。尤其是用到了MECE原則
2018-12-19
一個(gè)小機(jī)靈鬼
0
我現(xiàn)在是在校學(xué)生魂毁,我想問(wèn)一下對(duì)于概率論和線代想要學(xué)好數(shù)據(jù)分析需要學(xué)到什么程度
2018-12-19
印第安老斑鳩
0
沒(méi)有接受過(guò)概率論和線性代數(shù)的學(xué)習(xí)玻佩,能跟上課程嗎
2018-12-19
作者回復(fù)
可以的 放心吧
2018-12-19
チカラ
0
數(shù)據(jù)挖掘感覺是整個(gè)流程中類似發(fā)動(dòng)機(jī)引擎一樣的作用,應(yīng)該要先要針對(duì)自己想要分析的問(wèn)題的進(jìn)行抽象出來(lái)后席楚,再想要去挖掘哪方面的數(shù)據(jù)吧咬崔。那么多算法,還不怎么了解,看起來(lái)得自己先補(bǔ)補(bǔ)課垮斯。郎仆。
2018-12-19
作者回復(fù)
慢慢來(lái) 每次課程都跟上 及時(shí)整理筆記 養(yǎng)成好習(xí)慣
2018-12-19
蔣三折
0
感謝老師,讓我這樣只學(xué)過(guò)一點(diǎn)醫(yī)藥統(tǒng)計(jì)學(xué)兜蠕,轉(zhuǎn)型無(wú)門的小白有機(jī)會(huì)系統(tǒng)地學(xué)習(xí)數(shù)據(jù)分析扰肌。
以下是幾點(diǎn)疑問(wèn):
1 可以看到分類算法最多,也就是說(shuō)分類是數(shù)據(jù)挖掘中最難的熊杨?或者說(shuō)不同的需求下分類的要求不同導(dǎo)致了不同分類方法的產(chǎn)生狡耻?是不是用不同的分類方法做同一個(gè)項(xiàng)目得出的結(jié)果也會(huì)不同呢?
2 什么叫“減枝”猴凹?連續(xù)的屬性夷狰,是不是指身高之類的具有連續(xù)性的數(shù)據(jù)?
3 KNN算法中郊霎,怎么樣算作“近鄰”呢沼头?那“分散的”數(shù)據(jù)也能用這種算法嗎?是不是只適用于有序的數(shù)據(jù)呢书劝?
4 Apriori在網(wǎng)絡(luò)安全中的應(yīng)用进倍,是不是可以實(shí)現(xiàn)類似于米國(guó)當(dāng)年波士頓爆炸案之后,因?yàn)橘I了個(gè)高壓鍋被查水表购对,這樣的操作猾昆?
以上,謝謝骡苞!~
2018-12-19
作者回復(fù)
1垂蜗、關(guān)于分類算法
這些分類算法都是工具,出發(fā)點(diǎn)是他們看待“分類”的視角不同解幽,并不代表這些結(jié)構(gòu)是不同的贴见,當(dāng)然模型算法有適合與否,需要你來(lái)驗(yàn)證哪個(gè)算法針對(duì)你的問(wèn)題是有效的
分類算法涉及到數(shù)學(xué)原理躲株,也不能說(shuō)是最難的片部,當(dāng)你懂了這些原理之后,就會(huì)容易很多
2霜定、關(guān)于連續(xù)屬性和剪枝
你說(shuō)的沒(méi)錯(cuò)档悠,身高這種存在可以無(wú)限分割的數(shù)值可能時(shí),就是連續(xù)屬性望浩。
剪枝辖所,是避免過(guò)擬合的一種方式。這個(gè)在決策樹里曾雕,我會(huì)講到奴烙。你先記住這個(gè)概念就好
3助被、關(guān)于KNN
你可以想象一幅畫面剖张,如果一個(gè)畫面上有很多點(diǎn)切诀。那么距離點(diǎn)A,一定會(huì)有K個(gè)鄰居搔弄。當(dāng)然這個(gè)距離你可以自己來(lái)定義(通常使用歐氏距離或曼哈頓距離)幅虑。在實(shí)際操作工程中,你也會(huì)給出定義距離的計(jì)算方式顾犹,這樣就可以比較遠(yuǎn)近了
4倒庵、關(guān)于Apriori案例
你說(shuō)的這個(gè)是個(gè)有趣的例子!把高壓鍋和爆炸物進(jìn)行了關(guān)聯(lián)
感謝你的分享
2018-12-19
sarach
0
一直對(duì)數(shù)據(jù)挖掘感興趣炫刷,但沒(méi)有找到合適的學(xué)習(xí)方法擎宝,通過(guò)這節(jié)課 系統(tǒng)的對(duì)數(shù)據(jù)挖掘算法整體有了個(gè)認(rèn)識(shí);希望之后的每一天都可以進(jìn)步·~
課后思考題:
我覺得可以采用? ‘樸素貝葉斯(Naive Bayes)’? 對(duì)商品進(jìn)行分類浑玛;
? ? ? ? ? ? ? ? ? ? ? ‘ KNN ’ 商品的分類 鄰近算法 知道有哪些相關(guān)的 分類绍申;
? ? ? ? ? ? ? ? ? ? ? 使用關(guān)聯(lián)Apriori 算法 對(duì)購(gòu)買過(guò)相關(guān)品類的人進(jìn)行推薦;來(lái)提升銷售額顾彰;
麻煩老師點(diǎn)評(píng)是否正確极阅?
2018-12-19
小熊貓
0
請(qǐng)問(wèn)有哪些書單或者網(wǎng)站可以推薦呢?希望后面能出一節(jié)介紹下一些書單和網(wǎng)站
2018-12-19
草莓味冰糕
0
①知識(shí)體系的構(gòu)建非常重要涨享,通過(guò)數(shù)據(jù)挖掘的基本流程筋搏,將算法與實(shí)際應(yīng)用連接起來(lái)的能力對(duì)一個(gè)數(shù)據(jù)分析師是十分重要的。
②電商想挖掘的商品之間的聯(lián)系厕隧,很像以前所聽說(shuō)過(guò)的購(gòu)物籃子分析奔脐,記得的例子有為什么超市將啤酒和紙尿褲、面包和牛奶放在臨近的地方吁讨,利用的算法Apriori算法帖族,計(jì)算各頻繁項(xiàng)同時(shí)發(fā)生的概率,就能很好的給客戶推薦其想要一起購(gòu)買的商品挡爵。也可以利用Apriori算法竖般,組建電商針對(duì)客戶的購(gòu)物套餐等。
2018-12-19
0
我覺得應(yīng)該是關(guān)聯(lián)分析算法茶鹃,比如說(shuō)Apriori關(guān)聯(lián)規(guī)則算法涣雕,一般提到這一挖掘算法就想到經(jīng)典的“啤酒魚尿布”的案例,這跟老師所提出的某電商網(wǎng)站想挖掘商品之間的關(guān)聯(lián)關(guān)系闭翩,從而提升銷售額的問(wèn)題是類似的挣郭。此外,目前應(yīng)用的比較熱的就是協(xié)同過(guò)濾方法疗韵,包括基于用戶的和基于商品的兑障,這個(gè)應(yīng)用也是十分廣泛。此外,想請(qǐng)教老師:商品推薦中冷啟動(dòng)的問(wèn)題有什么比較好的方法流译?謝謝
2018-12-19
魚魚魚培填
0
感覺要學(xué)習(xí)的東西還很多逞怨,算法的理解需要數(shù)學(xué)原理的支撐,老師講解算法的時(shí)候是否會(huì)詳解運(yùn)用的數(shù)學(xué)原理呢福澡?
思考題:關(guān)聯(lián)關(guān)系首先就想到使用Apriori叠赦,覺得樸素貝葉斯也可以,因?yàn)檫@個(gè)算法也可以對(duì)商品分類革砸,挖掘商品的關(guān)聯(lián)除秀。剛學(xué)習(xí),對(duì)算法理解不深算利,希望老師指正
在@Alex王偉健的基礎(chǔ)上整理了筆記 https://mubu.com/doc/iAUqDB8iIf册踩,希望大家能相互交流
2018-12-19
作者回復(fù)
感謝分享,Apriori和貝葉斯網(wǎng)絡(luò) 都是不錯(cuò)的思路效拭」骱茫基于貝葉斯網(wǎng)絡(luò)也可以做推薦算法。Apriori應(yīng)該算是“購(gòu)物籃問(wèn)題”中常用的算法
2018-12-19
告別流浪的喵
0
K-Means(先聚類)允耿、(KNN)再分類借笙、以及Apriori算法,可以用來(lái)做商品分析较锡。
2018-12-19
Destroy业稼、
0
EM 算法也叫最大期望算法,是求參數(shù)的最大似然估計(jì)的一種方法蚂蕴。這句話中的最大似然估計(jì)我一開始還以為是寫錯(cuò)了低散,后來(lái)查了下原來(lái)‘最大似然估計(jì)’是一種統(tǒng)計(jì)方法。
課后題:Apriori
2018-12-19
作者回復(fù)
對(duì)的 似然就是可能性的意思骡楼,其實(shí)如果說(shuō)“最大可能性估計(jì)”一般人都能理解熔号,不過(guò)術(shù)語(yǔ)上,我們還是叫“最大似然估計(jì)”
2018-12-19
AaronYu
0
體會(huì):數(shù)據(jù)挖掘需要概率論與數(shù)理統(tǒng)計(jì)鸟整,線性代數(shù)等底層數(shù)學(xué)知識(shí)作為基礎(chǔ)引镊。另外,數(shù)據(jù)挖掘只是一個(gè)手段篮条,工具弟头,是要來(lái)完成我們對(duì)業(yè)務(wù)的訴求的,不可本末倒置涉茧。
思考題:采用 Apriori 算法赴恨,通過(guò)挖掘頻繁項(xiàng)集來(lái)揭示商品間的關(guān)聯(lián)關(guān)系,很適用于電商網(wǎng)站分析商品伴栓。
2018-12-19
作者回復(fù)
同意你的分享伦连,很多人不知道如何解決業(yè)務(wù)問(wèn)題雨饺,就認(rèn)為是工具沒(méi)掌握,或者工具使用有問(wèn)題惑淳。其實(shí)這些工具就是分類器额港。他們只是工具,還是要從“業(yè)務(wù)”角度去理解
2018-12-19
斌
0
一汛聚、關(guān)聯(lián)分析:Apriori算法。理由是它通過(guò)挖掘經(jīng)常一起出現(xiàn)的事物短荐,來(lái)揭示他們之間某種強(qiáng)相關(guān)性倚舀,那么商品之間的關(guān)系也可以利用此算法,就好比牙膏和牙刷忍宋,把二者放在同一個(gè)區(qū)域肯定是符合邏輯的痕貌。
二、連接分析:PageRank算法糠排。這種算法更多應(yīng)該是電商商品的相關(guān)性分析舵稠,例如淘寶,它在下面有一欄是猜你喜歡入宦,鏈接到別的商品哺徊。
數(shù)據(jù)挖掘最關(guān)鍵的點(diǎn):算法及其背后的數(shù)學(xué)原理。
難點(diǎn):如何選擇挖掘模型乾闰,我覺得這個(gè)需要通過(guò)實(shí)踐→總結(jié)思考→再實(shí)踐→再總結(jié)思考→......落追,不斷地循環(huán)迭代的過(guò)程。
2018-12-19
作者回復(fù)
感謝分享涯肩,PageRank你可以抽象是PR的縮寫轿钠,你應(yīng)該知道PR值代表的什么?PR值是衡量一個(gè)事物影響力的指標(biāo)病苗。比如網(wǎng)站的PR值
Apriori算法是最直觀的關(guān)聯(lián)分析算法疗垛,它的提出是用來(lái)解決“購(gòu)物籃問(wèn)題”。同樣你提到了“猜你喜歡”硫朦,這是個(gè)很好的思路贷腕,一般在電商網(wǎng)站里使用的是推薦算法,這個(gè)在后面我會(huì)講到
2018-12-19
德勝
0
KNN咬展,Apriori花履,K-Means,EM感覺都可以用于電商物品關(guān)聯(lián)
2018-12-19
作者回復(fù)
Apriori是更常用的“購(gòu)物籃問(wèn)題”解決方案挚赊,它的提出就是解決商品之間的關(guān)聯(lián)關(guān)系诡壁。KNN是分類算法,和K-Means, EM這兩種聚類算法還是有些區(qū)別荠割。K-Means, EM這兩個(gè)聚類方法在電商里做客群聚類比較多
2018-12-19
tinn
0
老師有推薦的關(guān)于數(shù)據(jù)分析方面的學(xué)習(xí)論壇或者博客嗎妹卿?謝謝老師回復(fù):)
2018-12-19
NaNa
0
Apriori和Pagerank
2018-12-19
frazer
0
關(guān)聯(lián)算法Apriori肯定是要用的
2018-12-19
作者回復(fù)
是的 這個(gè)場(chǎng)景是最常用的
2018-12-19
可樂(lè)不甜
0
用樸素貝葉斯對(duì)商品關(guān)系進(jìn)行分類
2018-12-19
可樂(lè)不甜
0
數(shù)據(jù)挖掘算法很多旺矾,對(duì)其中一些算法有一定了解。但是不是這些算法就夠了呢
2018-12-19
作者回復(fù)
算法有很多夺克,還有隨機(jī)森林箕宙,xgboost,邏輯回歸铺纽,深度學(xué)習(xí)柬帕。文章中提到的10大算法是最經(jīng)典的算法。其他算法在實(shí)際工作中狡门,也會(huì)接觸到陷寝。算法看起來(lái)很多,當(dāng)你明白原理后其馏,在python中就是一行代碼的問(wèn)題
2018-12-19
風(fēng)翱
0
Apriori和K-Means凤跑,聚類和關(guān)聯(lián)。
看到其他人的回復(fù)叛复,都是在說(shuō)數(shù)據(jù)基礎(chǔ)弱仔引,或者基礎(chǔ)較為一般『职拢看課程咖耘,數(shù)據(jù)基礎(chǔ)還是挺重要的。 請(qǐng)問(wèn)這部分怎么補(bǔ)呢撬码? 還是后續(xù)的課程中會(huì)有對(duì)應(yīng)的分析和補(bǔ)充相關(guān)的知識(shí)點(diǎn)和資料信息鲤看。
2018-12-19
微光lu
0
關(guān)聯(lián)分析,用來(lái)探究商品之間的潛在聯(lián)系
2018-12-19
奶爸奶爸
0
老師的思路非常清晰耍群,期待后續(xù)更精彩的內(nèi)容义桂。
另外我想問(wèn)一個(gè)無(wú)關(guān)的問(wèn)題,老師圖為什么做得做么漂亮蹈垢?是工具好慷吊, 還是和思路有關(guān)系?有沒(méi)有什么經(jīng)驗(yàn)可以介紹下曹抬?
2018-12-19
作者回復(fù)
首先你需要確定一個(gè)圖片的風(fēng)格溉瓶,比如小清新的風(fēng)格,以及相應(yīng)的色調(diào)
制作上:你可以使用XMind思維導(dǎo)圖工具谤民,它幫你做一些簡(jiǎn)單的美化
當(dāng)然堰酿,最好的體驗(yàn),還是要自己親自動(dòng)手张足,專欄的圖片都是編輯自己手工制作的触创,這里要感謝下編輯。里面用到了一些手寫字體
2018-12-19
larry
0
關(guān)聯(lián)分析为牍?
2018-12-19
作者回復(fù)
對(duì)的 關(guān)聯(lián)分析是個(gè)比較顯性的算法哼绑,Apriori算法的提出就是來(lái)解決這個(gè)問(wèn)題的岩馍。當(dāng)然在推薦算法里,除了關(guān)聯(lián)分析抖韩,還有協(xié)同過(guò)濾≈鳎現(xiàn)在很多電商網(wǎng)站也會(huì)用到協(xié)同過(guò)濾,從而發(fā)現(xiàn)基于商品之間的關(guān)聯(lián)關(guān)系
2018-12-19
陳波
0
從初步理解茂浮,Apriori 挖掘關(guān)聯(lián)規(guī)則的算法双谆,這個(gè)是答案,但是感覺不是絕對(duì)
2018-12-19
作者回復(fù)
是的席揽!Apriori算法是關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法顽馋,當(dāng)然也存在其他關(guān)聯(lián)分析的算法。關(guān)聯(lián)分析算法的創(chuàng)建就是用來(lái)解決“購(gòu)物籃問(wèn)題”驹尼。如果面試官問(wèn)你這個(gè)題目趣避,你回答這個(gè)就可以了庞呕。不過(guò)你可以考慮不同的維度新翎,比如推薦算法,聚類算法住练,因?yàn)樵趯?shí)際工作中地啰,你可能會(huì)使用到多個(gè)算法幫你解決不同問(wèn)題。
比如在一個(gè)產(chǎn)品中讲逛,你會(huì)用到推薦算法幫你做商品推薦亏吝,也會(huì)用到聚類算法幫你來(lái)做客群分析,這些算法的結(jié)果都可能會(huì)對(duì)“購(gòu)物籃問(wèn)題”有幫助盏混。
2018-12-19
無(wú)法言喻.
0
基于物品的協(xié)同過(guò)濾蔚鸥,用關(guān)聯(lián)分析?
2018-12-19
作者回復(fù)
很好的思路许赃,關(guān)聯(lián)分析是最主要的止喷,同時(shí)也可以從基于物品的協(xié)同過(guò)濾來(lái)考慮
2018-12-19
Jane
0
隨機(jī)森林,xgboost這種在經(jīng)典算法基礎(chǔ)上衍生出來(lái)的算法老師能不能在講基礎(chǔ)算法的時(shí)候拓展介紹一下啊混聊。
應(yīng)該可以通過(guò)Apriori將相關(guān)商品關(guān)聯(lián)起來(lái)弹谁,比如亞馬遜“購(gòu)買過(guò)此類商品的人通常也會(huì)購(gòu)買”這種商品推薦。
2018-12-19
作者回復(fù)
很好的建議句喜!其實(shí)不光是隨機(jī)森林预愤,xgboost,還有邏輯回歸都是很常用的算法咳胃,有時(shí)間一起介紹下
2018-12-19
MJKlose
0
apriori算法植康,它是用來(lái)揭示物品的關(guān)聯(lián)關(guān)系,在電商網(wǎng)站中展懈,我們不希望用戶只購(gòu)買一件商品就走了向图,而是希望他能多購(gòu)買幾件泳秀,我們需要向用戶推薦合適且關(guān)聯(lián)關(guān)系強(qiáng)的商品,這樣用戶才會(huì)喜歡樂(lè)意購(gòu)買
2018-12-19
作者回復(fù)
Apriori是常用的關(guān)聯(lián)分析算法榄攀,通過(guò)也可以從推薦算法(協(xié)同過(guò)濾)的角度進(jìn)行考慮