讀書計(jì)劃- 數(shù)據(jù)分析實(shí)戰(zhàn)45講?|?02丨學(xué)習(xí)數(shù)據(jù)挖掘的最佳路徑是什么?20181224

一稻薇,數(shù)據(jù)挖掘的基本流程

在正式講數(shù)據(jù)挖掘知識(shí)清單之前嫂冻,我先和你聊聊數(shù)據(jù)挖掘的基本流程。

數(shù)據(jù)挖掘的過(guò)程可以分成以下 6 個(gè)步驟塞椎。

1. 商業(yè)理解:數(shù)據(jù)挖掘不是我們的目的桨仿,我們的目的是更好地幫助業(yè)務(wù),所以第一步我們要從商業(yè)的角度理解項(xiàng)目需求案狠,在這個(gè)基礎(chǔ)上服傍,再對(duì)數(shù)據(jù)挖掘的目標(biāo)進(jìn)行定義。

2. 數(shù)據(jù)理解:嘗試收集部分?jǐn)?shù)據(jù)骂铁,然后對(duì)數(shù)據(jù)進(jìn)行探索吹零,包括數(shù)據(jù)描述、數(shù)據(jù)質(zhì)量驗(yàn)證等从铲。這有助于你對(duì)收集的數(shù)據(jù)有個(gè)初步的認(rèn)知瘪校。

3. 數(shù)據(jù)準(zhǔn)備:開始收集數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行清洗、數(shù)據(jù)集成等操作阱扬,完成數(shù)據(jù)挖掘前的準(zhǔn)備工作泣懊。

4. 模型建立:選擇和應(yīng)用各種數(shù)據(jù)挖掘模型,并進(jìn)行優(yōu)化麻惶,以便得到更好的分類結(jié)果馍刮。

5. 模型評(píng)估:對(duì)模型進(jìn)行評(píng)價(jià),并檢查構(gòu)建模型的每個(gè)步驟窃蹋,確認(rèn)模型是否實(shí)現(xiàn)了預(yù)定的商業(yè)目標(biāo)卡啰。

6. 上線發(fā)布:模型的作用是從數(shù)據(jù)中找到金礦,也就是我們所說(shuō)的“知識(shí)”警没,獲得的知識(shí)需要轉(zhuǎn)化成用戶可以使用的方式匈辱,呈現(xiàn)的形式可以是一份報(bào)告,也可以是實(shí)現(xiàn)一個(gè)比較復(fù)雜的杀迹、可重復(fù)的數(shù)據(jù)挖掘過(guò)程亡脸。數(shù)據(jù)挖掘結(jié)果如果是日常運(yùn)營(yíng)的一部分,那么后續(xù)的監(jiān)控和維護(hù)就會(huì)變得重要树酪。

二浅碾,數(shù)據(jù)挖掘的十大算法

為了進(jìn)行數(shù)據(jù)挖掘任務(wù),數(shù)據(jù)科學(xué)家們提出了各種模型续语,在眾多的數(shù)據(jù)挖掘模型中垂谢,國(guó)際權(quán)威的學(xué)術(shù)組織 ICDM (the IEEE International Conference on Data Mining)評(píng)選出了十大經(jīng)典的算法。

按照不同的目的疮茄,我可以將這些算法分成四類滥朱,以便你更好的理解。

l 分類算法:C4.5力试,樸素貝葉斯(Naive Bayes)焚虱,SVM,KNN懂版,Adaboost鹃栽,CART

l 聚類算法:K-Means,EM

l 關(guān)聯(lián)分析:Apriori

l 連接分析:PageRank

1. C4.5

C4.5 算法是得票最高的算法躯畴,可以說(shuō)是十大算法之首民鼓。C4.5 是決策樹的算法,它創(chuàng)造性地在決策樹構(gòu)造過(guò)程中就進(jìn)行了剪枝蓬抄,并且可以處理連續(xù)的屬性丰嘉,也能對(duì)不完整的數(shù)據(jù)進(jìn)行處理。它可以說(shuō)是決策樹分類中嚷缭,具有里程碑式意義的算法饮亏。

2. 樸素貝葉斯(Naive Bayes)

樸素貝葉斯模型是基于概率論的原理耍贾,它的思想是這樣的:對(duì)于給出的未知物體想要進(jìn)行分類,就需要求解在這個(gè)未知物體出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率路幸,哪個(gè)最大荐开,就認(rèn)為這個(gè)未知物體屬于哪個(gè)分類。

3. SVM

SVM 的中文叫支持向量機(jī)简肴,英文是 Support Vector Machine晃听,簡(jiǎn)稱 SVM。SVM 在訓(xùn)練中建立了一個(gè)超平面的分類模型砰识。如果你對(duì)超平面不理解能扒,沒(méi)有關(guān)系,我在后面的算法篇會(huì)給你進(jìn)行介紹辫狼。

4. KNN

KNN 也叫 K 最近鄰算法初斑,英文是 K-Nearest Neighbor。所謂 K 近鄰膨处,就是每個(gè)樣本都可以用它最接近的 K 個(gè)鄰居來(lái)代表越平。如果一個(gè)樣本,它的 K 個(gè)最接近的鄰居都屬于分類 A灵迫,那么這個(gè)樣本也屬于分類 A。

5. AdaBoost

Adaboost 在訓(xùn)練中建立了一個(gè)聯(lián)合的分類模型晦溪。boost 在英文中代表提升的意思瀑粥,所以 Adaboost 是個(gè)構(gòu)建分類器的提升算法。它可以讓我們多個(gè)弱的分類器組成一個(gè)強(qiáng)的分類器三圆,所以 Adaboost 也是一個(gè)常用的分類算法狞换。

6. CART

CART 代表分類和回歸樹,英文是 Classification and Regression Trees舟肉。像英文一樣修噪,它構(gòu)建了兩棵樹:一顆是分類樹,另一個(gè)是回歸樹路媚。和 C4.5 一樣黄琼,它是一個(gè)決策樹學(xué)習(xí)方法。

7. Apriori

Apriori 是一種挖掘關(guān)聯(lián)規(guī)則(association rules)的算法整慎,它通過(guò)挖掘頻繁項(xiàng)集(frequent item sets)來(lái)揭示物品之間的關(guān)聯(lián)關(guān)系脏款,被廣泛應(yīng)用到商業(yè)挖掘和網(wǎng)絡(luò)安全等領(lǐng)域中。頻繁項(xiàng)集是指經(jīng)常出現(xiàn)在一起的物品的集合裤园,關(guān)聯(lián)規(guī)則暗示著兩種物品之間可能存在很強(qiáng)的關(guān)系撤师。

8. K-Means

K-Means 算法是一個(gè)聚類算法。你可以這么理解拧揽,最終我想把物體劃分成 K 類剃盾。假設(shè)每個(gè)類別里面腺占,都有個(gè)“中心點(diǎn)”,即意見領(lǐng)袖痒谴,它是這個(gè)類別的核心∷ゲ現(xiàn)在我有一個(gè)新點(diǎn)要?dú)w類,這時(shí)候就只要計(jì)算這個(gè)新點(diǎn)與 K 個(gè)中心點(diǎn)的距離闰歪,距離哪個(gè)中心點(diǎn)近嚎研,就變成了哪個(gè)類別。

9. EM

EM 算法也叫最大期望算法,是求參數(shù)的最大似然估計(jì)的一種方法眼姐。原理是這樣的:假設(shè)我們想要評(píng)估參數(shù) A 和參數(shù) B陋率,在開始狀態(tài)下二者都是未知的,并且知道了 A 的信息就可以得到 B 的信息杆勇,反過(guò)來(lái)知道了 B 也就得到了 A”ヒ冢可以考慮首先賦予 A 某個(gè)初值蚜退,以此得到 B 的估值,然后從 B 的估值出發(fā)彪笼,重新估計(jì) A 的取值钻注,這個(gè)過(guò)程一直持續(xù)到收斂為止。

EM 算法經(jīng)常用于聚類和機(jī)器學(xué)習(xí)領(lǐng)域中配猫。

10. PageRank

PageRank 起源于論文影響力的計(jì)算方式幅恋,如果一篇文論被引入的次數(shù)越多,就代表這篇論文的影響力越強(qiáng)泵肄。同樣 PageRank 被 Google 創(chuàng)造性地應(yīng)用到了網(wǎng)頁(yè)權(quán)重的計(jì)算中:當(dāng)一個(gè)頁(yè)面鏈出的頁(yè)面越多捆交,說(shuō)明這個(gè)頁(yè)面的“參考文獻(xiàn)”越多,當(dāng)這個(gè)頁(yè)面被鏈入的頻率越高腐巢,說(shuō)明這個(gè)頁(yè)面被引用的次數(shù)越高品追。基于這個(gè)原理冯丙,我們可以得到網(wǎng)站的權(quán)重劃分肉瓦。

算法可以說(shuō)是數(shù)據(jù)挖掘的靈魂,也是最精華的部分胃惜。這 10 個(gè)經(jīng)典算法在整個(gè)數(shù)據(jù)挖掘領(lǐng)域中的得票最高的风宁,后面的一些其他算法也基本上都是在這個(gè)基礎(chǔ)上進(jìn)行改進(jìn)和創(chuàng)新。今天你先對(duì)十大算法有一個(gè)初步的了解蛹疯,你只需要做到心中有數(shù)就可以了戒财,具體內(nèi)容不理解沒(méi)有關(guān)系,后面我會(huì)詳細(xì)給你進(jìn)行講解捺弦。

三饮寞,數(shù)據(jù)挖掘的數(shù)學(xué)原理

我說(shuō)了這么多數(shù)據(jù)挖掘中的經(jīng)典算法孝扛,但是如果你不了解概率論和數(shù)理統(tǒng)計(jì),還是很難掌握算法的本質(zhì)幽崩;如果你不懂線性代數(shù)苦始,就很難理解矩陣和向量運(yùn)作在數(shù)據(jù)挖掘中的價(jià)值;如果你沒(méi)有最優(yōu)化方法的概念慌申,就對(duì)迭代收斂理解不深陌选。所以說(shuō),想要更深刻地理解數(shù)據(jù)挖掘的方法蹄溉,就非常有必要了解它后背的數(shù)學(xué)原理咨油。

1. 概率論與數(shù)理統(tǒng)計(jì)

概率論在我們上大學(xué)的時(shí)候,基本上都學(xué)過(guò)柒爵,不過(guò)大學(xué)里老師教的內(nèi)容役电,偏概率的多一些,統(tǒng)計(jì)部分講得比較少棉胀。在數(shù)據(jù)挖掘里使用到概率論的地方就比較多了法瑟。比如條件概率、獨(dú)立性的概念唁奢,以及隨機(jī)變量霎挟、多維隨機(jī)變量的概念。

很多算法的本質(zhì)都與概率論相關(guān)麻掸,所以說(shuō)概率論與數(shù)理統(tǒng)計(jì)是數(shù)據(jù)挖掘的重要數(shù)學(xué)基礎(chǔ)酥夭。

2. 線性代數(shù)

向量和矩陣是線性代數(shù)中的重要知識(shí)點(diǎn),它被廣泛應(yīng)用到數(shù)據(jù)挖掘中论笔,比如我們經(jīng)常會(huì)把對(duì)象抽象為矩陣的表示,一幅圖像就可以抽象出來(lái)是一個(gè)矩陣千所,我們也經(jīng)常計(jì)算特征值和特征向量狂魔,用特征向量來(lái)近似代表物體的特征。這個(gè)是大數(shù)據(jù)降維的基本思路淫痰。

基于矩陣的各種運(yùn)算最楷,以及基于矩陣的理論成熟,可以幫我們解決很多實(shí)際問(wèn)題待错,比如 PCA 方法籽孙、SVD 方法,以及 MF火俄、NMF 方法等在數(shù)據(jù)挖掘中都有廣泛的應(yīng)用犯建。

3. 圖論

社交網(wǎng)絡(luò)的興起,讓圖論的應(yīng)用也越來(lái)越廣瓜客。人與人的關(guān)系适瓦,可以用圖論上的兩個(gè)節(jié)點(diǎn)來(lái)進(jìn)行連接竿开,節(jié)點(diǎn)的度可以理解為一個(gè)人的朋友數(shù)。我們都聽說(shuō)過(guò)人脈的六度理論玻熙,在 Facebook 上被證明平均一個(gè)人與另一個(gè)人的連接否彩,只需要 3.57 個(gè)人。當(dāng)然圖論對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)的分析非常有效嗦随,同時(shí)圖論也在關(guān)系挖掘和圖像分割中有重要的作用列荔。

4. 最優(yōu)化方法

最優(yōu)化方法相當(dāng)于機(jī)器學(xué)習(xí)中自我學(xué)習(xí)的過(guò)程,當(dāng)機(jī)器知道了目標(biāo)枚尼,訓(xùn)練后與結(jié)果存在偏差就需要迭代調(diào)整贴浙,那么最優(yōu)化就是這個(gè)調(diào)整的過(guò)程。一般來(lái)說(shuō)姑原,這個(gè)學(xué)習(xí)和迭代的過(guò)程是漫長(zhǎng)悬而、隨機(jī)的。最優(yōu)化方法的提出就是用更短的時(shí)間得到收斂锭汛,取得更好的效果笨奠。

總結(jié)

今天我列了下學(xué)習(xí)數(shù)據(jù)挖掘你要掌握的知識(shí)清單,只有你對(duì)數(shù)據(jù)挖掘的流程唤殴、算法般婆、原理有更深的理解,你才能在實(shí)際工作中更好地運(yùn)用朵逝,我將在后面的章節(jié)中對(duì)它們進(jìn)行一一介紹蔚袍。

最后給你留道思考題吧。

今天我給你講了如何學(xué)習(xí)數(shù)據(jù)挖掘配名,你從中有什么樣的體會(huì)呢啤咽?如果某電商網(wǎng)站想挖掘商品之間的關(guān)聯(lián)關(guān)系,從而提升銷售額渠脉,你覺得可以采用上面的哪個(gè)算法宇整?為什么?

寫留言

精選留言

vincent

6

數(shù)學(xué)太差芋膘,畢業(yè)很久了怎么學(xué)習(xí)呢鳞青?

2018-12-19

 作者回復(fù)

不用擔(dān)心,很多人都有這個(gè)問(wèn)題为朋。我覺得你可以嘗試:

1臂拓、培養(yǎng)興趣:興趣是最好的老師,我們大自然的很多科學(xué)都是和數(shù)學(xué)相關(guān)习寸,比如為什么雪花是六邊形胶惰?

2、刻意訓(xùn)練:你不需要通過(guò)做項(xiàng)目來(lái)做完整的數(shù)學(xué)訓(xùn)練霞溪,比如你和朋友去吃飯的時(shí)候童番,你可以腦算下一共花了多少錢精钮?很多時(shí)候,心算是數(shù)學(xué)的一個(gè)能力

3剃斧、價(jià)值暗示:數(shù)學(xué)可以幫你很多轨香,尤其是在算法效率、代碼質(zhì)量上幼东。很明顯臂容,數(shù)學(xué)好的人,寫出來(lái)的算法效率也更高根蟹。

所以一個(gè)代碼完成后脓杉,你可以問(wèn)自己個(gè)問(wèn)題:還有沒(méi)有更好的方法?

2018-12-19

五岳尋仙

2

總結(jié)與思考:

1. 商業(yè)理解:如老師之前所講简逮,數(shù)據(jù)挖掘是工具球散,要么幫我批處理,要么拓展我們思考的規(guī)模散庶。也就是說(shuō)問(wèn)題本身是人能夠處理得了的蕉堰,只是受限與時(shí)間太長(zhǎng)或者規(guī)模太大,需要借助計(jì)算機(jī)悲龟。人工智能是人思考的放大屋讶,如果一個(gè)問(wèn)題人都想不通,指望借助人工智能算法解決须教,目前恐怕還不現(xiàn)實(shí)皿渗。遇到問(wèn)題,首先要“商業(yè)理解”轻腺,形成一個(gè)思路乐疆,然后考慮如何借助算法。

2. 問(wèn)題歸類:要解決的問(wèn)題是屬于分類贬养,回歸挤土,聚類,還是關(guān)聯(lián)分析等煤蚌。每種類別的問(wèn)題都有相對(duì)應(yīng)的算法耕挨。不過(guò)有時(shí)候细卧,對(duì)數(shù)據(jù)做不同的處理尉桩,能使問(wèn)題適用于不同的算法。

3. 數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)準(zhǔn)備已經(jīng)能提現(xiàn)個(gè)人思想了贪庙,處理常規(guī)的缺失值處理蜘犁、標(biāo)準(zhǔn)化/歸一化,更重要的是所謂的“特征工程”止邮,它決定了數(shù)據(jù)呈現(xiàn)的方式这橙。同樣的數(shù)據(jù)奏窑,呈現(xiàn)方式不同,算法學(xué)到的東西也不同屈扎。

4. 模型評(píng)估埃唯。有很多不同的評(píng)估指標(biāo),需要根據(jù)具體問(wèn)題選擇鹰晨。模型的訓(xùn)練是一個(gè)最優(yōu)化問(wèn)題墨叛,目標(biāo)不同,優(yōu)化的方向也不同模蜡。

課后思考題:

根據(jù)老師文中講到的方法漠趁,我覺得有如下這些方法可以用來(lái)做商品間關(guān)聯(lián)分析:

1. Apriori:文中提到是通過(guò)挖掘頻繁項(xiàng)集,來(lái)揭示商品間關(guān)系忍疾。(不太了解這個(gè)算法闯传,期待后續(xù)學(xué)習(xí))

2. KNN:通過(guò)臨近商品,判斷該商品的特征卤妒。我不確定是否試用甥绿,但感覺應(yīng)該能解釋商品間的相似性。

以上是自己對(duì)課程的理解荚孵,有不對(duì)的地方妹窖,請(qǐng)老師和大家指正。

2018-12-19

房經(jīng)寶

1

C4.5算法中的剪枝是什么意思收叶?機(jī)器學(xué)習(xí)中的梯度下降法是不是也是以最優(yōu)化方法為數(shù)學(xué)基礎(chǔ)的骄呼?

2018-12-19

章靜

1

(1)數(shù)據(jù)挖掘?qū)W習(xí)方法體會(huì):有了知識(shí)清單,相當(dāng)于有了一個(gè)系統(tǒng)思維在那判没,對(duì)快速識(shí)別問(wèn)題的確很有幫助~很好的方法方便實(shí)踐蜓萄,就像巴菲特和芒格的投資是使用的公司盡調(diào)清單一樣,MECE的解決問(wèn)題

(2)基于電商商品的關(guān)聯(lián)進(jìn)行推薦從而提高銷售的話澄峰,個(gè)人認(rèn)為是Apriori算法嫉沽,其為了提取頻繁項(xiàng)集和一定置信度的關(guān)聯(lián)規(guī)則,即用戶購(gòu)買了X產(chǎn)品有多大概率去買Y俏竞,根據(jù)置信度高的原則推薦

2018-12-19

 作者回復(fù)

總結(jié)的很好绸硕,大家可以看下。尤其是用到了MECE原則

2018-12-19

一個(gè)小機(jī)靈鬼

0

我現(xiàn)在是在校學(xué)生魂毁,我想問(wèn)一下對(duì)于概率論和線代想要學(xué)好數(shù)據(jù)分析需要學(xué)到什么程度

2018-12-19

印第安老斑鳩

0

沒(méi)有接受過(guò)概率論和線性代數(shù)的學(xué)習(xí)玻佩,能跟上課程嗎

2018-12-19

 作者回復(fù)

可以的 放心吧

2018-12-19

チカラ

0

數(shù)據(jù)挖掘感覺是整個(gè)流程中類似發(fā)動(dòng)機(jī)引擎一樣的作用,應(yīng)該要先要針對(duì)自己想要分析的問(wèn)題的進(jìn)行抽象出來(lái)后席楚,再想要去挖掘哪方面的數(shù)據(jù)吧咬崔。那么多算法,還不怎么了解,看起來(lái)得自己先補(bǔ)補(bǔ)課垮斯。郎仆。

2018-12-19

 作者回復(fù)

慢慢來(lái) 每次課程都跟上 及時(shí)整理筆記 養(yǎng)成好習(xí)慣

2018-12-19

蔣三折

0

感謝老師,讓我這樣只學(xué)過(guò)一點(diǎn)醫(yī)藥統(tǒng)計(jì)學(xué)兜蠕,轉(zhuǎn)型無(wú)門的小白有機(jī)會(huì)系統(tǒng)地學(xué)習(xí)數(shù)據(jù)分析扰肌。

以下是幾點(diǎn)疑問(wèn):

1 可以看到分類算法最多,也就是說(shuō)分類是數(shù)據(jù)挖掘中最難的熊杨?或者說(shuō)不同的需求下分類的要求不同導(dǎo)致了不同分類方法的產(chǎn)生狡耻?是不是用不同的分類方法做同一個(gè)項(xiàng)目得出的結(jié)果也會(huì)不同呢?

2 什么叫“減枝”猴凹?連續(xù)的屬性夷狰,是不是指身高之類的具有連續(xù)性的數(shù)據(jù)?

3 KNN算法中郊霎,怎么樣算作“近鄰”呢沼头?那“分散的”數(shù)據(jù)也能用這種算法嗎?是不是只適用于有序的數(shù)據(jù)呢书劝?

4 Apriori在網(wǎng)絡(luò)安全中的應(yīng)用进倍,是不是可以實(shí)現(xiàn)類似于米國(guó)當(dāng)年波士頓爆炸案之后,因?yàn)橘I了個(gè)高壓鍋被查水表购对,這樣的操作猾昆?

以上,謝謝骡苞!~

2018-12-19

 作者回復(fù)

1垂蜗、關(guān)于分類算法

這些分類算法都是工具,出發(fā)點(diǎn)是他們看待“分類”的視角不同解幽,并不代表這些結(jié)構(gòu)是不同的贴见,當(dāng)然模型算法有適合與否,需要你來(lái)驗(yàn)證哪個(gè)算法針對(duì)你的問(wèn)題是有效的

分類算法涉及到數(shù)學(xué)原理躲株,也不能說(shuō)是最難的片部,當(dāng)你懂了這些原理之后,就會(huì)容易很多

2霜定、關(guān)于連續(xù)屬性和剪枝

你說(shuō)的沒(méi)錯(cuò)档悠,身高這種存在可以無(wú)限分割的數(shù)值可能時(shí),就是連續(xù)屬性望浩。

剪枝辖所,是避免過(guò)擬合的一種方式。這個(gè)在決策樹里曾雕,我會(huì)講到奴烙。你先記住這個(gè)概念就好

3助被、關(guān)于KNN

你可以想象一幅畫面剖张,如果一個(gè)畫面上有很多點(diǎn)切诀。那么距離點(diǎn)A,一定會(huì)有K個(gè)鄰居搔弄。當(dāng)然這個(gè)距離你可以自己來(lái)定義(通常使用歐氏距離或曼哈頓距離)幅虑。在實(shí)際操作工程中,你也會(huì)給出定義距離的計(jì)算方式顾犹,這樣就可以比較遠(yuǎn)近了

4倒庵、關(guān)于Apriori案例

你說(shuō)的這個(gè)是個(gè)有趣的例子!把高壓鍋和爆炸物進(jìn)行了關(guān)聯(lián)

感謝你的分享

2018-12-19

sarach

0

一直對(duì)數(shù)據(jù)挖掘感興趣炫刷,但沒(méi)有找到合適的學(xué)習(xí)方法擎宝,通過(guò)這節(jié)課 系統(tǒng)的對(duì)數(shù)據(jù)挖掘算法整體有了個(gè)認(rèn)識(shí);希望之后的每一天都可以進(jìn)步·~

課后思考題:

我覺得可以采用? ‘樸素貝葉斯(Naive Bayes)’? 對(duì)商品進(jìn)行分類浑玛;

? ? ? ? ? ? ? ? ? ? ? ‘ KNN ’ 商品的分類 鄰近算法 知道有哪些相關(guān)的 分類绍申;

? ? ? ? ? ? ? ? ? ? ? 使用關(guān)聯(lián)Apriori 算法 對(duì)購(gòu)買過(guò)相關(guān)品類的人進(jìn)行推薦;來(lái)提升銷售額顾彰;

麻煩老師點(diǎn)評(píng)是否正確极阅?

2018-12-19

小熊貓

0

請(qǐng)問(wèn)有哪些書單或者網(wǎng)站可以推薦呢?希望后面能出一節(jié)介紹下一些書單和網(wǎng)站

2018-12-19

草莓味冰糕

0

①知識(shí)體系的構(gòu)建非常重要涨享,通過(guò)數(shù)據(jù)挖掘的基本流程筋搏,將算法與實(shí)際應(yīng)用連接起來(lái)的能力對(duì)一個(gè)數(shù)據(jù)分析師是十分重要的。

②電商想挖掘的商品之間的聯(lián)系厕隧,很像以前所聽說(shuō)過(guò)的購(gòu)物籃子分析奔脐,記得的例子有為什么超市將啤酒和紙尿褲、面包和牛奶放在臨近的地方吁讨,利用的算法Apriori算法帖族,計(jì)算各頻繁項(xiàng)同時(shí)發(fā)生的概率,就能很好的給客戶推薦其想要一起購(gòu)買的商品挡爵。也可以利用Apriori算法竖般,組建電商針對(duì)客戶的購(gòu)物套餐等。

2018-12-19

0

我覺得應(yīng)該是關(guān)聯(lián)分析算法茶鹃,比如說(shuō)Apriori關(guān)聯(lián)規(guī)則算法涣雕,一般提到這一挖掘算法就想到經(jīng)典的“啤酒魚尿布”的案例,這跟老師所提出的某電商網(wǎng)站想挖掘商品之間的關(guān)聯(lián)關(guān)系闭翩,從而提升銷售額的問(wèn)題是類似的挣郭。此外,目前應(yīng)用的比較熱的就是協(xié)同過(guò)濾方法疗韵,包括基于用戶的和基于商品的兑障,這個(gè)應(yīng)用也是十分廣泛。此外,想請(qǐng)教老師:商品推薦中冷啟動(dòng)的問(wèn)題有什么比較好的方法流译?謝謝

2018-12-19

魚魚魚培填

0

感覺要學(xué)習(xí)的東西還很多逞怨,算法的理解需要數(shù)學(xué)原理的支撐,老師講解算法的時(shí)候是否會(huì)詳解運(yùn)用的數(shù)學(xué)原理呢福澡?

思考題:關(guān)聯(lián)關(guān)系首先就想到使用Apriori叠赦,覺得樸素貝葉斯也可以,因?yàn)檫@個(gè)算法也可以對(duì)商品分類革砸,挖掘商品的關(guān)聯(lián)除秀。剛學(xué)習(xí),對(duì)算法理解不深算利,希望老師指正

在@Alex王偉健的基礎(chǔ)上整理了筆記 https://mubu.com/doc/iAUqDB8iIf册踩,希望大家能相互交流

2018-12-19

 作者回復(fù)

感謝分享,Apriori和貝葉斯網(wǎng)絡(luò) 都是不錯(cuò)的思路效拭」骱茫基于貝葉斯網(wǎng)絡(luò)也可以做推薦算法。Apriori應(yīng)該算是“購(gòu)物籃問(wèn)題”中常用的算法

2018-12-19

告別流浪的喵

0

K-Means(先聚類)允耿、(KNN)再分類借笙、以及Apriori算法,可以用來(lái)做商品分析较锡。

2018-12-19

Destroy业稼、

0

EM 算法也叫最大期望算法,是求參數(shù)的最大似然估計(jì)的一種方法蚂蕴。這句話中的最大似然估計(jì)我一開始還以為是寫錯(cuò)了低散,后來(lái)查了下原來(lái)‘最大似然估計(jì)’是一種統(tǒng)計(jì)方法。

課后題:Apriori

2018-12-19

 作者回復(fù)

對(duì)的 似然就是可能性的意思骡楼,其實(shí)如果說(shuō)“最大可能性估計(jì)”一般人都能理解熔号,不過(guò)術(shù)語(yǔ)上,我們還是叫“最大似然估計(jì)”

2018-12-19

AaronYu

0

體會(huì):數(shù)據(jù)挖掘需要概率論與數(shù)理統(tǒng)計(jì)鸟整,線性代數(shù)等底層數(shù)學(xué)知識(shí)作為基礎(chǔ)引镊。另外,數(shù)據(jù)挖掘只是一個(gè)手段篮条,工具弟头,是要來(lái)完成我們對(duì)業(yè)務(wù)的訴求的,不可本末倒置涉茧。

思考題:采用 Apriori 算法赴恨,通過(guò)挖掘頻繁項(xiàng)集來(lái)揭示商品間的關(guān)聯(lián)關(guān)系,很適用于電商網(wǎng)站分析商品伴栓。

2018-12-19

 作者回復(fù)

同意你的分享伦连,很多人不知道如何解決業(yè)務(wù)問(wèn)題雨饺,就認(rèn)為是工具沒(méi)掌握,或者工具使用有問(wèn)題惑淳。其實(shí)這些工具就是分類器额港。他們只是工具,還是要從“業(yè)務(wù)”角度去理解

2018-12-19

0

一汛聚、關(guān)聯(lián)分析:Apriori算法。理由是它通過(guò)挖掘經(jīng)常一起出現(xiàn)的事物短荐,來(lái)揭示他們之間某種強(qiáng)相關(guān)性倚舀,那么商品之間的關(guān)系也可以利用此算法,就好比牙膏和牙刷忍宋,把二者放在同一個(gè)區(qū)域肯定是符合邏輯的痕貌。

二、連接分析:PageRank算法糠排。這種算法更多應(yīng)該是電商商品的相關(guān)性分析舵稠,例如淘寶,它在下面有一欄是猜你喜歡入宦,鏈接到別的商品哺徊。

數(shù)據(jù)挖掘最關(guān)鍵的點(diǎn):算法及其背后的數(shù)學(xué)原理。

難點(diǎn):如何選擇挖掘模型乾闰,我覺得這個(gè)需要通過(guò)實(shí)踐→總結(jié)思考→再實(shí)踐→再總結(jié)思考→......落追,不斷地循環(huán)迭代的過(guò)程。

2018-12-19

 作者回復(fù)

感謝分享涯肩,PageRank你可以抽象是PR的縮寫轿钠,你應(yīng)該知道PR值代表的什么?PR值是衡量一個(gè)事物影響力的指標(biāo)病苗。比如網(wǎng)站的PR值

Apriori算法是最直觀的關(guān)聯(lián)分析算法疗垛,它的提出是用來(lái)解決“購(gòu)物籃問(wèn)題”。同樣你提到了“猜你喜歡”硫朦,這是個(gè)很好的思路贷腕,一般在電商網(wǎng)站里使用的是推薦算法,這個(gè)在后面我會(huì)講到

2018-12-19

德勝

0

KNN咬展,Apriori花履,K-Means,EM感覺都可以用于電商物品關(guān)聯(lián)

2018-12-19

 作者回復(fù)

Apriori是更常用的“購(gòu)物籃問(wèn)題”解決方案挚赊,它的提出就是解決商品之間的關(guān)聯(lián)關(guān)系诡壁。KNN是分類算法,和K-Means, EM這兩種聚類算法還是有些區(qū)別荠割。K-Means, EM這兩個(gè)聚類方法在電商里做客群聚類比較多

2018-12-19

tinn

0

老師有推薦的關(guān)于數(shù)據(jù)分析方面的學(xué)習(xí)論壇或者博客嗎妹卿?謝謝老師回復(fù):)

2018-12-19

NaNa

0

Apriori和Pagerank

2018-12-19

frazer

0

關(guān)聯(lián)算法Apriori肯定是要用的

2018-12-19

 作者回復(fù)

是的 這個(gè)場(chǎng)景是最常用的

2018-12-19

可樂(lè)不甜

0

用樸素貝葉斯對(duì)商品關(guān)系進(jìn)行分類

2018-12-19

可樂(lè)不甜

0

數(shù)據(jù)挖掘算法很多旺矾,對(duì)其中一些算法有一定了解。但是不是這些算法就夠了呢

2018-12-19

 作者回復(fù)

算法有很多夺克,還有隨機(jī)森林箕宙,xgboost,邏輯回歸铺纽,深度學(xué)習(xí)柬帕。文章中提到的10大算法是最經(jīng)典的算法。其他算法在實(shí)際工作中狡门,也會(huì)接觸到陷寝。算法看起來(lái)很多,當(dāng)你明白原理后其馏,在python中就是一行代碼的問(wèn)題

2018-12-19

風(fēng)翱

0

Apriori和K-Means凤跑,聚類和關(guān)聯(lián)。

看到其他人的回復(fù)叛复,都是在說(shuō)數(shù)據(jù)基礎(chǔ)弱仔引,或者基礎(chǔ)較為一般『职拢看課程咖耘,數(shù)據(jù)基礎(chǔ)還是挺重要的。 請(qǐng)問(wèn)這部分怎么補(bǔ)呢撬码? 還是后續(xù)的課程中會(huì)有對(duì)應(yīng)的分析和補(bǔ)充相關(guān)的知識(shí)點(diǎn)和資料信息鲤看。

2018-12-19

微光lu

0

關(guān)聯(lián)分析,用來(lái)探究商品之間的潛在聯(lián)系

2018-12-19

奶爸奶爸

0

老師的思路非常清晰耍群,期待后續(xù)更精彩的內(nèi)容义桂。

另外我想問(wèn)一個(gè)無(wú)關(guān)的問(wèn)題,老師圖為什么做得做么漂亮蹈垢?是工具好慷吊, 還是和思路有關(guān)系?有沒(méi)有什么經(jīng)驗(yàn)可以介紹下曹抬?

2018-12-19

 作者回復(fù)

首先你需要確定一個(gè)圖片的風(fēng)格溉瓶,比如小清新的風(fēng)格,以及相應(yīng)的色調(diào)

制作上:你可以使用XMind思維導(dǎo)圖工具谤民,它幫你做一些簡(jiǎn)單的美化

當(dāng)然堰酿,最好的體驗(yàn),還是要自己親自動(dòng)手张足,專欄的圖片都是編輯自己手工制作的触创,這里要感謝下編輯。里面用到了一些手寫字體

2018-12-19

larry

0

關(guān)聯(lián)分析为牍?

2018-12-19

 作者回復(fù)

對(duì)的 關(guān)聯(lián)分析是個(gè)比較顯性的算法哼绑,Apriori算法的提出就是來(lái)解決這個(gè)問(wèn)題的岩馍。當(dāng)然在推薦算法里,除了關(guān)聯(lián)分析抖韩,還有協(xié)同過(guò)濾≈鳎現(xiàn)在很多電商網(wǎng)站也會(huì)用到協(xié)同過(guò)濾,從而發(fā)現(xiàn)基于商品之間的關(guān)聯(lián)關(guān)系

2018-12-19

陳波

0

從初步理解茂浮,Apriori 挖掘關(guān)聯(lián)規(guī)則的算法双谆,這個(gè)是答案,但是感覺不是絕對(duì)

2018-12-19

 作者回復(fù)

是的席揽!Apriori算法是關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法顽馋,當(dāng)然也存在其他關(guān)聯(lián)分析的算法。關(guān)聯(lián)分析算法的創(chuàng)建就是用來(lái)解決“購(gòu)物籃問(wèn)題”驹尼。如果面試官問(wèn)你這個(gè)題目趣避,你回答這個(gè)就可以了庞呕。不過(guò)你可以考慮不同的維度新翎,比如推薦算法,聚類算法住练,因?yàn)樵趯?shí)際工作中地啰,你可能會(huì)使用到多個(gè)算法幫你解決不同問(wèn)題。

比如在一個(gè)產(chǎn)品中讲逛,你會(huì)用到推薦算法幫你做商品推薦亏吝,也會(huì)用到聚類算法幫你來(lái)做客群分析,這些算法的結(jié)果都可能會(huì)對(duì)“購(gòu)物籃問(wèn)題”有幫助盏混。

2018-12-19

無(wú)法言喻.

0

基于物品的協(xié)同過(guò)濾蔚鸥,用關(guān)聯(lián)分析?

2018-12-19

 作者回復(fù)

很好的思路许赃,關(guān)聯(lián)分析是最主要的止喷,同時(shí)也可以從基于物品的協(xié)同過(guò)濾來(lái)考慮

2018-12-19

Jane

0

隨機(jī)森林,xgboost這種在經(jīng)典算法基礎(chǔ)上衍生出來(lái)的算法老師能不能在講基礎(chǔ)算法的時(shí)候拓展介紹一下啊混聊。

應(yīng)該可以通過(guò)Apriori將相關(guān)商品關(guān)聯(lián)起來(lái)弹谁,比如亞馬遜“購(gòu)買過(guò)此類商品的人通常也會(huì)購(gòu)買”這種商品推薦。

2018-12-19

 作者回復(fù)

很好的建議句喜!其實(shí)不光是隨機(jī)森林预愤,xgboost,還有邏輯回歸都是很常用的算法咳胃,有時(shí)間一起介紹下

2018-12-19

MJKlose

0

apriori算法植康,它是用來(lái)揭示物品的關(guān)聯(lián)關(guān)系,在電商網(wǎng)站中展懈,我們不希望用戶只購(gòu)買一件商品就走了向图,而是希望他能多購(gòu)買幾件泳秀,我們需要向用戶推薦合適且關(guān)聯(lián)關(guān)系強(qiáng)的商品,這樣用戶才會(huì)喜歡樂(lè)意購(gòu)買

2018-12-19

 作者回復(fù)

Apriori是常用的關(guān)聯(lián)分析算法榄攀,通過(guò)也可以從推薦算法(協(xié)同過(guò)濾)的角度進(jìn)行考慮

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末嗜傅,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子檩赢,更是在濱河造成了極大的恐慌吕嘀,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,816評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件贞瞒,死亡現(xiàn)場(chǎng)離奇詭異偶房,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)军浆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門棕洋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人乒融,你說(shuō)我怎么就攤上這事掰盘。” “怎么了赞季?”我有些...
    開封第一講書人閱讀 158,300評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵愧捕,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我申钩,道長(zhǎng)次绘,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,780評(píng)論 1 285
  • 正文 為了忘掉前任撒遣,我火速辦了婚禮邮偎,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘义黎。我一直安慰自己禾进,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,890評(píng)論 6 385
  • 文/花漫 我一把揭開白布轩缤。 她就那樣靜靜地躺著命迈,像睡著了一般。 火紅的嫁衣襯著肌膚如雪火的。 梳的紋絲不亂的頭發(fā)上壶愤,一...
    開封第一講書人閱讀 50,084評(píng)論 1 291
  • 那天,我揣著相機(jī)與錄音馏鹤,去河邊找鬼征椒。 笑死,一個(gè)胖子當(dāng)著我的面吹牛湃累,可吹牛的內(nèi)容都是我干的勃救。 我是一名探鬼主播碍讨,決...
    沈念sama閱讀 39,151評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼蒙秒!你這毒婦竟也來(lái)了勃黍?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,912評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤晕讲,失蹤者是張志新(化名)和其女友劉穎覆获,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體瓢省,經(jīng)...
    沈念sama閱讀 44,355評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡弄息,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,666評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了勤婚。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片摹量。...
    茶點(diǎn)故事閱讀 38,809評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖馒胆,靈堂內(nèi)的尸體忽然破棺而出缨称,到底是詐尸還是另有隱情,我是刑警寧澤国章,帶...
    沈念sama閱讀 34,504評(píng)論 4 334
  • 正文 年R本政府宣布具钥,位于F島的核電站豆村,受9級(jí)特大地震影響液兽,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜掌动,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,150評(píng)論 3 317
  • 文/蒙蒙 一四啰、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧粗恢,春花似錦柑晒、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至妖碉,卻和暖如春涌庭,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背欧宜。 一陣腳步聲響...
    開封第一講書人閱讀 32,121評(píng)論 1 267
  • 我被黑心中介騙來(lái)泰國(guó)打工坐榆, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人冗茸。 一個(gè)月前我還...
    沈念sama閱讀 46,628評(píng)論 2 362
  • 正文 我出身青樓席镀,卻偏偏與公主長(zhǎng)得像匹中,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子豪诲,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,724評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容