一迂尝、機(jī)器學(xué)習(xí)初步認(rèn)識
1嘉熊、什么是機(jī)器學(xué)習(xí)陈惰?
機(jī)器學(xué)習(xí)就是利用計(jì)算機(jī)從歷史數(shù)據(jù)中找出規(guī)律,并把這些規(guī)律用到對未來不確定場景的決策
比如預(yù)測某公司未來一個(gè)季度的銷量禀挫,這就需要根據(jù)以往季度的銷量情況進(jìn)行分析找出規(guī)律旬陡,然后對下一個(gè)季度的銷量進(jìn)行預(yù)測。
機(jī)器學(xué)習(xí)的主體是機(jī)器语婴,而不是人描孟,與之對應(yīng)的一個(gè)事——也是從歷史數(shù)據(jù)中尋找規(guī)律,是數(shù)據(jù)分析砰左,這個(gè)主體是人匿醒。
從數(shù)據(jù)中尋找規(guī)律,其實(shí)就是機(jī)器學(xué)習(xí)一系列的算法缠导,不同的算法找出來的規(guī)律的形式是不一樣的廉羔,大部分情況下,就是找出一個(gè)數(shù)學(xué)函數(shù)或者是數(shù)學(xué)公式僻造。
2憋他、從數(shù)據(jù)中尋找規(guī)律
統(tǒng)計(jì)學(xué)從數(shù)據(jù)中找規(guī)律的過程:由于受限于計(jì)算能力的限制,主要靠手算或者低端計(jì)算機(jī)髓削,一般采用抽樣計(jì)算竹挡,然后描述統(tǒng)計(jì),最后根據(jù)結(jié)論回去作假設(shè)檢驗(yàn)立膛,統(tǒng)計(jì)推斷此迅。
由于計(jì)算機(jī)性能的極大提升,現(xiàn)在不用再作抽樣統(tǒng)計(jì)旧巾,可以作全量分析。
3忍些、機(jī)器學(xué)習(xí)為什么突然火起來
- 從歷史數(shù)據(jù)中找出規(guī)律鲁猩,把這些規(guī)律用到對未來自動作出決定
- 用數(shù)據(jù)代替專家
- 經(jīng)濟(jì)驅(qū)動,數(shù)據(jù)變現(xiàn)罢坝,也就是大數(shù)據(jù)的迅猛發(fā)展
4廓握、業(yè)務(wù)系統(tǒng)發(fā)展的歷史
- 早期:基于專家經(jīng)驗(yàn)
- 基于統(tǒng)計(jì)——分維度統(tǒng)計(jì)
- 機(jī)器學(xué)習(xí)——在線學(xué)習(xí)(比如電商網(wǎng)站的針對用戶實(shí)時(shí)的推薦)
二搅窿、機(jī)器學(xué)習(xí)的應(yīng)用
1、關(guān)聯(lián)規(guī)則
- 購物車分析——關(guān)聯(lián)規(guī)則
其實(shí)這是一個(gè)典型的數(shù)據(jù)挖掘算法隙券,生活中常見的如啤酒和紙尿布的案例
2男应、聚類
- 用戶細(xì)分和精準(zhǔn)營銷
如用相關(guān)聚類算法,對移動消費(fèi)者用戶消費(fèi)習(xí)慣進(jìn)行分類娱仔,然后有針對性的作出一些資費(fèi)套餐沐飘,如全球通,神州行牲迫,動感地帶等
3耐朴、樸素貝葉斯和決策樹
- 樸素貝葉斯:垃圾郵件
- 決策樹:信用卡欺詐
4、ctr預(yù)估
- 互聯(lián)網(wǎng)廣告:預(yù)測用戶最有可能點(diǎn)擊的頁面盹憎,來進(jìn)行排列頁面推薦順序
- 推薦系統(tǒng):電商網(wǎng)站中常用推薦商品
5筛峭、自然語言處理和圖形識別
- 自然語言處理(NLP)
情感分析,實(shí)體識別等 - 圖像識別
深度學(xué)習(xí)
更多應(yīng)用:
- 語音識別
- 個(gè)性化醫(yī)療
- 人臉識別
- 自動駕駛
- 智慧機(jī)器人
- 私人虛擬助理
- 手勢控制
- 視頻內(nèi)容自動識別
- 機(jī)器實(shí)時(shí)翻譯
三陪每、數(shù)據(jù)分析和機(jī)器學(xué)習(xí)
1影晓、區(qū)別
- 交易數(shù)據(jù) VS 行為數(shù)據(jù)
一般數(shù)據(jù)分析處理的是交易數(shù)據(jù),比如電商平臺數(shù)據(jù)檩禾,銀行存款數(shù)據(jù)等
而機(jī)器學(xué)習(xí)處理的是行為數(shù)據(jù)挂签,比如用戶的搜索歷史,瀏覽歷史锌订,評論等
少量數(shù)據(jù) VS 海量數(shù)據(jù)
采樣分析 VS 海量分析
報(bào)告過去的事 VS 預(yù)測未來的事
技術(shù)手段不同
數(shù)據(jù)分析的數(shù)據(jù)集量相對于機(jī)器學(xué)習(xí)要小
分析方法上竹握,數(shù)據(jù)分析主要是用戶驅(qū)動,交互式分析辆飘,機(jī)器學(xué)習(xí)是數(shù)據(jù)驅(qū)動啦辐,自動進(jìn)行知識發(fā)展
四、機(jī)器學(xué)習(xí)常用算法
1蜈项、算法分類(1)
- 有監(jiān)督學(xué)習(xí)
包括分類算法(垃圾郵件區(qū)分)芹关、回歸算法
- 無監(jiān)督學(xué)習(xí)
包括聚類算法
- 半監(jiān)督學(xué)習(xí)
強(qiáng)化學(xué)習(xí)
2、算法分類(2)
根據(jù)具體的問題分類
- 分類與回歸
- 聚類
- 標(biāo)注
3紧卒、算法分類(3)
- 生成模型
- 判別模型
五侥衬、機(jī)器學(xué)習(xí)如何解決問題
1、確定目標(biāo)
- 業(yè)務(wù)需求
- 解決數(shù)據(jù)問題
- 提取特征工程
2跑芳、訓(xùn)練模型
- 定義模型
- 定義損失函數(shù)(重點(diǎn))
- 優(yōu)化算法(重點(diǎn))
3轴总、模型評估
- 交叉驗(yàn)證
- 效果評估