華工機器學(xué)習(xí)培訓(xùn)筆記

Day1

一惕耕、上午

傳統(tǒng)程序：數(shù)據(jù) + 程序 -> 電腦 -> 輸出
機器學(xué)習(xí)：數(shù)據(jù) + 輸出 -> 電腦 -> 程序
條件概率幸海、邊緣概率慨丐、聯(lián)合概率赂乐、參考；
貝葉斯公式咖气、貝葉斯網(wǎng)絡(luò)、概率的鏈?zhǔn)椒▌t（重點理解）挖滤、參考崩溪；
概率圖模型（自學(xué)，即貝葉斯網(wǎng)絡(luò)和馬爾柯夫網(wǎng)絡(luò)）;
概率密度函數(shù)斩松、Transformed Densities（不理解）伶唯、參考；
最大似然估計惧盹、最大后驗估計乳幸、參考；
自信息：不確定性的消除钧椰；
概率：事件的不確定性程度粹断；
熵、聯(lián)合熵嫡霞、條件熵瓶埋、相對熵、交叉熵诊沪、參考
導(dǎo)數(shù)的鏈?zhǔn)角髮?dǎo)法則

二养筒、下午

數(shù)據(jù)、代價函數(shù)端姚、最小化代價函數(shù)晕粪、
最小二乘法（推導(dǎo)）、正則化渐裸、梯度下降巫湘、線性回歸（FIT，擬合）
線性分類橄仆、支持向量機（軟間隔剩膘、hinge loss）、各種損失函數(shù)
隨機梯度下降盆顾、批次隨機梯度下降（節(jié)約內(nèi)存）
Adma（AdaGrad + RMSProp）（重點理解怠褐！面試必考！）
AdaGrad：適用于稀疏梯度您宪；當(dāng)梯度較小時奈懒，下一步跑得慢奠涌；梯度較大時，下一步跑得快磷杏。
RMSProp：自適應(yīng)學(xué)習(xí)率溜畅。
牛頓法：每一步梯度都由一個 xxx 矩陣確定，但是復(fù)雜度高极祸。（自學(xué)）
優(yōu)化算法：分布式（中心化（工業(yè)界常用）慈格、去中心化）、量化

梯度下降矩陣計算.png

三遥金、晚上

Linux（環(huán)境變量浴捆、常用命令）

man： Linux 下的幫助指令。
which：用于查找并顯示給定命令的絕對路徑稿械。
free：顯示當(dāng)前系統(tǒng)未使用和已使用的內(nèi)在數(shù)目选泻。-h：以可讀的方式顯示。
df：顯示磁盤分區(qū)上的可用空間美莫。掛載點
top：系統(tǒng)的運行情況页眯。（load：1、5厢呵、15 分鐘的負(fù)載情況）

GPU 的基礎(chǔ)概念
Docker的基礎(chǔ)概念
NVIDIA Docker 的基礎(chǔ)概念 (deepo窝撵、docker hub)
實驗、及相關(guān)代碼

Day2

一述吸、上午

大綱

大綱.png

1. 線性模型：單層感知機（sign -> (-1, 1)）忿族、邏輯回歸（sigmoid -> (0,1)）。

2. 決策樹（詳見《機器學(xué)習(xí)》)：

決策樹學(xué)習(xí)基本算法

2.1. 純度：the degree that the samples in one leaf node belong to the same class
2.2. 信息熵：平均而言發(fā)生一個事件我們得到的信息量大小蝌矛。
2.3. 信息增益：熵 - 條件熵道批，在一個條件下，信息不確定性減少的程度入撒。（ID3）
2.4. 增益率：懲罰參數(shù) * 信息增益隆豹。（C4.5)
2.5. 基尼系數(shù)：是一種與信息熵類似的做特征選擇的方式，可以用來數(shù)據(jù)的不純度茅逮。（CART）

3. 集成學(xué)習(xí)（詳見《機器學(xué)習(xí)》)

集成學(xué)習(xí).png

3.1. 基分類器
3.2. 加性模型

4. AdaBoost（如何訓(xùn)練璃赡、合并、更新數(shù)據(jù)分布）（一堆數(shù)學(xué)公式……）

4.1. 流程：

AdaBoost 算法流程.png

4.2. 偽代碼：

AdaBoost 偽代碼.png

4.3. 理論分析：錯誤率有上界献雅；模型自由率比較小碉考，不容易過擬合；
4.4. AdaBoost 的局限性：等價對待正例和負(fù)例挺身。

4.5. 解決：代價敏感學(xué)習(xí)

AdaBoost 局限性解決 - 代價敏感學(xué)習(xí).png

4.6. AdaCost

image.png

AdaCost.png

5. GBDT（基于回歸樹）

5.1.動機

image.png

5.2. 訓(xùn)練基分類器

1.png

3.png

5.3. 組合分類器：加性模型

image.png

5.4. 改變數(shù)據(jù)分布：殘差侯谁。
5.5 偽代碼

梯度提升算法 -偽代碼.png

GBDT 偽代碼（第 3 步）.png

6. XGBoost

6.1. 過擬合、欠投合、偏差墙贱、方差

新的目標(biāo)函數(shù).png

6.2. XGBoost 目標(biāo)函數(shù)

XGBoost 目標(biāo)函數(shù).png

6.3. How to learn? （……一堆公式+一堆例子热芹，這一部分完全沒聽懂）

7. 剪枝、正則化

image.png

8.準(zhǔn)確度

image.png

9.總結(jié)

image.png

10. 附件： XGBoost的實驗手冊惨撇、調(diào)參

二伊脓、下午

大綱

day02 下午大綱.png

照片的形成.png

像素值相關(guān).png

圖片存儲.png

沒怎么聽……不太感興趣……

三、晚上

如何做實驗及管理實驗

1. Research Workflow

工作流程.png

2.模型設(shè)計

Model Design.png

3. 訓(xùn)練數(shù)據(jù)

Training Data.png

4. 目錄結(jié)構(gòu)

Directory Structure.png

checkpoints：用來保存中間結(jié)果魁衙。
opts（即 configure）：放所有超參數(shù)等各種設(shè)置报腔。
main：訓(xùn)練和測試的代碼。

5. 命名及注釋

train and annotation.png

6. 管理結(jié)果

Result Management.png

Day6

一剖淀、上午推薦系統(tǒng)

1. 流程

推薦系統(tǒng)工作流程.png

2. 協(xié)同過濾：過對用戶歷史行為數(shù)據(jù)的挖掘發(fā)現(xiàn)用戶的偏好榄笙，基于不同的偏好對用戶進行群組劃分并推薦品味相似的商品。

協(xié)同過濾.png

2.1. 協(xié)同過濾分類

協(xié)同過濾分類.png

2.2. 協(xié)同過濾的基本方法

image.png

3. User-based 模型

User-based 模型.png

3.1. 基本問題

User-based 模型的三個基本問題.png

3.1.1 相似度（套一個PCC公式祷蝌，皮爾森）

相似度計算.png

3.1.2. 計算總分

總分.png

3.1.3. 取幾個近鄰（經(jīng)驗值）

近鄰數(shù).png

3.2. 模型的優(yōu)化

User-based 模型優(yōu)化，近鄰算法.png

3.3 模型分析

image.png

4. Item-based 模型

4.1 模型的直觀理解：利用其他相似值相同的 item帆卓，來評估 target item巨朦。

image.png

4.2 相似度計算：PCC 或者余弦相似度

image.png

4.3 預(yù)測
[圖片上傳失敗...(image-749553-1532742673361)]

4.4 優(yōu)勢：可以做離線預(yù)測。

5. 以上兩個模型的基本問題：冷啟動（content-based, 遷移學(xué)習(xí)）

image.png

6. Model-based 模型（難）

推薦的論文.png

使用 SVD 去 xxx.png

矩陣的評估.png

7. 聚類模型

image.png

8. 概率模型

[圖片上傳中...(image.png-952044-1532744092074-0)]

9. 分類模型

image.png

10. content-based 模型

image.png

11. learn to rank

image.png

二剑令、Deep learning for RS

1.主流模型

image.png

最后編輯于：2018.07.28 10:54:53

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末糊啡，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子吁津，更是在濱河造成了極大的恐慌棚蓄，老刑警劉巖，帶你破解...
沈念sama閱讀 217,084評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件碍脏，死亡現(xiàn)場離奇詭異梭依，居然都是意外死亡，警方通過查閱死者的電腦和手機典尾，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,623評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門役拴，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人钾埂，你說我怎么就攤上這事河闰。” “怎么了褥紫？”我有些...
開封第一講書人閱讀 163,450評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵姜性，是天一觀的道長。經(jīng)常有香客問我髓考，道長部念，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,322評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮印机，結(jié)果婚禮上矢腻，老公的妹妹穿的比我還像新娘。我一直安慰自己射赛，他們只是感情好多柑，可當(dāng)我...
茶點故事閱讀 67,370評論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著楣责，像睡著了一般竣灌。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上秆麸，一...
開封第一講書人閱讀 51,274評論 1贊 300
城市分裂傳說
那天初嘹，我揣著相機與錄音，去河邊找鬼沮趣。笑死屯烦，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的房铭。我是一名探鬼主播驻龟，決...
沈念sama閱讀 40,126評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼缸匪！你這毒婦竟也來了翁狐？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,980評論 0贊 275
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤凌蔬，失蹤者是張志新（化名）和其女友劉穎露懒，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體砂心，經(jīng)...
沈念sama閱讀 45,414評論 1贊 313
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡懈词，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,599評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了辩诞。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片钦睡。...
茶點故事閱讀 39,773評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖躁倒，靈堂內(nèi)的尸體忽然破棺而出荞怒，到底是詐尸還是另有隱情，我是刑警寧澤秧秉，帶...
沈念sama閱讀 35,470評論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布褐桌，位于F島的核電站，受9級特大地震影響象迎，放射性物質(zhì)發(fā)生泄漏荧嵌。R本人自食惡果不足惜呛踊，卻給世界環(huán)境...
茶點故事閱讀 41,080評論 3贊 327
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望啦撮。院中可真熱鬧谭网，春花似錦、人聲如沸赃春。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,713評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽织中。三九已至锥涕，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間狭吼，已是汗流浹背层坠。一陣腳步聲響...
開封第一講書人閱讀 32,852評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留刁笙，地道東北人破花。一個月前我還...
沈念sama閱讀 47,865評論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像疲吸，于是被迫代替她去往敵國和親旧乞。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,689評論 2贊 354

華工機器學(xué)習(xí)培訓(xùn)筆記

Day1

一惕耕、上午

二养筒、下午

三遥金、晚上

Day2

一述吸、上午

大綱

1. 線性模型：單層感知機（sign -> (-1, 1)）忿族、邏輯回歸（sigmoid -> (0,1)）。

2. 決策樹（詳見《機器學(xué)習(xí)》)：

3. 集成學(xué)習(xí)（詳見《機器學(xué)習(xí)》)

4. AdaBoost（如何訓(xùn)練璃赡、合并、更新數(shù)據(jù)分布）（一堆數(shù)學(xué)公式……）

5. GBDT（基于回歸樹）

6. XGBoost

7. 剪枝、正則化

8.準(zhǔn)確度

9.總結(jié)

10. 附件： XGBoost的實驗手冊惨撇、調(diào)參

二伊脓、下午

大綱

三、晚上

如何做實驗及管理實驗

1. Research Workflow

2.模型設(shè)計

3. 訓(xùn)練數(shù)據(jù)

4. 目錄結(jié)構(gòu)

5. 命名及注釋

6. 管理結(jié)果

Day6

一剖淀、上午 推薦系統(tǒng)

1. 流程

2. 協(xié)同過濾：過對用戶歷史行為數(shù)據(jù)的挖掘發(fā)現(xiàn)用戶的偏好榄笙，基于不同的偏好對用戶進行群組劃分并推薦品味相似的商品。

3. User-based 模型

4. Item-based 模型

5. 以上兩個模型的基本問題：冷啟動（content-based, 遷移學(xué)習(xí)）

6. Model-based 模型（難）

7. 聚類模型

8. 概率模型

9. 分類模型

10. content-based 模型

11. learn to rank

二剑令、Deep learning for RS

1.主流模型

推薦閱讀更多精彩內(nèi)容

一剖淀、上午推薦系統(tǒng)