華工機器學(xué)習(xí)培訓(xùn)筆記

Day1


一惕耕、上午

  1. 傳統(tǒng)程序:數(shù)據(jù) + 程序 -> 電腦 -> 輸出
    機器學(xué)習(xí):數(shù)據(jù) + 輸出 -> 電腦 -> 程序
  2. 條件概率幸海、邊緣概率慨丐、聯(lián)合概率赂乐、參考
    貝葉斯公式咖气、貝葉斯網(wǎng)絡(luò)、概率的鏈?zhǔn)椒▌t(重點理解)挖滤、參考崩溪;
    概率圖模型(自學(xué),即貝葉斯網(wǎng)絡(luò)和馬爾柯夫網(wǎng)絡(luò));
  3. 概率密度函數(shù)斩松、Transformed Densities(不理解)伶唯、參考
    最大似然估計惧盹、最大后驗估計乳幸、參考
  4. 自信息:不確定性的消除钧椰;
    概率:事件的不確定性程度粹断;
    熵、聯(lián)合熵嫡霞、條件熵瓶埋、相對熵、交叉熵诊沪、參考
  5. 導(dǎo)數(shù)的鏈?zhǔn)角髮?dǎo)法則

二养筒、下午

  1. 數(shù)據(jù)、代價函數(shù)端姚、最小化代價函數(shù)晕粪、
  2. 最小二乘法(推導(dǎo))、正則化渐裸、梯度下降巫湘、線性回歸(FIT,擬合)
  3. 線性分類橄仆、支持向量機(軟間隔剩膘、hinge loss)、各種損失函數(shù)
  4. 隨機梯度下降盆顾、批次隨機梯度下降(節(jié)約內(nèi)存)
  5. Adma(AdaGrad + RMSProp)(重點理解怠褐!面試必考!)
    AdaGrad:適用于稀疏梯度您宪;當(dāng)梯度較小時奈懒,下一步跑得慢奠涌;梯度較大時,下一步跑得快磷杏。
    RMSProp:自適應(yīng)學(xué)習(xí)率溜畅。
  6. 牛頓法:每一步梯度都由一個 xxx 矩陣確定,但是復(fù)雜度高极祸。(自學(xué))
  7. 優(yōu)化算法:分布式(中心化(工業(yè)界常用)慈格、去中心化)、量化


    梯度下降矩陣計算.png

三遥金、晚上

  1. Linux(環(huán)境變量浴捆、常用命令

man: Linux 下的幫助指令。
which:用于查找并顯示給定命令的絕對路徑稿械。
free:顯示當(dāng)前系統(tǒng)未使用和已使用的內(nèi)在數(shù)目选泻。-h:以可讀的方式顯示。
df:顯示磁盤分區(qū)上的可用空間美莫。掛載點
top:系統(tǒng)的運行情況页眯。(load:1、5厢呵、15 分鐘的負(fù)載情況)

  1. GPU 的基礎(chǔ)概念
  2. Docker的基礎(chǔ)概念
  3. NVIDIA Docker 的基礎(chǔ)概念 (deepo窝撵、docker hub)
  4. 實驗及相關(guān)代碼


Day2

一述吸、上午

大綱
大綱.png
1. 線性模型:單層感知機(sign -> (-1, 1))忿族、邏輯回歸(sigmoid -> (0,1))。
2. 決策樹(詳見《機器學(xué)習(xí)》):
決策樹學(xué)習(xí)基本算法

2.1. 純度:the degree that the samples in one leaf node belong to the same class
2.2. 信息熵:平均而言發(fā)生一個事件我們得到的信息量大小蝌矛。
2.3. 信息增益:熵 - 條件熵道批,在一個條件下,信息不確定性減少的程度入撒。(ID3)
2.4. 增益率:懲罰參數(shù) * 信息增益隆豹。(C4.5)
2.5. 基尼系數(shù):是一種與信息熵類似的做特征選擇的方式,可以用來數(shù)據(jù)的不純度茅逮。(CART)

3. 集成學(xué)習(xí)(詳見《機器學(xué)習(xí)》)
集成學(xué)習(xí).png

3.1. 基分類器
3.2. 加性模型

4. AdaBoost(如何訓(xùn)練璃赡、合并、更新數(shù)據(jù)分布)(一堆數(shù)學(xué)公式……)

4.1. 流程:


AdaBoost 算法流程.png

4.2. 偽代碼:


AdaBoost 偽代碼.png

4.3. 理論分析:錯誤率有上界献雅;模型自由率比較小碉考,不容易過擬合;
4.4. AdaBoost 的局限性:等價對待正例和負(fù)例挺身。

4.5. 解決:代價敏感學(xué)習(xí)


AdaBoost 局限性解決 - 代價敏感學(xué)習(xí).png

4.6. AdaCost
image.png
AdaCost.png
5. GBDT(基于回歸樹)

5.1.動機


image.png

image.png

5.2. 訓(xùn)練基分類器


1.png

3.png

5.3. 組合分類器:加性模型
image.png

5.4. 改變數(shù)據(jù)分布:殘差侯谁。
5.5 偽代碼


梯度提升算法 -偽代碼.png

GBDT 偽代碼(第 3 步).png
6. XGBoost

6.1. 過擬合、欠投合、偏差墙贱、方差


新的目標(biāo)函數(shù).png

6.2. XGBoost 目標(biāo)函數(shù)


XGBoost 目標(biāo)函數(shù).png

6.3. How to learn? (……一堆公式+一堆例子热芹,這一部分完全沒聽懂)
7. 剪枝、正則化
image.png
8.準(zhǔn)確度
image.png
9.總結(jié)
image.png
10. 附件: XGBoost的實驗手冊惨撇、調(diào)參

二伊脓、下午

大綱

day02 下午大綱.png

照片的形成.png

像素值相關(guān).png

圖片存儲.png

沒怎么聽……不太感興趣……


三、晚上

如何做實驗及管理實驗
1. Research Workflow
工作流程.png
2.模型設(shè)計
Model Design.png
3. 訓(xùn)練數(shù)據(jù)
Training Data.png
4. 目錄結(jié)構(gòu)
Directory Structure.png

checkpoints:用來保存中間結(jié)果魁衙。
opts(即 configure):放所有超參數(shù)等各種設(shè)置报腔。
main:訓(xùn)練和測試的代碼。

5. 命名及注釋
train and annotation.png
6. 管理結(jié)果
Result Management.png



Day6

一剖淀、上午 推薦系統(tǒng)
1. 流程
推薦系統(tǒng)工作流程.png
2. 協(xié)同過濾:過對用戶歷史行為數(shù)據(jù)的挖掘發(fā)現(xiàn)用戶的偏好榄笙,基于不同的偏好對用戶進行群組劃分并推薦品味相似的商品。
協(xié)同過濾.png

2.1. 協(xié)同過濾分類


協(xié)同過濾分類.png

2.2. 協(xié)同過濾的基本方法


image.png
3. User-based 模型
User-based 模型.png

3.1. 基本問題


User-based 模型的三個基本問題.png

3.1.1 相似度(套一個PCC公式祷蝌,皮爾森)


相似度計算.png

3.1.2. 計算總分
總分.png

3.1.3. 取幾個近鄰(經(jīng)驗值)
近鄰數(shù).png

3.2. 模型的優(yōu)化


User-based 模型優(yōu)化,近鄰算法.png

3.3 模型分析
image.png
4. Item-based 模型

4.1 模型的直觀理解:利用其他相似值相同的 item帆卓,來評估 target item巨朦。


image.png

4.2 相似度計算:PCC 或者 余弦相似度


image.png

4.3 預(yù)測
[圖片上傳失敗...(image-749553-1532742673361)]

4.4 優(yōu)勢:可以做離線預(yù)測。

5. 以上兩個模型的基本問題:冷啟動(content-based, 遷移學(xué)習(xí))
image.png
6. Model-based 模型(難)
推薦的論文.png

使用 SVD 去 xxx.png

矩陣的評估.png
7. 聚類模型
image.png
8. 概率模型

[圖片上傳中...(image.png-952044-1532744092074-0)]

9. 分類模型
image.png
10. content-based 模型
image.png
11. learn to rank
image.png

二剑令、Deep learning for RS

1.主流模型
image.png

image.png

image.png

image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末糊啡,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子吁津,更是在濱河造成了極大的恐慌棚蓄,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,084評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件碍脏,死亡現(xiàn)場離奇詭異梭依,居然都是意外死亡,警方通過查閱死者的電腦和手機典尾,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,623評論 3 392
  • 文/潘曉璐 我一進店門役拴,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人钾埂,你說我怎么就攤上這事河闰。” “怎么了褥紫?”我有些...
    開封第一講書人閱讀 163,450評論 0 353
  • 文/不壞的土叔 我叫張陵姜性,是天一觀的道長。 經(jīng)常有香客問我髓考,道長部念,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,322評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮印机,結(jié)果婚禮上矢腻,老公的妹妹穿的比我還像新娘。我一直安慰自己射赛,他們只是感情好多柑,可當(dāng)我...
    茶點故事閱讀 67,370評論 6 390
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著楣责,像睡著了一般竣灌。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上秆麸,一...
    開封第一講書人閱讀 51,274評論 1 300
  • 那天初嘹,我揣著相機與錄音,去河邊找鬼沮趣。 笑死屯烦,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的房铭。 我是一名探鬼主播驻龟,決...
    沈念sama閱讀 40,126評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼缸匪!你這毒婦竟也來了翁狐?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,980評論 0 275
  • 序言:老撾萬榮一對情侶失蹤凌蔬,失蹤者是張志新(化名)和其女友劉穎露懒,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體砂心,經(jīng)...
    沈念sama閱讀 45,414評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡懈词,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,599評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了辩诞。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片钦睡。...
    茶點故事閱讀 39,773評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖躁倒,靈堂內(nèi)的尸體忽然破棺而出荞怒,到底是詐尸還是另有隱情,我是刑警寧澤秧秉,帶...
    沈念sama閱讀 35,470評論 5 344
  • 正文 年R本政府宣布褐桌,位于F島的核電站,受9級特大地震影響象迎,放射性物質(zhì)發(fā)生泄漏荧嵌。R本人自食惡果不足惜呛踊,卻給世界環(huán)境...
    茶點故事閱讀 41,080評論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望啦撮。 院中可真熱鬧谭网,春花似錦、人聲如沸赃春。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,713評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽织中。三九已至锥涕,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間狭吼,已是汗流浹背层坠。 一陣腳步聲響...
    開封第一講書人閱讀 32,852評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留刁笙,地道東北人破花。 一個月前我還...
    沈念sama閱讀 47,865評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像疲吸,于是被迫代替她去往敵國和親旧乞。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,689評論 2 354

推薦閱讀更多精彩內(nèi)容