1.機(jī)器學(xué)習(xí)算法
- 西瓜書
-
神經(jīng)網(wǎng)絡(luò): neural-networks-and-deep-learning-zh
- 優(yōu)點(diǎn):準(zhǔn)確率高,可并行計(jì)算阁最,逼近復(fù)雜的非線性關(guān)系,做特征提取
- 缺點(diǎn):需要大量參數(shù)勾怒,解釋性差搀暑,訓(xùn)練時(shí)間長
- 種類:CNN(卷積),RNN(循環(huán))署咽,DNN(全連接神經(jīng)元)
- 防止過擬合:1.正則,2.早停(當(dāng)驗(yàn)證集誤差升高時(shí)停止)
- 跳出局部極小值:1. 多組不同參數(shù)初始化生音,2.每一步以一定概率接受比現(xiàn)在更差的結(jié)果宁否,3.隨機(jī)梯度下降
- GBDT, GBDT和隨機(jī)森林比較
- xgboost
- 神經(jīng)網(wǎng)絡(luò)算法:owlqn缀遍, SGD
- 激活函數(shù)
- logistic regression慕匠,logistic和樸素貝葉斯的區(qū)別
- 多分類auc計(jì)算
- GeoHash核心原理解析
-
決策樹缺失值處理
13.dbscan聚類算法
2.概率和線性代數(shù)
- 期望、方差域醇、協(xié)方差及相關(guān)系數(shù)的基本運(yùn)算
- 最大似然估計(jì)
- 梯度下降法好文章
- 特征值分解台谊,奇異值分解,主成分分析譬挚,有用文章锅铅,原理講解,好文章
- EM算法
- 社區(qū)發(fā)現(xiàn)Louvain算法 , 算法講解
- 概率面試題
- 常用概率分布
- 蒙特卡洛抽樣
3.自然語言處理
- 統(tǒng)計(jì)語言模型
- N元文法模型:《數(shù)學(xué)之美》page54
- 工程技巧,平滑方法:page60
- 分詞
- 基于字符匹配:最長詞匹配减宣,歧義詞和未登錄詞處理不好
- 基于統(tǒng)計(jì):相鄰的字同時(shí)出現(xiàn)的次數(shù)越多盐须,就越可能構(gòu)成一個(gè)詞。 隱馬爾科夫模型 + N-gram
- 文本相似度計(jì)算
- word2vec
4. 工程知識(shí)
-
特征選擇
特征選擇好文章贼邓, 特征選擇:卡方檢驗(yàn), 特征選擇:信息增益闷尿, 特征選擇:woe, IV塑径,特征選擇:LR
r2:方程的確定系數(shù),表示X對(duì)Y的解釋程度填具,取值在[0, 1]之間统舀,越接近1表示對(duì)Y的解釋程度越好
算法具體-
正則化:把額外的懲罰加到已有模型上,防止過擬合并提高泛化能力
- L1范數(shù):讓特征稀疏,很多w變?yōu)?
- L2范數(shù):嶺回歸绑咱,改善過擬合绰筛,讓每個(gè)w都很小
- 通俗易懂的好文章
-
規(guī)則引擎
-
爬蟲
- from sgmllib import SGMLParser
推薦系統(tǒng)
推薦系統(tǒng)入門 , 推薦系統(tǒng):SVD-
防止過擬合
- 使用簡單的模型 2. 降維 3. L2范數(shù) 4.算法本身(svm松弛變量,決策樹剪枝)