天天隨手記,持續(xù)更新中(2018-05-02)

  1. 降維方法:
  • principal component analysis
  • conical correlation analysis
  • singular value decomposition
  1. 原始數(shù)據(jù)預(yù)處理,三步驟
  • data preprocessing
  • feature engineering
  • feature selection;其中特征選擇又有3方法,即
    - filter限府;select the best subset
    - wrapper; generate a subset---->learning algorithm 循環(huán);
    - embedded method; generate a subset---->learning algorithm + performance 循環(huán)痢缎;
  1. The process of machine learning機(jī)器學(xué)習(xí)步驟


    image.png
  2. Some classification algorithms

  • nearest neighbour
  • Linear svm
  • RBF svm
  • Gaussian process
  • decision tree
  • random forest
  • neural net
  • ada boost
  • naive bayes
  • QDA


    image.png
  1. 幾種算法
    A. Regression

    • Ordinal Regression序數(shù)回歸: data in rank ordered categories
    • Poisson Regression: predicts event counts
    • Fast forest quantile regression: predicts a distribution
    • Linear regression: fast training, linear model
    • Bayesian linear regression: linear model, small data sets
    • neural network regression: accurate, long training times
    • decision forest regression: accurate, fast training times
    • boosted decision tree regression: accurate, fast training times, large memory footprint
      B. Clustering
    • K-means: unsupervised learning
      C. Anomaly detection 異常檢測
    • PCA-Based Anomaly detection: fast training times
    • Two-class classification: under 100 features, aggressive boundary
      D. Two-class classification
    • two-class SVM: under 100 features, linear model
    • two-class averaged perceptron: fast training, linear model
    • two-class bayes point machine: fast training, linear model
    • two-class decision forest
    • two-class regression
    • two-class boosted decision tree
    • two-class decision jungle
    • two-class locally deep SVM
    • two-class neural network
      E. Multiclass Classification
    • multiclass logistic regression
    • multiclass neural network
    • multiclass decision forest
    • multiclass decision jungle
    • one-v-all multiclass: depend on the two-class classifier
  2. Semi-supervised learning
    Between supervised learning and unsupervised learning; 少部分?jǐn)?shù)據(jù)有l(wèi)abel胁勺,大多數(shù)數(shù)據(jù)沒有l(wèi)abel; 有高準(zhǔn)確率独旷,且與supervised learning相比署穗,它訓(xùn)練成本低很多寥裂。

  3. Reinforcement Learning增強(qiáng)學(xué)習(xí)
    從一系列動(dòng)作中,學(xué)習(xí)到最大反饋方程案疲,此處反饋方程可以是“bad actions”或“good action”封恰; 增強(qiáng)學(xué)習(xí)常常用于自動(dòng)駕駛中,即通過周遭環(huán)境的一系列反饋來做出決定褐啡。


    image.png
  4. 機(jī)器學(xué)習(xí)算法诺舔,分類圖


    image.png
  5. 一個(gè)tip
    如果訓(xùn)練過程中,數(shù)據(jù)結(jié)果很好春贸,但在評估階段結(jié)果很差混萝,那很有可能是overfitting了遗遵。

  6. 常用validation的三種方法

    • hold-out validation萍恕,預(yù)留校驗(yàn)數(shù)據(jù);適用大數(shù)據(jù)樣本

    • k-fold cross validation车要,將訓(xùn)練集分成k等份允粤;適用小數(shù)據(jù)樣本


      image.png
    • leave-one-out validation(LOOCV),特殊的k-fold交叉校驗(yàn)翼岁,重復(fù)直至每個(gè)觀察樣本都作為過了校驗(yàn)數(shù)據(jù)类垫。

  7. 評估模型的幾種方法


    image.png
  • A. accuracy(精確率), precision(查準(zhǔn)率),recall(查全率)
    如何判斷哪個(gè)模型效果最好琅坡,可以通過F score悉患,相關(guān)定義方程如下:


    image.png

    F越大越好

  • B. ROC curves


    image.png

    image.png

    其中ROC 曲線圖的優(yōu)點(diǎn)是不受類分布(不平衡類分布)的 影響

  • C. AUC (area under curve)


    image.png

    其中,auc越高越好

  • D. R平方榆俺,coefficient of determination售躁,【0,1】
    It is a standard way of measuring how well the model fits the data.


    image.png

    缺點(diǎn)是:R總是這增長,從不會(huì)減少茴晋,所以數(shù)據(jù)更多的模型陪捷,它的R值總是更大,就會(huì)認(rèn)為該模型更好诺擅;此外市袖,如果訓(xùn)練數(shù)據(jù)更高階,那么噪聲很容易被誤認(rèn)為待訓(xùn)練數(shù)據(jù)烁涌,即噪聲參與了模型的訓(xùn)練

image.png
  1. 一個(gè)tip
    有時(shí)候一個(gè)準(zhǔn)確率很高的模型并不能說它是有用的苍碟,比如,一個(gè)模型說99%無癌癥撮执,1%有癌癥驰怎,這是一個(gè)樣本分布不均勻的案例, 此時(shí)需要建立兩個(gè)模型二打,模型A用來判定有癌癥县忌,模型B用來判定無癌癥

  2. Bias和Variance問題
    underfit屬于high bias
    overfit屬于high variant
    判斷模型的好壞的過程中掂榔,如果訓(xùn)練集效果很好,但是校驗(yàn)集不好症杏,那么是high variance問題(即overfit)装获;如果訓(xùn)練集和校驗(yàn)集效果都不好,那么是high bias問題(即underfit)厉颤。
    解決方法:


    image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末穴豫,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子逼友,更是在濱河造成了極大的恐慌精肃,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,402評論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件帜乞,死亡現(xiàn)場離奇詭異司抱,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)黎烈,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評論 3 392
  • 文/潘曉璐 我一進(jìn)店門习柠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人照棋,你說我怎么就攤上這事资溃。” “怎么了烈炭?”我有些...
    開封第一講書人閱讀 162,483評論 0 353
  • 文/不壞的土叔 我叫張陵溶锭,是天一觀的道長。 經(jīng)常有香客問我符隙,道長趴捅,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,165評論 1 292
  • 正文 為了忘掉前任膏执,我火速辦了婚禮驻售,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘更米。我一直安慰自己欺栗,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,176評論 6 388
  • 文/花漫 我一把揭開白布征峦。 她就那樣靜靜地躺著迟几,像睡著了一般。 火紅的嫁衣襯著肌膚如雪栏笆。 梳的紋絲不亂的頭發(fā)上类腮,一...
    開封第一講書人閱讀 51,146評論 1 297
  • 那天,我揣著相機(jī)與錄音蛉加,去河邊找鬼蚜枢。 笑死缸逃,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的厂抽。 我是一名探鬼主播需频,決...
    沈念sama閱讀 40,032評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼筷凤!你這毒婦竟也來了昭殉?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,896評論 0 274
  • 序言:老撾萬榮一對情侶失蹤藐守,失蹤者是張志新(化名)和其女友劉穎挪丢,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體卢厂,經(jīng)...
    沈念sama閱讀 45,311評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡乾蓬,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,536評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了足淆。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片巢块。...
    茶點(diǎn)故事閱讀 39,696評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡礁阁,死狀恐怖巧号,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情姥闭,我是刑警寧澤丹鸿,帶...
    沈念sama閱讀 35,413評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站棚品,受9級特大地震影響靠欢,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜铜跑,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,008評論 3 325
  • 文/蒙蒙 一门怪、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧锅纺,春花似錦掷空、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至官地,卻和暖如春酿傍,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背驱入。 一陣腳步聲響...
    開封第一講書人閱讀 32,815評論 1 269
  • 我被黑心中介騙來泰國打工赤炒, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留氯析,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,698評論 2 368
  • 正文 我出身青樓莺褒,卻偏偏與公主長得像魄鸦,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子癣朗,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,592評論 2 353

推薦閱讀更多精彩內(nèi)容

  • 休息-- 每次休息時(shí)我會(huì)選擇去郊區(qū)拾因,空氣清新、愜意旷余,可以讓自己慢下來绢记,很好的去思考和整理。我在計(jì)劃考哈他注冊教練正卧,...
    梅歌瑜伽閱讀 165評論 2 2
  • 我一臉茫然不解蠢熄,但張舒云并未繼續(xù)解釋,反而我想開口詢問的時(shí)候炉旷,張舒云卻用另外一只手湊到嘴邊签孔,做了一個(gè)不要說話的動(dòng)作...
    下一年的秋天閱讀 186評論 1 1
  • 18歲,記載著太多回憶窘行,無數(shù)次希望自己不曾有過18歲饥追,這樣至少我依然幸福快樂心安罐盔,至少?zèng)]有現(xiàn)在的低聲下氣和委屈求...
    輕煙醉影閱讀 355評論 0 0
  • 關(guān)系操作符 小于(<),大于(>),小于等于(<=),大于等于(>=)這幾個(gè)關(guān)系操作符用于對兩個(gè)值進(jìn)行比較但绕。這幾個(gè)...
    我擁抱著我的未來閱讀 271評論 0 0