Accuracy: 準(zhǔn)確率
機(jī)器學(xué)習(xí)的常用評(píng)價(jià)指標(biāo)。定義如下:
Accuracy = (TruePositives + TrueNegatives) / 總樣本數(shù)
經(jīng)常和準(zhǔn)確率一起出現(xiàn)的纫塌,還有精確率和召回率诊县。
- 精確率(Precision) = TP / (TP + FP)。它表示:預(yù)測(cè)為正的樣本中有多少是真正的正樣本措左,它是針對(duì)我們預(yù)測(cè)結(jié)果而言的依痊。Precision又稱為查準(zhǔn)率。
- 召回率(Recall) = TP / (TP + FN)怎披。它表示:樣本中的正例有多少被預(yù)測(cè)正確了胸嘁, 它是針對(duì)我們?cè)瓉淼臉颖径缘摹ecall又稱為查全率凉逛。
Activation function: 激活函數(shù)
一種函數(shù)(例如 ReLU 或 Sigmoid)性宏,將前一層所有神經(jīng)元激活值的加權(quán)和輸入到一個(gè)非線性函數(shù)中,然后向下一層傳遞該函數(shù)的輸出值(典型的非線性)状飞。
如下圖毫胜,在神經(jīng)元中蝌借,輸入的 inputs 通過加權(quán),求和后指蚁,還被作用了一個(gè)函數(shù),這個(gè)函數(shù)就是激活函數(shù) Activation Function自晰。
常見的激活函數(shù)有:sigmoid凝化、Tanh、ReLU酬荞、softmax等
Adagrad:一種優(yōu)化算法
Adagrad是一種復(fù)雜的優(yōu)化算法(梯度下降算法)搓劫,它能夠在迭代過程中不斷地自我調(diào)整學(xué)習(xí)率,并讓模型參數(shù)中每個(gè)元素都使用不同學(xué)習(xí)率混巧。
AUC: 曲線下面積
AUC(Area Under Curve)也是一種常見的機(jī)器學(xué)習(xí)評(píng)價(jià)指標(biāo)枪向,和ROC(Receiver Operating Characteristic)曲線一起常被用來評(píng)價(jià)一個(gè)二值分類器(binary classifier)的優(yōu)劣。相比準(zhǔn)確率咧党、召回率秘蛔、F-score這樣的評(píng)價(jià)指標(biāo),ROC曲線有這樣一個(gè)很好的特性:當(dāng)測(cè)試集中正負(fù)樣本的分布變化的時(shí)候傍衡,ROC曲線能夠保持不變深员。在實(shí)際的數(shù)據(jù)集中經(jīng)常會(huì)出現(xiàn)類不平衡(class imbalance)現(xiàn)象,即負(fù)樣本比正樣本多很多(或者相反)蛙埂,而且測(cè)試數(shù)據(jù)中的正負(fù)樣本的分布也可能隨著時(shí)間變化倦畅。
AUC值是一個(gè)概率值,當(dāng)你隨機(jī)挑選一個(gè)正樣本以及一個(gè)負(fù)樣本绣的,當(dāng)前的分類算法根據(jù)計(jì)算得到的Score值將這個(gè)正樣本排在負(fù)樣本前面的概率就是AUC值叠赐。AUC值越大,當(dāng)前的分類算法越有可能將正樣本排在負(fù)樣本前面屡江,即能夠更好的分類芭概。
如果你覺得還有其他核心基礎(chǔ)詞匯,歡迎評(píng)論補(bǔ)充盼理。