聲明轉(zhuǎn)載請(qǐng)注明出處:http://www.reibang.com/p/0706ef8575d0
另外泻骤,更多實(shí)時(shí)更新的個(gè)人學(xué)習(xí)筆記分享郎哭,請(qǐng)關(guān)注:
CSDN地址:http://blog.csdn.net/m0_37306360
知乎:https://www.zhihu.com/people/yuquanle/columns
公眾號(hào):StudyForAI?
隨著智能時(shí)代慢慢的到來赘方,有一些基本概念都不知道真的是要落伍了榜苫,作為正在積極學(xué)習(xí)向上的青年铝宵,我想總結(jié)一份筆記谦纱,此份筆記會(huì)記錄眾多AI領(lǐng)域的術(shù)語(yǔ)和概念看成,當(dāng)然,學(xué)一部分記錄一部分跨嘉,并且可能會(huì)夾雜著自己的一些理解川慌,由于能力有限,有問題希望大家多多賜教祠乃。當(dāng)然梦重,由于內(nèi)容太多,僅僅只是記錄了中英名對(duì)照跳纳,有的加上了簡(jiǎn)單的解釋忍饰,沒加的后續(xù)大家有需求,我會(huì)慢慢完善~~寺庄。目錄暫定以首字母的字典序排序艾蓝。可以當(dāng)作目錄方便以后查閱~~建議收藏加點(diǎn)贊哈哈哈
------------------------------------------------這里是分割線--------------------------------------------------
A
準(zhǔn)確率(accuracy)
分類模型預(yù)測(cè)準(zhǔn)確的比例斗塘。
二分類問題中赢织,準(zhǔn)確率定義為:accuracy = (true positives +true negatives)/all samples
多分類問題中,準(zhǔn)確率定義為:accuracy = correctpredictions/all samples
激活函數(shù)(activation function)
一種函數(shù)馍盟,將前一層所有神經(jīng)元激活值的加權(quán)和 輸入到一個(gè)非線性函數(shù)中于置,然后作為下一層神經(jīng)元的輸入,例如 ReLU 或 Sigmoid
AdaGrad
一種復(fù)雜的梯度下降算法贞岭,重新調(diào)節(jié)每個(gè)參數(shù)的梯度八毯,高效地給每個(gè)參數(shù)一個(gè)單獨(dú)的學(xué)習(xí)率。
AUC(曲線下面積)
一種考慮到所有可能的分類閾值的評(píng)估標(biāo)準(zhǔn)瞄桨。ROC 曲線下面積代表分類器隨機(jī)預(yù)測(cè)真正類(Ture Positives)要比假正類(False Positives)概率大的確信度话速。
Adversarial example(對(duì)抗樣本)
Adversarial Networks(對(duì)抗網(wǎng)絡(luò))
Artificial General Intelligence/AGI(通用人工智能)
Attention mechanism(注意力機(jī)制)
Autoencoder(自編碼器)
Automatic summarization(自動(dòng)摘要)
Average gradient(平均梯度)
Average-Pooling(平均池化)
B
反向傳播(Backpropagation/BP)
神經(jīng)網(wǎng)絡(luò)中完成梯度下降的重要算法。首先芯侥,在前向傳播的過程中計(jì)算每個(gè)節(jié)點(diǎn)的輸出值泊交。然后,在反向傳播的過程中計(jì)算與每個(gè)參數(shù)對(duì)應(yīng)的誤差的偏導(dǎo)數(shù)柱查。
基線(Baseline)
被用為對(duì)比模型表現(xiàn)參考的簡(jiǎn)單模型廓俭。
批量(Batch)
模型訓(xùn)練中一個(gè)迭代(指一次梯度更新)使用的樣本集。
批量大邪ぁ(Batch size)
一個(gè)批量中樣本的數(shù)量研乒。例如,SGD 的批量大小為 1淋硝,而 mini-batch 的批量大小通常在 10-1000 之間雹熬。
偏置(Bias)
與原點(diǎn)的截距或偏移量错维。
二元分類器(Binary classification)
一類分類任務(wù),輸出兩個(gè)互斥類別中的一個(gè)橄唬。比如垃圾郵件檢測(cè)赋焕。
詞袋(Bag of words/Bow)
基學(xué)習(xí)器(Base learner)
基學(xué)習(xí)算法(Base learning algorithm)
貝葉斯網(wǎng)絡(luò)(Bayesian network)
基準(zhǔn)(Bechmark)
信念網(wǎng)絡(luò)(Belief network)
二項(xiàng)分布(Binomial distribution)
玻爾茲曼機(jī)(Boltzmann machine)
自助采樣法/可重復(fù)采樣/有放回采樣(Bootstrap sampling)
廣播(Broadcasting)
C
類別(Class)
所有同類屬性的目標(biāo)值作為一個(gè)標(biāo)簽。
分類模型(classification)
機(jī)器學(xué)習(xí)模型的一種仰楚,將數(shù)據(jù)分離為兩個(gè)或多個(gè)離散類別隆判。
收斂(convergence)
訓(xùn)練過程達(dá)到的某種狀態(tài),其中訓(xùn)練損失和驗(yàn)證損失在經(jīng)過了確定的迭代次數(shù)后僧界,在每一次迭代中侨嘀,改變很小或完全不變。
凸函數(shù)(concex function)
一種形狀大致呈字母 U 形或碗形的函數(shù)捂襟。然而咬腕,在退化情形中,凸函數(shù)的形狀就像一條線葬荷。
成本(cost)
loss 的同義詞涨共。深度學(xué)習(xí)模型一般都會(huì)定義自己的loss函數(shù)。
交叉熵(cross-entropy)
多類別分類問題中對(duì) Log 損失函數(shù)的推廣宠漩。交叉熵量化兩個(gè)概率分布之間的區(qū)別举反。
條件熵(Conditional entropy)
條件隨機(jī)場(chǎng)(Conditional random field/CRF)
置信度(Confidence)
共軛方向(Conjugate directions)
共軛分布(Conjugate distribution)
共軛梯度(Conjugate gradient)
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network/CNN)
余弦相似度(Cosine similarity)
成本函數(shù)(Cost Function)
曲線擬合(Curve-fitting)
D
數(shù)據(jù)集(data set)
樣本的集合
深度模型(deep model)
一種包含多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)。深度模型依賴于其可訓(xùn)練的非線性性質(zhì)扒吁。和寬度模型對(duì)照(widemodel)火鼻。
dropout 正則化(dropoutregularization)
訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)一種有用的正則化方法。dropout 正則化的過程是在單次梯度計(jì)算中刪去一層網(wǎng)絡(luò)中隨機(jī)選取的固定數(shù)量的單元雕崩。刪去的單元越多魁索,正則化越強(qiáng)。
數(shù)據(jù)挖掘(Data mining)
決策樹/判定樹(Decisiontree)
深度神經(jīng)網(wǎng)絡(luò)(Deep neural network/DNN)
狄利克雷分布(Dirichlet distribution)
判別模型(Discriminative model)
下采樣(Down sampling)
動(dòng)態(tài)規(guī)劃(Dynamic programming)
E
早期停止法(early stopping)
一種正則化方法盼铁,在訓(xùn)練損失完成下降之前停止模型訓(xùn)練過程粗蔚。當(dāng)驗(yàn)證數(shù)據(jù)集(validationdata set)的損失開始上升的時(shí)候,即泛化表現(xiàn)變差的時(shí)候捉貌,就該使用早期停止法了支鸡。
嵌入(embeddings)
一類表示為連續(xù)值特征的明確的特征冬念。嵌入通常指將高維向量轉(zhuǎn)換到低維空間中趁窃。
經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(empirical risk minimization,ERM)
選擇能使得訓(xùn)練數(shù)據(jù)的損失函數(shù)最小化的模型的過程急前。和結(jié)構(gòu)風(fēng)險(xiǎn)最小化(structualrisk minimization)對(duì)照醒陆。
集成(ensemble)
多個(gè)模型預(yù)測(cè)的綜合考慮●烧耄可以通過以下一種或幾種方法創(chuàng)建一個(gè)集成方法:
設(shè)置不同的初始化刨摩;
設(shè)置不同的超參量寺晌;
設(shè)置不同的總體結(jié)構(gòu)。
深度和廣度模型是一種集成澡刹。
樣本(example)
一個(gè)數(shù)據(jù)集的一行內(nèi)容呻征。一個(gè)樣本包含了一個(gè)或多個(gè)特征,也可能是一個(gè)標(biāo)簽罢浇。參見標(biāo)注樣本(labeledexample)和無標(biāo)注樣本(unlabeled example)陆赋。
F
假負(fù)類(false negative,F(xiàn)N)
被模型錯(cuò)誤的預(yù)測(cè)為負(fù)類的樣本嚷闭。例如攒岛,模型推斷一封郵件為非垃圾郵件(負(fù)類),但實(shí)際上這封郵件是垃圾郵件胞锰。
假正類(false positive灾锯,F(xiàn)P)
被模型錯(cuò)誤的預(yù)測(cè)為正類的樣本。例如嗅榕,模型推斷一封郵件為垃圾郵件(正類)顺饮,但實(shí)際上這封郵件是非垃圾郵件。
假正類率(false positive rate凌那,F(xiàn)P rate)
ROC 曲線(ROC curve)中的 x 軸领突。FP 率的定義是:假正率=假正類數(shù)/(假正類數(shù)+真負(fù)類數(shù))
特征工程(feature engineering)
在訓(xùn)練模型的時(shí)候,挖掘?qū)δP托Ч欣奶卣鳌?/p>
前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Networks/FNN )
G
泛化(generalization)
指模型利用新的沒見過的數(shù)據(jù)而不是用于訓(xùn)練的數(shù)據(jù)作出正確的預(yù)測(cè)的能力案怯。
廣義線性模型(generalized linear model)
最小二乘回歸模型的推廣/泛化君旦,基于高斯噪聲,相對(duì)于其它類型的模型(基于其它類型的噪聲嘲碱,比如泊松噪聲金砍,或類別噪聲)。廣義線性模型的例子包括:
logistic 回歸
多分類回歸
最小二乘回歸
梯度(gradient)
所有變量的偏導(dǎo)數(shù)的向量麦锯。在機(jī)器學(xué)習(xí)中恕稠,梯度是模型函數(shù)的偏導(dǎo)數(shù)向量。梯度指向最陡峭的上升路線扶欣。
梯度截?cái)啵╣radient clipping)
在應(yīng)用梯度之前先修飾數(shù)值鹅巍,梯度截?cái)嘤兄诖_保數(shù)值穩(wěn)定性,防止梯度爆炸出現(xiàn)料祠。
梯度下降(gradient descent)
通過計(jì)算模型的相關(guān)參量和損失函數(shù)的梯度最小化損失函數(shù)骆捧,值取決于訓(xùn)練數(shù)據(jù)。梯度下降迭代地調(diào)整參量髓绽,逐漸靠近權(quán)重和偏置的最佳組合敛苇,從而最小化損失函數(shù)。
圖(graph)
在 TensorFlow 中的一種計(jì)算過程展示顺呕。圖中的節(jié)點(diǎn)表示操作枫攀。節(jié)點(diǎn)的連線是有指向性的括饶,表示傳遞一個(gè)操作(一個(gè)張量)的結(jié)果(作為一個(gè)操作數(shù))給另一個(gè)操作。使用 TensorBoard 能可視化計(jì)算圖来涨。
高斯核函數(shù)(Gaussian kernel function)
高斯混合模型(Gaussian Mixture Model)
高斯過程(Gaussian Process)
泛化誤差(Generalization error)
生成模型(Generative Model)
遺傳算法(Genetic Algorithm/GA)
吉布斯采樣(Gibbs sampling)
基尼指數(shù)(Gini index)
梯度下降(Gradient Descent)
H
啟發(fā)式(heuristic)
一個(gè)問題的實(shí)際的和非最優(yōu)的解图焰,但能從學(xué)習(xí)經(jīng)驗(yàn)中獲得足夠多的進(jìn)步。
隱藏層(hidden layer)
神經(jīng)網(wǎng)絡(luò)中位于輸入層(即特征)和輸出層(即預(yù)測(cè))之間的合成層蹦掐。一個(gè)神經(jīng)網(wǎng)絡(luò)包含一個(gè)或多個(gè)隱藏層楞泼。
超參數(shù)(hyperparameter)
連續(xù)訓(xùn)練模型的過程中可以擰動(dòng)的「旋鈕」。例如笤闯,相對(duì)于模型自動(dòng)更新的參數(shù)堕阔,學(xué)習(xí)率(learningrate)是一個(gè)超參數(shù)。和參量對(duì)照颗味。
硬間隔(Hard?margin)
隱馬爾可夫模型(Hidden Markov Model/HMM)
層次聚類(Hierarchical clustering)
假設(shè)檢驗(yàn)(Hypothesis test)
I
獨(dú)立同分布(independently and identicallydistributed超陆,i.i.d)
從不會(huì)改變的分布中獲取的數(shù)據(jù),且獲取的每個(gè)值不依賴于之前獲取的值浦马。i.i.d. 是機(jī)器學(xué)習(xí)的理想情況——一種有用但在現(xiàn)實(shí)世界中幾乎找不到的數(shù)學(xué)構(gòu)建时呀。
推斷(inference)
在機(jī)器學(xué)習(xí)中,通常指將訓(xùn)練模型應(yīng)用到無標(biāo)注樣本來進(jìn)行預(yù)測(cè)的過程晶默。在統(tǒng)計(jì)學(xué)中谨娜,推斷指在觀察到的數(shù)據(jù)的基礎(chǔ)上擬合分布參數(shù)的過程。
輸入層(input layer)
神經(jīng)網(wǎng)絡(luò)的第一層(接收輸入數(shù)據(jù))磺陡。
評(píng)分者間一致性(inter-rater agreement)
用來衡量一項(xiàng)任務(wù)中人類評(píng)分者意見一致的指標(biāo)趴梢。如果意見不一致,則任務(wù)說明可能需要改進(jìn)币他。有時(shí)也叫標(biāo)注者間信度(inter-annotator agreement)或評(píng)分者間信度(inter-raterreliability)坞靶。
增量學(xué)習(xí)(Incremental learning)
獨(dú)立成分分析(Independent Component Analysis/ICA)
獨(dú)立子空間分析(Independent subspace analysis)
信息熵(Information entropy)
信息增益(Information gain)
J
JS 散度(Jensen-ShannonDivergence/JSD)
K
Kernel 支持向量機(jī)(KernelSupport Vector Machines/KSVM)
一種分類算法,旨在通過將輸入數(shù)據(jù)向量映射到更高維度的空間使正類和負(fù)類之間的邊際最大化蝴悉。例如彰阴,考慮一個(gè)輸入數(shù)據(jù)集包含一百個(gè)特征的分類問題。為了使正類和負(fù)類之間的間隔最大化拍冠,KSVM 從內(nèi)部將特征映射到百萬(wàn)維度的空間尿这。KSVM 使用的損失函數(shù)叫作 hinge 損失。
核方法(Kernel method)
核技巧(Kernel trick)
k 折交叉驗(yàn)證/k 倍交叉驗(yàn)證(K-fold cross validation)
K - 均值聚類(K-MeansClustering)
K近鄰算法(K-Nearest NeighboursAlgorithm/KNN)
知識(shí)圖譜(Knowledge graph)
知識(shí)庫(kù)(Knowledge base)
知識(shí)表征(Knowledge Representation)
L
L1 損失函數(shù)(L1 loss)
損失函數(shù)基于模型對(duì)標(biāo)簽的預(yù)測(cè)值和真實(shí)值的差的絕對(duì)值而定義庆杜。L1 損失函數(shù)比起 L2 損失函數(shù)對(duì)異常值的敏感度更小射众。
L1 正則化(L1regularization)
一種正則化,按照權(quán)重絕對(duì)值總和的比例進(jìn)行懲罰欣福。在依賴稀疏特征的模型中责球,L1 正則化幫助促使(幾乎)不相關(guān)的特征的權(quán)重趨近于 0焦履,從而從模型中移除這些特征拓劝。
L2 損失(L2 loss)
參見平方損失雏逾。
L2 正則化(L2regularization)
一種正則化,按照權(quán)重平方的總和的比例進(jìn)行懲罰郑临。L2 正則化幫助促使異常值權(quán)重更接近 0 而不趨近于 0栖博。(可與 L1 正則化對(duì)照閱讀。)L2 正則化通常改善線性模型的泛化效果厢洞。
標(biāo)簽(label)
在監(jiān)督式學(xué)習(xí)中仇让,樣本的「答案」或「結(jié)果」。標(biāo)注數(shù)據(jù)集中的每個(gè)樣本包含一或多個(gè)特征和一個(gè)標(biāo)簽躺翻。在垃圾郵件檢測(cè)數(shù)據(jù)集中丧叽,特征可能包括主題、發(fā)出者何郵件本身公你,而標(biāo)簽可能是「垃圾郵件」或「非垃圾郵件」踊淳。
標(biāo)注樣本(labeled example)
包含特征和標(biāo)簽的樣本。在監(jiān)督式訓(xùn)練中陕靠,模型從標(biāo)注樣本中進(jìn)行學(xué)習(xí)迂尝。
學(xué)習(xí)率(learning rate)
通過梯度下降訓(xùn)練模型時(shí)使用的一個(gè)標(biāo)量。每次迭代中剪芥,梯度下降算法使學(xué)習(xí)率乘以梯度垄开,乘積叫作 gradient step。學(xué)習(xí)率是一個(gè)重要的超參數(shù)税肪。
最小二乘回歸(least squares regression)
通過 L2 損失最小化進(jìn)行訓(xùn)練的線性回歸模型溉躲。
線性回歸(linear regression)
對(duì)輸入特征的線性連接輸出連續(xù)值的一種回歸模型。
logistic 回歸(logisticregression)
將 sigmoid 函數(shù)應(yīng)用于線性預(yù)測(cè)益兄,在分類問題中為每個(gè)可能的離散標(biāo)簽值生成概率的模型签财。盡管 logistic 回歸常用于二元分類問題,但它也用于多類別分類問題(這種情況下偏塞,logistic回歸叫作「多類別 logistic 回歸」或「多項(xiàng)式 回歸」唱蒸。
對(duì)數(shù)損失函數(shù)(Log Loss)
二元 logistic 回歸模型中使用的損失函數(shù)。
損失(Loss)
度量模型預(yù)測(cè)與標(biāo)簽距離的指標(biāo)灸叼,它是度量一個(gè)模型有多糟糕的指標(biāo)神汹。為了確定損失值,模型必須定義損失函數(shù)古今。例如屁魏,線性回歸模型通常使用均方差作為損失函數(shù),而 logistic 回歸模型使用對(duì)數(shù)損失函數(shù)捉腥。
隱狄利克雷分布(Latent Dirichlet Allocation/LDA)
潛在語(yǔ)義分析(Latent semantic analysis)
線性判別(Linear Discriminant Analysis/LDA)
長(zhǎng)短期記憶(Long-Short Term Memory/LSTM)
M
機(jī)器學(xué)習(xí)(machine learning)
利用輸入數(shù)據(jù)構(gòu)建(訓(xùn)練)預(yù)測(cè)模型的項(xiàng)目或系統(tǒng)氓拼。該系統(tǒng)使用學(xué)習(xí)的模型對(duì)與訓(xùn)練數(shù)據(jù)相同分布的新數(shù)據(jù)進(jìn)行有用的預(yù)測(cè)。機(jī)器學(xué)習(xí)還指與這些項(xiàng)目或系統(tǒng)相關(guān)的研究領(lǐng)域。
均方誤差(Mean Squared Error/MSE)
每個(gè)樣本的平均平方損失桃漾。MSE 可以通過平方損失除以樣本數(shù)量來計(jì)算坏匪。
小批量(mini-batch)
在訓(xùn)練或推斷的一個(gè)迭代中運(yùn)行的整批樣本的一個(gè)小的隨機(jī)選擇的子集。小批量的大小通常在10 到 1000 之間撬统。在小批量數(shù)據(jù)上計(jì)算損失比在全部訓(xùn)練數(shù)據(jù)上計(jì)算損失要高效的多适滓。
機(jī)器翻譯(Machine translation/MT)
馬爾可夫鏈蒙特卡羅方法(Markov Chain Monte Carlo/MCMC)
馬爾可夫隨機(jī)場(chǎng)(Markov Random Field)
多文檔摘要(Multi-document summarization)
多層感知器(Multilayer Perceptron/MLP)
多層前饋神經(jīng)網(wǎng)絡(luò)(Multi-layer feedforward neuralnetworks)
N
NaN trap
訓(xùn)練過程中,如果模型中的一個(gè)數(shù)字變成了 NaN恋追,則模型中的很多或所有其他數(shù)字最終都變成 NaN凭迹。NaN 是「Not aNumber」的縮寫。
神經(jīng)網(wǎng)絡(luò)(neural network)
該模型從大腦中獲取靈感苦囱,由多個(gè)層組成(其中至少有一個(gè)是隱藏層)嗅绸,每個(gè)層包含簡(jiǎn)單的連接單元或神經(jīng)元,其后是非線性撕彤。
神經(jīng)元(neuron)
神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn)朽砰,通常輸入多個(gè)值,生成一個(gè)輸出值喉刘。神經(jīng)元通過將激活函數(shù)(非線性轉(zhuǎn)換)應(yīng)用到輸入值的加權(quán)和來計(jì)算輸出值瞧柔。
歸一化(normalization)
將值的實(shí)際區(qū)間轉(zhuǎn)化為標(biāo)準(zhǔn)區(qū)間的過程,標(biāo)準(zhǔn)區(qū)間通常是-1 到+1 或 0 到 1睦裳。例如造锅,假設(shè)某個(gè)特征的自然區(qū)間是 800 到 6000。通過減法和分割廉邑,你可以把那些值標(biāo)準(zhǔn)化到區(qū)間-1 到+1哥蔚。參見縮放。
Numpy
Python 中提供高效數(shù)組運(yùn)算的開源數(shù)學(xué)庫(kù)蛛蒙。pandas 基于 numpy 構(gòu)建糙箍。
Naive bayes(樸素貝葉斯)
Naive Bayes Classifier(樸素貝葉斯分類器)
Named entity recognition(命名實(shí)體識(shí)別)
Natural language generation/NLG(自然語(yǔ)言生成)
Natural language processing(自然語(yǔ)言處理)
Norm(范數(shù))
O
目標(biāo)(objective)
算法嘗試優(yōu)化的目標(biāo)函數(shù)。
one-hot 編碼(獨(dú)熱編碼)(one-hotencoding)
一個(gè)稀疏向量牵祟,其中:一個(gè)元素設(shè)置為 1深夯,所有其他的元素設(shè)置為 0。诺苹。
一對(duì)多(one-vs.-all)
給出一個(gè)有 N 個(gè)可能解決方案的分類問題咕晋,一對(duì)多解決方案包括 N 個(gè)獨(dú)立的二元分類器——每個(gè)可能的結(jié)果都有一個(gè)二元分類器。例如收奔,一個(gè)模型將樣本分為動(dòng)物掌呜、蔬菜或礦物,則一對(duì)多的解決方案將提供以下三種獨(dú)立的二元分類器:
動(dòng)物和非動(dòng)物
蔬菜和非蔬菜
礦物和非礦物
過擬合(overfitting)
創(chuàng)建的模型與訓(xùn)練數(shù)據(jù)非常匹配坪哄,以至于模型無法對(duì)新數(shù)據(jù)進(jìn)行正確的預(yù)測(cè)
Oversampling(過采樣)
P
pandas
一種基于列的數(shù)據(jù)分析 API质蕉。很多機(jī)器學(xué)習(xí)框架势篡,包括 TensorFlow,支持 pandas 數(shù)據(jù)結(jié)構(gòu)作為輸入模暗。參見 pandas 文檔禁悠。
參數(shù)(parameter)
機(jī)器學(xué)習(xí)系統(tǒng)自行訓(xùn)練的模型的變量。例如汰蓉,權(quán)重是參數(shù)绷蹲,它的值是機(jī)器學(xué)習(xí)系統(tǒng)通過連續(xù)的訓(xùn)練迭代逐漸學(xué)習(xí)到的棒卷。注意與超參數(shù)的區(qū)別顾孽。
性能(performance)
在軟件工程中的傳統(tǒng)含義:軟件運(yùn)行速度有多快/高效?
在機(jī)器學(xué)習(xí)中的含義:模型的準(zhǔn)確率如何比规?即若厚,模型的預(yù)測(cè)結(jié)果有多好?
困惑度(perplexity)
對(duì)模型完成任務(wù)的程度的一種度量指標(biāo)蜒什。例如测秸,假設(shè)你的任務(wù)是閱讀用戶在智能手機(jī)上輸入的單詞的頭幾個(gè)字母,并提供可能的完整單詞列表灾常。該任務(wù)的困惑度(perplexity霎冯,P)是為了列出包含用戶實(shí)際想輸入單詞的列表你需要進(jìn)行的猜測(cè)數(shù)量。
流程(pipeline)
機(jī)器學(xué)習(xí)算法的基礎(chǔ)架構(gòu)钞瀑。管道包括收集數(shù)據(jù)沈撞、將數(shù)據(jù)放入訓(xùn)練數(shù)據(jù)文件中、訓(xùn)練一或多個(gè)模型雕什,以及最終輸出模型缠俺。
Principal component analysis/PCA(主成分分析)
Precision(查準(zhǔn)率/準(zhǔn)確率)
Prior knowledge(先驗(yàn)知識(shí))
Q
Quasi Newton method(擬牛頓法)
R
召回率(recall)
回歸模型(regression model)
一種輸出持續(xù)值(通常是浮點(diǎn)數(shù))的模型。而分類模型輸出的是離散值贷岸。
正則化(regularization)
對(duì)模型復(fù)雜度的懲罰壹士。正則化幫助防止過擬合。正則化包括不同種類:
L1 正則化
L2 正則化
dropout 正則化
early stopping(這不是正式的正則化方法偿警,但可以高效限制過擬合)
正則化率(regularization rate)
一種標(biāo)量級(jí)躏救,用 lambda 來表示,指正則函數(shù)的相對(duì)重要性螟蒸。從下面這個(gè)簡(jiǎn)化的損失公式可以看出正則化率的作用:
minimize(loss function + λ(regularization function))
提高正則化率能夠降低過擬合落剪,但可能會(huì)使模型準(zhǔn)確率降低。
表征(represention)
將數(shù)據(jù)映射到有用特征的過程尿庐。
受試者工作特征曲線(receiver operatingcharacteristic/ROC Curve)
反映在不同的分類閾值上忠怖,真正類率和假正類率的比值的曲線。參見 AUC抄瑟。
Recurrent Neural Network(循環(huán)神經(jīng)網(wǎng)絡(luò))
Recursive neural network(遞歸神經(jīng)網(wǎng)絡(luò))
Reinforcement learning/RL(強(qiáng)化學(xué)習(xí))
Re-sampling(重采樣法)
Representation learning(表征學(xué)習(xí))
Random Forest Algorithm(隨機(jī)森林算法)
S
縮放(scaling)
特征工程中常用的操作凡泣,用于控制特征值區(qū)間枉疼,使之與數(shù)據(jù)集中其他特征的區(qū)間匹配。例如鞋拟,假設(shè)你想使數(shù)據(jù)集中所有的浮點(diǎn)特征的區(qū)間為 0 到 1骂维。給定一個(gè)特征區(qū)間是 0 到 500,那么你可以通過將每個(gè)值除以 500贺纲,縮放特征值區(qū)間航闺。還可參見正則化。
scikit-learn
一種流行的開源機(jī)器學(xué)習(xí)平臺(tái)猴誊。網(wǎng)址:www.scikit-learn.org潦刃。
序列模型(sequence model)
輸入具有序列依賴性的模型。例如懈叹,根據(jù)之前觀看過的視頻序列對(duì)下一個(gè)視頻進(jìn)行預(yù)測(cè)乖杠。
Sigmoid 函數(shù)(sigmoid function)
softmax
為多類別分類模型中每個(gè)可能的類提供概率的函數(shù)。概率加起來的總和是 1.0澄成。例如胧洒,softmax 可能檢測(cè)到某個(gè)圖像是一只狗的概率為 0.9,是一只貓的概率為 0.08墨状,是一匹馬的概率為 0.02卫漫。(也叫作 full softmax)。
結(jié)構(gòu)風(fēng)險(xiǎn)最小化(structural risk minimization/SRM)
這種算法平衡兩個(gè)目標(biāo):
構(gòu)建預(yù)測(cè)性最強(qiáng)的模型(如最低損失)肾砂。
使模型盡量保持簡(jiǎn)單(如強(qiáng)正則化)列赎。
比如,在訓(xùn)練集上的損失最小化 + 正則化的模型函數(shù)就是結(jié)構(gòu)風(fēng)險(xiǎn)最小化算法通今。更多信息粥谬,參見 http://www.svms.org/srm/”杷可與經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化對(duì)照閱讀漏策。
監(jiān)督式機(jī)器學(xué)習(xí)(supervised machine learning)
利用輸入數(shù)據(jù)及其對(duì)應(yīng)標(biāo)簽來訓(xùn)練模型。監(jiān)督式機(jī)器學(xué)習(xí)類似學(xué)生通過研究問題和對(duì)應(yīng)答案進(jìn)行學(xué)習(xí)臼氨。在掌握問題和答案之間的映射之后掺喻,學(xué)生就可以提供同樣主題的新問題的答案了〈⒕兀可與非監(jiān)督機(jī)器學(xué)習(xí)對(duì)照閱讀感耙。
Similarity measure(相似度度量)
Singular Value Decomposition(奇異值分解)
Soft margin(軟間隔)
Soft margin maximization(軟間隔最大化)
Support Vector Machine/SVM(支持向量機(jī))
T
張量(tensor)
TensorFlow 項(xiàng)目的主要數(shù)據(jù)結(jié)構(gòu)。張量是 N 維數(shù)據(jù)結(jié)構(gòu)(N 的值很大)持隧,經(jīng)常是標(biāo)量即硼、向量或矩陣。張量可以包括整數(shù)屡拨、浮點(diǎn)或字符串值只酥。
Transfer learning(遷移學(xué)習(xí))
U
無標(biāo)簽樣本(unlabeled example)
包含特征但沒有標(biāo)簽的樣本褥实。無標(biāo)簽樣本是推斷的輸入。在半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的訓(xùn)練過程中裂允,通常使用無標(biāo)簽樣本损离。
無監(jiān)督機(jī)器學(xué)習(xí)(unsupervised machine learning)
訓(xùn)練一個(gè)模型尋找數(shù)據(jù)集(通常是無標(biāo)簽數(shù)據(jù)集)中的模式。無監(jiān)督機(jī)器學(xué)習(xí)最常用于將數(shù)據(jù)分成幾組類似的樣本绝编。無監(jiān)督機(jī)器學(xué)習(xí)的另一個(gè)例子是主成分分析(principal componentanalysis僻澎,PCA)
W
Word embedding(詞嵌入)
Word sense disambiguation(詞義消歧)