機(jī)器學(xué)習(xí)英語詞匯--7

A

準(zhǔn)確率(accuracy)

分類模型預(yù)測(cè)準(zhǔn)確的比例赂韵。在多類別分類中蝴悉,準(zhǔn)確率定義如下:

在二分類中辫红,準(zhǔn)確率定義為:

激活函數(shù)(Activation function)

一種函數(shù)(例如 ReLU 或 Sigmoid),將前一層所有神經(jīng)元激活值的加權(quán)和輸入到一個(gè)非線性函數(shù)中被济,然后向下一層傳遞該函數(shù)的輸出值(典型的非線性)救赐。

AdaGrad

一種復(fù)雜的梯度下降算法,重新調(diào)節(jié)每個(gè)參數(shù)的梯度溉潭,高效地給每個(gè)參數(shù)一個(gè)單獨(dú)的學(xué)習(xí)率净响。詳見論文:http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf。

AUC(曲線下面積)

一種考慮到所有可能的分類閾值的評(píng)估標(biāo)準(zhǔn)喳瓣。ROC 曲線下面積代表分類器隨機(jī)預(yù)測(cè)真正類(Ture Positives)要比假正類(False Positives)概率大的確信度。

B

反向傳播(Backpropagation)

神經(jīng)網(wǎng)絡(luò)中完成梯度下降的重要算法赞别。首先畏陕,在前向傳播的過程中計(jì)算每個(gè)節(jié)點(diǎn)的輸出值。然后仿滔,在反向傳播的過程中計(jì)算與每個(gè)參數(shù)對(duì)應(yīng)的誤差的偏導(dǎo)數(shù)惠毁。

基線(Baseline)

被用為對(duì)比模型表現(xiàn)參考點(diǎn)的簡(jiǎn)單模型∑橐常基線幫助模型開發(fā)者量化模型在特定問題上的預(yù)期表現(xiàn)鞠绰。

批量

模型訓(xùn)練中一個(gè)迭代(指一次梯度更新)使用的樣本集。

批量大徐埂(batch size)

一個(gè)批量中樣本的數(shù)量蜈膨。例如,SGD 的批量大小為 1牺荠,而 mini-batch 的批量大小通常在 10-1000 之間翁巍。批量大小通常在訓(xùn)練與推理的過程中確定,然而 TensorFlow 不允許動(dòng)態(tài)批量大小休雌。

偏置(bias)

與原點(diǎn)的截距或偏移量灶壶。偏置(也稱偏置項(xiàng))被稱為機(jī)器學(xué)習(xí)模型中的 b 或者 w0。例如杈曲,偏置項(xiàng)是以下公式中的 b:y′=b+w_1x_1+w_2x_2+…w_nx_n驰凛。

注意不要和預(yù)測(cè)偏差混淆。

二元分類器(binary classification)

一類分類任務(wù)担扑,輸出兩個(gè)互斥(不相交)類別中的一個(gè)养涮。例如,一個(gè)評(píng)估郵件信息并輸出「垃圾郵件」或「非垃圾郵件」的機(jī)器學(xué)習(xí)模型就是一個(gè)二元分類器锥忿。

binning/bucketing

根據(jù)值的范圍將一個(gè)連續(xù)特征轉(zhuǎn)換成多個(gè)稱為 buckets 或者 bins 二元特征邀摆,稱為 buckets 或者 bins。例如,將溫度表示為單一的浮點(diǎn)特征间唉,可以將溫度范圍切割為幾個(gè)離散的 bins绞灼。假如給定的溫度的敏感度為十分之一度,那么分布在 0.0 度和 15.0 度之間的溫度可以放入一個(gè) bin 中呈野,15.1 度到 30.0 度放入第二個(gè) bin低矮,30.1 度到 45.0 度放入第三個(gè) bin。

C

標(biāo)定層(calibration layer)

一種調(diào)整后期預(yù)測(cè)的結(jié)構(gòu)被冒,通常用于解釋預(yù)測(cè)偏差军掂。調(diào)整后的預(yù)期和概率必須匹配一個(gè)觀察標(biāo)簽集的分布。

候選采樣(candidate sampling)

一種優(yōu)化訓(xùn)練時(shí)間的昨悼,使用 Softmax 等算法計(jì)算所有正標(biāo)簽的概率蝗锥,同時(shí)只計(jì)算一些隨機(jī)取樣的負(fù)標(biāo)簽的概率。例如率触,有一個(gè)樣本標(biāo)記為「小獵兔狗」和「狗」终议,候選取樣將計(jì)算預(yù)測(cè)概率,和與「小獵兔狗」和「狗」類別輸出(以及剩余的類別的隨機(jī)子集葱蝗,比如「貓」穴张、「棒棒糖」、「柵欄」)相關(guān)的損失項(xiàng)两曼。這個(gè)想法的思路是皂甘,負(fù)類別可以通過頻率更低的負(fù)強(qiáng)化(negative reinforcement)進(jìn)行學(xué)習(xí),而正類別經(jīng)常能得到適當(dāng)?shù)恼龔?qiáng)化悼凑,實(shí)際觀察確實(shí)如此偿枕。候選取樣的動(dòng)力是計(jì)算有效性從所有負(fù)類別的非計(jì)算預(yù)測(cè)的得益。

檢查點(diǎn)(checkpoint)

在特定的時(shí)刻標(biāo)記模型的變量的狀態(tài)的數(shù)據(jù)佛析。檢查點(diǎn)允許輸出模型的權(quán)重益老,也允許通過多個(gè)階段訓(xùn)練模型。檢查點(diǎn)還允許跳過錯(cuò)誤繼續(xù)進(jìn)行(例如寸莫,搶占作業(yè))捺萌。注意其自身的圖式并不包含于檢查點(diǎn)內(nèi)。

類別(class)

所有同類屬性的目標(biāo)值作為一個(gè)標(biāo)簽膘茎。例如桃纯,在一個(gè)檢測(cè)垃圾郵件的二元分類模型中,這兩個(gè)類別分別是垃圾郵件和非垃圾郵件披坏。而一個(gè)多類別分類模型將區(qū)分狗的種類态坦,其中的類別可以是貴賓狗、小獵兔狗棒拂、哈巴狗等等伞梯。

類別不平衡數(shù)據(jù)集(class-imbalanced data set)

這是一個(gè)二元分類問題玫氢,其中兩個(gè)類別的標(biāo)簽的分布頻率有很大的差異。比如谜诫,一個(gè)疾病數(shù)據(jù)集中若 0.01% 的樣本有正標(biāo)簽漾峡,而 99.99% 的樣本有負(fù)標(biāo)簽,那么這就是一個(gè)類別不平衡數(shù)據(jù)集喻旷。但對(duì)于一個(gè)足球比賽預(yù)測(cè)器數(shù)據(jù)集生逸,若其中 51% 的樣本標(biāo)記一隊(duì)勝利,而 49% 的樣本標(biāo)記其它隊(duì)伍勝利且预,那么這就不是一個(gè)類別不平衡數(shù)據(jù)集槽袄。

分類模型(classification)

機(jī)器學(xué)習(xí)模型的一種,將數(shù)據(jù)分離為兩個(gè)或多個(gè)離散類別锋谐。例如遍尺,一個(gè)自然語言處理分類模型可以將一句話歸類為法語、西班牙語或意大利語涮拗。分類模型與回歸模型(regression model)成對(duì)比狮鸭。

分類閾值(classification threshold)

應(yīng)用于模型的預(yù)測(cè)分?jǐn)?shù)以分離正類別和負(fù)類別的一種標(biāo)量值標(biāo)準(zhǔn)。當(dāng)需要將 logistic 回歸的結(jié)果映射到二元分類模型中時(shí)就需要使用分類閾值多搀。例如,考慮一個(gè)確定給定郵件為垃圾郵件的概率的 logistic 回歸模型灾部,如果分類閾值是 0.9康铭,那么 logistic 回歸值在 0.9 以上的被歸為垃圾郵件,而在 0.9 以下的被歸為非垃圾郵件赌髓。

混淆矩陣(confusion matrix)

總結(jié)分類模型的預(yù)測(cè)結(jié)果的表現(xiàn)水平(即从藤,標(biāo)簽和模型分類的匹配程度)的 NxN 表格∷洌混淆矩陣的一個(gè)軸列出模型預(yù)測(cè)的標(biāo)簽夷野,另一個(gè)軸列出實(shí)際的標(biāo)簽。N 表示類別的數(shù)量荣倾。在一個(gè)二元分類模型中悯搔,N=2。例如舌仍,以下為一個(gè)二元分類問題的簡(jiǎn)單的混淆矩陣:

上述混淆矩陣展示了在 19 個(gè)確實(shí)為腫瘤的樣本中妒貌,有 18 個(gè)被模型正確的歸類(18 個(gè)真正),有 1 個(gè)被錯(cuò)誤的歸類為非腫瘤(1 個(gè)假負(fù)類)铸豁。類似的灌曙,在 458 個(gè)確實(shí)為非腫瘤的樣本中,有 452 個(gè)被模型正確的歸類(452 個(gè)真負(fù)類)节芥,有 6 個(gè)被錯(cuò)誤的歸類(6 個(gè)假正類)在刺。

多類別分類的混淆矩陣可以幫助發(fā)現(xiàn)錯(cuò)誤出現(xiàn)的模式。例如,一個(gè)混淆矩陣揭示了一個(gè)識(shí)別手寫數(shù)字體的模型傾向于將 4 識(shí)別為 9蚣驼,或者將 7 識(shí)別為 1魄幕。混淆矩陣包含了足夠多的信息可以計(jì)算很多的模型表現(xiàn)度量隙姿,比如精度(precision)和召回(recall)率梅垄。

連續(xù)特征(continuous feature)

擁有無限個(gè)取值點(diǎn)的浮點(diǎn)特征。和離散特征(discrete feature)相反输玷。

收斂(convergence)

訓(xùn)練過程達(dá)到的某種狀態(tài)队丝,其中訓(xùn)練損失和驗(yàn)證損失在經(jīng)過了確定的迭代次數(shù)后,在每一次迭代中欲鹏,改變很小或完全不變机久。換句話說就是,當(dāng)對(duì)當(dāng)前數(shù)據(jù)繼續(xù)訓(xùn)練而無法再提升模型的表現(xiàn)水平的時(shí)候赔嚎,就稱模型已經(jīng)收斂膘盖。在深度學(xué)習(xí)中,損失值下降之前尤误,有時(shí)候經(jīng)過多次迭代仍保持常量或者接近常量侠畔,會(huì)造成模型已經(jīng)收斂的錯(cuò)覺。

凸函數(shù)(concex function)

一種形狀大致呈字母 U 形或碗形的函數(shù)损晤。然而软棺,在退化情形中,凸函數(shù)的形狀就像一條線尤勋。例如喘落,以下幾個(gè)函數(shù)都是凸函數(shù):

L2 損失函數(shù)

Log 損失函數(shù)

L1 正則化函數(shù)

L2 正則化函數(shù)

凸函數(shù)是很常用的損失函數(shù)。因?yàn)楫?dāng)一個(gè)函數(shù)有最小值的時(shí)候(通常就是這樣)最冰,梯度下降的各種變化都能保證找到接近函數(shù)最小值的點(diǎn)瘦棋。類似的,隨機(jī)梯度下降的各種變化有很大的概率(雖然無法保證)找到接近函數(shù)最小值的點(diǎn)暖哨。

兩個(gè)凸函數(shù)相加(比如赌朋,L2 損失函數(shù)+L1 正則化函數(shù))后仍然是凸函數(shù)。

深度模型通常是非凸的鹿蜀。出乎意料的是箕慧,以凸優(yōu)化的形式設(shè)計(jì)的算法通常都能在深度網(wǎng)絡(luò)上工作的很好,雖然很少能找到最小值茴恰。

成本(cost)

loss 的同義詞颠焦。

交叉熵(cross-entropy)

多類別分類問題中對(duì) Log 損失函數(shù)的推廣。交叉熵量化兩個(gè)概率分布之間的區(qū)別往枣。參見困惑度(perplexity)伐庭。

D

數(shù)據(jù)集(data set)

樣本的集合粉渠。

決策邊界(decision boundary)

在一個(gè)二元分類或多類別分類問題中模型學(xué)習(xí)的類別之間的分離器。例如圾另,下圖就展示了一個(gè)二元分類問題霸株,決策邊界即橙點(diǎn)類和藍(lán)點(diǎn)類的邊界。

深度模型(deep model)

一種包含多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)集乔。深度模型依賴于其可訓(xùn)練的非線性性質(zhì)去件。和寬度模型對(duì)照(wide model)。

密集特征(dense feature)

大多數(shù)取值為非零的一種特征扰路,通常用取浮點(diǎn)值的張量(tensor)表示尤溜。和稀疏特征(sparse feature)相反。

派生特征(derived feature)

合成特征(synthetic feature)的同義詞汗唱。

離散特征(discrete feature)

只有有限個(gè)可能取值的一種特征宫莱。例如,一個(gè)取值只包括動(dòng)物哩罪、蔬菜或礦物的特征就是離散(或類別)特征授霸。和連續(xù)特征(continuous feature)對(duì)照。

dropout 正則化(dropout regularization)

訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)一種有用的正則化方法际插。dropout 正則化的過程是在單次梯度計(jì)算中刪去一層網(wǎng)絡(luò)中隨機(jī)選取的固定數(shù)量的單元碘耳。刪去的單元越多,正則化越強(qiáng)框弛。

動(dòng)態(tài)模型(dynamic model)

以連續(xù)更新的方式在線訓(xùn)練的模型藏畅。即數(shù)據(jù)連續(xù)不斷的輸入模型。

E

早期停止法(early stopping)

一種正則化方法功咒,在訓(xùn)練損失完成下降之前停止模型訓(xùn)練過程。當(dāng)驗(yàn)證數(shù)據(jù)集(validation data set)的損失開始上升的時(shí)候绞蹦,即泛化表現(xiàn)變差的時(shí)候力奋,就該使用早期停止法了。

嵌入(embeddings)

一類表示為連續(xù)值特征的明確的特征幽七。嵌入通常指將高維向量轉(zhuǎn)換到低維空間中景殷。例如,將一個(gè)英語句子中的單詞以以下任何一種方式表示:

擁有百萬數(shù)量級(jí)(高維)的元素的稀疏向量澡屡,其中所有的元素都是整數(shù)猿挚。向量的每一個(gè)單元表示一個(gè)單獨(dú)的英語單詞,單元中的數(shù)字表示該單詞在一個(gè)句子中出現(xiàn)的次數(shù)驶鹉。由于一個(gè)句子中的單詞通常不會(huì)超過 50 個(gè)绩蜻,向量中幾乎所有的單元都是 0。少量的非零的單元將取一個(gè)小的整數(shù)值(通常為 1)表示句子中一個(gè)單詞的出現(xiàn)次數(shù)室埋。

擁有數(shù)百個(gè)(低維)元素的密集向量办绝,其中每一個(gè)元素取 0 到 1 之間的浮點(diǎn)數(shù)伊约。

在 TensorFlow 中,嵌入是通過反向傳播損失訓(xùn)練的孕蝉,正如神經(jīng)網(wǎng)絡(luò)的其它參量一樣屡律。

經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(empirical risk minimization,ERM)

選擇能最小化訓(xùn)練數(shù)據(jù)的損失的模型函數(shù)的過程降淮。和結(jié)構(gòu)風(fēng)險(xiǎn)最小化(structual risk minimization)對(duì)照超埋。

集成(ensemble)

多個(gè)模型預(yù)測(cè)的綜合考慮〖驯睿可以通過以下一種或幾種方法創(chuàng)建一個(gè)集成方法:

設(shè)置不同的初始化霍殴;

設(shè)置不同的超參量;

設(shè)置不同的總體結(jié)構(gòu)腋颠。

深度和廣度模型是一種集成繁成。

評(píng)估器(Estimator)

tf.Estimator 類的一個(gè)例子,封裝 logic 以建立一個(gè) TensorFlow 圖并運(yùn)行一個(gè) TensorFlow session淑玫。你可以通過以下方式創(chuàng)建自己的評(píng)估器:https://www.tensorflow.org/extend/estimators

樣本(example)

一個(gè)數(shù)據(jù)集的一行內(nèi)容巾腕。一個(gè)樣本包含了一個(gè)或多個(gè)特征,也可能是一個(gè)標(biāo)簽絮蒿。參見標(biāo)注樣本(labeled example)和無標(biāo)注樣本(unlabeled example)尊搬。

F

假負(fù)類(false negative,F(xiàn)N)

被模型錯(cuò)誤的預(yù)測(cè)為負(fù)類的樣本土涝。例如佛寿,模型推斷一封郵件為非垃圾郵件(負(fù)類),但實(shí)際上這封郵件是垃圾郵件但壮。

假正類(false positive冀泻,F(xiàn)P)

被模型錯(cuò)誤的預(yù)測(cè)為正類的樣本。例如蜡饵,模型推斷一封郵件為垃圾郵件(正類)弹渔,但實(shí)際上這封郵件是非垃圾郵件。

假正類率(false positive rate溯祸,F(xiàn)P rate)

ROC 曲線(ROC curve)中的 x 軸肢专。FP 率的定義是:假正率=假正類數(shù)/(假正類數(shù)+真負(fù)類數(shù))

特征(feature)

輸入變量,用于做出預(yù)測(cè)焦辅。

特征列(feature columns/FeatureColumn)

具有相關(guān)性的特征的集合博杖,比如用戶可能居住的所有可能的國家的集合。一個(gè)樣本的一個(gè)特征列中可能會(huì)有一個(gè)或者多個(gè)特征筷登。

TensorFlow 中的特征列還可以壓縮元數(shù)據(jù)比如下列情況:

特征的數(shù)據(jù)類型剃根;

一個(gè)特征是固定長度的或應(yīng)該轉(zhuǎn)換為嵌入。

一個(gè)特征列可以僅包含一個(gè)特征前方「蹋「特征列」是谷歌專用的術(shù)語种冬。在 VW 系統(tǒng)(Yahoo/Microsoft)中特征列的意義是「命名空間」(namespace),或者場(chǎng)(field)舔糖。

特征交叉(feature cross)

將特征進(jìn)行交叉(乘積或者笛卡爾乘積)運(yùn)算后得到的合成特征娱两。特征交叉有助于表示非線性關(guān)系。

特征工程(feature engineering)

在訓(xùn)練模型的時(shí)候金吗,決定哪些特征是有用的十兢,然后將記錄文件和其它來源的原始數(shù)據(jù)轉(zhuǎn)換成上述特征的過程。在 TensorFlow 中特征工程通常意味著將原始記錄文件輸入 tf.Example 協(xié)議緩存中摇庙。參見 tf.Transform旱物。特征工程有時(shí)候也稱為特征提取。

特征集(feature set)

機(jī)器學(xué)習(xí)模型訓(xùn)練的時(shí)候使用的特征群卫袒。比如宵呛,郵政編碼,面積要求和物業(yè)狀況可以組成一個(gè)簡(jiǎn)單的特征集夕凝,使模型能預(yù)測(cè)房?jī)r(jià)宝穗。

特征定義(feature spec)

描述所需的信息從 tf.Example 協(xié)議緩存中提取特征數(shù)據(jù)。因?yàn)?tf.Example 協(xié)議緩存只是數(shù)據(jù)的容器码秉,必須明確以下信息:

需要提取的數(shù)據(jù)(即特征的關(guān)鍵信息)

數(shù)據(jù)類型(比如逮矛,浮點(diǎn)數(shù)還是整數(shù))

數(shù)據(jù)長度(固定的或者變化的)

Estimator API 提供了從一群特征列中生成一個(gè)特征定義的工具。

完全 softmax(full softmax)

參見 softmax转砖。和候選采樣對(duì)照须鼎。

G

泛化(generalization)

指模型利用新的沒見過的數(shù)據(jù)而不是用于訓(xùn)練的數(shù)據(jù)作出正確的預(yù)測(cè)的能力。

廣義線性模型(generalized linear model)

最小二乘回歸模型的推廣/泛化府蔗,基于高斯噪聲晋控,相對(duì)于其它類型的模型(基于其它類型的噪聲,比如泊松噪聲姓赤,或類別噪聲)糖荒。廣義線性模型的例子包括:

logistic 回歸

多分類回歸

最小二乘回歸

廣義線性模型的參數(shù)可以通過凸優(yōu)化得到,它具有以下性質(zhì):

最理想的最小二乘回歸模型的平均預(yù)測(cè)結(jié)果等于訓(xùn)練數(shù)據(jù)的平均標(biāo)簽模捂。

最理想的 logistic 回歸模型的平均概率的預(yù)測(cè)結(jié)果等于訓(xùn)練數(shù)據(jù)的平均標(biāo)簽。

廣義線性模型的能力局限于其特征的性質(zhì)蜘矢。和深度模型不同狂男,一個(gè)廣義線性模型無法「學(xué)習(xí)新的特征」。

梯度(gradient)

所有變量的偏導(dǎo)數(shù)的向量品腹。在機(jī)器學(xué)習(xí)中岖食,梯度是模型函數(shù)的偏導(dǎo)數(shù)向量。梯度指向最陡峭的上升路線舞吭。

梯度截?cái)啵╣radient clipping)

在應(yīng)用梯度之前先修飾數(shù)值泡垃,梯度截?cái)嘤兄诖_保數(shù)值穩(wěn)定性析珊,防止梯度爆炸出現(xiàn)。

梯度下降(gradient descent)

通過計(jì)算模型的相關(guān)參量和損失函數(shù)的梯度最小化損失函數(shù)蔑穴,值取決于訓(xùn)練數(shù)據(jù)忠寻。梯度下降迭代地調(diào)整參量,逐漸靠近權(quán)重和偏置的最佳組合存和,從而最小化損失函數(shù)奕剃。

圖(graph)

在 TensorFlow 中的一種計(jì)算過程展示。圖中的節(jié)點(diǎn)表示操作捐腿。節(jié)點(diǎn)的連線是有指向性的纵朋,表示傳遞一個(gè)操作(一個(gè)張量)的結(jié)果(作為一個(gè)操作數(shù))給另一個(gè)操作。使用 TensorBoard 能可視化計(jì)算圖茄袖。

H

啟發(fā)式(heuristic)

一個(gè)問題的實(shí)際的和非最優(yōu)的解操软,但能從學(xué)習(xí)經(jīng)驗(yàn)中獲得足夠多的進(jìn)步。

隱藏層(hidden layer)

神經(jīng)網(wǎng)絡(luò)中位于輸入層(即特征)和輸出層(即預(yù)測(cè))之間的合成層宪祥。一個(gè)神經(jīng)網(wǎng)絡(luò)包含一個(gè)或多個(gè)隱藏層聂薪。

折頁損失函數(shù)(Hinge loss)

損失函數(shù)的一個(gè)類型,用于分類模型以尋找距離每個(gè)樣本的距離最大的決策邊界品山,即最大化樣本和邊界之間的邊緣胆建。KSVMs 使用 hinge 損失函數(shù)(或相關(guān)的函數(shù),比如平方 hinge 函數(shù))肘交。在二元分類中笆载,hinge 損失函數(shù)按以下方式定義:

loss=max(0,1?(y′?y))

其中 y'是分類器模型的列輸出:

y′=b+w_1x_1+w_2x_2+…w_nx_n

y 是真實(shí)的標(biāo)簽,-1 或+1涯呻。

因此凉驻,hinge 損失將是下圖所示的樣子:

測(cè)試數(shù)據(jù)(holdout data)

有意不用于訓(xùn)練的樣本。驗(yàn)證數(shù)據(jù)集(validation data set)和測(cè)試數(shù)據(jù)集(test data set)是測(cè)試數(shù)據(jù)(holdout data)的兩個(gè)例子复罐。測(cè)試數(shù)據(jù)幫助評(píng)估模型泛化到除了訓(xùn)練數(shù)據(jù)之外的數(shù)據(jù)的能力涝登。測(cè)試集的損失比訓(xùn)練集的損失提供了對(duì)未知數(shù)據(jù)集的損失更好的估計(jì)。

超參數(shù)(hyperparameter)

連續(xù)訓(xùn)練模型的過程中可以擰動(dòng)的「旋鈕」效诅。例如胀滚,相對(duì)于模型自動(dòng)更新的參數(shù),學(xué)習(xí)率(learning rate)是一個(gè)超參數(shù)乱投。和參量對(duì)照咽笼。

I

獨(dú)立同分布(independently and identically distributed,i.i.d)

從不會(huì)改變的分布中獲取的數(shù)據(jù)戚炫,且獲取的每個(gè)值不依賴于之前獲取的值剑刑。i.i.d. 是機(jī)器學(xué)習(xí)的理想情況——一種有用但在現(xiàn)實(shí)世界中幾乎找不到的數(shù)學(xué)構(gòu)建。例如,網(wǎng)頁訪客的分布可能是短暫時(shí)間窗口上的 i.i.d施掏;即分布不會(huì)在該時(shí)間窗口發(fā)生改變钮惠,每個(gè)人的訪問都與其他人的訪問獨(dú)立。但是七芭,如果你擴(kuò)展了時(shí)間窗口素挽,則會(huì)出現(xiàn)網(wǎng)頁訪客的季節(jié)性差異。

推斷(inference)

在機(jī)器學(xué)習(xí)中抖苦,通常指將訓(xùn)練模型應(yīng)用到無標(biāo)注樣本來進(jìn)行預(yù)測(cè)的過程毁菱。在統(tǒng)計(jì)學(xué)中,推斷指在觀察到的數(shù)據(jù)的基礎(chǔ)上擬合分布參數(shù)的過程锌历。

輸入層(input layer)

神經(jīng)網(wǎng)絡(luò)的第一層(接收輸入數(shù)據(jù))贮庞。

評(píng)分者間一致性(inter-rater agreement)

用來衡量一項(xiàng)任務(wù)中人類評(píng)分者意見一致的指標(biāo)。如果意見不一致究西,則任務(wù)說明可能需要改進(jìn)窗慎。有時(shí)也叫標(biāo)注者間信度(inter-annotator agreement)或評(píng)分者間信度(inter-rater reliability)。

K

Kernel 支持向量機(jī)(Kernel Support Vector Machines/KSVM)

一種分類算法卤材,旨在通過將輸入數(shù)據(jù)向量映射到更高維度的空間使正類和負(fù)類之間的邊際最大化遮斥。例如,考慮一個(gè)輸入數(shù)據(jù)集包含一百個(gè)特征的分類問題扇丛。為了使正類和負(fù)類之間的間隔最大化术吗,KSVM 從內(nèi)部將特征映射到百萬維度的空間。KSVM 使用的損失函數(shù)叫作 hinge 損失帆精。

L

L1 損失函數(shù)(L1 loss)

損失函數(shù)基于模型對(duì)標(biāo)簽的預(yù)測(cè)值和真實(shí)值的差的絕對(duì)值而定義较屿。L1 損失函數(shù)比起 L2 損失函數(shù)對(duì)異常值的敏感度更小。

L1 正則化(L1 regularization)

一種正則化卓练,按照權(quán)重絕對(duì)值總和的比例進(jìn)行懲罰隘蝎。在依賴稀疏特征的模型中,L1 正則化幫助促使(幾乎)不相關(guān)的特征的權(quán)重趨近于 0襟企,從而從模型中移除這些特征嘱么。

L2 損失(L2 loss)

參見平方損失。

L2 正則化(L2 regularization)

一種正則化顽悼,按照權(quán)重平方的總和的比例進(jìn)行懲罰曼振。L2 正則化幫助促使異常值權(quán)重更接近 0 而不趨近于 0。(可與 L1 正則化對(duì)照閱讀蔚龙。)L2 正則化通常改善線性模型的泛化效果冰评。

標(biāo)簽(label)

在監(jiān)督式學(xué)習(xí)中,樣本的「答案」或「結(jié)果」府蛇。標(biāo)注數(shù)據(jù)集中的每個(gè)樣本包含一或多個(gè)特征和一個(gè)標(biāo)簽。比如屿愚,在房屋數(shù)據(jù)集中汇跨,特征可能包括臥室數(shù)量务荆、衛(wèi)生間數(shù)量、房齡穷遂,而標(biāo)簽可能就是房子的價(jià)格函匕。在垃圾郵件檢測(cè)數(shù)據(jù)集中,特征可能包括主題蚪黑、發(fā)出者何郵件本身盅惜,而標(biāo)簽可能是「垃圾郵件」或「非垃圾郵件」。

標(biāo)注樣本(labeled example)

包含特征和標(biāo)簽的樣本忌穿。在監(jiān)督式訓(xùn)練中抒寂,模型從標(biāo)注樣本中進(jìn)行學(xué)習(xí)。

lambda

正則化率的同義詞掠剑。(該術(shù)語有多種含義屈芜。這里逮京,我們主要關(guān)注正則化中的定義约巷。)

層(layer)

神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元序列挨厚,可以處理輸入特征序列或神經(jīng)元的輸出歹颓。

它也是 TensorFlow 的一種抽象化概念逛绵。層是將張量和配置選項(xiàng)作為輸入尚困、輸出其他張量的 Python 函數(shù)昧旨。一旦必要的張量出現(xiàn)查乒,用戶就可以通過模型函數(shù)將結(jié)果轉(zhuǎn)換成估計(jì)器盯拱。

學(xué)習(xí)率(learning rate)

通過梯度下降訓(xùn)練模型時(shí)使用的一個(gè)標(biāo)量盒发。每次迭代中,梯度下降算法使學(xué)習(xí)率乘以梯度坟乾,乘積叫作 gradient step迹辐。

學(xué)習(xí)率是一個(gè)重要的超參數(shù)。

最小二乘回歸(least squares regression)

通過 L2 損失最小化進(jìn)行訓(xùn)練的線性回歸模型甚侣。

線性回歸(linear regression)

對(duì)輸入特征的線性連接輸出連續(xù)值的一種回歸模型明吩。

logistic 回歸(logistic regression)

將 sigmoid 函數(shù)應(yīng)用于線性預(yù)測(cè),在分類問題中為每個(gè)可能的離散標(biāo)簽值生成概率的模型殷费。盡管 logistic 回歸常用于二元分類問題印荔,但它也用于多類別分類問題(這種情況下,logistic 回歸叫作「多類別 logistic 回歸」或「多項(xiàng)式 回歸」详羡。

對(duì)數(shù)損失函數(shù)(Log Loss)

二元 logistic 回歸模型中使用的損失函數(shù)仍律。

損失

度量模型預(yù)測(cè)與標(biāo)簽距離的指標(biāo),它是度量一個(gè)模型有多糟糕的指標(biāo)实柠。為了確定損失值水泉,模型必須定義損失函數(shù)。例如,線性回歸模型通常使用均方差作為損失函數(shù)草则,而 logistic 回歸模型使用對(duì)數(shù)損失函數(shù)钢拧。

M

機(jī)器學(xué)習(xí)(machine learning)

利用輸入數(shù)據(jù)構(gòu)建(訓(xùn)練)預(yù)測(cè)模型的項(xiàng)目或系統(tǒng)。該系統(tǒng)使用學(xué)習(xí)的模型對(duì)與訓(xùn)練數(shù)據(jù)相同分布的新數(shù)據(jù)進(jìn)行有用的預(yù)測(cè)炕横。機(jī)器學(xué)習(xí)還指與這些項(xiàng)目或系統(tǒng)相關(guān)的研究領(lǐng)域源内。

均方誤差(Mean Squared Error/MSE)

每個(gè)樣本的平均平方損失。MSE 可以通過平方損失除以樣本數(shù)量來計(jì)算份殿。TensorFlow Playground 展示「訓(xùn)練損失」和「測(cè)試損失」的值是 MSE膜钓。

小批量(mini-batch)

在訓(xùn)練或推斷的一個(gè)迭代中運(yùn)行的整批樣本的一個(gè)小的隨機(jī)選擇的子集。小批量的大小通常在 10 到 1000 之間卿嘲。在小批量數(shù)據(jù)上計(jì)算損失比在全部訓(xùn)練數(shù)據(jù)上計(jì)算損失要高效的多颂斜。

小批量隨機(jī)梯度下降(mini-batch stochastic gradient descent)

使用小批量的梯度下降算法。也就是腔寡,小批量隨機(jī)梯度下降基于訓(xùn)練數(shù)據(jù)的子集對(duì) 梯度進(jìn)行評(píng)估焚鲜。Vanilla SGD 使用 size 為 1 的小批量。

模型(model)

機(jī)器學(xué)習(xí)系統(tǒng)從訓(xùn)練數(shù)據(jù)中所學(xué)內(nèi)容的表示放前。該術(shù)語有多個(gè)含義忿磅,包括以下兩個(gè)相關(guān)含義:

TensorFlow 圖,顯示如何計(jì)算預(yù)測(cè)的結(jié)構(gòu)凭语。

TensorFlow 圖的特定權(quán)重和偏差葱她,由訓(xùn)練決定。

模型訓(xùn)練(model training)

確定最佳模型的過程似扔。

動(dòng)量(Momentum)

一種復(fù)雜的梯度下降算法吨些,其中的學(xué)習(xí)步不只依賴于當(dāng)前步的導(dǎo)數(shù),還依賴于先于它的步炒辉。動(dòng)量包括隨著時(shí)間計(jì)算梯度的指數(shù)加權(quán)移動(dòng)平均數(shù)豪墅,類似于物理學(xué)中的動(dòng)量。動(dòng)量有時(shí)可以阻止學(xué)習(xí)陷于局部最小值黔寇。

多類別(multi-class)

在多于兩類的類別中進(jìn)行分類的分類問題偶器。例如,有約 128 種楓樹缝裤,那么分類楓樹品種的模型就是多類別的屏轰。反之,把電子郵件分成兩個(gè)類別(垃圾郵件和非垃圾郵件)的模型是二元分類器模型憋飞。

N

NaN trap

訓(xùn)練過程中霎苗,如果模型中的一個(gè)數(shù)字變成了 NaN,則模型中的很多或所有其他數(shù)字最終都變成 NaN榛做。NaN 是「Not a Number」的縮寫唁盏。

負(fù)類(negative class)

在二元分類中内狸,一個(gè)類別是正類,另外一個(gè)是負(fù)類厘擂。正類就是我們要找的目標(biāo)答倡,負(fù)類是另外一種可能性。例如驴党,醫(yī)療測(cè)試中的負(fù)類可能是「非腫瘤」,電子郵件分類器中的負(fù)類可能是「非垃圾郵件」获茬。

神經(jīng)網(wǎng)絡(luò)(neural network)

該模型從大腦中獲取靈感港庄,由多個(gè)層組成(其中至少有一個(gè)是隱藏層),每個(gè)層包含簡(jiǎn)單的連接單元或神經(jīng)元恕曲,其后是非線性鹏氧。

神經(jīng)元(neuron)

神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn),通常輸入多個(gè)值佩谣,生成一個(gè)輸出值把还。神經(jīng)元通過將激活函數(shù)(非線性轉(zhuǎn)換)應(yīng)用到輸入值的加權(quán)和來計(jì)算輸出值。

歸一化(normalization)

將值的實(shí)際區(qū)間轉(zhuǎn)化為標(biāo)準(zhǔn)區(qū)間的過程茸俭,標(biāo)準(zhǔn)區(qū)間通常是-1 到+1 或 0 到 1吊履。例如,假設(shè)某個(gè)特征的自然區(qū)間是 800 到 6000调鬓。通過減法和分割艇炎,你可以把那些值標(biāo)準(zhǔn)化到區(qū)間-1 到+1。參見縮放腾窝。

numpy

Python 中提供高效數(shù)組運(yùn)算的開源數(shù)學(xué)庫缀踪。pandas 基于 numpy 構(gòu)建。

O

目標(biāo)(objective)

算法嘗試優(yōu)化的目標(biāo)函數(shù)虹脯。

離線推斷(offline inference)

生成一組預(yù)測(cè)并存儲(chǔ)驴娃,然后按需檢索那些預(yù)測(cè)⊙可與在線推斷對(duì)照閱讀唇敞。

one-hot 編碼(one-hot encoding)

一個(gè)稀疏向量,其中:

一個(gè)元素設(shè)置為 1暇榴。

所有其他的元素設(shè)置為 0厚棵。

獨(dú)熱編碼常用于表示有有限可能值集合的字符串或標(biāo)識(shí)符。例如蔼紧,假設(shè)一個(gè)記錄了 15000 個(gè)不同品種的植物數(shù)據(jù)集婆硬,每一個(gè)用獨(dú)特的字符串標(biāo)識(shí)符來表示。作為特征工程的一部分奸例,你可能將那些字符串標(biāo)識(shí)符進(jìn)行獨(dú)熱編碼彬犯,每個(gè)向量的大小為 15000向楼。

一對(duì)多(one-vs.-all)

給出一個(gè)有 N 個(gè)可能解決方案的分類問題,一對(duì)多解決方案包括 N 個(gè)獨(dú)立的二元分類器——每個(gè)可能的結(jié)果都有一個(gè)二元分類器谐区。例如湖蜕,一個(gè)模型將樣本分為動(dòng)物、蔬菜或礦物宋列,則一對(duì)多的解決方案將提供以下三種獨(dú)立的二元分類器:

動(dòng)物和非動(dòng)物

蔬菜和非蔬菜

礦物和非礦物

在線推斷(online inference)

按需生成預(yù)測(cè)昭抒。可與離線推斷對(duì)照閱讀炼杖。

運(yùn)算(Operation/op)

TensorFlow 圖中的一個(gè)節(jié)點(diǎn)灭返。在 TensorFlow 中,任何創(chuàng)建坤邪、控制或損壞張量的步驟都是運(yùn)算熙含。例如,矩陣乘法是一個(gè)把兩個(gè)張量作為輸入艇纺、生成一個(gè)張量作為輸出的運(yùn)算怎静。

優(yōu)化器(optimizer)

梯度下降算法的特定實(shí)現(xiàn)。TensorFlow 的基類優(yōu)化器是 tf.train.Optimizer黔衡。不同的優(yōu)化器(tf.train.Optimizer 的子類)對(duì)應(yīng)不同的概念蚓聘,如:

動(dòng)量(Momentum)

更新頻率(AdaGrad = ADAptive GRADient descent;Adam = ADAptive with Momentum盟劫;RMSProp)

稀疏性/正則化(Ftrl)

更復(fù)雜的數(shù)學(xué)(Proximal 及其他)

你甚至可以想象 NN-driven optimizer或粮。

異常值(outlier)

與大多數(shù)值差別很大的值捞高。在機(jī)器學(xué)習(xí)中氯材,下列都是異常值:

高絕對(duì)值的權(quán)重。

與實(shí)際值差距過大的預(yù)測(cè)值硝岗。

比平均值多大約 3 個(gè)標(biāo)準(zhǔn)差的輸入數(shù)據(jù)的值氢哮。

異常值往往使模型訓(xùn)練中出現(xiàn)問題。

輸出層(output layer)

神經(jīng)網(wǎng)絡(luò)的「最后」一層型檀。這一層包含整個(gè)·模型所尋求的答案冗尤。

過擬合(overfitting)

創(chuàng)建的模型與訓(xùn)練數(shù)據(jù)非常匹配,以至于模型無法對(duì)新數(shù)據(jù)進(jìn)行正確的預(yù)測(cè)胀溺。

P

pandas

一種基于列的數(shù)據(jù)分析 API裂七。很多機(jī)器學(xué)習(xí)框架,包括 TensorFlow仓坞,支持 pandas 數(shù)據(jù)結(jié)構(gòu)作為輸入背零。參見 pandas 文檔。

參數(shù)(parameter)

機(jī)器學(xué)習(xí)系統(tǒng)自行訓(xùn)練的模型的變量无埃。例如徙瓶,權(quán)重是參數(shù)毛雇,它的值是機(jī)器學(xué)習(xí)系統(tǒng)通過連續(xù)的訓(xùn)練迭代逐漸學(xué)習(xí)到的≌煺颍可與超參數(shù)對(duì)照閱讀灵疮。

參數(shù)服務(wù)器(Parameter Server/PS)

用于在分布式設(shè)置中跟蹤模型參數(shù)。

參數(shù)更新(parameter update)

在訓(xùn)練過程中調(diào)整模型參數(shù)的操作壳繁,通常在梯度下降的單個(gè)迭代中進(jìn)行震捣。

偏導(dǎo)數(shù)(partial derivative)

一個(gè)多變量函數(shù)的偏導(dǎo)數(shù)是它關(guān)于其中一個(gè)變量的導(dǎo)數(shù),而保持其他變量恒定闹炉。例如伍派,f(x, y) 對(duì)于 x 的偏導(dǎo)數(shù)就是 f(x) 的導(dǎo)數(shù),y 保持恒定剩胁。x 的偏導(dǎo)數(shù)中只有 x 是變化的,公式中其他的變量都不用變化祥国。

分區(qū)策略(partitioning strategy)

在多個(gè)參數(shù)服務(wù)器中分割變量的算法昵观。

性能(performance)

具有多種含義:

在軟件工程中的傳統(tǒng)含義:軟件運(yùn)行速度有多快/高效?

在機(jī)器學(xué)習(xí)中的含義:模型的準(zhǔn)確率如何舌稀?即啊犬,模型的預(yù)測(cè)結(jié)果有多好?

困惑度(perplexity)

對(duì)模型完成任務(wù)的程度的一種度量指標(biāo)壁查。例如觉至,假設(shè)你的任務(wù)是閱讀用戶在智能手機(jī)上輸入的單詞的頭幾個(gè)字母,并提供可能的完整單詞列表睡腿。該任務(wù)的困惑度(perplexity语御,P)是為了列出包含用戶實(shí)際想輸入單詞的列表你需要進(jìn)行的猜測(cè)數(shù)量。

困惑度和交叉熵的關(guān)系如下:

流程(pipeline)

機(jī)器學(xué)習(xí)算法的基礎(chǔ)架構(gòu)席怪。管道包括收集數(shù)據(jù)应闯、將數(shù)據(jù)放入訓(xùn)練數(shù)據(jù)文件中、訓(xùn)練一或多個(gè)模型挂捻,以及最終輸出模型碉纺。

正類(positive class)

在二元分類中,有兩種類別:正類和負(fù)類刻撒。正類是我們測(cè)試的目標(biāo)骨田。(不過必須承認(rèn),我們同時(shí)測(cè)試兩種結(jié)果声怔,但其中一種不是重點(diǎn)态贤。)例如,醫(yī)療測(cè)試中正類可能是「腫瘤」醋火,電子郵件分類器中的正類可能是「垃圾郵件」抵卫∈ɡ螅可與負(fù)類對(duì)照閱讀。

精度(precision)

分類模型的一種指標(biāo)介粘。準(zhǔn)確率指模型預(yù)測(cè)正類時(shí)預(yù)測(cè)正確的頻率殖氏。即:

預(yù)測(cè)(prediction)

模型在輸入樣本后的輸出結(jié)果。

預(yù)測(cè)偏差(prediction bias)

揭示預(yù)測(cè)的平均值與數(shù)據(jù)集中標(biāo)簽的平均值的差距姻采。

預(yù)制評(píng)估器(pre-made Estimator)

已經(jīng)構(gòu)建好的評(píng)估器雅采。TensorFlow 提供多個(gè)預(yù)制評(píng)估器,包括 DNNClassifier慨亲、DNNRegressor 和 LinearClassifier婚瓜。你可以根據(jù)指導(dǎo)(https://www.tensorflow.org/extend/estimators)構(gòu)建自己的預(yù)制評(píng)估器。

預(yù)訓(xùn)練模型(pre-trained model)

已經(jīng)訓(xùn)練好的模型或模型組件(如嵌入)刑棵。有時(shí)巴刻,你將預(yù)訓(xùn)練嵌入饋送至神經(jīng)網(wǎng)絡(luò)。其他時(shí)候蛉签,你的模型自行訓(xùn)練嵌入胡陪,而不是依賴于預(yù)訓(xùn)練嵌入。

先驗(yàn)信念(prior belief)

訓(xùn)練開始之前你對(duì)數(shù)據(jù)的信念碍舍。例如柠座,L2 正則化依賴于權(quán)重值很小且正常分布在 0 周圍的信念。

Q

隊(duì)列(queue)

實(shí)現(xiàn)隊(duì)列數(shù)據(jù)結(jié)構(gòu)的 TensorFlow 操作片橡。通常在輸入/輸出(I/O)中使用妈经。

R

秩(rank)

機(jī)器學(xué)習(xí)領(lǐng)域中包含多種含義的術(shù)語:

張量中的維度數(shù)量。比如捧书,標(biāo)量有 1 個(gè)秩吹泡,向量有 1 個(gè)秩,矩陣有 2 個(gè)秩经瓷。(注:在這個(gè)詞匯表中荞胡,「秩」的概念和線性代數(shù)中「秩」的概念不一樣,例如三階可逆矩陣的秩為 3了嚎。)

機(jī)器學(xué)習(xí)問題中類別的序數(shù)位置泪漂,按從高到低的順序給類別分類。比如歪泳,行為排序系統(tǒng)可以把狗的獎(jiǎng)勵(lì)按從高(牛排)到低(甘藍(lán))排序萝勤。

評(píng)分者(rater)

為樣本提供標(biāo)簽的人,有時(shí)也叫「標(biāo)注者」呐伞。

召回率(recall)

分類模型的一個(gè)指標(biāo)敌卓,可以回答這個(gè)問題:模型能夠準(zhǔn)確識(shí)別多少正標(biāo)簽?即:

修正線性單元(Rectified Linear Unit/ReLU)

一種具備以下規(guī)則的激活函數(shù):

如果輸入為負(fù)或零伶氢,則輸出為 0趟径。

如果輸入為正瘪吏,則輸出與輸入相同。

回歸模型(regression model)

一種輸出持續(xù)值(通常是浮點(diǎn)數(shù))的模型蜗巧。而分類模型輸出的是離散值掌眠,如「day lily」或「tiger lily」。

正則化(regularization)

對(duì)模型復(fù)雜度的懲罰幕屹。正則化幫助防止過擬合蓝丙。正則化包括不同種類:

L1 正則化

L2 正則化

dropout 正則化

early stopping(這不是正式的正則化方法,但可以高效限制過擬合)

正則化率(regularization rate)

一種標(biāo)量級(jí)望拖,用 lambda 來表示渺尘,指正則函數(shù)的相對(duì)重要性。從下面這個(gè)簡(jiǎn)化的損失公式可以看出正則化率的作用:

minimize(loss function + λ(regularization function))

提高正則化率能夠降低過擬合说敏,但可能會(huì)使模型準(zhǔn)確率降低鸥跟。

表征

將數(shù)據(jù)映射到有用特征的過程。

受試者工作特征曲線(receiver operating characteristic/ROC Curve)

反映在不同的分類閾值上盔沫,真正類率和假正類率的比值的曲線医咨。參見 AUC。

根目錄(root directory)

指定放置 TensorFlow 檢查點(diǎn)文件子目錄和多個(gè)模型的事件文件的目錄迅诬。

均方根誤差(Root Mean Squared Error/RMSE)

均方誤差的平方根。

S

Saver

負(fù)責(zé)存儲(chǔ)模型檢查點(diǎn)文件的 TensorFlow 對(duì)象婿牍。

縮放(scaling)

特征工程中常用的操作侈贷,用于控制特征值區(qū)間,使之與數(shù)據(jù)集中其他特征的區(qū)間匹配等脂。例如俏蛮,假設(shè)你想使數(shù)據(jù)集中所有的浮點(diǎn)特征的區(qū)間為 0 到 1。給定一個(gè)特征區(qū)間是 0 到 500上遥,那么你可以通過將每個(gè)值除以 500搏屑,縮放特征值區(qū)間。還可參見正則化粉楚。

scikit-learn

一種流行的開源機(jī)器學(xué)習(xí)平臺(tái)辣恋。網(wǎng)址:www.scikit-learn.org

序列模型(sequence model)

輸入具有序列依賴性的模型。例如模软,根據(jù)之前觀看過的視頻序列對(duì)下一個(gè)視頻進(jìn)行預(yù)測(cè)伟骨。

會(huì)話(session)

保持 TensorFlow 程序的狀態(tài)(如變量)。

Sigmoid 函數(shù)(sigmoid function)

把 logistic 或多項(xiàng)式回歸輸出(對(duì)數(shù)幾率)映射到概率的函數(shù)燃异,返回的值在 0 到 1 之間携狭。sigmoid 函數(shù)的公式如下:

其中σ在 logistic 回歸問題中只是簡(jiǎn)單的:

在有些神經(jīng)網(wǎng)絡(luò)中,sigmoid 函數(shù)和激活函數(shù)一樣回俐。

softmax

為多類別分類模型中每個(gè)可能的類提供概率的函數(shù)逛腿。概率加起來的總和是 1.0稀并。例如,softmax 可能檢測(cè)到某個(gè)圖像是一只狗的概率為 0.9单默,是一只貓的概率為 0.08碘举,是一匹馬的概率為 0.02。(也叫作 full softmax)雕凹。

稀疏特征(sparse feature)

值主要為 0 或空的特征向量殴俱。比如,一個(gè)向量的值有 1 個(gè) 1,枚抵、一百萬個(gè) 0线欲,則該向量為稀疏向量。再比如汽摹,搜索查詢中的單詞也是稀疏向量:在一種語言中有很多可以用的單詞李丰,但給定的查詢中只用了其中的一些。

可與稠密特征對(duì)照閱讀逼泣。

平方損失(squared loss)

線性回歸中使用的損失函數(shù)(也叫作 L2 Loss)趴泌。該函數(shù)計(jì)算模型對(duì)標(biāo)注樣本的預(yù)測(cè)值和標(biāo)簽真正值之間差的平方。在平方之后拉庶,該損失函數(shù)擴(kuò)大了不良預(yù)測(cè)的影響嗜憔。即,平方損失比 L1 Loss 對(duì)異常值(outlier)的反應(yīng)更加強(qiáng)烈氏仗。

靜態(tài)模型(static model)

離線訓(xùn)練的模型吉捶。

穩(wěn)態(tài)(stationarity)

數(shù)據(jù)集中的一種數(shù)據(jù)屬性,數(shù)據(jù)分布在一或多個(gè)維度中保持不變皆尔。通常情況下呐舔,維度是時(shí)間,意味著具備平穩(wěn)性的數(shù)據(jù)不會(huì)隨著時(shí)間發(fā)生變化慷蠕。比如珊拼,具備平穩(wěn)性的數(shù)據(jù)從 9 月到 12 月不會(huì)改變。

步(step)

一個(gè)批量中的前向和后向評(píng)估流炕。

步長(step size)

學(xué)習(xí)速率(learning rate)乘以偏導(dǎo)數(shù)的值澎现,即梯度下降中的步長。

隨機(jī)梯度下降(stochastic gradient descent/SGD)

批量大小為 1 的梯度下降算法每辟。也就是說昔头,SGD 依賴于從數(shù)據(jù)集中隨機(jī)均勻選擇出的一個(gè)樣本,以評(píng)估每一步的梯度影兽。

結(jié)構(gòu)風(fēng)險(xiǎn)最小化(structural risk minimization/SRM)

這種算法平衡兩個(gè)目標(biāo):

構(gòu)建預(yù)測(cè)性最強(qiáng)的模型(如最低損失)揭斧。

使模型盡量保持簡(jiǎn)單(如強(qiáng)正則化)。

比如,在訓(xùn)練集上的損失最小化 + 正則化的模型函數(shù)就是結(jié)構(gòu)風(fēng)險(xiǎn)最小化算法讹开。更多信息盅视,參見 http://www.svms.org/srm/〉┩颍可與經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化對(duì)照閱讀闹击。

摘要(summary)

在 TensorFlow 中,特定步計(jì)算的值或值的集合成艘,通常用于跟蹤訓(xùn)練過程中的模型指標(biāo)赏半。

監(jiān)督式機(jī)器學(xué)習(xí)(supervised machine learning)

利用輸入數(shù)據(jù)及其對(duì)應(yīng)標(biāo)簽來訓(xùn)練模型。監(jiān)督式機(jī)器學(xué)習(xí)類似學(xué)生通過研究問題和對(duì)應(yīng)答案進(jìn)行學(xué)習(xí)淆两。在掌握問題和答案之間的映射之后断箫,學(xué)生就可以提供同樣主題的新問題的答案了∏锉可與非監(jiān)督機(jī)器學(xué)習(xí)對(duì)照閱讀仲义。

合成特征(synthetic feature)

不在輸入特征中,而是從一個(gè)或多個(gè)輸入特征中派生出的特征剑勾。合成特征的類型包括:

特征與自己或其他特征相乘(叫作特征交叉)埃撵。

兩個(gè)特征相除。

將連續(xù)的特征放進(jìn) range bin 中虽另。

由歸一化或縮放單獨(dú)創(chuàng)建的特征不是合成特征暂刘。

T

張量(tensor)

TensorFlow 項(xiàng)目的主要數(shù)據(jù)結(jié)構(gòu)。張量是 N 維數(shù)據(jù)結(jié)構(gòu)(N 的值很大)捂刺,經(jīng)常是標(biāo)量谣拣、向量或矩陣。張量可以包括整數(shù)叠萍、浮點(diǎn)或字符串值芝发。

張量處理單元(Tensor Processing Unit绪商,TPU)

優(yōu)化 TensorFlow 性能的 ASIC(application-specific integrated circuit苛谷,專用集成電路)。

張量形狀(Tensor shape)

張量的元素?cái)?shù)量包含在不同維度中格郁。比如腹殿,[5, 10] 張量在一個(gè)維度中形狀為 5,在另一個(gè)維度中形狀為 10例书。

張量大新辔尽(Tensor size)

張量包含的標(biāo)量總數(shù)。比如决采,[5, 10] 張量的大小就是 50自沧。

TensorBoard

展示一個(gè)或多個(gè) TensorFlow 項(xiàng)目運(yùn)行過程中保存的摘要數(shù)據(jù)的控制面板。

TensorFlow

大型分布式機(jī)器學(xué)習(xí)平臺(tái)。該術(shù)語還指 TensorFlow 堆棧中的基礎(chǔ) API 層拇厢,支持?jǐn)?shù)據(jù)流圖上的通用計(jì)算爱谁。

盡管 TensorFlow 主要用于機(jī)器學(xué)習(xí),但是它也適用于要求使用數(shù)據(jù)流圖進(jìn)行數(shù)值運(yùn)算的非機(jī)器學(xué)習(xí)任務(wù)孝偎。

TensorFlow Playground

一個(gè)可以看到不同超參數(shù)對(duì)模型(主要是神經(jīng)網(wǎng)絡(luò))訓(xùn)練的影響的平臺(tái)访敌。前往 http://playground.tensorflow.org,使用 TensorFlow Playground衣盾。

TensorFlow Serving

幫助訓(xùn)練模型使之可部署到產(chǎn)品中的平臺(tái)寺旺。

測(cè)試集(test set)

數(shù)據(jù)集的子集。模型經(jīng)過驗(yàn)證集初步測(cè)試之后势决,使用測(cè)試集對(duì)模型進(jìn)行測(cè)試阻塑。可與訓(xùn)練集和驗(yàn)證集對(duì)照閱讀徽龟。

tf.Example

一種標(biāo)準(zhǔn) protocol buffer叮姑,用于描述機(jī)器學(xué)習(xí)模型訓(xùn)練或推斷的輸入數(shù)據(jù)。

訓(xùn)練(training)

確定組成模型的完美參數(shù)的流程据悔。

訓(xùn)練集(training set)

數(shù)據(jù)集子集传透,用于訓(xùn)練模型〖牵可與驗(yàn)證集和測(cè)試集對(duì)照閱讀朱盐。

真負(fù)類(true negative,TN)

被模型正確地預(yù)測(cè)為負(fù)類的樣本菠隆。例如兵琳,模型推斷某封電子郵件不是垃圾郵件,然后該電郵真的不是垃圾郵件骇径。

真正類(true positive躯肌,TP)

被模型正確地預(yù)測(cè)為正類的樣本。例如破衔,模型推斷某封電子郵件是垃圾郵件清女,結(jié)果該電郵真的是垃圾郵件。

真正類率(true positive rate晰筛,TP rate)

召回率(recall)的同義詞嫡丙。即:

TruePositiveRate=TruePositives/(TruePositives+FalseNegatives)

真正類率是 ROC 曲線的 y 軸。

U

無標(biāo)簽樣本(unlabeled example)

包含特征但沒有標(biāo)簽的樣本读第。無標(biāo)簽樣本是推斷的輸入曙博。在半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的訓(xùn)練過程中,通常使用無標(biāo)簽樣本怜瞒。

無監(jiān)督機(jī)器學(xué)習(xí)(unsupervised machine learning)

訓(xùn)練一個(gè)模型尋找數(shù)據(jù)集(通常是無標(biāo)簽數(shù)據(jù)集)中的模式父泳。

無監(jiān)督機(jī)器學(xué)習(xí)最常用于將數(shù)據(jù)分成幾組類似的樣本。例如,無監(jiān)督機(jī)器學(xué)習(xí)算法可以根據(jù)音樂的各種屬性聚類數(shù)據(jù)惠窄。用這種方式收集的數(shù)據(jù)可以作為其他機(jī)器學(xué)習(xí)算法(如音樂推薦服務(wù))的輸入逝她。聚類在難以獲取真正標(biāo)簽的情景中非常有用。例如睬捶,在反欺詐和反濫用的情景中黔宛,聚類可以幫助人類更好地理解數(shù)據(jù)。

無監(jiān)督機(jī)器學(xué)習(xí)的另一個(gè)例子是主成分分析(principal component analysis擒贸,PCA)臀晃。如,將 PCA 應(yīng)用于包含數(shù)百萬購物車內(nèi)容的數(shù)據(jù)集中時(shí),就有可能發(fā)現(xiàn)有檸檬的購物車往往也有解酸劑∽咐恚可與監(jiān)督式機(jī)器學(xué)習(xí)對(duì)照閱讀。

V

驗(yàn)證集(validation set)

數(shù)據(jù)集的一個(gè)子集(與訓(xùn)練集不同)险绘,可用于調(diào)整超參數(shù)∮辏可與訓(xùn)練集和測(cè)試集對(duì)照閱讀宦棺。

W

權(quán)重(weight)

線性模型中的特征系數(shù),或者深度網(wǎng)絡(luò)中的邊緣黔帕。線性模型的訓(xùn)練目標(biāo)是為每個(gè)特征確定一個(gè)完美的權(quán)重代咸。如果權(quán)重為 0,則對(duì)應(yīng)的特征對(duì)模型而言是無用的成黄。

寬模型(wide model)

線性模型通常具備很多稀疏輸入特征呐芥。我們稱之為「寬」模型,因其具有大量與輸出節(jié)點(diǎn)直接連接的輸入奋岁,是一種特殊類型的神經(jīng)網(wǎng)絡(luò)思瘟。寬模型通常比深度模型更容易調(diào)試(debug)和檢查。盡管寬模型無法通過隱藏層表達(dá)非線性闻伶,但它們可以使用特征交叉和 bucketization 等轉(zhuǎn)換用不同方式對(duì)非線性建模滨攻。可與深度模型對(duì)照閱讀虾攻。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末铡买,一起剝皮案震驚了整個(gè)濱河市更鲁,隨后出現(xiàn)的幾起案子霎箍,更是在濱河造成了極大的恐慌,老刑警劉巖澡为,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件漂坏,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)顶别,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門谷徙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人驯绎,你說我怎么就攤上這事完慧。” “怎么了剩失?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵屈尼,是天一觀的道長。 經(jīng)常有香客問我拴孤,道長脾歧,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任演熟,我火速辦了婚禮鞭执,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘芒粹。我一直安慰自己兄纺,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布化漆。 她就那樣靜靜地躺著囤热,像睡著了一般。 火紅的嫁衣襯著肌膚如雪获三。 梳的紋絲不亂的頭發(fā)上旁蔼,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天,我揣著相機(jī)與錄音疙教,去河邊找鬼棺聊。 笑死,一個(gè)胖子當(dāng)著我的面吹牛贞谓,可吹牛的內(nèi)容都是我干的限佩。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼裸弦,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼祟同!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起理疙,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤晕城,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后窖贤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體砖顷,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡贰锁,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了滤蝠。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片豌熄。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖物咳,靈堂內(nèi)的尸體忽然破棺而出锣险,到底是詐尸還是另有隱情,我是刑警寧澤览闰,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布囱持,位于F島的核電站,受9級(jí)特大地震影響焕济,放射性物質(zhì)發(fā)生泄漏纷妆。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一晴弃、第九天 我趴在偏房一處隱蔽的房頂上張望掩幢。 院中可真熱鬧,春花似錦上鞠、人聲如沸际邻。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽世曾。三九已至,卻和暖如春谴咸,著一層夾襖步出監(jiān)牢的瞬間轮听,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來泰國打工岭佳, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留血巍,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓珊随,卻偏偏與公主長得像述寡,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子叶洞,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容