文章來源于微信公眾號(茗創(chuàng)科技)狈蚤,歡迎有興趣的朋友搜索關注。
機器學習術語
對于機器學習一詞或許大家已耳熟能詳整陌,因為機器學習現(xiàn)已成為許多研究領域的首選技術拗窃。機器學習是通過一些讓計算機可以自動“學習”的算法并從數(shù)據(jù)中分析獲得規(guī)律,然后利用規(guī)律對新樣本進行預測泌辫。但是對于機器學習中包含的許多概念随夸,或許對于剛踏入機器學習領域的小伙伴們來說,還是比較陌生震放。下文整理了一些機器學習領域的相關概念宾毒,希望有助于大家更深入地理解該領域的技術方法。
Class?類
一個對象所屬的類別殿遂。在一個類中诈铛,一組模式共享公共屬性并且通常來自同一個源乙各。
Pattern?模式
一個對象的特征集合,以及該對象的類信息幢竹。
Sample?樣本
對象的任何給定的模式都稱為樣本耳峦。
Feature?特征
一組帶有區(qū)分和鑒別一個對象的信息的變量。
Feature Vector?特征向量
一個樣本中K個特征的集合焕毫,以某種方式排列成K維向量蹲坷。
Feature Space?特征空間
特征向量所在的K維空間。
Training Set?訓練集
用于訓練模型內參數(shù)的數(shù)據(jù)集邑飒,可用來估計模型循签。
Validation Set?驗證集
用于確定網(wǎng)絡結構或者控制模型復雜程度的參數(shù)。
Test Set?測試集
用于檢驗最終選擇最優(yōu)的模型的性能如何疙咸。
Accuracy?精度
或稱準確率县匠,表示分類模型正確分類的樣本數(shù)(包括正例與反例)與樣本總數(shù)的比值。
Precision?精確率
模型正確分類的正例樣本數(shù)與總的正例樣本總數(shù)(即正確分類的正例樣本數(shù)目與錯誤分類的正確樣本數(shù)目之和)的比值罕扎。
Recall?召回率
或稱查全率聚唐,表示模型分類正確的正例樣本數(shù)與分類正確的樣本總數(shù)(分類正確的正例和分類正確的反例之和)的比值丐重。
Algorithm?算法
指解題方案的準確而完整的描述腔召,算法是一系列解決問題的清晰指令,它代表著用系統(tǒng)的方法描述解決問題的策略機制扮惦,能夠對一定規(guī)范的輸入臀蛛,在有限時間內獲得所要求的輸出。
Feature Selection?特征選擇
從特征集合中挑選一組最具統(tǒng)計意義的特征子集崖蜜,從而達到降維的效果浊仆。常用的方法是用一些評價指標單獨地計算出單個特征跟類別變量之間的關系。這些評價指標如Pearson相關系數(shù)豫领、基尼指數(shù)(Gini-index)抡柿、信息增益(Information Gain)等。
Feature Extraction?特征提取
自動地構建新的特征等恐,將原始數(shù)據(jù)轉換為一組具有明顯統(tǒng)計意義的核心特征洲劣。通過變換特征取值來減少原始數(shù)據(jù)中某個特征的取值個數(shù)等,減少特征的數(shù)量课蔬,或者只選擇關鍵特征囱稽。常用的特征提取方法有:主成分分析、獨立成分分析二跋、線性判別分析战惊。
Visual Analytics?可視化分析
可視化分析是一種數(shù)據(jù)分析方法,利用人類的形象思維將數(shù)據(jù)關聯(lián)扎即,并映射為形象的圖表吞获】隽梗可視化分析在機器學習的數(shù)據(jù)預處理、模型選擇各拷、參數(shù)調優(yōu)等階段十分有用茎刚。在數(shù)據(jù)建模的過程中,容易辨別出數(shù)據(jù)的分布撤逢、異常膛锭、參數(shù)取值對模型性能的影響等。
Classification?分類算法
應用分類規(guī)則對記錄進行目標映射蚊荣,將其劃分到不同的分類中初狰,構建具有泛化能力的算法模型,即構建映射規(guī)則來預測未知樣本的類別互例。主要包括預測和描述兩種奢入,經(jīng)過訓練集學習的預測模型在遇到未知記錄時,應用規(guī)則對其進行類別劃分媳叨,而描述型的分類主要是對現(xiàn)有數(shù)據(jù)集中特征進行解釋并進行區(qū)分腥光,例如對面孔的各項特征進行描述,并進行標記分類糊秆,由這些特征來決定其屬于哪一類目武福。主要的分類算法包括決策樹、支持向量機痘番、最近鄰捉片、貝葉斯網(wǎng)絡和神經(jīng)網(wǎng)絡等。
Decision Tree?決策樹
是一棵用于決策的樹汞舱,目標類別作為葉子結點伍纫,特征屬性的驗證作為非葉子節(jié)點,而每個分支是特征屬性的輸出結果昂芜。決策過程是從根結點出發(fā)莹规,測試不同的特征屬性,按照結果的不同選擇分支泌神,最終落到某一葉子結點良漱,獲得分類結果。擅長對人物腻扇、位置债热、事物的不同特征、品質幼苛、特性進行評估窒篱,可應用于基于規(guī)則的信用評估、比賽結果預測等。
Support Vector Machine配并,SVM?支持向量機
屬于有監(jiān)督學習模型,主要用于解決數(shù)據(jù)分類問題溉旋。將低維特征空間中的線性不可分進行非線性映射轉化為高維空間的線性可分,SVM的目標變量以分類最佳观腊,與其他分類算法相比,支持向量機對小樣本數(shù)據(jù)集分類效果更好梧油。SVM常見的核函數(shù)有線性核函數(shù)、多項式核函數(shù)儡陨、徑向基函數(shù)和二層神經(jīng)網(wǎng)絡核函數(shù)等。
K Nearest Neighbors量淌,KNN?最近鄰
是有監(jiān)督學習中的分類算法。KNN的字面意思是K個最近的鄰居呀枢。其核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)數(shù)以一個類別,則該樣本也屬于這個類別硫狞,并具有該類別上樣本的特征。該方法在確定分類決策上残吩,只依據(jù)最近鄰的一個或者幾個樣本的類別來決定待分樣本所屬的類別泣侮。
Bayesian network?貝葉斯網(wǎng)絡
貝葉斯網(wǎng)絡又稱為置信網(wǎng)絡或信念網(wǎng)絡(Belief network),是基于貝葉斯定理繪制的具有概率分布的有向弧段圖形化網(wǎng)絡活尊,其理論基礎是貝葉斯公式,網(wǎng)絡中的每個點表示變量蛹锰,有向孤段表示兩者間的概率關系。
Neural Networks?神經(jīng)網(wǎng)絡
神經(jīng)網(wǎng)絡是基于歷史數(shù)據(jù)構建的模型铜犬,包括輸入層、隱藏層、輸出層癣猾,每一個節(jié)點代表一個神經(jīng)元敛劝,節(jié)點之間的連線對應權重值,輸入變量經(jīng)過神經(jīng)元時會運行激活函數(shù)對輸入值賦予權重和加上偏置纷宇,并將輸出結果傳遞到下一層中的神經(jīng)元夸盟,而權重值和偏置是在神經(jīng)網(wǎng)絡訓練過程中不斷進行修正的。
Random Forest?隨機森林
專為決策樹分類器設計的集成方式像捶,是裝袋法的一種拓展上陕。隨機森林與裝袋法采取相同的樣本抽取方式。裝袋法中的決策樹每次從所有屬性中選取一個最優(yōu)的屬性作為其分支屬性拓春,而隨機森林算法每次從所有屬性中隨機抽取t個屬性唆垃,然后從這t個屬性中選取一個最優(yōu)的屬性作為其分支屬性,這樣就使得整個模型的隨機性更強痘儡,從而使模型的泛化能力更強辕万。
Deep Learning,DL?深度學習
深度學習方法是通過使用多個隱藏層和大量數(shù)據(jù)來學習特征沉删,從而提升分類或預測的準確性渐尿。
Supervised Learning?監(jiān)督學習
是從給定的訓練數(shù)據(jù)集中學習出一個函數(shù),當新的數(shù)據(jù)到來時矾瑰,可以根據(jù)這個函數(shù)預測結果砖茸。其訓練集要求包括輸入和輸出,也可以說是特征和目標殴穴。
Supervised Learning?有監(jiān)督學習
利用訓練數(shù)據(jù)集進行預測的機器學習任務凉夯。有監(jiān)督學習可以分為分類和回歸。
Unsupervised Learning?無監(jiān)督學習
根據(jù)類別未知(沒有被標記)的訓練樣本解決模式識別中的各種問題采幌,稱之為無監(jiān)督學習劲够。
Semi-Supervised Learning,SSL?半監(jiān)督學習
在某些情況下休傍,獲取標記數(shù)據(jù)是昂貴且耗時的征绎。在響應標記很少的情況下,半監(jiān)督學習結合有監(jiān)督和無監(jiān)督學習技術進行預測磨取。在半監(jiān)督學習中人柿,利用未標記數(shù)據(jù)對標記數(shù)據(jù)進行擴充以提高模型準確率。
Hyperparameter?超參數(shù)
超參數(shù)是機器學習算法的調優(yōu)參數(shù)忙厌,常應用于估計模型參數(shù)的過程中凫岖,由用戶直接指定,可以使用啟發(fā)式方法來設置逢净,并能依據(jù)給定的預測問題而調整歼指。
Discriminant Analysis?判別分析
利用已知類別的樣本建立判別模型婶芭,對未知類別的樣本進行判別的一種統(tǒng)計方法犀农,包括線性判別分析(LDA)和二次判別分析(QDA)兩種類型。
Principal Component Analysis?主成分分析
是最常用的線性降維方法赁濒,其目標是通過某種線性投影拒炎,將高維的數(shù)據(jù)映射到低維的空間中挨务,并期望在所投影的維度上數(shù)據(jù)的方差最大谎柄,以此使用較少的維度,同時保留較多原數(shù)據(jù)的維度鸿摇。
Artificial Neural Netork拙吉,ANN?人工神經(jīng)網(wǎng)絡
由簡單神經(jīng)元經(jīng)過相互連接形成網(wǎng)狀結構揪荣,它是以層(layer)的形式組織起來变逃,每層中包含多個神經(jīng)元,層與層之間通過一定的結構連接起來,對神經(jīng)網(wǎng)絡的訓練目的就是要找到網(wǎng)絡中各個突觸連接的權重和偏置值凰棉。
K-Fold Cross Validation?k折交叉驗證法
將樣本集隨機地劃分為k個大小相等的子集陌粹,在每一輪交叉驗證中,選擇一個子集作為檢驗集荆姆,其余子集作為訓練集映凳,重復k輪诈豌,保證每一個子集都作為檢驗集出現(xiàn)彤蔽,用K輪檢驗結果取平均值作為模型好壞的評價標準庙洼。最常用的k折交叉驗證法為十折交叉驗證油够。
Leave one out?留一法
留一法是指每次檢驗集中只包含一個樣本的交叉驗證方法。
Cluster Analysis?聚類分析
一種典型的無監(jiān)督學習撕阎,用于對未知類別的樣本進行劃分虏束,將其按照一定的規(guī)則劃分成若干個類族镇匀,把相似的樣本聚在同一個類簇中袜啃,把不相似的樣本分為不同類簇,從而揭示樣本之間內在的性質以及相互之間的聯(lián)系規(guī)律晰韵。
k-means clustering algorithm?k-均值聚類
是一種基于劃分的聚類算法雪猪,計算樣本點與類簇質心的距離起愈,與類簇質心相近的樣本點劃分為同一類簇。k-均值通過樣本間的距離來衡量它們之間的相似度官觅,兩個樣本距離越遠,則相似度越低咱圆,否則相似度越高闷堡。
Mutual Information疑故,MI?互信息
互信息表示兩個變量x與y是否有關系纵势,以及關系的強弱,可用于文本分類软舌。用MI作為特征詞和類別之間的測度佛点,如果特征詞屬于該類黎比,則表示它們的互信息量最大阅虫。由于該方法為統(tǒng)計方法,不需要對特征詞和類別之間關系的性質做任何假設米碰,因此適合于文本特征和類別的匹配檢驗吕座。
Pointwise Mutual Information?點互信息
用于度量事物之間的相關性瘪板,在文本分析領域篷帅,可用其計算詞語間的語義相似度,基本思想是統(tǒng)計兩個詞語同時出現(xiàn)的概率惊橱,如果概率越大税朴,其相關性就越大家制,關聯(lián)度越高。
Feedforward Neural Network?前饋神經(jīng)網(wǎng)絡
是一種單向多層的網(wǎng)絡結構觅廓,即信息是從輸入層開始涵但,逐層向一個方向傳遞矮瘟,一直到輸出層結束。所謂的“前饋”是指輸入信號的傳播方向為前向劫侧,在此過程中并不調整各層的權值參數(shù)烧栋。
Back Propagation棘催,BP?反向傳播
BP神經(jīng)網(wǎng)絡也是前饋神經(jīng)網(wǎng)絡醇坝,只是其參數(shù)權重值是由反向傳播學習算法進行調整的。BP神經(jīng)網(wǎng)絡模型拓撲結構包括輸入層画畅、隱層和輸出層轴踱,利用激活函數(shù)來實現(xiàn)從輸入到輸出的任意非線性映射谚赎,從而模擬各層神經(jīng)元之間的交互。
Self-Organizing Map?自組織神經(jīng)網(wǎng)絡
或稱Kohonen網(wǎng)雳灵,這一神經(jīng)網(wǎng)絡的特點是當接收到外界信號刺激時悯辙,不同區(qū)域對信號自動產(chǎn)生不同的響應。這種神經(jīng)網(wǎng)絡是在生物神經(jīng)元上首先發(fā)現(xiàn)的,如果神經(jīng)元是同步活躍的則信號加強桦他,如果異步活躍則信號減弱瞬铸。
Convolutional Neural Networks?卷積神經(jīng)網(wǎng)絡
卷積神經(jīng)網(wǎng)絡是為識別二維形狀而特殊設計的一個多層感知器,由輸入層皆警、隱藏層、輸出層組成鸵隧,隱藏層可以有很多層豆瘫,每層由一個或多個二維平面組成外驱,而每個平面由多個獨立神經(jīng)元組成昵宇。
Recurrent Neural Network?循環(huán)神經(jīng)網(wǎng)絡
是一種對序列數(shù)據(jù)建模的神經(jīng)網(wǎng)絡瓦哎。RNN不同于前向神經(jīng)網(wǎng)絡蒋譬,它的層內、層與層之間的信息可以雙向傳遞蜂桶,更高效地存儲信息,利用更復雜的方法來更新規(guī)則,通常用于處理信息序列的任務费坊。
Learning rate?學習率
學習率作為監(jiān)督學習以及深度學習中重要的超參,其決定著目標函數(shù)能否收斂到局部最小值以及何時收斂到最小值永毅,過高和過低的學習率都可能對模型結果帶來不良影響着逐,合適的學習率可以加快模型的訓練速度意蛀。
Ensemble Learning?集成學習
集成學習是使用一系列學習器進行學習秀姐,并使用某種規(guī)則把各個學習結果進行整合從而獲得比單個學習器更好的學習效果的一種機器學習方法省有。比較常見的集成學習方法有隨機森林等锥咸。
Multi-Layer Perceptron,MLP?多層感知機
是深度神經(jīng)網(wǎng)絡的基礎算法雪侥。多層感知機含有至少一個隱藏層的由全連接層組成的神經(jīng)網(wǎng)絡锌妻,且每個隱藏層的輸出通過激活函數(shù)進行變換。多層感知機的層數(shù)和各隱藏層中隱藏單元個數(shù)都是超參數(shù)原茅。
Oversampling?過采樣
是指對訓練集里的某類樣例增加采樣次數(shù)以減小類別不平衡。
Overfitting?過擬合
所選模型的復雜度比真模型更高朗若,學習時選擇的模型所包含的參數(shù)過多昌罩,對已知數(shù)據(jù)預測得很好银伟,但是對未知數(shù)據(jù)預測性能變差的現(xiàn)象彤避。
Underfitting?欠擬合
是指模型擬合程度不高琉预,數(shù)據(jù)距離擬合曲線較遠,或指模型沒有很好地捕捉到數(shù)據(jù)特征,不能夠很好地擬合數(shù)據(jù)昙楚。機器學習中一個重要的話題便是模型的泛化能力削葱,泛化能力強的模型才是好模型昔字,對于訓練好的模型作郭,若在訓練集表現(xiàn)差,在測試集表現(xiàn)同樣會很差,這可能是欠擬合導致。
參考來源:
Osman, A. , &? Tamam, N. M. . (2022). Deep learning-based convolutional neural network for intra-modality brain mri synthesis. Journal of Applied Clinical Medical Physics, 1-11.
Gaudart, J. ,? Giusiano, B. , &? Huiart, L. . (2018). Comparison of the performance of multi-layer perceptron and linear regression for epidemiological data. Computational Statistics & Data Analysis, 44(4), 547-570.
Weston, J. ,? Ratle, F. ,? Mobahi, H. , &? Collobert, R. . (2008). Deep learning via semi-supervised embedding. ACM.
Sikelis, K. , &? Tsekouras, G. E. . (2022). Feature Selection with a Backtracking Search Optimization Algorithm.
Kumar, J. ,? Rashid, M. ,? Musa, R. M. ,? Razman, M. , &? Majeed, A. . (2022). The Classification of Wink-Based EEG Signals: An Evaluation of Different Transfer Learning Models for Feature Extraction.
Golan, T. ,? Siegelman, M. ,? Kriegeskorte, N. , &? Baldassano, C. . (2022). Testing the limits of natural language models for predicting human language judgments.
Price, Rumi, Kato, Spitznagel, Edward, & L. (2000). Applying artificial neural network models to clinical decision making. Psychological Assessment.
Vaish, P. P. ,? Rani, K. , &? Kumar, S. . (2022). Cyclic learning rate based hybridsn model for hyperspectral image classification.
Grüttemeier, Niels,? Komusiewicz, C. , &? Morawietz, N. . (2022). Efficient bayesian network structure learning via parameterized local search on topological orderings. arXiv e-prints.
Ramirez, Chaves, Gorriz, Lopez, Lvarez, & SalasGonzalez, et al. (2009). Computer aided diagnosis of the Alzheimer's disease combining SPECT-based feature selection and random forest classifiers. Nuclear Science Symposium Conference Record. IEEE.
Joutsiniemi, S. L. , &? Kaski, S. . (1995). Self-organizing map in recognition of topographic patterns of eeg spectra. IEEE Transactions on Biomedical Engineering, 42(11), P.1062-1068.
Kawahara, J. ,? Brown, C. J. ,? Miller, S. P. ,? Booth, B. G. , &? Hamarneh, G. . (2017). Brainnetcnn: convolutional neural networks for brain networks; towards predicting neurodevelopment. Neuroimage, 146, 1038-1049.
Li, S. , &? Y? Bai. (2022). Deep learning and improved hmm training algorithm and its analysis in facial expression recognition of sports athletes. Computational Intelligence and Neuroscience, 2022.
Zhou, Z. H. . (2011). When semi-supervised learning meets ensemble learning. SP Higher Education Press (Vol.6, pp.6-16). SP Higher Education Press.