在計算機系統(tǒng)中,“經(jīng)驗”通常以“數(shù)據(jù)”形式存在袱吆。
模型model
學(xué)習(xí)算法learning algorithm
數(shù)據(jù)集data set
示例instance
樣本sample
屬性attribute
特征feature
屬性值attribute value
屬性空間attribute space
樣本空間sample space
維數(shù)dimensionality
訓(xùn)練集training set
假設(shè)hypothesis
“真相”ground-truth
學(xué)習(xí)器learner
標記label
標記空間/輸出空間 label space
是否擁有標記信息分為
監(jiān)督學(xué)習(xí)supervised learning[
分類(classification)兩個類別二分類(binary classification)通常稱一個正類(positive class)另一個反類(negative class)多個類別多分類(multi-class classification)
回歸(regression)]
無監(jiān)督學(xué)習(xí)unsupervised learning[
聚類(clustering)每個類稱為簇(cluster)]
美國《新聞周刊》對谷歌評論:它使任何人離任何問題的答案間的距離變得只有點擊一下鼠標這么遠。
過擬合overfitting
欠擬合underfitting
模型選擇model selection
測試誤差testing error
泛化誤差generalization error評估方法:留出法,交叉驗證法徒扶,
留出法(hold-out):直接將數(shù)據(jù)集劃分為兩個互斥的集合吭净,測試集瘾腰,訓(xùn)練集姨裸。
交叉驗證法(cross validation)