特征工程在機器學習中往往是最耗時最耗力的奠支,但卻及其重要。抽象來講抚芦,機器學習問題是把數(shù)據(jù)轉(zhuǎn)換成信息再提煉到知識的過程倍谜。特征是“數(shù)據(jù)到信息”的過程,決定了結(jié)果的上限叉抡,而分類器是“信息到知識”的過程枢劝,則是去逼近這個上限。然而特征工程不同于分類器模型卜壕,不具備很強的通用性您旁,往往需要結(jié)合對特征任務(wù)的理解。
深度學習最初之所以在圖像和語音領(lǐng)域取得巨大成功轴捎,一個很重要的原因是圖像和語音原始數(shù)據(jù)是連續(xù)和稠密的鹤盒,有局部相關(guān)性蚕脏。
由于訓(xùn)練需要大數(shù)據(jù)的現(xiàn)實,我們是不是就可以理解為深度學習就是一種記憶式學習呢侦锯?
有句話這么說驼鞭,表示和特征提取解決后,人工智能問題也就解決了90%尺碰。表示是基礎(chǔ)和關(guān)鍵的工作挣棕,表示其實就是將感知到的現(xiàn)象用數(shù)字表示,這種數(shù)字表示其實就是一種向量空間模型亲桥,將需要表示的現(xiàn)象映射到同一個向量空間下洛心,在該空間下進行提取特征,從而保證合理性题篷。我們可以看出词身,表示好壞,對特征提取也是有一定影響的番枚。