問題:機(jī)器學(xué)習(xí)基本流程有哪些
解答:數(shù)據(jù)獲任辞拧(爬蟲等)、特征抽冉姹浮(經(jīng)驗(yàn)和探索)冬耿、數(shù)據(jù)轉(zhuǎn)換(缺失值填充、標(biāo)準(zhǔn)化萌壳、降維)亦镶、模型訓(xùn)練、模型選擇袱瓮、模型預(yù)測(cè)
問題:監(jiān)督學(xué)習(xí)做的是什么
解答:使用者給出特征和標(biāo)簽缤骨,算法挖掘規(guī)律,學(xué)習(xí)一個(gè)模式尺借,并根據(jù)此模式預(yù)測(cè)新的特征對(duì)應(yīng)的標(biāo)簽绊起。包括線性回歸、嶺回歸燎斩、 Lasso 回歸虱歪、邏輯回歸蜂绎、線性判別分析和二次判別分析、支持向量機(jī)笋鄙、決 策樹师枣、隨機(jī)森林、AdaBoost萧落、神經(jīng)網(wǎng)絡(luò)践美、深度學(xué)習(xí)和 K 最近鄰算法在內(nèi)的 眾多監(jiān)督學(xué)習(xí)方法。
問題:無(wú)監(jiān)督學(xué)習(xí)做的是什么
解答:不給標(biāo)簽找岖,算法根據(jù)原始特征尋找模式陨倡。常用方法包括聚類和降維。聚類:K 均值聚 類许布、分層聚類和譜聚類玫膀。降維包括以主成分分析為代表的線性降維,以及 以流形學(xué)習(xí)為代表的非線性降維爹脾。
問題:特征抽取的應(yīng)用場(chǎng)景
解答:自然語(yǔ)言識(shí)別中, 人們借助 Word Embedding 技術(shù)箕昭,將以文字表示的詞匯轉(zhuǎn)換為以數(shù)值表示的向量灵妨。在圖像識(shí)別中,人們首 先從原始的圖片里提取出三原色落竹、亮度等信息泌霍。在多因子選股中,人們從原始的價(jià)量數(shù)據(jù) 中提取出各類因子述召,也暗含了特征提取的思想朱转。特征提取有一些基本套路,但是更多時(shí)候 基于人的經(jīng)驗(yàn)和探索积暖。優(yōu)質(zhì)的特征能夠令模型訓(xùn)練的過(guò)程事半功倍藤为。
問題:數(shù)據(jù)降維做的是什么
解答:降維能夠避免特征之間相關(guān) 性的影響,也能避免維數(shù)災(zāi)難的發(fā)生夺刑。
問題:模型選擇中的交互驗(yàn)證是什么
解答:交互驗(yàn)證的核心是將全部樣本劃分成兩部分缅疟,一部分用來(lái)訓(xùn)練模型,稱為訓(xùn)練集遍愿,另外一 部分用來(lái)驗(yàn)證模型存淫,稱為驗(yàn)證集,隨后考察模型在訓(xùn)練集和驗(yàn)證集的表現(xiàn)是否接近沼填。交互來(lái)進(jìn)行驗(yàn)證桅咆。如果模型在驗(yàn)證時(shí)性能和訓(xùn)練時(shí)大致相同,那么就可以確信模型真的“學(xué)會(huì)” 了如何發(fā)現(xiàn)數(shù)據(jù)中的一般規(guī)律坞笙,而不是“記住”訓(xùn)練樣本岩饼。這實(shí)際上和學(xué)生考試的情形類 似荚虚,要想考察學(xué)生是否掌握了某個(gè)知識(shí)點(diǎn),不能使用課堂上講過(guò)的例題忌愚,而應(yīng)當(dāng)使用相似 的習(xí)題曲管。