論文地址:*https://arxiv.org/abs/1810.13306 憨愉。
這是一篇來自第四范式(4Paradigm)公司的關于AutoML的綜述文章烦绳。第四范式是目前國內關于AutoML研究較早較深入的公司之一。AutoML全稱是Automated Machine Learning配紫,是2014年以來径密,機器學習和深度學習領域最炙手可熱的領域之一。本篇綜述文章系統(tǒng)地對AutoML領域給出了綜述躺孝,從出現(xiàn)原因享扔、問題定義、問題構成植袍、基本策略惧眠、高級策略、應用奋单、及總結等方面進行了全面的介紹锉试。下面是一些簡要的筆記。
AutoML出現(xiàn)原因
機器學習的應用需要大量的人工干預览濒,這些人工干預表現(xiàn)在:特征提取呆盖、模型選擇、參數調節(jié)等機器學習的各個方面贷笛。AutoML視圖將這些與特征应又、模型、優(yōu)化乏苦、評價有關的重要步驟進行自動化地學習株扛,使得機器學習模型無需人工干預即可被應用。
AutoML問題定義
作者從機器學習和自動化兩個角度給出了定義: - 從機器學習角度講汇荐,AutoML可以看作是一個在給定數據和任務上學習和泛化能力非常強大的系統(tǒng)洞就。但是它強調必須非常容易使用。 - 從自動化角度講掀淘,AutoML則可以看作是設計一系列高級的控制系統(tǒng)去操作機器學習模型旬蟋,使得模型可以自動化地學習到合適的參數和配置而無需人工干預。
一個通用的AutoML定義如下:
AutoML的核心任務:
- Better performance
- No human assistance
- Lower computation budgets
AutoML問題構成
AutoML的主要問題可以由三部分構成:特征工程革娄、模型選擇倾贰、算法選擇冕碟。
特征工程
特征工程在機器學習中有著舉足輕重的作用。在AutoML中匆浙,自動特征工程的目的是自動地發(fā)掘并構造相關的特征安寺,使得模型可以有最優(yōu)的表現(xiàn)。除此之外首尼,還包含一些特定的特征增強方法挑庶,例如特征選擇、特征降維软能、特征生成挠羔、以及特征編碼等。這些步驟目前來說都沒有達到自動化的階段埋嵌。
上述這些步驟也伴隨著一定的參數搜索空間。第一種搜索空間是方法自帶的俱恶,例如PCA自帶降維參數需要調整雹嗦。第二種是特征生成時會將搜索空間擴大。
模型選擇
模型選擇包括兩個步驟:選擇一個模型合是,設定它的參數了罪。相應地,AutoML的目的就是自動選擇出一個最合適的模型聪全,并且能夠設定好它的最優(yōu)參數泊藕。
算法選擇
對于算法選擇,AutoML的目的是自動地選擇出一個優(yōu)化算法难礼,以便能夠達到效率和精度的平衡娃圆。常用的優(yōu)化方法有SGD、L-BFGS蛾茉、GD等讼呢。使用哪個優(yōu)化算法、對應優(yōu)化算法的配置谦炬,也需要一組搜索空間悦屏。
從全局看
將以上三個關鍵步驟整合起來看,一個完整的AutoML過程可以分成這么兩類:一類是將以上的三個步驟整合成一個完整的pipeline键思;另一類則是network architecture search础爬,能夠自動地學習到最優(yōu)的網絡結構。在學習的過程中吼鳞,對以上三個問題都進行一些優(yōu)化看蚜。
基本的優(yōu)化策略
一旦搜索空間確定,我們便可以實用優(yōu)化器(optimizer)進行優(yōu)化赖条。這里失乾,AutoML主要回答三個問題: - 選擇的優(yōu)化器可以作用在哪個搜索空間上常熙? - 它需要什么樣的反饋? - 為了取得一個好的效果碱茁,它需要怎樣的配置裸卫?
簡單的優(yōu)化搜索方式包括grid search和random search。其中grid search被廣泛使用纽竣。
從樣本中進行優(yōu)化的方法主要包括啟發(fā)式搜索墓贿、derivative-free優(yōu)化、以及強化學習方法蜓氨。梯度下降法是一種重要的優(yōu)化策略聋袋。
評價策略
基本評價策略
在設計評價策略時凝垛,AutoML主要回答三個問題: - 這種策略能能夠快速進行評價嗎谨设? - 這種策略能夠提供準確的評價嗎? - 這種策略需要怎樣的反饋焊虏?
基本的評價策略包括: - 直接評價港令。直接在目標數據上進行評價啥容。這是被使用最多的策略。 - 采樣顷霹。當數據樣本量非常大時咪惠,采樣一些樣本進行評價。 - Early stop淋淀。當遇到一些極端情況使得網絡表現(xiàn)效果不好時遥昧,可以考慮進行early stop。 - 參數重用朵纷。將之前學習過的參數重復利用在新任務上炭臭。這在兩種任務配置差不多時可用。 - 共軛評價袍辞。對于一些可量化的配置徽缚,可以用共軛評價法進行。
高級評價策略
高級評價策略主要包括兩種:meta-learning和transfer learning革屠。
- Meta-learning法凿试。從先前的學習經驗中提煉出基本的參數和結構配置。
- Transfer learning法似芝。從先前的學習經驗中提煉出可以重用的一些知識那婉。
應用
- 使用Auto-sklearn進行模型選擇。
- 使用強化學習進行neural architecture search党瓮。
- 使用ExploreKit進行自動特征構建详炬。
展望
未來可能的研究方向:
- 提高AutoML的效率。
- 更明確的問題定義。
- 發(fā)展基本和高級的搜索策略呛谜。
- 找到更適合的應用在跳。