sklearn 增量學(xué)習(xí)

對(duì)于大數(shù)據(jù)集苞笨,在訓(xùn)練時(shí)會(huì)出現(xiàn)MemoryError 稠腊。sklearn提供了幾種辦法,一是從根本上節(jié)省空間畸陡,二是流式讀取鹰溜,三是節(jié)省每次運(yùn)行時(shí)的數(shù)據(jù)量。

1. 流式數(shù)據(jù)

要給算法流式數(shù)據(jù)或小batch的數(shù)據(jù)丁恭。讀入數(shù)據(jù)的一部分曹动?

2. 特征提取 或者降維

sklearn提供了很多方法。

3.?增量學(xué)習(xí)算法

sklearn 中任何提供了?partial_fit的函數(shù)的學(xué)習(xí)器都可以進(jìn)行增量學(xué)習(xí)牲览。運(yùn)行數(shù)據(jù)的一部分墓陈。每次訓(xùn)練只有一個(gè)mini-batch 的數(shù)據(jù)在main memory里。需要調(diào)整mini-batch 中的樣本數(shù)來(lái)平衡占用空間和相關(guān)性竭恬。

4. 如果矩陣稀疏的話跛蛋,要用稀疏矩陣

scipy中稀疏矩陣定義在scipy.sparse下,有coo痊硕、lil赊级、csr等多種格式。從用途出發(fā)比較容易理解它們的特點(diǎn)岔绸,文檔中的描述是:

To construct a matrix efficiently, use either dok_matrix or lil_matrix.

要高效地創(chuàng)建矩陣理逊,使用dok或者lil格式。

To perform manipulations such as multiplication or inversion, first convert the matrix to either csc or csr format.

要執(zhí)行乘法或者求逆操作盒揉,先轉(zhuǎn)換為csc或者csr格式晋被。

5. 用交叉驗(yàn)證時(shí),

n_jobs:處理器個(gè)數(shù)刚盈。

fold : 數(shù)據(jù)分割的份數(shù)羡洛,也是交叉驗(yàn)證的次數(shù)。

設(shè)置是cv=12, n_jobs=3藕漱,也就是用三個(gè)處理器(記為CPU_A, CPU_B, CPU_C)欲侮,進(jìn)行12次cross validation(記為CV_1, CV_2, CV_3, ..., CV_12)崭闲。pre_dispatch是預(yù)派遣的意思,就是提前先把任務(wù)派遣給各個(gè)處理器威蕉。

如果我們沒有設(shè)置cross_val_score中的參數(shù)pre_dispatch刁俭,當(dāng)我們開始執(zhí)行cross_val_score,程序會(huì)一次性把全部12個(gè)CV都派遣出去韧涨,每個(gè)處理器領(lǐng)到4個(gè)CV牍戚。要特別注意了,這里的派遣并不是口頭的安排任務(wù)虑粥,而是把任務(wù)和任務(wù)對(duì)應(yīng)的數(shù)據(jù)也發(fā)送給處理器如孝。比如說(shuō),CPU_A領(lǐng)到了CV_1, CV_4, CV_7, CV_10舀奶,那么CPU_A就領(lǐng)到了四份訓(xùn)練數(shù)據(jù)集暑竟、四份測(cè)試集存放在內(nèi)存里(又是重點(diǎn)),然后CPU_A開始依次完成CV_1, CV_4, CV_7, CV_10育勺。

如果我們?cè)O(shè)置pre_dispatch=‘2*n_jobs’,當(dāng)我們開始執(zhí)行cross_val_score罗岖,程序會(huì)派遣6個(gè)CV出去涧至,每個(gè)處理器領(lǐng)到2個(gè)CV。所以一開始每個(gè)處理器只需要存兩份訓(xùn)練集桑包、測(cè)試集(劃重點(diǎn))南蓬。比如說(shuō)CPU_A領(lǐng)到了CV_1和CV_4,CPU_B領(lǐng)到了CV_2和CV_5哑了,CPU_C領(lǐng)到了CV_3和CV_6赘方,如果CPU_B率先完成了CV_2,那么系統(tǒng)會(huì)自動(dòng)把CV_7派遣給CPU_B弱左,節(jié)奏CPU_A完成了CV_1窄陡,系統(tǒng)再把任務(wù)CV_8放在CPU_A的任務(wù)隊(duì)列里。pre_dispatch=‘2*n_jobs’的意思就是保持每個(gè)CPU都有兩個(gè)任務(wù)在身(一個(gè)在做拆火,一個(gè)在排隊(duì))跳夭,除非所有任務(wù)都被派遣出去了。

如果我們?cè)O(shè)置pre_dispatch=‘1*n_jobs’们镜,這樣占用的內(nèi)存最低币叹,因?yàn)橹挥挟?dāng)當(dāng)前的任務(wù)完成之后,才會(huì)有新任務(wù)(數(shù)據(jù))派遣到閑置處理器模狭,而非將數(shù)據(jù)放在隊(duì)列中等待颈抚。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市嚼鹉,隨后出現(xiàn)的幾起案子贩汉,更是在濱河造成了極大的恐慌驱富,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,657評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件雾鬼,死亡現(xiàn)場(chǎng)離奇詭異萌朱,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)策菜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,889評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門晶疼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人又憨,你說(shuō)我怎么就攤上這事翠霍。” “怎么了蠢莺?”我有些...
    開封第一講書人閱讀 164,057評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵寒匙,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我躏将,道長(zhǎng)锄弱,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,509評(píng)論 1 293
  • 正文 為了忘掉前任祸憋,我火速辦了婚禮会宪,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘蚯窥。我一直安慰自己掸鹅,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,562評(píng)論 6 392
  • 文/花漫 我一把揭開白布拦赠。 她就那樣靜靜地躺著巍沙,像睡著了一般。 火紅的嫁衣襯著肌膚如雪荷鼠。 梳的紋絲不亂的頭發(fā)上句携,一...
    開封第一講書人閱讀 51,443評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音颊咬,去河邊找鬼务甥。 笑死,一個(gè)胖子當(dāng)著我的面吹牛喳篇,可吹牛的內(nèi)容都是我干的敞临。 我是一名探鬼主播,決...
    沈念sama閱讀 40,251評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼麸澜,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼挺尿!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,129評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤编矾,失蹤者是張志新(化名)和其女友劉穎熟史,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體窄俏,經(jīng)...
    沈念sama閱讀 45,561評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡蹂匹,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,779評(píng)論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了凹蜈。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片限寞。...
    茶點(diǎn)故事閱讀 39,902評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖仰坦,靈堂內(nèi)的尸體忽然破棺而出履植,到底是詐尸還是另有隱情,我是刑警寧澤悄晃,帶...
    沈念sama閱讀 35,621評(píng)論 5 345
  • 正文 年R本政府宣布玫霎,位于F島的核電站,受9級(jí)特大地震影響妈橄,放射性物質(zhì)發(fā)生泄漏庶近。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,220評(píng)論 3 328
  • 文/蒙蒙 一眷蚓、第九天 我趴在偏房一處隱蔽的房頂上張望拦盹。 院中可真熱鬧,春花似錦溪椎、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,838評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至祖能,卻和暖如春歉秫,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背养铸。 一陣腳步聲響...
    開封第一講書人閱讀 32,971評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工雁芙, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人钞螟。 一個(gè)月前我還...
    沈念sama閱讀 48,025評(píng)論 2 370
  • 正文 我出身青樓兔甘,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親鳞滨。 傳聞我的和親對(duì)象是個(gè)殘疾皇子洞焙,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,843評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容