H2O操作記錄 mnist深度學(xué)習(xí)

今天詳細(xì)研究一下h2o flow的操作流程壮锻,分析其中的關(guān)鍵步驟及界面要素湿故,為后續(xù)改造做準(zhǔn)備惊完。

首先h2o flow有點(diǎn)類似于jupyter,是一個(gè)文本和代碼混合的編輯器邀跃,這個(gè)思想目前在我們系統(tǒng)中應(yīng)該不會(huì)去考慮霉咨!

2018-05-07-15-29-30.jpg

導(dǎo)入文件(Import Files)

h2o貌似支持導(dǎo)入多種文件格式,比如.gz拍屑、.zip途戒、.csv.txt等等丽涩,也可以直接導(dǎo)入一個(gè)文件目錄棺滞。

我測(cè)試的時(shí)候,是直接使用.gz文件矢渊,里面其實(shí)是一個(gè)mnistcsv文件继准。

系統(tǒng)在導(dǎo)入一個(gè)文件之后,會(huì)為這個(gè)文件生成另外一個(gè)后綴為.hex的文件矮男,后續(xù)解析文件以及建模都依賴于此移必。

解析文件(Parse File)

前面的導(dǎo)入文件只是第一步,而這一步解析文件很關(guān)鍵毡鉴,一般情況下崔泵,h2o很智能秒赤,它知道怎么去解析文件,但是它也提供了解析文件的各種參數(shù)憎瘸,方便用戶選擇入篮。

2018-05-07-15-46-46.jpg

下面描述一下這些參數(shù):

  • ID:就是之前說(shuō)的,系統(tǒng)會(huì)為導(dǎo)入的文件起一個(gè)后綴為.hex的名字幌甘,這個(gè)名字在這里可以修改潮售。

  • Parser:這個(gè)解析器,我的理解就是對(duì)應(yīng)h2o支持的幾種文件格式

    • AUTO:由h2o來(lái)自動(dòng)解析
    • ARFF
    • XLS
    • XLSX
    • CSV
    • SVMLight
    • ORC
    • AVRO
    • PARQUET
  • Separator:應(yīng)該指的就是文件內(nèi)列分隔的標(biāo)識(shí),一般像csv文件都是以,分隔的。下面截幾個(gè)圖示意一下爽锥,h2o里支持的分隔符非常多。

    2018-05-07-16-04-31.jpg

    2018-05-07-16-05-34.jpg

  • Column Headers:列頭的解析規(guī)則肮帐,有的文件會(huì)在第一行標(biāo)明列名信息,以有則不會(huì)边器,所以需要設(shè)置一下训枢。h2o提供了參數(shù)選擇,根據(jù)實(shí)際情況選擇即可忘巧。

  • Options:其它一些參數(shù)配置肮砾,Enable single quotes as a field quotation character表示啟用單引號(hào)表示引用字符。Delete on done應(yīng)該是指解析完之后就刪除導(dǎo)入數(shù)據(jù)袋坑,h2o建議是選中這個(gè)的。

  • EDIT COLUMN NAMES AND TYPES:這個(gè)是非常重要的設(shè)置眯勾,需要告訴解析器文件中每一列的列名以及列的數(shù)據(jù)類型枣宫。同樣一般情況下,如果沒(méi)有列名的話吃环,h2o會(huì)自增設(shè)置也颤,數(shù)據(jù)類型h2o也會(huì)自動(dòng)判斷,但是自動(dòng)判斷不見(jiàn)得都是正確的郁轻,最后用戶還是需要檢查一下翅娶,并將一些重要的列設(shè)置正確。比如對(duì)于分類問(wèn)題好唯,樣本的標(biāo)簽值一般都是數(shù)字竭沫,但是用戶需要在這里將其設(shè)置為枚舉,即Enum骑篙。

h2o在解析文件時(shí)蜕提,會(huì)出來(lái)如下一個(gè)界面,顯示解析的進(jìn)度:

2018-05-07-16-22-00.jpg

h2o中靶端,基本每一個(gè)操作都會(huì)被當(dāng)成一個(gè)Job谎势。

點(diǎn)擊View之后:

2018-05-07-16-22-57.jpg

可以看到數(shù)據(jù)集的詳情凛膏,并且用戶可以將標(biāo)簽列設(shè)置為枚舉,當(dāng)標(biāo)簽列設(shè)置為枚舉之后脏榆,h2o會(huì)出現(xiàn)針對(duì)分類標(biāo)簽的統(tǒng)計(jì)圖表:

2018-05-07-16-25-14.jpg

上圖中的inspect中文含義是“檢查”猖毫,可以理解為數(shù)據(jù)可視化,用戶可以配置不同的參數(shù)须喂,以查看到該標(biāo)簽列的數(shù)據(jù)分頁(yè)圖表吁断。

2018-05-07-16-35-55.jpg

2018-05-07-16-36-24.jpg

2018-05-07-16-36-49.jpg

impute有點(diǎn)像是糾錯(cuò)的意思,用戶可以修改某一列具體取值的計(jì)算規(guī)則:

2018-05-07-16-45-28.jpg

Column-C785+Method-Mean+Group By C1 C2镊折,我個(gè)人理解胯府,意思就是"把C785這一列的值,修改為依據(jù)C1和C2恨胚,取它們的平均值(Mean)"骂因。

Method有三種取值:Mean(平均值),Median(中值)赃泡,Mode(取模)

構(gòu)建模型(Build Model)

第一步:選擇模型算法

2018-05-07-16-59-21.jpg

2018-05-07-16-59-36.jpg

由于我現(xiàn)在做的是mnist示例寒波,所以我選擇Deep Learning,當(dāng)選擇了深度學(xué)習(xí)算法之后升熊,會(huì)發(fā)現(xiàn)界面增加了大量的參數(shù)配置:

2018-05-07-17-02-48.jpg

2018-05-07-17-04-18.jpg

2018-05-07-17-04-45.jpg

2018-05-07-17-05-02.jpg

2018-05-07-17-05-36.jpg

下面按照官方說(shuō)明俄烁,給出一些重要的參數(shù)說(shuō)明:

2018-05-07-17-23-23.jpg

上圖主要是設(shè)置訓(xùn)練數(shù)據(jù)集以及測(cè)試數(shù)據(jù)集,還有最終的分類列级野,即上圖中的response_column页屠。

2018-05-07-17-24-37.jpg
  • activation:設(shè)置激活函數(shù)

  • hidden:設(shè)置隱藏層的維度及神經(jīng)元個(gè)數(shù),這里的128,64蓖柔,就表示設(shè)置了兩個(gè)隱藏層辰企,第一層有128個(gè)神經(jīng)元,第二層有64個(gè)神經(jīng)元

  • epochs:這個(gè)應(yīng)該都能理解况鸣,就是訓(xùn)練的輪數(shù)

  • variable_importance:變量重要性牢贸,這個(gè)我不懂,不亂說(shuō)

2018-05-07-17-28-37.jpg
  • adaptive_rate:自適應(yīng)學(xué)習(xí)率镐捧,如果要手動(dòng)設(shè)置的話潜索,需要取消選中狀態(tài)

  • input_dropout_ratio:這是一個(gè)防止過(guò)擬合的參數(shù),這是設(shè)置輸入層的比率懂酱,因?yàn)檩斎雽又挥幸粋€(gè)竹习,所以這里設(shè)置一個(gè)就行了

  • hidden_dropout_ratios:同上,這是設(shè)置隱藏層的比率列牺,因?yàn)槲覀儎偛旁O(shè)置了隱藏層是兩個(gè)由驹,所以這里以逗號(hào)分隔

  • l1與l2:這也是防止過(guò)擬合的參數(shù),具體我不懂

2018-05-07-17-33-39.jpg

2018-05-07-17-34-02.jpg

這四個(gè)參數(shù)是設(shè)置early stop的參數(shù),具體含義我不了解

2018-05-07-17-35-19.jpg

這些參數(shù)是設(shè)置隨機(jī)因子蔓榄、學(xué)習(xí)率并炮、衰變率動(dòng)量因子等甥郑,具體看解釋吧逃魄。

正式構(gòu)建模型

點(diǎn)擊Build Model

2018-05-07-17-37-36.jpg

2018-05-07-19-12-25.jpg

點(diǎn)擊上圖中的超鏈接:

2018-05-07-17-42-27.jpg

可以看到h2o為模型提供了大量的可視化數(shù)據(jù)展示,以及功能按鈕澜搅。上圖展示了對(duì)一個(gè)模型可以進(jìn)行的操作:

  • Refresh:刷新

  • Predict:預(yù)測(cè)

  • Download POJO:這個(gè)應(yīng)該是下載模型對(duì)象伍俘,具體下載下來(lái),會(huì)發(fā)現(xiàn)是一個(gè)Java文件勉躺,文件有3M多癌瘾,大概10萬(wàn)多行。

  • Download Model Deployment Package(MOJO):一個(gè)壓縮包饵溅,我也不知道是什么東東妨退。

  • Export:將模型導(dǎo)出到指定路徑下。

  • Inspect:具體不知道蜕企。

2018-05-07-18-32-06.jpg
  • Delete:刪除模型

  • Download Gen Model:一個(gè)可執(zhí)行的jar包咬荷。

下面仔細(xì)看看具體的模型結(jié)果展示信息:

第一個(gè)是模型參數(shù)信息,即前面在構(gòu)建模型前轻掩,所設(shè)置的自定義參數(shù):

2018-05-07-18-09-47.jpg

下面這個(gè)不知道是什么意思幸乒,好像是把損失取了一下對(duì)數(shù)進(jìn)行圖表展示,但不知道具體有什么含義唇牧。

2018-05-07-19-28-46.jpg

下面這個(gè)是變量重要性罕扎,意思應(yīng)該就是針對(duì)所有的特征列,它能計(jì)算出哪些對(duì)結(jié)果的影響更重要丐重,會(huì)對(duì)這些特征做一個(gè)重要性排序壳影。

2018-05-07-19-29-14.jpg

這應(yīng)該就是一個(gè)訓(xùn)練的混淆矩陣,行是真實(shí)分類弥臼,列是預(yù)測(cè)分類,就是結(jié)果的展示根灯,每個(gè)分類的錯(cuò)誤率有多少径缅。

2018-05-07-19-29-42.jpg

這也是一個(gè)驗(yàn)證的混淆矩陣,行是真實(shí)分類烙肺,列是預(yù)測(cè)分類纳猪,就是結(jié)果的展示,每個(gè)分類的錯(cuò)誤率有多少桃笙。

2018-05-07-19-30-03.jpg

還有很多的模型結(jié)果展示氏堤,這里就不列舉了。

今天有一個(gè)問(wèn)題一直沒(méi)有搞明白,無(wú)論我怎么修改參數(shù)鼠锈,最終訓(xùn)練的輪數(shù)跟我設(shè)置的epoch都不一樣闪檬,而且小非常多,不知道為什么购笆。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末粗悯,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子同欠,更是在濱河造成了極大的恐慌样傍,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,843評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件铺遂,死亡現(xiàn)場(chǎng)離奇詭異衫哥,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)襟锐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,538評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)撤逢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人捌斧,你說(shuō)我怎么就攤上這事笛质。” “怎么了捞蚂?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,187評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵妇押,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我姓迅,道長(zhǎng)敲霍,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,264評(píng)論 1 292
  • 正文 為了忘掉前任丁存,我火速辦了婚禮肩杈,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘解寝。我一直安慰自己扩然,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,289評(píng)論 6 390
  • 文/花漫 我一把揭開(kāi)白布聋伦。 她就那樣靜靜地躺著夫偶,像睡著了一般。 火紅的嫁衣襯著肌膚如雪觉增。 梳的紋絲不亂的頭發(fā)上兵拢,一...
    開(kāi)封第一講書(shū)人閱讀 51,231評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音逾礁,去河邊找鬼说铃。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的腻扇。 我是一名探鬼主播债热,決...
    沈念sama閱讀 40,116評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼衙解!你這毒婦竟也來(lái)了阳柔?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,945評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤蚓峦,失蹤者是張志新(化名)和其女友劉穎舌剂,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體暑椰,經(jīng)...
    沈念sama閱讀 45,367評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡霍转,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,581評(píng)論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了一汽。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片避消。...
    茶點(diǎn)故事閱讀 39,754評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖召夹,靈堂內(nèi)的尸體忽然破棺而出岩喷,到底是詐尸還是另有隱情,我是刑警寧澤监憎,帶...
    沈念sama閱讀 35,458評(píng)論 5 344
  • 正文 年R本政府宣布纱意,位于F島的核電站,受9級(jí)特大地震影響鲸阔,放射性物質(zhì)發(fā)生泄漏偷霉。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,068評(píng)論 3 327
  • 文/蒙蒙 一褐筛、第九天 我趴在偏房一處隱蔽的房頂上張望类少。 院中可真熱鬧,春花似錦渔扎、人聲如沸硫狞。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,692評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)残吩。三九已至,卻和暖如春愧旦,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背定罢。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,842評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工笤虫, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,797評(píng)論 2 369
  • 正文 我出身青樓琼蚯,卻偏偏與公主長(zhǎng)得像酬凳,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子遭庶,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,654評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容