使用基于t2t的transformer做NMT的一些你需要知道的事情

總覽

  • 使用1080 ti在英捷數(shù)據(jù)集進(jìn)行試驗康二。
  • t2t中的bs指的是subword的數(shù)量,而不是我們認(rèn)為的sentence pairs的數(shù)量
  • 實(shí)際訓(xùn)練的bs等于使用GPU的數(shù)量乘以bs
  • approx-bleu是為了提高測試的過程的,使用的是sub-word bleu的計算方法,因此比實(shí)際的bleu要高。
  • t2t使用的是自己內(nèi)建的sub-word方法
  • file_byte_budget是用來控制sample出訓(xùn)練數(shù)據(jù)用來訓(xùn)練subword詞表的數(shù)目牙丽,確保抽樣比較多的training data,對于子單詞詞匯表來說兔魂,訓(xùn)練數(shù)據(jù)太小的一個標(biāo)志是日志中報告的min_count太低烤芦,因此詞匯表只能從一次或兩次看到的單詞中估計。(因此min_count要大于2才是比較合適的)
  • 可以更改t2t-trainer 中的schedule來不讓做approx_bleu這樣可以加速訓(xùn)練析校,感覺應(yīng)該是有參數(shù)可以讓比較的是真實(shí)的bleu把

訓(xùn)練加速

  • 增大bs對訓(xùn)練加速幫助不大构罗。
  • GPU訓(xùn)練對加速的幫助很大。
  • 作者發(fā)現(xiàn)small and clear的數(shù)據(jù)集收斂需要的epochbig and noise的多智玻。
  • 大的數(shù)據(jù)集在多卡上訓(xùn)練1week之后效果還在提升遂唧,如果數(shù)據(jù)集是兩倍那么需要的訓(xùn)練時間要比兩倍還要多,訓(xùn)練數(shù)據(jù)和訓(xùn)練需要的收斂時間之間并不是線性關(guān)系吊奢。

big model和base model的對比

  • 在單GPU上盡管base model可以放更多的訓(xùn)練數(shù)據(jù)盖彭,但是效果是不如big model
  • 因此為了有好的訓(xùn)練效果页滚,如果你的GPU顯存是大于11GB的還是使用big model比較好召边。
  • 為了debug方便(除過模型其他部分的bug)可以使用一個更小的transformer模型,transformer_tiny裹驰,等運(yùn)行正常的情況下再換成大模型transformer隧熙。
  • 如果為了極限的省顯存可以用Adafactor優(yōu)化器,因為不用存儲adam中的一階矩二階矩幻林。

max_length參數(shù)的影響

max_length這個參數(shù)基本不用改贞盯,因為如果訓(xùn)練的bs足夠大的話,修改只能降低效果滋将,transformer不能翻譯比訓(xùn)練中出現(xiàn)最長的句子還要長的句子邻悬。

bs的影響

  • 默認(rèn)的單GPUbs2048,多GPUbs4096症昏,但是作者在單GPU上發(fā)現(xiàn)對于base model如果增大bs6000效果很會比默認(rèn)的參數(shù)好很多随闽。
  • 但是big model 大的bs效果沒有什么用,并且有一個收斂最小bs的參數(shù)肝谭,如果bs小于這個參數(shù)那么就會不收斂或者收斂很慢掘宪。
  • 建議:bs盡可能的大。

學(xué)習(xí)率lr和warmup的影響

  • lr影響不大攘烛,使用默認(rèn)的就好
  • warmup影響也不大
  • transfomer對這兩個參數(shù)不敏感魏滚,使用初始的就好了
  • 對于新的數(shù)據(jù)集如果沒收斂的話,嘗試下面的調(diào)參策略坟漱,以及lrwarmup的關(guān)系鼠次,降低warmup steps,相當(dāng)于增大實(shí)際最大學(xué)習(xí)率。
  • 數(shù)據(jù)量增大的話:其他人經(jīng)過推算如果數(shù)據(jù)量增大k倍的話腥寇,學(xué)習(xí)率變?yōu)?code>√k才行成翩。
  • 如果是多GPU運(yùn)行:作者發(fā)現(xiàn)默認(rèn)的0.2的學(xué)習(xí)率是8GPU能夠收斂的最大學(xué)習(xí)率
  • 8 GPU上調(diào)節(jié)warm up對只要沒有越過收斂底線,其他情況加是差不多的赦役。
  • 因此看學(xué)習(xí)率合不合適就看收斂速度(BLEU值)麻敌,因為如果學(xué)習(xí)在適當(dāng)區(qū),收斂是可以達(dá)到預(yù)期的掂摔,如果沒有在那么訓(xùn)練是不收斂或者收斂到一個很低的水平的术羔,如果是差不多達(dá)到預(yù)期了那么就沒有必要調(diào)節(jié)學(xué)習(xí)率,如果很差那么就適當(dāng)?shù)慕档蛯W(xué)習(xí)率即可乙漓。

多GPU的影響

  • single GPU 上執(zhí)行4000步和4 GPU上執(zhí)行1000步的結(jié)果是一模一樣的级历,但是收斂的更快.
  • 作者建議:如果有2個實(shí)驗和8GPU的時候,最好是串行的在8GPU上跑叭披,而不是各占用4GPU并行跑鱼喉。

transformer不使用bn和SGD

  • 使用layer normalization不使用batch normalizaion的原因:

checkpoint average的影響

  • checkpoint average一般會帶來0.2 bleu左右的提升。
  • 默認(rèn)的是每隔10分鐘保存一次ckpt趋观,最后平均20個最近的ckpt效果很好扛禽,但是這個多少個是根據(jù)任務(wù)而定的,在作者的實(shí)驗中就發(fā)現(xiàn)一小時保存一次的ckpt平均后的效果更好皱坛。
  • 作者建議在距離訓(xùn)練開始階段較近的比如5W步的時候编曼,平均的ckpt應(yīng)該少一點(diǎn),因為還沒有訓(xùn)練還不穩(wěn)定bleu曲線還很陡峭剩辟,在結(jié)束10W步的時候掐场,平均的ckpt應(yīng)該多一點(diǎn),這樣效果會更好贩猎。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末熊户,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子吭服,更是在濱河造成了極大的恐慌嚷堡,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,743評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件艇棕,死亡現(xiàn)場離奇詭異蝌戒,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)沼琉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評論 3 385
  • 文/潘曉璐 我一進(jìn)店門北苟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人打瘪,你說我怎么就攤上這事友鼻∩店迹” “怎么了?”我有些...
    開封第一講書人閱讀 157,285評論 0 348
  • 文/不壞的土叔 我叫張陵彩扔,是天一觀的道長屋匕。 經(jīng)常有香客問我,道長借杰,這世上最難降的妖魔是什么过吻? 我笑而不...
    開封第一講書人閱讀 56,485評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮蔗衡,結(jié)果婚禮上纤虽,老公的妹妹穿的比我還像新娘。我一直安慰自己绞惦,他們只是感情好逼纸,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,581評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著济蝉,像睡著了一般杰刽。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上王滤,一...
    開封第一講書人閱讀 49,821評論 1 290
  • 那天贺嫂,我揣著相機(jī)與錄音,去河邊找鬼雁乡。 笑死第喳,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的踱稍。 我是一名探鬼主播曲饱,決...
    沈念sama閱讀 38,960評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼珠月!你這毒婦竟也來了扩淀?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,719評論 0 266
  • 序言:老撾萬榮一對情侶失蹤啤挎,失蹤者是張志新(化名)和其女友劉穎驻谆,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體侵浸,經(jīng)...
    沈念sama閱讀 44,186評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡旺韭,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,516評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了掏觉。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,650評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡值漫,死狀恐怖澳腹,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤酱塔,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布沥邻,位于F島的核電站,受9級特大地震影響羊娃,放射性物質(zhì)發(fā)生泄漏唐全。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,936評論 3 313
  • 文/蒙蒙 一蕊玷、第九天 我趴在偏房一處隱蔽的房頂上張望邮利。 院中可真熱鬧,春花似錦垃帅、人聲如沸延届。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,757評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽方庭。三九已至,卻和暖如春酱固,著一層夾襖步出監(jiān)牢的瞬間械念,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,991評論 1 266
  • 我被黑心中介騙來泰國打工运悲, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留订讼,地道東北人。 一個月前我還...
    沈念sama閱讀 46,370評論 2 360
  • 正文 我出身青樓扇苞,卻偏偏與公主長得像欺殿,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子鳖敷,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,527評論 2 349

推薦閱讀更多精彩內(nèi)容

  • 本文上兩篇系列 NLP的巨人肩膀(上) NLP的巨人肩膀(中) 4.6 Bidirectional Encoder...
    weizier閱讀 6,399評論 1 22
  • 金山集團(tuán) AI Lab 組隊參加了AI Challenger 2018 全球挑戰(zhàn)賽的英中機(jī)器翻譯項目脖苏,并且獲得冠軍...
    Quincy_baf0閱讀 786評論 0 0
  • 本文另兩篇系列 NLP的巨人肩膀(上) NLP的巨人肩膀(下) 3. 梯子的一級半 除了在word級別的embed...
    weizier閱讀 6,581評論 0 18
  • 今天第一次獲得獎壯,??心情非常激動定踱,加入傳奇今生紅櫻桃健康唇膏這個平臺以來棍潘,第一次拿到獎狀 也是證明了自己的實(shí)力...
    c14b5da6e55e閱讀 336評論 0 0
  • 不知道從什么時候開始,我們變得越來越浮躁越來越?jīng)]有耐心崖媚,也越來越急亦歉。 每天都被各種作業(yè),任務(wù)轟炸著畅哑,果然上了大學(xué)就...
    木槿雙魚閱讀 248評論 0 0