NatsuYori - 簡書

IP屬地：江西

ec2 run machine learning project
自己的機(jī)器配置太慢了鸯隅，所以打算在ec2上搭環(huán)境跑爽撒。可惡昨天居然搭了一天砰盐！記錄一下主要碰到的問題 ec2上有8個gpu，結(jié)果code只能拿到一個g...

118 0 0
Distributed Pytorch碰到的一個問題
這兩天仔細(xì)看了下分布式pytorch的文檔…起因是跑分布式pytorch的時候，在training的最后一個epoch掛掉了首先在最后一個epo...

738 0 0

pytorch中碰到的memory leak問題
最近碰到pytorch分布式訓(xùn)練時候，memory幾乎線性增加哼凯，撐炸機(jī)器的問題。pytorch中內(nèi)存泄漏常見的原因大概是以下幾點：不恰當(dāng)?shù)膌o...

0.1 6333 0 1
sparks 中數(shù)據(jù)傾斜的大坑
這兩天弄訓(xùn)練數(shù)據(jù)的時候碰到了一個大坑本來數(shù)據(jù)集就比較大楚里，在劃訓(xùn)練樣本的時候断部，訓(xùn)練樣本的分布就出現(xiàn)了不均勻的情況（有的parition多，有的少）...

603 0 0
spark job failure：Remote RPC Client Disassociated
可能是需要加機(jī)器班缎，或者選擇升級機(jī)型當(dāng)然蝴光，以上在正常情況下不是最好的解決辦法。當(dāng)初的我通過加大機(jī)型直接繞開了問題…worker失聯(lián)很有可能是因為...

928 0 0
git cherry-pick
比如team最近在做新的version达址，某天該version code freeze了蔑祟，但是你發(fā)現(xiàn)你最新的commit居然在code freez...

301 0 0
Cannot grow BufferHolder by size because the size after growing exceeds size limitation
今天用spark的時候碰到的問題，直接對一個大的dataframe做agg沉唠，導(dǎo)致buffer超了疆虚。可以人為的在dataframe上append一...

2049 0 0

word2vect中的negative-sample
最近在調(diào)研embedding的方法右冻，重新學(xué)習(xí)了一下word2vect装蓬，深感自己有很多不足…在看xin rong博士的paper：https://...

348 0 0
scala load data出現(xiàn)org.apache.parquet.column.values.dictionary.PlainValuesDictionary$PlainLongDicti...
出現(xiàn)這個問題是因為在parquet數(shù)據(jù)中，有的column數(shù)據(jù)類型不一致纱扭。發(fā)現(xiàn)這個問題是在load data的時候牍帚。如果 load 的數(shù)據(jù)是多路...

4281 0 0