自己的機(jī)器配置太慢了痹升,所以打算在ec2上搭環(huán)境跑◇栽可惡昨天居然搭了一天辜妓!記錄一下主要碰到的問題 ec2上有8個(gè)gpu枯途,結(jié)果code只能拿到一個(gè)gpu忌怎。原因是環(huán)境變量CUDA_...
![240](https://upload.jianshu.io/users/upload_avatars/11152291/d44100f5-3775-44e5-a35a-e50faa69d3a5.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
自己的機(jī)器配置太慢了痹升,所以打算在ec2上搭環(huán)境跑◇栽可惡昨天居然搭了一天辜妓!記錄一下主要碰到的問題 ec2上有8個(gè)gpu枯途,結(jié)果code只能拿到一個(gè)gpu忌怎。原因是環(huán)境變量CUDA_...
這兩天仔細(xì)看了下分布式pytorch的文檔…起因是跑分布式pytorch的時(shí)候,在training的最后一個(gè)epoch掛掉了首先在最后一個(gè)epoch/batch掛掉的原因酪夷,肯...
最近碰到pytorch分布式訓(xùn)練時(shí)候榴啸,memory幾乎線性增加,撐炸機(jī)器的問題晚岭。pytorch中內(nèi)存泄漏常見的原因大概是以下幾點(diǎn): 不恰當(dāng)?shù)膌oss累加 有些人累加梯度會(huì)直接...
這兩天弄訓(xùn)練數(shù)據(jù)的時(shí)候碰到了一個(gè)大坑本來數(shù)據(jù)集就比較大鸥印,在劃訓(xùn)練樣本的時(shí)候,訓(xùn)練樣本的分布就出現(xiàn)了不均勻的情況(有的parition多坦报,有的少)库说,主要的癥狀體現(xiàn)在200個(gè)pa...
可能是需要加機(jī)器,或者選擇升級機(jī)型 當(dāng)然片择,以上在正常情況下不是最好的解決辦法潜的。當(dāng)初的我通過加大機(jī)型直接繞開了問題…worker失聯(lián)很有可能是因?yàn)榉植际竭\(yùn)行的操作太過復(fù)雜了(或...
比如team最近在做新的version,某天該version code freeze了字管,但是你發(fā)現(xiàn)你最新的commit居然在code freeze之后merge的病!于是你該...
今天用spark的時(shí)候碰到的問題纤掸,直接對一個(gè)大的dataframe做agg,導(dǎo)致buffer超了浑塞〗韫颍可以人為的在dataframe上append一個(gè)新的字段,根據(jù)字段先做一個(gè)a...
最近在調(diào)研embedding的方法酌壕,重新學(xué)習(xí)了一下word2vect掏愁,深感自己有很多不足…在看xin rong博士的paper:https://arxiv.org/abs/1...
上一篇文章,講解了詞向量的基本思想卵牍,為什么需要詞向量果港,以及如何構(gòu)建詞向量。 然而糊昙,僅僅知道思想是不夠的辛掠,所以這篇筆記詳細(xì)地展示了word2vec的內(nèi)部結(jié)構(gòu)(以skip-gra...
出現(xiàn)這個(gè)問題是因?yàn)樵趐arquet數(shù)據(jù)中,有的column數(shù)據(jù)類型不一致释牺。發(fā)現(xiàn)這個(gè)問題是在load data的時(shí)候萝衩。如果 load 的數(shù)據(jù)是多路徑的,有兩種方式可以完成:方式...
欠擬合問題一般是很好解決的,提高模型復(fù)雜度(網(wǎng)絡(luò)深度祭刚,embedding size等等)牌捷、加大訓(xùn)練數(shù)據(jù)量等墙牌。但是過擬合就是比較頭疼的問題了,簡單的根據(jù)欠擬合的方法倒推暗甥,模型的...
最近需要預(yù)測reach喜滨,是個(gè)回歸問題。太久沒碰代碼淋袖,看到這個(gè)問題都有點(diǎn)懵…一般我們?nèi)腴T鸿市,接觸的最基礎(chǔ)的指標(biāo),就是均方差MSE(Mean Square Error):其中為預(yù)測...
最近工作用到了rebase即碗,對于rebase還是有點(diǎn)懵焰情,仔細(xì)補(bǔ)了一下姿勢。一般來說剥懒,使用rebase主要是為了master分支的干凈内舟,git干凈對公司來說是非常重要的。 re...
先說解決方案:把xgboost model的num_worker參數(shù)調(diào)小初橘。 這個(gè)問題是在本地測試xgb時(shí)候碰到的验游,之前code在分布式集群上面測試過了,并沒有問題保檐。bug詭異...
起因是我想給數(shù)據(jù)做個(gè)分布統(tǒng)計(jì)扔亥,但是數(shù)據(jù)太多了场躯,畫出來很雜,所以打算把數(shù)據(jù)按照范圍做個(gè)分組旅挤,但是又不想自己寫踢关,所以找了好久的方法,目前也只有這兩種偷懶的方法: pandas->...
之前上數(shù)據(jù)庫課的時(shí)候還是看過window這個(gè)概念的粘茄,但是好久沒用了…基本忘光…用到這個(gè)函數(shù)的起因签舞,是在組織feature的時(shí)候需要?dú)v史特征,本來只需要前一天的歷史數(shù)據(jù)柒瓣,用fi...
行內(nèi)與獨(dú)行 行內(nèi)公式:將公式插入到本行內(nèi)瘪菌,符號(hào):$公式內(nèi)容$,如:$xyz$ 獨(dú)行公式:將公式插入到新的一行內(nèi)嘹朗,并且居中师妙,符號(hào):$$公式內(nèi)容$$,如:$$xyz$$ 上標(biāo)屹培、下...