240 發(fā)簡(jiǎn)信
IP屬地:貴州
  • ec2 run machine learning project

    自己的機(jī)器配置太慢了,所以打算在ec2上搭環(huán)境跑衡瓶。可惡昨天居然搭了一天!記錄一下主要碰到的問(wèn)題 ec2上有8個(gè)gpu宏赘,結(jié)果code只能拿到一個(gè)g...

  • Distributed Pytorch碰到的一個(gè)問(wèn)題

    這兩天仔細(xì)看了下分布式pytorch的文檔…起因是跑分布式pytorch的時(shí)候觅捆,在training的最后一個(gè)epoch掛掉了首先在最后一個(gè)epo...

  • Resize,w 360,h 240
    pytorch中碰到的memory leak問(wèn)題

    最近碰到pytorch分布式訓(xùn)練時(shí)候桶略,memory幾乎線性增加,撐炸機(jī)器的問(wèn)題挨摸。pytorch中內(nèi)存泄漏常見的原因大概是以下幾點(diǎn): 不恰當(dāng)?shù)膌o...

  • sparks 中數(shù)據(jù)傾斜的大坑

    這兩天弄訓(xùn)練數(shù)據(jù)的時(shí)候碰到了一個(gè)大坑本來(lái)數(shù)據(jù)集就比較大,在劃訓(xùn)練樣本的時(shí)候岁歉,訓(xùn)練樣本的分布就出現(xiàn)了不均勻的情況(有的parition多得运,有的少)...

  • spark job failure:Remote RPC Client Disassociated

    可能是需要加機(jī)器,或者選擇升級(jí)機(jī)型 當(dāng)然锅移,以上在正常情況下不是最好的解決辦法熔掺。當(dāng)初的我通過(guò)加大機(jī)型直接繞開了問(wèn)題…worker失聯(lián)很有可能是因?yàn)?..

  • git cherry-pick

    比如team最近在做新的version,某天該version code freeze了非剃,但是你發(fā)現(xiàn)你最新的commit居然在code freez...

  • Cannot grow BufferHolder by size because the size after growing exceeds size limitation

    今天用spark的時(shí)候碰到的問(wèn)題置逻,直接對(duì)一個(gè)大的dataframe做agg,導(dǎo)致buffer超了备绽∪耄可以人為的在dataframe上append一...

  • word2vect中的negative-sample

    最近在調(diào)研embedding的方法,重新學(xué)習(xí)了一下word2vect肺素,深感自己有很多不足…在看xin rong博士的paper:https://...

  • scala load data出現(xiàn)org.apache.parquet.column.values.dictionary.PlainValuesDictionary$PlainLongDicti...

    出現(xiàn)這個(gè)問(wèn)題是因?yàn)樵趐arquet數(shù)據(jù)中恨锚,有的column數(shù)據(jù)類型不一致。發(fā)現(xiàn)這個(gè)問(wèn)題是在load data的時(shí)候倍靡。如果 load 的數(shù)據(jù)是多路...

亚洲A日韩AV无卡,小受高潮白浆痉挛av免费观看,成人AV无码久久久久不卡网站,国产AV日韩精品