說明
以下內(nèi)容來自群中出現(xiàn)的問題,大家討論的結(jié)果
Q群:432600958
微信群:加微信w3aboutyun,附上about云鐵粉
部分內(nèi)容整理時屈尼,已經(jīng)注明出處嗜浮,但很多內(nèi)容瞧预,較為零碎琼锋,也無暇整理,如有不妥凶赁,請聯(lián)系我,謝謝。
五月一直在加班虱肄,整理的東西有限
如何從小白快速蛻變?yōu)榇罄?/h1>
時間
2018.05.03
內(nèi)容
這是一些經(jīng)驗致板,主要有兩點
1、 培養(yǎng)自己的閱讀習(xí)慣
2咏窿、 提高對新技術(shù)的敏感力
文章末附了很多公眾號
Spark 讀取本地文件
時間
2018.05.03
討論內(nèi)容
Spark 作為一個分布式系統(tǒng)斟或,如果讀取本地文件,則要求該文件在所有節(jié)點都存在集嵌,并且目錄都要求一致萝挤。
- 解決方法1:分發(fā)到所有節(jié)點(麻煩)
- 解決方法2:將文件傳到hdfs,讀取hdfs路徑
- 解決方法3:使用addfile方法
擴展
Spark中函數(shù)addFile 和 addJar函數(shù)介紹
機器學(xué)習(xí)優(yōu)化算法討論 -- by 木東居士 ref
時間
2018.05.03
討論內(nèi)容
機器學(xué)習(xí)的算法其實比運籌算法要簡單根欧,更偏重應(yīng)用場景怜珍,更多的時間在做特征工程
機器學(xué)習(xí)算法里基本都有用到二階特性(牛頓法要求hessian矩陣),都是一階的(如梯度下降)
大規(guī)模學(xué)習(xí)來說凤粗,障礙往往在于算法的計算能力不足酥泛,而不是數(shù)據(jù)不夠,所以也可以說傳統(tǒng)額統(tǒng)計學(xué)習(xí)方法都不適合大規(guī)模數(shù)據(jù)處理
在樣本量比較多的時候嫌拣,線性分類方法的劣勢小很多柔袁,例如可以通過手工拆分/離散化特征來模擬非線性關(guān)系。而且有個經(jīng)驗是异逐,在數(shù)據(jù)量大的時候捶索,一些看起來粗暴無腦的方法反而有令人驚奇的效果。
SVM 計算復(fù)雜度O(n^2)应役,存在兩個超參數(shù)情组,只能通過窮舉實驗來求,計算時間要高于不少非線性分類器
隨機森林 計算復(fù)雜度O(nlogn)
資源分享
時間
2018.05.08
內(nèi)容
經(jīng)典算法大全 密碼 ce85
算法導(dǎo)論中文版.pdf 密碼 2ygr
python資源分享 密碼:ll7q
內(nèi)容包括:《Python 2.7 Tutorial 中文版》《Python3程序開發(fā)指南(第二版)》《Python高級編程》《python核心筆記》《python核心編程第二版筆記》《Python技術(shù)手冊(第2版)》《Python源碼剖析》《quantsp研究計劃書》《笨辦法學(xué)Python》
by 小青年
工作感悟
時間
2018.05.12
內(nèi)容
工作的意義
最近在思考一個問題箩祥,工作的意義院崇,一份工作最終目的究竟不該是一份簡單的工資,而是這個公司能賦予你的資源袍祖,另一個是這份資源的成果轉(zhuǎn)換對于市場的沖擊力底瓣,對人,對社會的貢獻度蕉陋,人終究是需要處理社會活動的捐凭。
職業(yè)背景和職業(yè)活動的限制,換句話說凳鬓,工作本身是用來解決社會問題的茁肠,個人可能覺得只是天天碼代碼,做工作量缩举,但它的成效簡直太小了垦梆,一眼可以看到他的發(fā)展和未來匹颤。但如果說直面社會問題,去為解決問題而去選擇走向托猩,我個人理解人是會不去換不同的工作和行業(yè)印蓖,最終形成一套解決方案的,另一個角度京腥,如果是為了盈利赦肃,這個解決方案的出發(fā)點一開始就是針對購買力的問題,你做的是服務(wù)和解決方案的路子公浪。觸手伸的越廣他宛,收益越大。
即使是辦企業(yè)也一樣因悲,仔細(xì)去看每個企業(yè)的基本描述類似堕汞,但核心針對點不一樣,不管是個人也好晃琳,企業(yè)也罷讯检,需要求同存異,找出自己的突破點卫旱,這個時代不是靠努力人灼,而是靠挖掘力,執(zhí)行力顾翼。
by 道友 楓柚master
Spark persist(DISK_ONLY)產(chǎn)生的問題
時間
2018.05.30
內(nèi)容
在Spark 的代碼中增加persist(DISK_ONLY) 之后投放,會出現(xiàn)多個task failed,錯誤原因為container memoryOverhead
去掉persist(DISK_ONLY) 就不再報這個錯誤,沒有task failed, 并且運行速度提升适贸。
此外灸芳,對比每個stage的IO,發(fā)現(xiàn)DISK_ONLY的有部分stage的IO是去掉persist的兩倍。
猜想原因
DISK_ONLY 是將不做序列化的對象直接存入DISK,這部分產(chǎn)生大量IO,會占用內(nèi)存拜姿。
Spark 代碼優(yōu)化
- 使用更高效的數(shù)據(jù)結(jié)構(gòu) BitSet烙样、OpenHashSet、OpenHashMap
- inline
- 一些漢字字符串蕊肥,做維表映射之后谒获,變成數(shù)字編號
Spark 高效數(shù)據(jù)結(jié)構(gòu)
人工智能主要三塊 大數(shù)據(jù)、NLP壁却、CV
分布式發(fā)號器選擇方案
- UUID
- DB
- SnowFlake