群內(nèi)2018_5月討論整理

歸檔至github

說明

以下內(nèi)容來自群中出現(xiàn)的問題,大家討論的結(jié)果

Q群:432600958

微信群:加微信w3aboutyun,附上about云鐵粉

部分內(nèi)容整理時屈尼,已經(jīng)注明出處嗜浮,但很多內(nèi)容瞧预,較為零碎琼锋,也無暇整理,如有不妥凶赁,請聯(lián)系我,謝謝。
五月一直在加班虱肄,整理的東西有限

如何從小白快速蛻變?yōu)榇罄?/h1>

時間

2018.05.03

內(nèi)容

這是一些經(jīng)驗致板,主要有兩點
1、 培養(yǎng)自己的閱讀習(xí)慣
2咏窿、 提高對新技術(shù)的敏感力
文章末附了很多公眾號

ref

Spark 讀取本地文件

時間

2018.05.03

討論內(nèi)容

Spark 作為一個分布式系統(tǒng)斟或,如果讀取本地文件,則要求該文件在所有節(jié)點都存在集嵌,并且目錄都要求一致萝挤。

  • 解決方法1:分發(fā)到所有節(jié)點(麻煩)
  • 解決方法2:將文件傳到hdfs,讀取hdfs路徑
  • 解決方法3:使用addfile方法

擴展

Spark中函數(shù)addFile 和 addJar函數(shù)介紹

機器學(xué)習(xí)優(yōu)化算法討論 -- by 木東居士 ref

時間

2018.05.03

討論內(nèi)容

機器學(xué)習(xí)的算法其實比運籌算法要簡單根欧,更偏重應(yīng)用場景怜珍,更多的時間在做特征工程

機器學(xué)習(xí)算法里基本都有用到二階特性(牛頓法要求hessian矩陣),都是一階的(如梯度下降)

大規(guī)模學(xué)習(xí)來說凤粗,障礙往往在于算法的計算能力不足酥泛,而不是數(shù)據(jù)不夠,所以也可以說傳統(tǒng)額統(tǒng)計學(xué)習(xí)方法都不適合大規(guī)模數(shù)據(jù)處理

在樣本量比較多的時候嫌拣,線性分類方法的劣勢小很多柔袁,例如可以通過手工拆分/離散化特征來模擬非線性關(guān)系。而且有個經(jīng)驗是异逐,在數(shù)據(jù)量大的時候捶索,一些看起來粗暴無腦的方法反而有令人驚奇的效果。

SVM 計算復(fù)雜度O(n^2)应役,存在兩個超參數(shù)情组,只能通過窮舉實驗來求,計算時間要高于不少非線性分類器
隨機森林 計算復(fù)雜度O(nlogn)

資源分享

時間

2018.05.08

內(nèi)容

經(jīng)典算法大全 密碼 ce85

算法導(dǎo)論中文版.pdf 密碼 2ygr

python資源分享 密碼:ll7q

內(nèi)容包括:《Python 2.7 Tutorial 中文版》《Python3程序開發(fā)指南(第二版)》《Python高級編程》《python核心筆記》《python核心編程第二版筆記》《Python技術(shù)手冊(第2版)》《Python源碼剖析》《quantsp研究計劃書》《笨辦法學(xué)Python》
by 小青年

工作感悟

時間

2018.05.12

內(nèi)容

工作的意義

最近在思考一個問題箩祥,工作的意義院崇,一份工作最終目的究竟不該是一份簡單的工資,而是這個公司能賦予你的資源袍祖,另一個是這份資源的成果轉(zhuǎn)換對于市場的沖擊力底瓣,對人,對社會的貢獻度蕉陋,人終究是需要處理社會活動的捐凭。

職業(yè)背景和職業(yè)活動的限制,換句話說凳鬓,工作本身是用來解決社會問題的茁肠,個人可能覺得只是天天碼代碼,做工作量缩举,但它的成效簡直太小了垦梆,一眼可以看到他的發(fā)展和未來匹颤。但如果說直面社會問題,去為解決問題而去選擇走向托猩,我個人理解人是會不去換不同的工作和行業(yè)印蓖,最終形成一套解決方案的,另一個角度京腥,如果是為了盈利赦肃,這個解決方案的出發(fā)點一開始就是針對購買力的問題,你做的是服務(wù)和解決方案的路子公浪。觸手伸的越廣他宛,收益越大。

即使是辦企業(yè)也一樣因悲,仔細(xì)去看每個企業(yè)的基本描述類似堕汞,但核心針對點不一樣,不管是個人也好晃琳,企業(yè)也罷讯检,需要求同存異,找出自己的突破點卫旱,這個時代不是靠努力人灼,而是靠挖掘力,執(zhí)行力顾翼。

by 道友 楓柚master

Spark persist(DISK_ONLY)產(chǎn)生的問題

時間

2018.05.30

內(nèi)容

在Spark 的代碼中增加persist(DISK_ONLY) 之后投放,會出現(xiàn)多個task failed,錯誤原因為container memoryOverhead

去掉persist(DISK_ONLY) 就不再報這個錯誤,沒有task failed, 并且運行速度提升适贸。
此外灸芳,對比每個stage的IO,發(fā)現(xiàn)DISK_ONLY的有部分stage的IO是去掉persist的兩倍。

猜想原因

DISK_ONLY 是將不做序列化的對象直接存入DISK,這部分產(chǎn)生大量IO,會占用內(nèi)存拜姿。

Spark中cache和persist的作用以及存儲級別

Spark 代碼優(yōu)化

  • 使用更高效的數(shù)據(jù)結(jié)構(gòu) BitSet烙样、OpenHashSet、OpenHashMap
  • inline
  • 一些漢字字符串蕊肥,做維表映射之后谒获,變成數(shù)字編號

Spark 高效數(shù)據(jù)結(jié)構(gòu)

人工智能主要三塊 大數(shù)據(jù)、NLP壁却、CV

分布式發(fā)號器選擇方案

  • UUID
  • DB
  • SnowFlake
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末批狱,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子展东,更是在濱河造成了極大的恐慌赔硫,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,378評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件盐肃,死亡現(xiàn)場離奇詭異爪膊,居然都是意外死亡向胡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評論 2 382
  • 文/潘曉璐 我一進店門惊完,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人处硬,你說我怎么就攤上這事小槐。” “怎么了荷辕?”我有些...
    開封第一講書人閱讀 152,702評論 0 342
  • 文/不壞的土叔 我叫張陵凿跳,是天一觀的道長。 經(jīng)常有香客問我疮方,道長控嗜,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,259評論 1 279
  • 正文 為了忘掉前任骡显,我火速辦了婚禮疆栏,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘惫谤。我一直安慰自己壁顶,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,263評論 5 371
  • 文/花漫 我一把揭開白布溜歪。 她就那樣靜靜地躺著若专,像睡著了一般。 火紅的嫁衣襯著肌膚如雪蝴猪。 梳的紋絲不亂的頭發(fā)上调衰,一...
    開封第一講書人閱讀 49,036評論 1 285
  • 那天,我揣著相機與錄音自阱,去河邊找鬼嚎莉。 笑死,一個胖子當(dāng)著我的面吹牛动壤,可吹牛的內(nèi)容都是我干的萝喘。 我是一名探鬼主播,決...
    沈念sama閱讀 38,349評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼琼懊,長吁一口氣:“原來是場噩夢啊……” “哼阁簸!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起哼丈,我...
    開封第一講書人閱讀 36,979評論 0 259
  • 序言:老撾萬榮一對情侶失蹤启妹,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后醉旦,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體饶米,經(jīng)...
    沈念sama閱讀 43,469評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡桨啃,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,938評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了檬输。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片照瘾。...
    茶點故事閱讀 38,059評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖丧慈,靈堂內(nèi)的尸體忽然破棺而出析命,到底是詐尸還是另有隱情,我是刑警寧澤逃默,帶...
    沈念sama閱讀 33,703評論 4 323
  • 正文 年R本政府宣布鹃愤,位于F島的核電站,受9級特大地震影響完域,放射性物質(zhì)發(fā)生泄漏软吐。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,257評論 3 307
  • 文/蒙蒙 一吟税、第九天 我趴在偏房一處隱蔽的房頂上張望凹耙。 院中可真熱鬧,春花似錦乌妙、人聲如沸使兔。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽虐沥。三九已至,卻和暖如春泽艘,著一層夾襖步出監(jiān)牢的瞬間欲险,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工匹涮, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留天试,地道東北人。 一個月前我還...
    沈念sama閱讀 45,501評論 2 354
  • 正文 我出身青樓然低,卻偏偏與公主長得像喜每,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子雳攘,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,792評論 2 345

推薦閱讀更多精彩內(nèi)容