閑的無聊祠饺,總結(jié)一下自己的人生軌跡越驻。也算是給即將離開的我,一個簡單的交代道偷,從大連出來快半年了缀旁,時間說長不長,說短不短勺鸦。狀態(tài)也從來時的好奇并巍,變成了我靠,其實也就這屌樣换途。不過事實上證明懊渡,長期出門在外,確實有差別军拟,而且差別感覺比較大……
差別主要體現(xiàn)在如下幾個方面剃执,首先氣候,4個月的時間懈息,處于熱的狀態(tài)肾档,但是現(xiàn)在已經(jīng)開始轉(zhuǎn)涼,感覺上還是蠻舒服的辫继。但是相對于大連的夏天氣來講怒见,感覺上還是比較遭罪的。其次姑宽,對于城市的氛圍來講遣耍,用幾個字來形容,用紙醉金迷四個字來形容感覺上比較貼切炮车,準(zhǔn)不準(zhǔn)確舵变,我只說我的感覺。不管怎樣示血,為生活去打拼的人棋傍,都是值得尊敬的,且不論在哪里难审,在哪座城市瘫拣。比如,華為方面的劉工告喊,總是保持著一種極高的熱情麸拄,我有些服了┗┃? ■ ?┃┛派昧。畢竟人家身處華為,我自己幾斤幾兩還是能找得準(zhǔn)位置的拢切。
說說蒂萎,華為的外包,可能自己所在的項目組比較爛淮椰,但總體感覺五慈,外包就是去賣人嘛,待久了項目不行主穗,人廢掉了泻拦,我跟陳桑學(xué)習(xí)了4個月的大數(shù)據(jù)分析,接觸點新的東西忽媒。對于畢業(yè)一年的我來講也沒有什么壞處争拐。像機器學(xué)習(xí),這種以前聽過晦雨,但確實不知道做什么的我來說架曹,未必是件壞事。大數(shù)據(jù)這東西闹瞧,說白了绑雄,就是個統(tǒng)計學(xué)的工具,炒的火熱奥邮,終究是要冷下來的绳慎。具體的代碼邏輯,都體現(xiàn)在特征的提取上了漠烧。
說說平臺,數(shù)據(jù)分析平臺靡砌,hadoop,spark,哈哈已脓,高大上嗎?事實上通殃,就是搭環(huán)境比較麻煩點度液,嘗試過(Θ?Θ=),沒搭起來画舌。確實不想去搭堕担,知道原理就可以了。
大數(shù)據(jù)架構(gòu)曲聂,要解決3個問題霹购,數(shù)據(jù)存儲,資源調(diào)度朋腋,計算齐疙。數(shù)據(jù)存儲膜楷,hadoop跟spark平臺,用hdfs贞奋,還有metastore就是分布式數(shù)據(jù)庫赌厅。資源調(diào)度,有相應(yīng)的平臺框架轿塔,叫Yarn,但不止這一個特愿,計算,hadoop是mapReaduce,spark是對RDD,的具體操作。像這兩種平臺勾缭,基于分布式揍障,所謂分布式,就是一群屌絲漫拭,去比高富帥亚兄。分布式 ,有一個master節(jié)點采驻,這是主節(jié)點审胚,剩下的就是store,從節(jié)點,master節(jié)點負(fù)責(zé)資源的分配礼旅。樹形結(jié)構(gòu)來形容最為貼切膳叨。spark平臺,反正華為的劉工一直在鼓勵使用痘系,事實上確實有優(yōu)勢菲嘴,spark SQL,spark stream, spark Mlib,spark Graphx。這幾個模塊汰翠,SQL用來提取特征龄坪,stream流式計算,Mlib 機器學(xué)習(xí)复唤,Graph圖論健田,關(guān)鍵關(guān)系,后兩個是算法佛纫,具體實現(xiàn)在源碼里妓局,輪不到你寫。用的時候呈宇,導(dǎo)包好爬,調(diào)對象方法,哈哈(?ω?)hiahiahia 甥啄。兩種平臺存炮,都是統(tǒng)計學(xué)做數(shù)據(jù)分析用的。對了,大數(shù)據(jù)是描述到預(yù)測的過程僵蛛,描述有多種方式尚蝌,預(yù)測,用統(tǒng)計學(xué)的回歸方程充尉,就是y=kx+z,這是線性回歸飘言,還有非線性跟分段函數(shù),保證你以前學(xué)過驼侠。像這種數(shù)據(jù)分析姿鸿,用R語言跟Python要好些,感覺上倒源。苛预。。其實笋熬,比較屌的是這些工具怎么寫的热某,而不是怎么去用,雖然用起來也一堆坑胳螟。昔馋。。
比較復(fù)雜的是業(yè)務(wù)邏輯糖耸,搞不清秘遏,懵的一逼(>﹏<),想將來有機會搞一搞實際的大數(shù)據(jù)項目嘉竟,從前端到后臺邦危,沒事自己也可以瞎寫一下,比如預(yù)測一下自己未來某一天的心情狀態(tài)舍扰,娛樂嘛倦蚪。。边苹。哈哈(?ω?)hiahiahia