? ? 首先提出問題,根據(jù)數(shù)據(jù)憑借已有經(jīng)驗選擇合適方法洛史,(調(diào)查問卷用exel,SQL稍微大酱吝,更大用多普集群)也殖,數(shù)據(jù)來源。
數(shù)據(jù)分析范圍很大
? ? 數(shù)據(jù)檢驗务热,假設(shè)檢驗(數(shù)據(jù)分布和缺失值)忆嗜,自動化需求有監(jiān)控報表。
ETL抓取數(shù)據(jù)? 分析假設(shè)檢驗? 預(yù)測建模(分析不同因子在模型中的重要性)? 可視化模型
反饋回到提出問題的階段
(敏捷開發(fā))通過快速迭代得到更好地結(jié)果? ? ? ?
數(shù)據(jù)分析任務(wù) 1 數(shù)據(jù)獲取ETL 2數(shù)據(jù)處理類: 交互可視化崎岂,信息匯總 量的產(chǎn)生捆毫,機器學(xué)習(xí),假設(shè)檢驗 3后期自動化:后來對分析進行自動化:1自動可視化2 自動建模和假設(shè)檢驗 冲甘;對數(shù)據(jù)平臺的監(jiān)控
最后一點 自動化的報告 而非手動
R有點錯過了分布式計算的洪流
2012的數(shù)據(jù)科學(xué)家的問題:
1:后期參與決策绩卤,數(shù)據(jù)科學(xué)家沒有參加,改不了江醇;
2:自動化程度低濒憋,實際應(yīng)用低
2017:
大公司不怎么做模型,而是做周圍的產(chǎn)品陶夜,比如在云平臺部署(如上圖的工具特點)
三塊五的表(笑哭)
數(shù)據(jù)提攘萃浴:
SQL對不規(guī)則的,文本不方便? R:要安裝包条辟,麻煩? Py一個包解決?
數(shù)據(jù)預(yù)處理:
R Py給操作人員自由度
可視化:
很大數(shù)據(jù)要在服務(wù)器端進行辐烂,而不在內(nèi)存里遏插,再在可視化,ELK平臺好點纠修,平常的話炸服務(wù)器
實戰(zhàn)部署:
SQL有數(shù)據(jù)庫就不用部署了胳嘲。R生態(tài)有不同軟件包等等所以很麻煩。
問卷:
有大的平臺支持了扣草,很簡單入手了了牛,很完備,但是自由度不大辰妙,雖然對各個方面很細(xì)鹰祸。
1? 前期處理類:SQL R Py,自動化比較少密浑,但交互式強蛙婴;2? 全站處理類:不適合交互式分析,或只是常見場景
流程:前期用交互性強的初期分析尔破,后期結(jié)果要自動化再用自動化工具簡化流程
R Py生態(tài)街图,前期二選一,成熟后用全站的工具自動化
R里的包 生物信息學(xué)里重要的包:billconnector懒构?? R有太多小眾的統(tǒng)計包餐济,寫法可能都不一樣
Py 使用一下的通用軟件包就行了
第四個:數(shù)據(jù)讀取匯總? 5? 監(jiān)督非監(jiān)督式?
py的借口標(biāo)準(zhǔn)化可移植