Python,R作為量化領(lǐng)域領(lǐng)域兩門主流的語言瓢阴,各有千秋,R語法比較“迂回”,加上先開始學(xué)習(xí)python,當(dāng)然會成為首選的工具語言擂送,python在數(shù)據(jù)分析方面有很多成熟的庫,所以如果在linux環(huán)境下布置自己的分析環(huán)境一定會有很多便利唯欣,很多券商例如華寶證券嘹吨,萬得,IB都有開放的 python api接口境氢,如果需要開發(fā)自己的交易平臺時這也會帶來很大便利蟀拷。
前面提到在linux系統(tǒng)下做部署有一些天然優(yōu)勢,但是所依賴的一系列工具都是一樣的萍聊,本來一直在使用ubuntu问芬,在部署環(huán)境開始時很順利,但是最后在安裝一個獲取國內(nèi)數(shù)據(jù)的包時受挫寿桨,可能一直以來都把Ubuntu做為跟window一樣的平臺去使用此衅,很多在ubuntu環(huán)境下的設(shè)置操作都不太熟練强戴,兩天找不到解決方案,就轉(zhuǎn)戰(zhàn)到windows環(huán)境下挡鞍,因為之前配置過ipython notebook骑歹,所以安裝很順利,下面主要介紹下windows下的設(shè)置步驟墨微。
1當(dāng)然所有的軟件都依賴最基層的python道媚,pip可以使我們在平臺上安裝一些依賴的包像在Linux系統(tǒng)下一樣方便,pip的安裝可以參考這篇文章http://dwz.cn/1dlBFo翘县。
2接下來需要安裝的軟件:numpy,pandas,tushare,matplotlib,scipy,lxml,xlwt.
其中numpy/scipy可以快速高效的進行數(shù)組和矩陣運算最域,python本事也自帶有數(shù)組運算的list容器,但是numpy可以省略代碼中很多的循環(huán)語句锈麸,這樣大大提高了效率羡宙,特別是在處理較大規(guī)模的數(shù)據(jù)時,具體效率高出多少掐隐,可以參考numpy指南一書中的例子狗热。
pandas由AQR Capital Management開發(fā),主要用于處理數(shù)據(jù)“沖突”和時間序列分析虑省,Pandas的名稱來自于面板數(shù)據(jù)(panel data)和python數(shù)據(jù)分析(data analysis)匿刮,同時它也是tushare庫的基礎(chǔ),在使用tushare之前必須先安裝pandas探颈,兩者操作的語法幾乎一樣熟丸,tushare一個財經(jīng)數(shù)據(jù)接口包,由國內(nèi)開發(fā)者在Pypi發(fā)布伪节,使用爬蟲系統(tǒng)從新浪財經(jīng)光羞,雅虎財經(jīng),以及上交所怀大,深交所提供的數(shù)據(jù)纱兑,十分強大,誰用誰知道化借。潜慎。官網(wǎng):http://tushare.waditu.com,作者微博:http://weibo.com/u/1304687120蓖康,你可以在官網(wǎng)看到你可以用tushare獲得的數(shù)據(jù)以及步驟铐炫。? 安裝tushare之前先安裝lxml,不然在讀取安裝地址時會出現(xiàn)錯誤蒜焊。
matplotlib用以數(shù)據(jù)的可視化倒信,比如繪制圖表等等,xlwt是一個可以把用python抓取的數(shù)據(jù)存入excel的工具泳梆,也可以存入csv文件鳖悠,當(dāng)然所以來的庫包含在pandas中旬陡,所以不用額外安裝治专,當(dāng)然如果想從excel中讀取數(shù)據(jù)可以安裝xlrd庫存眉抬。截一張安裝命令及成功截圖
介紹完了幾個主要庫的功能暖途,他們的安裝全都依靠一個命令:pip install xx,xx為你要安裝的庫,安裝順序以及必備的庫上面已經(jīng)介紹過瘾带,當(dāng)然這只是對初學(xué)者鼠哥,對于一些數(shù)據(jù)分析高手,比如經(jīng)常參加業(yè)內(nèi)比較出名的比賽kaggle看政,或者國內(nèi)由阿里巴巴組織的天池大數(shù)據(jù)比賽朴恳,你還需要更強大的工具,比如scikit-learn允蚣,可以用于機器學(xué)習(xí)和人工智能算法于颖,pyspark結(jié)合了大數(shù)據(jù)分析領(lǐng)域火熱的spark,在處理海量數(shù)據(jù)時可以使用嚷兔。好了森渐,這篇文章主要講述分析所以來的軟件和庫,下一篇會講利用這些庫進行一些入門工作冒晰。