利用 Python 獲取余額寶歷史收益數(shù)據(jù)

最近想做一個(gè)關(guān)于用一些指數(shù)基金與余額寶組成的簡單風(fēng)險(xiǎn)-無風(fēng)險(xiǎn) 投資組合的實(shí)驗(yàn)計(jì)算，發(fā)現(xiàn)通達(dá)信之類的行情軟件并沒有提供完整的余額寶收益信息贮勃，如通達(dá)信僅有年化收益率的數(shù)據(jù)贪惹，并沒有萬份收益的數(shù)據(jù)。因此考慮利用 Python 做一個(gè)小的爬蟲程序獲取相關(guān)數(shù)據(jù)寂嘉。

數(shù)據(jù)來源

簡單的搜索了一下奏瞬，發(fā)現(xiàn)網(wǎng)上推薦的網(wǎng)站多數(shù)指向一個(gè)叫理財(cái)收益網(wǎng) 的網(wǎng)站，這里的較為詳細(xì)的數(shù)據(jù)泉孩，不過這個(gè)網(wǎng)站的數(shù)據(jù)僅僅提供到2016年的12月底硼端，17年的1月到2月并沒有，所以不怎么符合條件寓搬。

然后再看了一下天天基金網(wǎng) 珍昨，進(jìn)入余額寶頁面，在走勢圖旁邊有一個(gè) 歷史收益 的欄目句喷，點(diǎn)擊進(jìn)去镣典，可以看到有 歷史凈值 的數(shù)據(jù)唾琼，而且數(shù)據(jù)從 2013-5-30 到最近一天的數(shù)據(jù)锡溯，這里的數(shù)據(jù)比較適合哑姚，因此就選擇從這里爬取數(shù)據(jù)叙量。

網(wǎng)頁分析

在編寫爬蟲程序之前宛乃，我們先分析一下這個(gè)網(wǎng)頁征炼。

Paste_Image.png

我們可以看到谆奥，這張表格下面有一個(gè)分頁欄拂玻，點(diǎn)擊下面的頁數(shù)切換數(shù)據(jù)檐蚜。到這里，一般思路是先看看能不能找到這個(gè)網(wǎng)頁的數(shù)據(jù)更新的 api市栗，如果有填帽，就可以直接通過拼接 url 傳入?yún)?shù)來獲取數(shù)據(jù)咙好，如果不能的話，那可以考慮使用 selenium 之類的工具模擬點(diǎn)擊實(shí)現(xiàn)嘹悼。

我們先用 chrome 瀏覽器自帶的開發(fā)者工具绘迁，嘗試是否能夠獲取的數(shù)據(jù)更新的 api 。比較幸運(yùn)棠赛，這個(gè)網(wǎng)站是可以獲取到更新數(shù)據(jù)的 url 的膛腐。url 如下：

http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code=000198&page=1&per=20

然后這個(gè) url 的返回值如下：

var apidata=
{ content:"<table class='w782 comm lsjz'><thead><tr><th class='first'>凈值日期</th><th>每萬份收益</th><th>7日年化收益率（%）</th><th>申購狀態(tài)</th><th>贖回狀態(tài)</th><th class='tor last'>分紅送配</th></tr></thead><tbody><tr><td>2017-03-17</td><td class='tor bold'>1.0213</td><td class='tor bold'>3.7480%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr><tr><td>2017-03-16</td><td class='tor bold'>1.0147</td><td class='tor bold'>3.7360%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr><tr><td>2017-03-15</td><td class='tor bold'>1.0082</td><td class='tor bold'>3.7230%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr><tr><td>2017-03-14</td><td class='tor bold'>1.0066</td><td class='tor bold'>3.7120%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr><tr><td>2017-03-13</td><td class='tor bold'>1.0191</td><td class='tor bold'>3.6990%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr><tr><td>2017-03-12</td><td class='tor bold'>0.9931</td><td class='tor bold'>3.6830%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr><tr><td>2017-03-11</td><td class='tor bold'>0.9934</td><td class='tor bold'>3.6740%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr><tr><td>2017-03-10</td><td class='tor bold'>0.9998</td><td class='tor bold'>3.6660%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr><tr><td>2017-03-09</td><td class='tor bold'>0.9904</td><td class='tor bold'>3.6540%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr><tr><td>2017-03-08</td><td class='tor bold'>0.9873</td><td class='tor bold'>3.6500%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr><tr><td>2017-03-07</td><td class='tor bold'>0.9836</td><td class='tor bold'>3.6460%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr><tr><td>2017-03-06</td><td class='tor bold'>0.9882</td><td class='tor bold'>3.6460%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr><tr><td>2017-03-05</td><td class='tor bold'>0.9775</td><td class='tor bold'>3.6420%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr><tr><td>2017-03-04</td><td class='tor bold'>0.9777</td><td class='tor bold'>3.6440%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr><tr><td>2017-03-03</td><td class='tor bold'>0.9786</td><td class='tor bold'>3.6450%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr><tr><td>2017-03-02</td><td class='tor bold'>0.9829</td><td class='tor bold'>3.6500%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr><tr><td>2017-03-01</td><td class='tor bold'>0.9804</td><td class='tor bold'>3.6500%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr><tr><td>2017-02-28</td><td class='tor bold'>0.9821</td><td class='tor bold'>3.6510%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr><tr><td>2017-02-27</td><td class='tor bold'>0.9814</td><td class='tor bold'>3.6520%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr><tr><td>2017-02-26</td><td class='tor bold'>0.9806</td><td class='tor bold'>3.6520%</td><td>開放申購</td><td>開放贖回</td><td class='red unbold'></td></tr></tbody></table>"
,records:1386
,pages:70
,curpage:1};

我們可以通過返回?cái)?shù)據(jù)得到總頁數(shù)，然后通過更改 url 中的page參數(shù)捉邢，再解釋 content 里面的內(nèi)容就可以獲取到我們想要的數(shù)據(jù)了伏伐。

Python 爬蟲程序

有了上面的分析和思路，我們就可以開始編寫程序了材蹬。我的 python 環(huán)境為基于 Anaconda2 的 python 2.7.12 版本吝镣，代碼在 macOS Sierra 10.12.3 通過末贾。

第一步，我們首先要拿到數(shù)據(jù)的總頁數(shù)圈暗，這里有個(gè)小 Tips裕膀，這個(gè)獲取數(shù)據(jù)的 url 可以不需要 per 參數(shù)昼扛，然后它的輸出是默認(rèn)一頁10行，我在代碼中為了讓 url 更短小好看渺鹦，因此就省略了 per 參數(shù)蛹含。

獲取總記錄，總頁數(shù)浦箱，當(dāng)前頁面的代碼如下：

def obtain_info_of_data(symbol):
    response = requests.get('http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code=' + str(symbol))
    # return format: var apidata={...};
    # filter the tag
    content = str(response.text.encode('utf8')[13:-2])
    content_split = content.split(',')
    # obtain the info of data, curpage, pages, records
    curpage = content_split[-1].split(':')[-1]
    pages = content_split[-2].split(':')[-1]
    records = content_split[-3].split(':')[-1]
    return {'curpage': curpage, 'pages': pages, 'records': records}

在這段代碼中，有幾個(gè)地方需要稍微注意一下咽安。首先這個(gè)返回值要注意編碼的問題 (python2.7)妆棒，然后這個(gè)返回值的格式有點(diǎn)像 json 格式但其實(shí)它并不是，它的前面有一個(gè) **var apidata = ** 以及最后多了一個(gè) ; 动分。我們可以選擇把它整理成 json 的格式放接，然后再做處理纠脾，不過我這里直接把前面到 { 的內(nèi)容切掉，然后后面把 } 后的內(nèi)容切掉糊渊，這樣就可以得到一個(gè)以 , 分割的字符串慧脱，我們通過 split 函數(shù)對 , 進(jìn)行分割菱鸥，這樣既可方便的把返回的字符串截取成 4 個(gè)我們需要的部分，然后后面的處理就比較簡單了殷绍。

拿到這個(gè)數(shù)據(jù)相關(guān)描述信息后主到，我們可以開始接著爬去數(shù)據(jù)了躯概，相關(guān)代碼如下：

def obtain_data(symbol, dict_data_info):
    cur_pages = int(dict_data_info['pages'])
    pages = dict_data_info['pages']
    records = dict_data_info['records']

    data_return = []

    url = 'http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code=%s&page=%s'

    for cp in range(int(pages), 0, -1):
        response = requests.get(url % (symbol, str(cp)))
        content = response.text.encode('utf8')[13:-2]
        data = content.split(',')[0][10:-1]
        data_soup = bs4.BeautifulSoup(data, 'lxml')
        line_of_data = len(data_soup.select('table > tbody > tr'))

        for i in range(line_of_data, 0, -1):
            row_of_data = []
            date = data_soup.select('table > tbody > tr:nth-of-type(%i) > td:nth-of-type(1)' % i)[0].text
            earning_per_10k = data_soup.select('table > tbody > tr:nth-of-type(%i) > td:nth-of-type(2)' % i)[0].text
            annualized_return = data_soup.select('table > tbody > tr:nth-of-type(%i) > td:nth-of-type(3)' % i)[0].text
            row_of_data.append(date)
            row_of_data.append(earning_per_10k)
            row_of_data.append(annualized_return)
            data_return.append(row_of_data)
        print 'Finished %i' % cp
        cur_pages -= 1
        if cur_pages == 1 and len(data_return) != int(records):
            print 'Data Missing..'
    return pd.DataFrame(data_return)

這段代碼主要分為兩個(gè)部分牧牢，一個(gè)是遍歷頁面，另一個(gè)是在頁面用遍歷每一行的數(shù)據(jù)度陆。這里我們用到了 BeautifulSoup 庫來處理 HTML 的內(nèi)容献幔，然后在函數(shù)的最后添加了一個(gè)簡單的數(shù)據(jù)完整性炎癥蜡感，最后以 pandas DataFrame 的格式返回郑兴。

小結(jié)

這個(gè)獲取余額寶歷史收益數(shù)據(jù)的小爬蟲其實(shí)并不難贝乎，只要耐心分析一個(gè)網(wǎng)站的結(jié)構(gòu)，理順?biāo)悸肪涂梢酝瓿扇匆ǎ贿^代碼到這里挽拔，其實(shí)并不是很完善但校。如果希望將這些數(shù)據(jù)更方便的用于量化交易以及其他的一些實(shí)驗(yàn)，還需要把 Dataframe 里面的數(shù)據(jù)再做一些處理术裸，如萬分收益率轉(zhuǎn)為以1為單位的收益率可能更方便計(jì)算袭艺，然后年化收益率規(guī)整話奶栖，去掉那個(gè)百分號(hào)等。

以上代碼已經(jīng)上傳的 Github袍镀，可以下載運(yùn)行苇羡。

最后編輯于：2017.12.06 04:02:26

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末设江，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子叉存，更是在濱河造成了極大的恐慌，老刑警劉巖稿存，帶你破解...
沈念sama閱讀 211,561評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件瓣履，死亡現(xiàn)場離奇詭異袖迎，居然都是意外死亡腺晾，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,218評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門脯宿，熙熙樓的掌柜王于貴愁眉苦臉地迎上來连霉，“玉大人嗡靡，你說我怎么就攤上這事∏妇” “怎么了哩至？”我有些...
開封第一講書人閱讀 157,162評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵菩貌，是天一觀的道長重荠。經(jīng)常有香客問我，道長仇参，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,470評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任罩扇，我火速辦了婚禮暮蹂，結(jié)果婚禮上癌压，老公的妹妹穿的比我還像新娘滩届。我一直安慰自己帜消，他們只是感情好浓体，可當(dāng)我...
茶點(diǎn)故事閱讀 65,550評論 6贊 385
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布命浴。她就那樣靜靜地躺著，像睡著了一般媳溺。火紅的嫁衣襯著肌膚如雪碍讯。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,806評論 1贊 290
城市分裂傳說
那天蝎困，我揣著相機(jī)與錄音禾乘，去河邊找鬼逗栽。笑死，一個(gè)胖子當(dāng)著我的面吹牛鳄虱，可吹牛的內(nèi)容都是我干的拙已。我是一名探鬼主播，決...
沈念sama閱讀 38,951評論 3贊 407
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼系宫，長吁一口氣：“原來是場噩夢啊……” “哼扩借！你這毒婦竟也來了缤至？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,712評論 0贊 266
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤嫉到，失蹤者是張志新（化名）和其女友劉穎何恶，沒想到半個(gè)月后嚼黔，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,166評論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡今艺，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,510評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年虚缎，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了实牡。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片轴合。...
茶點(diǎn)故事閱讀 38,643評論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡受葛，死狀恐怖偎谁，靈堂內(nèi)的尸體忽然破棺而出巡雨，到底是詐尸還是另有隱情席函，我是刑警寧澤，帶...
沈念sama閱讀 34,306評論 4贊 330
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布正蛙，位于F島的核電站乒验，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏徊件。R本人自食惡果不足惜蒜危，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,930評論 3贊 313
男人毒藥：我在死后第九天來索命
文/蒙蒙一辐赞、第九天我趴在偏房一處隱蔽的房頂上張望响委。院中可真熱鬧窖梁，春花似錦、人聲如沸邀窃。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,745評論 0贊 21
一樁弒父案舵抹，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至扇救，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間迅腔，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,983評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工洁灵，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留徽千，地道東北人汤锨。一個(gè)月前我還...
沈念sama閱讀 46,351評論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長得像牍汹，于是被迫代替她去往敵國和親柬泽。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,509評論 2贊 348

利用 Python 獲取余額寶歷史收益數(shù)據(jù)

數(shù)據(jù)來源

網(wǎng)頁分析

Python 爬蟲程序

小結(jié)

推薦閱讀更多精彩內(nèi)容