「量學(xué)堂 專篇」數(shù)據(jù)可視化簡介

之前的量學(xué)堂系列笆制,以及昨天的銀行輪動量化策略氮墨,都或多或少用到了數(shù)據(jù)可視化展現(xiàn)祝高,我看到一些留言希望能了解一些這方面的內(nèi)容栗弟,其實在國外量化平臺Quantopian上是有專篇的,為了大家讀起來不至于太過枯燥工闺,本篇將分為上下兩集對此進(jìn)行介紹乍赫。

數(shù)據(jù)可視化展現(xiàn)

數(shù)據(jù)可視化展現(xiàn)對于了解數(shù)據(jù)特性、觀察數(shù)據(jù)潛在結(jié)構(gòu)是非常有用的陆蟆。需要注意的是耿焊,人們通常更愿意相信“眼見為實”,數(shù)據(jù)可視化能夠輕松做到這一點遍搞。圖形化能夠幫助人們更好地理解那些基于方程式的理論假說試圖闡述些什么,但卻無法證明這些理論本身是否正確器腋。

本篇我們將回顧一些常用的展現(xiàn)手法溪猿。

取得數(shù)據(jù)

如果我們要進(jìn)行數(shù)據(jù)可視化,前提是我們必須先取得數(shù)據(jù)纫塌。

數(shù)據(jù)結(jié)構(gòu)

了解數(shù)據(jù)樣本的結(jié)構(gòu)是非常重要的诊县。通常你需要做一大量的數(shù)據(jù)處理工作,將你的數(shù)據(jù)進(jìn)行清洗和規(guī)整措左,最終轉(zhuǎn)化為你需要的形式(我們通常將數(shù)據(jù)整理成二維數(shù)據(jù)表格的形式存放在Pandas中的DataFrame對象中)依痊。拿我們剛才獲取的數(shù)據(jù)樣本來說,整理后的“數(shù)據(jù)表格”,列對應(yīng)的即是股票名稱胸嘁,行對應(yīng)的即是不同的交易日瓶摆,它們的“交點”就是在某一個交易日中,對應(yīng)股票的股價性宏。

下圖演示的是我們?nèi)绾潍@取蘋果群井、微軟公司2017年1至4月的股價數(shù)據(jù):

DataFrame中存放的數(shù)據(jù)結(jié)構(gòu)

我們可以在上述構(gòu)造的二維數(shù)據(jù)表中使用列索引,得到(返回)指定的某列數(shù)據(jù)(蘋果或是微軟)毫胜,我們把它稱為序列书斜。在序列中,同樣存在索引(即交易日)酵使,再次通過索引荐吉,我們能夠得到某一天某一只股票具體的股價值。就序列而言口渔,它類似于我們熟悉的數(shù)組對象样屠,區(qū)別在于數(shù)組對象的索引是整數(shù),在這里序列的索引是交易日搓劫。


直方圖

直方圖是將數(shù)據(jù)樣本在各個不同數(shù)值上的頻率分布進(jìn)行可視化瞧哟。將頻率分布以柱型條的形式展現(xiàn),使得我們能夠快速洞悉數(shù)據(jù)樣本的分布情況枪向。每一個柱型條的“寬”和“高”勤揩,分別代表了在指定區(qū)間范圍內(nèi)數(shù)據(jù)樣本出現(xiàn)的次數(shù)(頻率),你可以把直方圖理解為是離散的概率密度函數(shù)秘蛔。

下圖給出的是微軟公司2014年股價的頻率分布陨亡,

2017微軟股價頻率分布


收益率直方圖

在金融領(lǐng)域,我們鮮為觀察股價的分布情況深员,原因是“股價序列”是“非平穩(wěn)性”序列(關(guān)于平穩(wěn)的定義负蠕,即“分布”不隨時間的變化而變化)。取而代之的是倦畅,我們會使用每日收益率(漲跌幅)作為數(shù)據(jù)樣本遮糖。

2017微軟日收益率頻率分布

上圖的例子說明,2017年微軟日收益率僅有一天是超過2%(最右側(cè)柱型條)叠赐。注意欲账,這并不意味著未來的日收益率具有相同的分布。

累積直方圖(基于離散估計累積密度函數(shù))

除了上一篇《「量學(xué)堂 專篇」數(shù)據(jù)可視化簡介(上)》中提到的概率密度直方圖外芭概,還有一種直方圖赛不,其基于累積分布函數(shù)的形式展現(xiàn)。

在累積直方圖中罢洲,柱型條的“高”用以表示觀測集中的樣本累積出現(xiàn)的次數(shù)(頻率)踢故。由于數(shù)據(jù)樣本出現(xiàn)的頻率永遠(yuǎn)是非負(fù)的(沒有出現(xiàn)或出現(xiàn)過XX次),因此圖形會以一種遞增的趨勢呈現(xiàn)。

獲取2014年度微軟公司股價
股價累積直方圖可視化

散點圖

當(dāng)你試圖展現(xiàn)兩個數(shù)據(jù)集之間的關(guān)系時殿较,散點圖便是一個好的選擇耸峭。我們使用具有某種對應(yīng)關(guān)系的兩組數(shù)據(jù),不妨就拿蘋果與微軟的股價序列分別作為兩組數(shù)據(jù)集斜脂,“各個交易日”就是這個所謂的“某種對應(yīng)關(guān)系”抓艳。

獲取2014年度微軟和蘋果公司的股價
兩家公司股價散點圖可視化

散點圖中的每個點,都代表了某個交易日對應(yīng)的蘋果股價與微軟股價帚戳。注意玷或,由于散點圖是二維的(維度分別對應(yīng)的是兩股的股價),因此我們沒有更多的維度可供標(biāo)記具體交易日期片任。

下面我們用日收益率代替股價偏友,來看一下兩家公司每日漲跌幅的散點圖:

獲取2014年度微軟和蘋果公司的日收益率
兩家公司日收益率散點圖可視化

折線圖

折線圖用來跟蹤當(dāng)x自變量變化時,應(yīng)變量y對應(yīng)的變化趨勢对供。舉例來說位他,當(dāng)我們繪制股票價格變化趨勢時,通過連接各個數(shù)據(jù)點繪制而成的折線圖(而非僅僅只標(biāo)記出數(shù)據(jù)點)产场,使我們便于隨著時間的推移跟蹤股價鹅髓。需要注意的是,折線圖無法繪制出相鄰數(shù)據(jù)點之間的變化細(xì)節(jié)的京景,這是由自變量的最小單位決定的窿冯,拿下圖來說,折線圖反應(yīng)的是蘋果與微軟股票價格每天的走勢确徙,最小單位是每個交易日醒串,而在交易日內(nèi)每分鐘的價格變化走勢是無法體現(xiàn)的。

plot函數(shù)實現(xiàn)將多個數(shù)據(jù)集在同一視圖中展現(xiàn)
兩家公司股票價格折線圖可視化

再來看一下日收益率的折線圖展現(xiàn):

通過pct change函數(shù)獲取股價每日漲跌幅數(shù)據(jù)
微軟每日漲跌幅折線圖可視化

不要奢望條件永久有效

任何時候都不要試圖通過數(shù)據(jù)可視化鄙皇,來驗證模型假設(shè)是否正確芜赌。比如:因為散點圖呈現(xiàn)類似線性相關(guān)關(guān)系,而認(rèn)為已構(gòu)建的預(yù)測模型 Y = 2 * X + b 是正確的伴逸,這是極其荒謬的(參數(shù)值的估計我們后續(xù)章節(jié)會做進(jìn)一步介紹)缠沈;也不要因為數(shù)據(jù)樣本“過去”呈現(xiàn)出的分布形態(tài)和趨勢,就想當(dāng)然的認(rèn)為它未來也仍然適用错蝴。驗證模型的有效性博烂,通常需要更復(fù)雜、仔細(xì)的驗證過程漱竖。圖形化的主要用途,在于幫助你在最一開始畜伐,決定模型將以何種方式開始運作馍惹。

更多量化投資內(nèi)容,歡迎關(guān)注微信公眾號“數(shù)據(jù)夕拾”。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末万矾,一起剝皮案震驚了整個濱河市悼吱,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌良狈,老刑警劉巖后添,帶你破解...
    沈念sama閱讀 216,843評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異薪丁,居然都是意外死亡遇西,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,538評論 3 392
  • 文/潘曉璐 我一進(jìn)店門严嗜,熙熙樓的掌柜王于貴愁眉苦臉地迎上來粱檀,“玉大人,你說我怎么就攤上這事漫玄∏羊牵” “怎么了?”我有些...
    開封第一講書人閱讀 163,187評論 0 353
  • 文/不壞的土叔 我叫張陵睦优,是天一觀的道長渗常。 經(jīng)常有香客問我,道長汗盘,這世上最難降的妖魔是什么皱碘? 我笑而不...
    開封第一講書人閱讀 58,264評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮衡未,結(jié)果婚禮上尸执,老公的妹妹穿的比我還像新娘。我一直安慰自己缓醋,他們只是感情好如失,可當(dāng)我...
    茶點故事閱讀 67,289評論 6 390
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著送粱,像睡著了一般褪贵。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上抗俄,一...
    開封第一講書人閱讀 51,231評論 1 299
  • 那天脆丁,我揣著相機(jī)與錄音,去河邊找鬼动雹。 笑死槽卫,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的胰蝠。 我是一名探鬼主播歼培,決...
    沈念sama閱讀 40,116評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼震蒋,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了躲庄?” 一聲冷哼從身側(cè)響起查剖,我...
    開封第一講書人閱讀 38,945評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎噪窘,沒想到半個月后笋庄,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,367評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡倔监,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,581評論 2 333
  • 正文 我和宋清朗相戀三年直砂,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,754評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖嗜傅,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情籍嘹,我是刑警寧澤,帶...
    沈念sama閱讀 35,458評論 5 344
  • 正文 年R本政府宣布弯院,位于F島的核電站辱士,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏听绳。R本人自食惡果不足惜颂碘,卻給世界環(huán)境...
    茶點故事閱讀 41,068評論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望椅挣。 院中可真熱鬧头岔,春花似錦、人聲如沸鼠证。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,692評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽量九。三九已至适掰,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間荠列,已是汗流浹背类浪。 一陣腳步聲響...
    開封第一講書人閱讀 32,842評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留肌似,地道東北人费就。 一個月前我還...
    沈念sama閱讀 47,797評論 2 369
  • 正文 我出身青樓,卻偏偏與公主長得像川队,于是被迫代替她去往敵國和親力细。 傳聞我的和親對象是個殘疾皇子垦搬,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,654評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 定義 數(shù)據(jù)可視化的目的其實就是直觀地展現(xiàn)數(shù)據(jù),例如讓花費數(shù)小時甚至更久才能歸納的數(shù)據(jù)量艳汽,轉(zhuǎn)化成一眼就能讀懂的指標(biāo);...
    Kemr閱讀 3,113評論 0 20
  • 1. 我的男朋友叫鼠君对雪。 因為腦袋小嘴小河狐,看到喜歡吃的東西的時候眼睛骨碌碌的轉(zhuǎn),活脫脫像《料理鼠王》里面的雷米瑟捣,丑...
    花子魚閱讀 1,041評論 2 1
  • 導(dǎo)演:賽爾喬·萊翁內(nèi) Sergio Leone(1929-01-03至1989-04-30) 編劇:皮耶羅·德·伯...
    吳蒙閱讀 724評論 0 0
  • 文/杜芥子 一生迈套,可惜太短捐祠,起首,卻已失算桑李。 【度日如夢】在遇到她的瞬間踱蛀,我的人生改變了。我的所見贵白,所聞率拒,所感,我...
    一棵杜芥子閱讀 1,050評論 2 4
  • 所有建筑物面朝東方的部分禁荒,都染上了朝陽的淡淡明黃猬膨,驅(qū)散了午夜的冰冷與寂寞。 遠(yuǎn)處的藍(lán)天還不是最藍(lán)呛伴,只是從那深邃莫測...
    說書客閱讀 319評論 0 0