之前的量學(xué)堂系列笆制,以及昨天的銀行輪動量化策略氮墨,都或多或少用到了數(shù)據(jù)可視化展現(xiàn)祝高,我看到一些留言希望能了解一些這方面的內(nèi)容栗弟,其實在國外量化平臺Quantopian上是有專篇的,為了大家讀起來不至于太過枯燥工闺,本篇將分為上下兩集對此進(jìn)行介紹乍赫。
數(shù)據(jù)可視化展現(xiàn)
數(shù)據(jù)可視化展現(xiàn)對于了解數(shù)據(jù)特性、觀察數(shù)據(jù)潛在結(jié)構(gòu)是非常有用的陆蟆。需要注意的是耿焊,人們通常更愿意相信“眼見為實”,數(shù)據(jù)可視化能夠輕松做到這一點遍搞。圖形化能夠幫助人們更好地理解那些基于方程式的理論假說試圖闡述些什么,但卻無法證明這些理論本身是否正確器腋。
本篇我們將回顧一些常用的展現(xiàn)手法溪猿。
取得數(shù)據(jù)
如果我們要進(jìn)行數(shù)據(jù)可視化,前提是我們必須先取得數(shù)據(jù)纫塌。
數(shù)據(jù)結(jié)構(gòu)
了解數(shù)據(jù)樣本的結(jié)構(gòu)是非常重要的诊县。通常你需要做一大量的數(shù)據(jù)處理工作,將你的數(shù)據(jù)進(jìn)行清洗和規(guī)整措左,最終轉(zhuǎn)化為你需要的形式(我們通常將數(shù)據(jù)整理成二維數(shù)據(jù)表格的形式存放在Pandas中的DataFrame對象中)依痊。拿我們剛才獲取的數(shù)據(jù)樣本來說,整理后的“數(shù)據(jù)表格”,列對應(yīng)的即是股票名稱胸嘁,行對應(yīng)的即是不同的交易日瓶摆,它們的“交點”就是在某一個交易日中,對應(yīng)股票的股價性宏。
下圖演示的是我們?nèi)绾潍@取蘋果群井、微軟公司2017年1至4月的股價數(shù)據(jù):
我們可以在上述構(gòu)造的二維數(shù)據(jù)表中使用列索引,得到(返回)指定的某列數(shù)據(jù)(蘋果或是微軟)毫胜,我們把它稱為序列书斜。在序列中,同樣存在索引(即交易日)酵使,再次通過索引荐吉,我們能夠得到某一天某一只股票具體的股價值。就序列而言口渔,它類似于我們熟悉的數(shù)組對象样屠,區(qū)別在于數(shù)組對象的索引是整數(shù),在這里序列的索引是交易日搓劫。
直方圖
直方圖是將數(shù)據(jù)樣本在各個不同數(shù)值上的頻率分布進(jìn)行可視化瞧哟。將頻率分布以柱型條的形式展現(xiàn),使得我們能夠快速洞悉數(shù)據(jù)樣本的分布情況枪向。每一個柱型條的“寬”和“高”勤揩,分別代表了在指定區(qū)間范圍內(nèi)數(shù)據(jù)樣本出現(xiàn)的次數(shù)(頻率),你可以把直方圖理解為是離散的概率密度函數(shù)秘蛔。
下圖給出的是微軟公司2014年股價的頻率分布陨亡,
收益率直方圖
在金融領(lǐng)域,我們鮮為觀察股價的分布情況深员,原因是“股價序列”是“非平穩(wěn)性”序列(關(guān)于平穩(wěn)的定義负蠕,即“分布”不隨時間的變化而變化)。取而代之的是倦畅,我們會使用每日收益率(漲跌幅)作為數(shù)據(jù)樣本遮糖。
上圖的例子說明,2017年微軟日收益率僅有一天是超過2%(最右側(cè)柱型條)叠赐。注意欲账,這并不意味著未來的日收益率具有相同的分布。
累積直方圖(基于離散估計累積密度函數(shù))
除了上一篇《「量學(xué)堂 專篇」數(shù)據(jù)可視化簡介(上)》中提到的概率密度直方圖外芭概,還有一種直方圖赛不,其基于累積分布函數(shù)的形式展現(xiàn)。
在累積直方圖中罢洲,柱型條的“高”用以表示觀測集中的樣本累積出現(xiàn)的次數(shù)(頻率)踢故。由于數(shù)據(jù)樣本出現(xiàn)的頻率永遠(yuǎn)是非負(fù)的(沒有出現(xiàn)或出現(xiàn)過XX次),因此圖形會以一種遞增的趨勢呈現(xiàn)。
散點圖
當(dāng)你試圖展現(xiàn)兩個數(shù)據(jù)集之間的關(guān)系時殿较,散點圖便是一個好的選擇耸峭。我們使用具有某種對應(yīng)關(guān)系的兩組數(shù)據(jù),不妨就拿蘋果與微軟的股價序列分別作為兩組數(shù)據(jù)集斜脂,“各個交易日”就是這個所謂的“某種對應(yīng)關(guān)系”抓艳。
散點圖中的每個點,都代表了某個交易日對應(yīng)的蘋果股價與微軟股價帚戳。注意玷或,由于散點圖是二維的(維度分別對應(yīng)的是兩股的股價),因此我們沒有更多的維度可供標(biāo)記具體交易日期片任。
下面我們用日收益率代替股價偏友,來看一下兩家公司每日漲跌幅的散點圖:
折線圖
折線圖用來跟蹤當(dāng)x自變量變化時,應(yīng)變量y對應(yīng)的變化趨勢对供。舉例來說位他,當(dāng)我們繪制股票價格變化趨勢時,通過連接各個數(shù)據(jù)點繪制而成的折線圖(而非僅僅只標(biāo)記出數(shù)據(jù)點)产场,使我們便于隨著時間的推移跟蹤股價鹅髓。需要注意的是,折線圖無法繪制出相鄰數(shù)據(jù)點之間的變化細(xì)節(jié)的京景,這是由自變量的最小單位決定的窿冯,拿下圖來說,折線圖反應(yīng)的是蘋果與微軟股票價格每天的走勢确徙,最小單位是每個交易日醒串,而在交易日內(nèi)每分鐘的價格變化走勢是無法體現(xiàn)的。
再來看一下日收益率的折線圖展現(xiàn):
不要奢望條件永久有效
任何時候都不要試圖通過數(shù)據(jù)可視化鄙皇,來驗證模型假設(shè)是否正確芜赌。比如:因為散點圖呈現(xiàn)類似線性相關(guān)關(guān)系,而認(rèn)為已構(gòu)建的預(yù)測模型 Y = 2 * X + b 是正確的伴逸,這是極其荒謬的(參數(shù)值的估計我們后續(xù)章節(jié)會做進(jìn)一步介紹)缠沈;也不要因為數(shù)據(jù)樣本“過去”呈現(xiàn)出的分布形態(tài)和趨勢,就想當(dāng)然的認(rèn)為它未來也仍然適用错蝴。驗證模型的有效性博烂,通常需要更復(fù)雜、仔細(xì)的驗證過程漱竖。圖形化的主要用途,在于幫助你在最一開始畜伐,決定模型將以何種方式開始運作馍惹。
更多量化投資內(nèi)容,歡迎關(guān)注微信公眾號“數(shù)據(jù)夕拾”。