此書源于一位朋友的推薦眷茁,看過標(biāo)題后,覺得是又一本介紹行業(yè)發(fā)展的綜述纵诞,遂定義為某周末咖啡廳的伴讀上祈。真正開卷之時,是在清明出行的高鐵浙芙,隨手翻看百頁后缝呕, 竟覺得是學(xué)術(shù)而线、實(shí)踐雙優(yōu)同行的深思之言,稱得上近幾年同類書中排前三的精華,書中大有可咀嚼煎源、印證、深思之處撵渡,于是就有了這個系列的讀書筆記。原書是英文寫成廊宪,我的讀書筆記,盡量用中文女轿,一來上讓自己用母語將自覺可深思一遍可以自動降速閱讀箭启,達(dá)到印證推敲的精讀定位,二來也為一些不了解此書的國內(nèi)同道省下些閱讀時間蛉迹,并方便與同道討論傅寡。
前言 第一章 Financial Machine Learning as a Distinct Subject--作為一個獨(dú)特學(xué)科的金融機(jī)器學(xué)習(xí)
- 與投資有關(guān)的書可分為兩類,第一類出自教學(xué)經(jīng)驗(yàn)豐富卻從未在市場中實(shí)踐自己教授內(nèi)容的教書先生之手北救,此類書中有用優(yōu)雅和數(shù)學(xué)公式描述從未存在過的世界荐操,一個定理在邏輯上合理并不能保證其在現(xiàn)實(shí)中合用;另一類作者的詮釋缺乏嚴(yán)格的理論基礎(chǔ)珍策,這些人用不適用的數(shù)學(xué)工具描述自己觀察到的市場托启,造成模型的過似和不適用。本書的一大動因就是填充學(xué)術(shù)與實(shí)踐之間的割裂攘宙。
旁注:拿走江湖賣藝而言屯耸,前一類人是“能說不能練嘴把式”;后一類人蹭劈,有些是由于思維不足夠完善疗绣,錯把特定時期的市場走勢當(dāng)一般規(guī)律,此之謂“假把式”铺韧,有些像一些傳統(tǒng)的主觀交易員多矮,其交易依據(jù)更多是盤感和直覺,而沒辦法把自己的交易經(jīng)驗(yàn)用公式和模型描述出來哈打,此之謂塔逃,“光練不說傻把式”,當(dāng)然也有很多傳統(tǒng)交易員秉承“知者不言”的華爾街古訓(xùn)料仗,是不愿意說的湾盗。說到學(xué)術(shù)界與實(shí)踐的脫節(jié),近日看到某大學(xué)還在教諸如:int a=1,b=2,c=3罢维;
printf(''%d,%d,%d,%d'',++a||++b&&++c,a,b,c)輸出的結(jié)果是啥之類的問題淹仑,也可一嘆吧(也許是筆者才疏學(xué)淺,不理解此類問題的妙用肺孵,有不同意見者歡迎留言)匀借。作者既然拋出此類問題,其隱語當(dāng)然他是能夠跨越空上鴻溝的人平窘,隨手搜一下作者吓肋,copy如下:
Dr. Marcos López de Prado is the chief executive officer of True Positive Technologies. He founded Guggenheim Partners’ Quantitative Investment Strategies (QIS) business, where he applied cutting-edge machine learning (ML) to the development of high-capacity strategies that delivered superior risk-adjusted returns. After managing up to $13 billion in assets, Marcos acquired QIS and successfully spun-out from Guggenheim in 2018.
Since 2010, Marcos has been a research fellow at Lawrence Berkeley National Laboratory (U.S. Department of Energy, Office of Science). One of the top-10 most read authors in finance (SSRN's rankings), he has published dozens of scientific articles on ML and supercomputing in the leading academic journals, and he holds multiple international patent applications on algorithmic trading.
Marcos earned a Ph.D. in financial economics (2003), a second Ph.D. in mathematical finance (2011) from Universidad Complutense de Madrid, and is a recipient of Spain's National Award for Academic Excellence (1999). He completed his post-doctoral research at Harvard University and Cornell University, where he teaches a Financial ML course for the School of Operations Research and Information Engineering. Marcos has an Erd?s #2 and an Einstein #4 according to the American Mathematical Society.
2.金融機(jī)器學(xué)習(xí)項(xiàng)目失敗的幾個原因:
The Sisyphus paradigm (西西弗里神話,團(tuán)隊(duì)協(xié)作勞而無功問題)
1.1 主觀交易者憑主觀判斷及直覺而非特定的理論和邏輯工作(如果不是這樣瑰艘,那他們就變成系統(tǒng)型交易者),主觀交易者的決策通常都是基于某個“故事”是鬼,且沒有人能真正完全明白他們投資背后的邏輯肤舞。這并不意味著主觀交易者不能成功,但他們必須獨(dú)立工作均蜜,從而達(dá)到分散分的效果李剖,如果你雇傭50個主觀組合經(jīng)理并讓他們作為團(tuán)隊(duì) 作,在相互影響下囤耳,這些人的意見趨同篙顺,其結(jié)果是你用50個人的工資相當(dāng)于得到一個雇員的效果;
1.2. 將這種獨(dú)立工作的思路用于量化或機(jī)器學(xué)習(xí)項(xiàng)目時充择,同樣有問題德玫,如果雇傭50個博士,讓他們獨(dú)立工作并在6個月內(nèi)提交工作成果椎麦,其結(jié)果通常是每個人都瘋狂的尋找交易機(jī)會宰僧,其產(chǎn)出通常是:(1)擁有亮麗回測結(jié)果的過度擬合;(2) 標(biāo)準(zhǔn)的因子投資观挎,策略已經(jīng)被太多投資人使用不能產(chǎn)生高sharpo,但至少有學(xué)術(shù)支持琴儿。這兩個結(jié)果都會讓投委會在失望中取消項(xiàng)目。即使這50人中有5人發(fā)現(xiàn)了真正的機(jī)會键兜,5個人的收益也無法覆蓋50人的支出凤类,從而這5個人也要另謀高就。
旁注:按我的理解普气,除了克服人性的弱點(diǎn),在技術(shù)上佃延,量化的一大功用就是可以將不同的投資和交易維度應(yīng)用于多個不同的市場和時間周期现诀,從而達(dá)到更優(yōu)的結(jié)果。量化交易應(yīng)該是從基本面履肃、技術(shù)機(jī)仔沿、消息面等不同維度尋找擁有概率優(yōu)勢或波動性平抑的機(jī)會,因此尺棋,在我看來封锉,對于量化交易而言,團(tuán)隊(duì)協(xié)作尤為重要膘螟。資本市場發(fā)展到今天成福,已經(jīng)幾乎不存在macroscopic(肉眼可見)的alpha,alpha的尋找越來越向細(xì)粒度微觀化發(fā)展荆残。
旁注:這一點(diǎn)不完全同意奴艾,我認(rèn)識一些傳統(tǒng)交易員只用一兩套簡單的策略就可以交易為生,據(jù)說海龜交易法則在期貨市場上還在被廣泛應(yīng)用并盈利内斯,最經(jīng)典的“多因子模型”在國內(nèi)市場蕴潦,還在最經(jīng)典的因子庫和最簡的線性回歸為基礎(chǔ)應(yīng)用像啼,不過作為量化研究人員,挖掘新的因子肯定是必須的潭苞,保持這種挖掘能力也能幫助我們降低被市場淘汰的風(fēng)險忽冻。
策略生產(chǎn)線(策略的生命周期)包括以下環(huán)節(jié):
3.1)Data Curator(數(shù)據(jù)準(zhǔn)備):
這個環(huán)節(jié)負(fù)責(zé)數(shù)據(jù)的收集、清理此疹、指數(shù)化僧诚、存儲、調(diào)整以及向生產(chǎn)環(huán)節(jié)發(fā)布秀菱。數(shù)據(jù)提供者應(yīng)該熟知所處理金融數(shù)據(jù)的背景知識振诬,以及各交易品種間的細(xì)微差別,如股票的并股衍菱、拆分赶么、投票權(quán)等。
3.2)Feature Analysts (特征分析):
此環(huán)節(jié)負(fù)責(zé)在源數(shù)據(jù)中提取有一定預(yù)測能力的信息脊串,團(tuán)隊(duì)成員應(yīng)該是信息論辫呻、信息提取處理、可視化琼锋、標(biāo)注放闺、加權(quán)、分類及其它與特征分析相關(guān)技術(shù)的專家缕坎。比如通過交易簿記中提取市場多空信息(國內(nèi)的盤口分析好像和這個比較相似怖侦?),這種特征通常不能獨(dú)立構(gòu)成交易策略谜叹,但有益于交易執(zhí)行匾寝、流動性風(fēng)險監(jiān)控、作市荷腊、頭寸建立,一個誤區(qū)是認(rèn)為特征可以直接作為策略艳悔,其更多是對信息的收集和歸類。
3.3)Strategists (策略):
這個環(huán)節(jié)將特征加工成實(shí)際的交易算法女仰,策略分析師通過分析特征開發(fā)投資策略猜年。策略分析師的任務(wù)是通過觀察特征形成交易想法并解釋這些想法。策略僅是驗(yàn)證想法的工具疾忍。這個環(huán)節(jié)的團(tuán)隊(duì)成員是對資本市場和經(jīng)濟(jì)有深刻理解的數(shù)據(jù)科學(xué)家乔外。需要注意的是,形成的想法應(yīng)該能解釋大量上述特征锭碳。想法的背后是行為金融偏差袁稽?信息不對稱?管理限制擒抛?特征可以用黑盒手法提取推汽,但策略必須構(gòu)建在白盒上( 即可解釋)补疑。簡單的將特征組合在一起并不能構(gòu)成交易想法。當(dāng)交易策略完全成后歹撒,策略分析師將實(shí)現(xiàn)整個交易想法的算法和原型代碼提交給回測團(tuán)隊(duì)莲组。
3.4) Backtesters(回測):
這個環(huán)節(jié)負(fù)責(zé)評估交易策略在不同交易場景下的盈利能力。其中一個場景是用歷史數(shù)據(jù)回測暖夭,即假設(shè)歷史會重演锹杈,但歷史行情僅是隨機(jī)過程中的一個可能結(jié)果,其并不能在很大程度上代表未來迈着〗咄回測還應(yīng)該針對策略的優(yōu)缺點(diǎn)進(jìn)行測試和評估。這個環(huán)節(jié)的團(tuán)隊(duì)成員應(yīng)該是對經(jīng)驗(yàn)和實(shí)驗(yàn)技術(shù)有深刻理解的數(shù)據(jù)科學(xué)家裕菠。一個優(yōu)秀的回測人員應(yīng)該通過對源數(shù)據(jù)的分析理解交易想法的由來并注意預(yù)防過擬合咬清。
3.5 Deployment Team(策略部署團(tuán)隊(duì)):
部署團(tuán)隊(duì)負(fù)責(zé)將策略代碼與生產(chǎn)線對接。有些部件可以為多個策略共享奴潘,尤其是具有共性的策略旧烧。部署團(tuán)隊(duì)的成員是算法專家和數(shù)學(xué)編程高手。部署團(tuán)隊(duì)的任務(wù)有兩個:1)保證部署的代碼邏輯與策略原型代碼完全一致画髓;2)優(yōu)化原型代碼的實(shí)現(xiàn)掘剪,以保證交易延時最小。出于對實(shí)時性的要求奈虾,這個團(tuán)隊(duì)非常依賴于處理高度夺谁、自動化服務(wù)器(Jenkins)、向量化肉微、多線程予权、多進(jìn)程、圖像處理芯片(GPU-NVIDIA)浪册,分布式計算(Hadoop),高性能計算(Slum)以及并行計算等技術(shù)。
3.6 Portfolio Oversight (組合監(jiān)督):
策略布置完成后岗照,即進(jìn)入監(jiān)督執(zhí)行環(huán)節(jié)村象,包括:
1). Embargo(準(zhǔn)入):策略在測試集外的數(shù)據(jù)進(jìn)行測試,這個環(huán)節(jié)不需要實(shí)時數(shù)據(jù)攒至,如果這個階段的結(jié)果與回測結(jié)果一致厚者,策略進(jìn)入下一階段;
2). Paper trading(模擬交易): 在這一階段迫吐,策略在實(shí)時數(shù)據(jù)上模擬執(zhí)行库菲,這個階段要考慮數(shù)據(jù)處理延遲、計算延遲志膀、執(zhí)行延遲以及其它在數(shù)據(jù)到達(dá)和建倉之間的時間延遲熙宇。模擬交易可以持續(xù)很久鳖擒,直到有足夠的證據(jù)表明策略表現(xiàn)與預(yù)期一致。
3).Graduation(實(shí)盤):策略進(jìn)入實(shí)盤階段烫止,策略可以獨(dú)立執(zhí)行蒋荚,也可以作為交易系統(tǒng)的一部分(如用于交易信號產(chǎn)生、信號過濾或資金管理)馆蠕,在這個階段策略評估更加精細(xì)期升,包括風(fēng)險、收益和成本歸因互躬。
4). Re-allocation(資金再分配): 基于策略表現(xiàn)播赁,策略在分散組合中經(jīng)常自動重新評估。一般而言吼渡,策略的資金分配遵循凹函數(shù)容为,初始倉位小,隨著策略按預(yù)期運(yùn)行時間的增加诞吱,倉位逐漸增加舟奠。再過一段時間,隨著策略衰退房维,他們再逐漸縮小沼瘫。
5). Decommission(策略終止): 所有策略都最終都會終止。當(dāng)策略的表現(xiàn)在足夠長的時間不符合預(yù)期時說明策略背后的理論已經(jīng)被實(shí)證否定咙俩,此時應(yīng)終止策略耿戚。