背景
工欲善其事寿弱,必先利其器犯眠。想要做量化,數(shù)據(jù)是基本症革,相關(guān)數(shù)據(jù)主要分成兩個(gè)部分筐咧,此篇分析非交易數(shù)據(jù)的獲取。
存儲(chǔ)方案
考慮到非
離線要求:數(shù)據(jù)源大而廣噪矛,適合離線分析量蕊,完善的數(shù)據(jù)補(bǔ)全方式
在線要求:數(shù)據(jù)小而快,為了能最快的獲取在線分析要求的數(shù)據(jù)艇挨,在存儲(chǔ)的時(shí)候應(yīng)盡量保存最小集残炮,保證數(shù)據(jù)庫查詢的效率
技術(shù)選型:離線數(shù)據(jù)引擎-maxcompute, 在線數(shù)據(jù)引擎-mongodb
爬蟲
框架: scrapy
數(shù)據(jù)源: 新浪財(cái)經(jīng)缩滨,同花順和東方財(cái)富
問題分析:新浪財(cái)經(jīng)和同花順的數(shù)據(jù)比較好獲取势就,內(nèi)容赤裸裸的放在html 里,基本沒有做js的數(shù)據(jù)隱藏楷怒,反爬蟲的策略也比較簡單蛋勺。東方財(cái)富的數(shù)據(jù)基本都是通過js渲染出來的,需要使用瀏覽器模擬鸠删,比較影響大規(guī)模爬取的性能
Name | odps表 | 來源 | 更新周期 |
---|---|---|---|
股票概念數(shù)據(jù) | quant_crawler_concept | 同花順 | 不定期更新(手動(dòng)) |
股票重要事件 | quant_crawler_event | 同花順 | 每日更新 |
股票機(jī)構(gòu)調(diào)研 | quant_crawler_survey | 同花順 | 每日更新 |
股票股東人數(shù) | quant_crawler_holder | 同花順 | 每周更新 |
股票公司公告 | quant_crawler_announcement | 同花順 | 每日更新 |
股票新聞數(shù)據(jù) | quant_crawler_news | 同花順 | 每日更新 |
研報(bào)數(shù)據(jù)(部分) | quant_crawler_report_ths | 同花順 | 每日更新 |
研報(bào)數(shù)據(jù)(全量) | quant_crawler_report | 同花順 | 每周更新 |
股票行業(yè)分類 | quant_crawler_industry | 同花順 | 不定期更新(手動(dòng)) |
基金持股 | quant_crawler_fund | 東方財(cái)富 | 每三個(gè)月更新 |
分配預(yù)案 | quant_crawler_profit_share | 新浪 | 每日更新 |
業(yè)績預(yù)告 | quant_crawler_forecast | 新浪 | 每日更新 |
限售股解禁 | quant_crawler_xsg | 新浪 | 每日更新 |
融資融券 | quant_crawler_rzrq | 新浪 | 每日更新 |
業(yè)績主表 | quant_financial_report | 新浪 | 每日更新 |
盈利能力 | quant_financial_profit | 新浪 | 每日更新 |
運(yùn)營能力 | quant_financial_operation | 新浪 | 每日更新 |
成長能力 | quant_financial_growth | 新浪 | 每日更新 |
償債能力 | quant_financial_debtpaying | 新浪 | 每日更新 |
現(xiàn)金流量 | quant_financial_cashflow | 新浪 | 每日更新 |