數(shù)據(jù)源
image.png
一個數(shù)據(jù)的走勢俏脊,是由多個維度影響的艘包,要通過多源的數(shù)據(jù)采集统倒,手機盡可能多的數(shù)據(jù)維度寨典,同時保證數(shù)據(jù)的質(zhì)量
開放數(shù)據(jù)源
行業(yè)的數(shù)據(jù)庫
-
單位維度
image.png
政府、企業(yè)房匆、高校
- 行業(yè)維度
交通耸成、金融、能源等領(lǐng)域
爬蟲抓取 - py浴鸿、常用工具
網(wǎng)站井氢,App
- py爬蟲三個過程
- 使用 Requests 爬取網(wǎng)頁信息
抓取網(wǎng)頁信息,是 py 的 HTTP 庫 - 使用 XPath 解析內(nèi)容
XML Path岳链,也就是 XML 路徑語言花竞,是一種用來確定 XML 文檔中某部分位置的語言,常當(dāng)做小型查詢語言掸哑≡技保可以通過元素和屬性進行位置索引 - 使用 Pandas 保存數(shù)據(jù)
Pandas 是讓數(shù)據(jù)分析工作變得更加簡單的高級數(shù)據(jù)結(jié)構(gòu),保存爬取的數(shù)據(jù)苗分,可以寫入到 XLS 或者 MySQL 等數(shù)據(jù)庫 - 其他無頭模式: Selenium厌蔽、PhantomJS、Puppteteer
- 使用 Requests 爬取網(wǎng)頁信息
- 常用工具
- 火車采集器
可抓取摔癣、數(shù)據(jù)清洗奴饮、數(shù)據(jù)分析、挖掘和可視化等择浊,網(wǎng)頁中能看到的內(nèi)容都可以通過采集規(guī)則進行抓取 - 八爪魚
免費版:是內(nèi)容采集規(guī)則戴卜,包括電商、生活服務(wù)琢岩、社交媒體投剥、論壇類等網(wǎng)站
付費版:云采集,配置好采集任務(wù)粘捎,就交給八爪魚采集薇缅,避免 IP 被封? - 集搜客
可視化操作危彩,無需編程。無云采集功能
- 火車采集器
傳感器
物理信息泳桦,圖像汤徽、視頻、速度灸撰、熱度谒府、壓強等,基于特定設(shè)備
日志采集
統(tǒng)計用戶的操作浮毯,在前端進行埋點完疫,在后端進行腳本收集、統(tǒng)計债蓝,分析網(wǎng)站訪問情況及使用承載瓶頸等壳鹤。是運維人員重要工作之一。
記錄了用戶訪問網(wǎng)站的全過程饰迹,那些人在什么時間通過什么渠道來過芳誓,執(zhí)行了哪些操作,系統(tǒng)是否產(chǎn)生了錯誤啊鸭,IP锹淌、HTTP 請求的時間,用戶代理等0?
-
通過 Web 服務(wù)器采集
Web:如 httpd赠制、Nginx赂摆、Tomcat
企業(yè)自己的系統(tǒng)日志采集:?Hadoop 的 Chukwa、Cloudera 的Flume钟些、Facebook 的 Scribe 等 -
自定義采集用戶行為
- JavaScript 代碼監(jiān)聽用戶行為
- AJAX 異步請求后臺記錄日志等
-
埋點是什么
在有需要的位置采集相應(yīng)的信息進行上報- 頁面訪問情況
- 用戶信息
- 設(shè)備信息
- 操作行為
- 時長等
- 頁面訪問情況
-
如何埋點
- 友盟
- Google Analysis
- Talkingdata
- 想看更深層的用操作需要自定義埋點