08. 如何自動化采集數(shù)據(jù)

數(shù)據(jù)源

image.png

一個數(shù)據(jù)的走勢俏脊,是由多個維度影響的艘包,要通過多源的數(shù)據(jù)采集统倒,手機盡可能多的數(shù)據(jù)維度寨典,同時保證數(shù)據(jù)的質(zhì)量

開放數(shù)據(jù)源

行業(yè)的數(shù)據(jù)庫

  • 單位維度


    image.png

    政府、企業(yè)房匆、高校

  • 行業(yè)維度
    交通耸成、金融、能源等領(lǐng)域

爬蟲抓取 - py浴鸿、常用工具

網(wǎng)站井氢,App

  • py爬蟲三個過程
    • 使用 Requests 爬取網(wǎng)頁信息
      抓取網(wǎng)頁信息,是 py 的 HTTP 庫
    • 使用 XPath 解析內(nèi)容
      XML Path岳链,也就是 XML 路徑語言花竞,是一種用來確定 XML 文檔中某部分位置的語言,常當(dāng)做小型查詢語言掸哑≡技保可以通過元素和屬性進行位置索引
    • 使用 Pandas 保存數(shù)據(jù)
      Pandas 是讓數(shù)據(jù)分析工作變得更加簡單的高級數(shù)據(jù)結(jié)構(gòu),保存爬取的數(shù)據(jù)苗分,可以寫入到 XLS 或者 MySQL 等數(shù)據(jù)庫
    • 其他無頭模式: Selenium厌蔽、PhantomJS、Puppteteer
  • 常用工具
    • 火車采集器
      可抓取摔癣、數(shù)據(jù)清洗奴饮、數(shù)據(jù)分析、挖掘和可視化等择浊,網(wǎng)頁中能看到的內(nèi)容都可以通過采集規(guī)則進行抓取
    • 八爪魚
      免費版:是內(nèi)容采集規(guī)則戴卜,包括電商、生活服務(wù)琢岩、社交媒體投剥、論壇類等網(wǎng)站
      付費版:云采集,配置好采集任務(wù)粘捎,就交給八爪魚采集薇缅,避免 IP 被封?
    • 集搜客
      可視化操作危彩,無需編程。無云采集功能

傳感器

物理信息泳桦,圖像汤徽、視頻、速度灸撰、熱度谒府、壓強等,基于特定設(shè)備

日志采集

統(tǒng)計用戶的操作浮毯,在前端進行埋點完疫,在后端進行腳本收集、統(tǒng)計债蓝,分析網(wǎng)站訪問情況及使用承載瓶頸等壳鹤。是運維人員重要工作之一。
記錄了用戶訪問網(wǎng)站的全過程饰迹,那些人在什么時間通過什么渠道來過芳誓,執(zhí)行了哪些操作,系統(tǒng)是否產(chǎn)生了錯誤啊鸭,IP锹淌、HTTP 請求的時間,用戶代理等0?

  • 通過 Web 服務(wù)器采集
    Web:如 httpd赠制、Nginx赂摆、Tomcat
    企業(yè)自己的系統(tǒng)日志采集:?Hadoop 的 Chukwa、Cloudera 的Flume钟些、Facebook 的 Scribe 等
  • 自定義采集用戶行為
    • JavaScript 代碼監(jiān)聽用戶行為
    • AJAX 異步請求后臺記錄日志等
  • 埋點是什么
    在有需要的位置采集相應(yīng)的信息進行上報
    • 頁面訪問情況
      • 用戶信息
      • 設(shè)備信息
    • 操作行為
      • 時長等
  • 如何埋點
    • 友盟
    • Google Analysis
    • Talkingdata
    • 想看更深層的用操作需要自定義埋點
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末烟号,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子厘唾,更是在濱河造成了極大的恐慌褥符,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,907評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件抚垃,死亡現(xiàn)場離奇詭異,居然都是意外死亡趟大,警方通過查閱死者的電腦和手機鹤树,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來逊朽,“玉大人罕伯,你說我怎么就攤上這事∵椿洌” “怎么了追他?”我有些...
    開封第一講書人閱讀 164,298評論 0 354
  • 文/不壞的土叔 我叫張陵坟募,是天一觀的道長。 經(jīng)常有香客問我邑狸,道長懈糯,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,586評論 1 293
  • 正文 為了忘掉前任单雾,我火速辦了婚禮赚哗,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘硅堆。我一直安慰自己屿储,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,633評論 6 392
  • 文/花漫 我一把揭開白布渐逃。 她就那樣靜靜地躺著够掠,像睡著了一般。 火紅的嫁衣襯著肌膚如雪茄菊。 梳的紋絲不亂的頭發(fā)上疯潭,一...
    開封第一講書人閱讀 51,488評論 1 302
  • 那天,我揣著相機與錄音买羞,去河邊找鬼袁勺。 笑死,一個胖子當(dāng)著我的面吹牛畜普,可吹牛的內(nèi)容都是我干的期丰。 我是一名探鬼主播,決...
    沈念sama閱讀 40,275評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼吃挑,長吁一口氣:“原來是場噩夢啊……” “哼钝荡!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起舶衬,我...
    開封第一講書人閱讀 39,176評論 0 276
  • 序言:老撾萬榮一對情侶失蹤埠通,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后逛犹,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體端辱,經(jīng)...
    沈念sama閱讀 45,619評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,819評論 3 336
  • 正文 我和宋清朗相戀三年虽画,在試婚紗的時候發(fā)現(xiàn)自己被綠了舞蔽。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,932評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡码撰,死狀恐怖渗柿,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情脖岛,我是刑警寧澤朵栖,帶...
    沈念sama閱讀 35,655評論 5 346
  • 正文 年R本政府宣布颊亮,位于F島的核電站,受9級特大地震影響陨溅,放射性物質(zhì)發(fā)生泄漏终惑。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,265評論 3 329
  • 文/蒙蒙 一声登、第九天 我趴在偏房一處隱蔽的房頂上張望狠鸳。 院中可真熱鬧,春花似錦悯嗓、人聲如沸件舵。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽铅祸。三九已至,卻和暖如春合武,著一層夾襖步出監(jiān)牢的瞬間临梗,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評論 1 269
  • 我被黑心中介騙來泰國打工稼跳, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留盟庞,地道東北人。 一個月前我還...
    沈念sama閱讀 48,095評論 3 370
  • 正文 我出身青樓汤善,卻偏偏與公主長得像什猖,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子红淡,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,884評論 2 354

推薦閱讀更多精彩內(nèi)容