有一年沒有更新文章了涂圆,最近一年一直在惡補(bǔ)如何做數(shù)據(jù)分析和數(shù)據(jù)挖掘知識,現(xiàn)在把這一年的經(jīng)驗成果分享給大家币叹。
最近一段我先教給大家如何數(shù)據(jù)獲取的方法润歉,大家聽到數(shù)據(jù)抓取,可能想這個需要專業(yè)編程能力套硼,告訴你們不需要編程也可以自動抓取數(shù)據(jù)卡辰。
今天教大家使用excel就可以抓取網(wǎng)站的數(shù)據(jù),而且還可以設(shè)置自動更新數(shù)據(jù)邪意,本次拿一個空氣質(zhì)量數(shù)據(jù)網(wǎng)站作為數(shù)據(jù)爬蟲源九妈。
第一步:你裝上一個office軟件
第二步:新建一個excel,并打開
第三步:切換到數(shù)據(jù)選項卡雾鬼,點擊“自網(wǎng)站”
第四步:輸入需要爬取的網(wǎng)頁url
第五步:選擇需要加載的數(shù)據(jù)并加載
以上幾個步驟就完成了一個網(wǎng)站數(shù)據(jù)導(dǎo)入
高級技能:
1.設(shè)置數(shù)據(jù)自動刷新
選擇設(shè)計選項卡萌朱,點擊刷新里面的“連接屬性”
勾選“刷新頻率”并設(shè)置刷新時間(默認(rèn)是60分鐘)
2.有的網(wǎng)站數(shù)據(jù)被設(shè)置反爬機(jī)制,數(shù)據(jù)抓取可能需要復(fù)雜的設(shè)置策菜,可以在“自網(wǎng)站”中切換到“高級”標(biāo)簽里晶疼,里面可以設(shè)置一些http請求標(biāo)頭等參數(shù)。后面一些文章我會一一交給大家如何使用高級編輯又憨。
今天就先給大家介紹到這里翠霍,文章寫的太爛請多多包涵,請期待我下一篇吧蠢莺。