《哪吒》最近挺火的调炬。于是,我就想看看關于《哪吒》的好評舱馅。
打開豆瓣缰泡,找到短評,試著開始用python爬取數據习柠≡纫ィ可是,折騰一波之后资溃,發(fā)現了這個武翎。
豆瓣從2017.10月開始全面禁止爬取數據,僅僅開放500條數據溶锭,白天1分鐘最多可以爬取40次宝恶,晚上一分鐘可爬取60次數,超過此次數則會封禁IP地址趴捅。
登錄狀態(tài)下垫毙,按網頁按鈕點擊“后頁”,參數“start”最多為480拱绑,也就是20*25=500條综芥;非登錄狀態(tài)下,最多為200條猎拨。
行吧膀藐,500條就500條吧屠阻,Let's go。
整個過程:
結果展示:
總結來了
我把文章中的一些重要的內容额各,總結在了下面的一張圖里国觉,方便大家保存、查閱虾啦。
關注公眾號【小癡印記】麻诀,獲取源碼。
-END-