爬蟲小分隊的終極大任務(wù)就是簡書大數(shù)據(jù)氯葬,以前也做過一次虚茶,閱讀量也還可以谚殊。前段時間簡書也是融資成功丧鸯,簡書也有一些改動,這次做分析也是一個不錯的機(jī)會嫩絮。
專題URL
這部分是沒有變得丛肢,因?yàn)楹啎鴽]有用戶管理的url围肥,我們只能從專題URL入手,依舊是熱門和城市摔踱。
專題管理員URL
這部分就是新的思路虐先,之前是爬取專題文章的作者怨愤,然后爬取作者的粉絲派敷,這部分做完爬取對象。這次是先爬取專題管理員URL作為第一層用戶撰洗,這部分是異步加載的篮愉,還有就是首頁的和其他的專題在異步加載的url有所不同(這個大家找包的時候就知道了)。
粉絲和關(guān)注URL
我們可以這樣想差导,基本上管理員的粉絲都會很多试躏,這部分大多像我們一樣,吃瓜群眾设褐;還有同行間的話颠蕴,就是關(guān)注用戶,這樣雙向傳遞助析,可以爬取大部分用戶(還是有一些用戶爬不到)犀被。
優(yōu)點(diǎn)和缺點(diǎn)
這種方法比爬取文章會快很多,重復(fù)的數(shù)據(jù)也會少很多(因?yàn)橛脩魰抖嗥恼拢┩饧健H秉c(diǎn)就是可能數(shù)據(jù)會不全寡键。