爬蟲這東西很實用,意義不下于你學(xué)會做PPT和Excel帘营。真正掌握方法論很難,需要時間和不斷的實踐逐哈。但掌握一門小工具仪吧,投入和產(chǎn)出比在我看來是比較驚人的。
爬蟲其實沒有這么難鞠眉。最近在三節(jié)課上上了一堂陳大欣老師的課薯鼠,隨手做做課程筆記+作業(yè)择诈。
抓取鏈接:忘了,B站隨便點開的一個視頻出皇;
主要思路:
1. 這個是做到現(xiàn)在我覺得挺好玩的一個抓取羞芍,不是做的爬蟲,就直接在chrome查找到xml文件郊艘,點擊打開位New Table;
2. 打開Excel-數(shù)據(jù)選項卡-自網(wǎng)站荷科,粘貼到這個tab的鏈接,然后就能做了纱注;
3. 關(guān)于時間畏浆,需要換算一下,公式在表里面狞贱;
4. 另外刻获,這張表里有兩個時間,一個是發(fā)布時間瞎嬉,即2016年6月28日(在下面不知道怎么公式?jīng)]顯示出來蝎毡,但是下載后的excel發(fā)布時間這一欄顯示的就是正常年月日+時間);另一個是時長氧枣,即彈幕在這個視頻中是什么時候發(fā)的沐兵。
5. 這兩個都涉及到excel數(shù)字格式的使用,例如時長是 1313s便监,如何轉(zhuǎn)換成X分X秒呢扎谎?可以用到兩個公式。
=INT(H16/60)&"分"&MOD(H16,60)&”秒”,Int函數(shù)取整烧董,Mod函數(shù)求余簿透,&連接;
=TEXT(H16/(60*60*24),"m's”)
6. 數(shù)據(jù)透視表解藻,匯總老充,計數(shù),可以看到多少分多少秒螟左,有多少彈幕啡浊;這個東西是最好玩的,如果沒有耐心看完整個視頻胶背,只需要在挑個彈幕數(shù)量最多的時間點High一下就行了巷嚣。