利用Python實現(xiàn)翻墻——下載網(wǎng)址
今天作業(yè)
我完成的圖
今天的代碼很多看不懂喻犁,幸虧群里有大神,參考 TianAff 和 sinkpink 的筆記才有一點思路删性。
1庸论、urllib模塊提供上層接口,可以像讀取本地文件一樣讀取www和ftp上的數(shù)據(jù)厌均。(我試試唬滑,發(fā)現(xiàn)只需兩行代碼就能抓取百度首頁的html)
2、re模塊棺弊。經(jīng)python大大解析晶密,作業(yè)中re是過濾網(wǎng)頁的html符號,只顯示我們關(guān)注的文字
3模她、利用urlretrieve()函數(shù)將遠程信息下載到本地
4稻艰、re.sub()中re是regular expression的縮寫,表示正則表達式缝驳。正則表達式通常被用來檢索连锯、替換符合某個模式的文本(不太懂9椴浴S糜!)
5拼弃、"* ?"的組合是非貪婪模式(還是不懂O囊痢!N茄酢)
6溺忧、join()函數(shù)表示連接字符串咏连,常常用于字符連接操作