爬蟲入門

1岛抄,Python urllib和urllib2 庫的用法

2.URL的含義

URL,即統(tǒng)一資源定位符狈茉,也就是我們說的網(wǎng)址夫椭,統(tǒng)一資源定位符是對可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址氯庆〔淝铮互聯(lián)網(wǎng)上的每個文件都有一個唯一的URL,它包含的信息指出文件的位置以及瀏覽器應(yīng)該怎么處理它堤撵。

URL的格式由三部分組成:

①第一部分是協(xié)議(或稱為服務(wù)方式)仁讨。

②第二部分是存有該資源的主機(jī)IP地址(有時也包括端口號)。

③第三部分是主機(jī)資源的具體地址实昨,如目錄和文件名等陪竿。

爬蟲爬取數(shù)據(jù)時必須要有一個目標(biāo)的URL才可以獲取數(shù)據(jù),因此屠橄,它是爬蟲獲取數(shù)據(jù)的基本依據(jù),準(zhǔn)確理解它的含義對爬蟲學(xué)習(xí)有很大幫助闰挡。

3.POST和GET數(shù)據(jù)傳送

大多數(shù)網(wǎng)站都是動態(tài)網(wǎng)頁锐墙,需要你動態(tài)地傳遞參數(shù)給它,它做出對應(yīng)的響應(yīng)长酗。所以溪北,在訪問時,我們需要傳遞數(shù)據(jù)給它夺脾。最常見的情況是什么之拨?對了,就是登錄注冊的時候呀咧叭。

把數(shù)據(jù)用戶名和密碼傳送到一個URL蚀乔,然后你得到服務(wù)器處理之后的響應(yīng),這個該怎么辦菲茬?

數(shù)據(jù)傳送分為POST和GET兩種方式吉挣,兩種方式有什么區(qū)別呢?

最重要的區(qū)別是GET方式是直接以鏈接形式訪問婉弹,鏈接中包含了所有的參數(shù)睬魂,當(dāng)然如果包含了密碼的話是一種不安全的選擇,不過你可以直觀地看到自己提交了什么內(nèi)容镀赌。POST則不會在網(wǎng)址上顯示所有的參數(shù)氯哮,不過如果你想直接查看提交了什么就不太方便了,大家可以酌情選擇商佛。

4.user.agent

importurllib

importurllib2

url='http://www.server.com/login'

user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

Mozilla/5.0 (Windows NT 6.3; WOW64)?

X-DevTools-Emulate-Network-Conditions-Client-Id:

4D2A5947-8A8F-48F1-BF66-8C421C2A5C1C

values={'username':'cqc','password':'XXXX'}

headers={'User-Agent':user_agent}

data=urllib.urlencode(values)

request=urllib2.Request(url,data,headers)

response=urllib2.urlopen(request)

page=response.read()

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末喉钢,一起剝皮案震驚了整個濱河市姆打,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌出牧,老刑警劉巖穴肘,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異舔痕,居然都是意外死亡评抚,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進(jìn)店門伯复,熙熙樓的掌柜王于貴愁眉苦臉地迎上來慨代,“玉大人,你說我怎么就攤上這事啸如∈坛祝” “怎么了?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵叮雳,是天一觀的道長想暗。 經(jīng)常有香客問我,道長帘不,這世上最難降的妖魔是什么说莫? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮寞焙,結(jié)果婚禮上储狭,老公的妹妹穿的比我還像新娘。我一直安慰自己捣郊,他們只是感情好辽狈,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著呛牲,像睡著了一般刮萌。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上娘扩,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天尊勿,我揣著相機(jī)與錄音,去河邊找鬼畜侦。 笑死元扔,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的旋膳。 我是一名探鬼主播澎语,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了擅羞?” 一聲冷哼從身側(cè)響起尸变,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎减俏,沒想到半個月后召烂,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡娃承,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年奏夫,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片历筝。...
    茶點(diǎn)故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡酗昼,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出梳猪,到底是詐尸還是另有隱情麻削,我是刑警寧澤,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布春弥,位于F島的核電站呛哟,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏匿沛。R本人自食惡果不足惜扫责,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望俺祠。 院中可真熱鬧,春花似錦借帘、人聲如沸蜘渣。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蔫缸。三九已至,卻和暖如春际起,著一層夾襖步出監(jiān)牢的瞬間拾碌,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工街望, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留校翔,地道東北人。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓灾前,卻偏偏與公主長得像防症,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容