Python網(wǎng)絡(luò)爬蟲遇到一些非代碼9問題

了解更多關(guān)注微信公眾號“木下學(xué)Python”吧~嗅虏,獲取更多爬蟲示例吧
原文:https://blog.csdn.net/zjkpy_5/article/details/80887981

1.爬蟲程序運行沒問題,但沒顯示結(jié)果或結(jié)果不全

1)有些網(wǎng)站針對每一個ip鳖链,單位時間內(nèi)只能訪問一定次數(shù),至于單位時間是多少看網(wǎng)站規(guī)定吧宙拉,超過這個次數(shù)就不能訪問爬去           了例朱,就只有等了,等多久只锭,看那個網(wǎng)站的規(guī)定吧

2)可以運行著恩,沒有結(jié)果,那要么是選擇器問題蜻展,換一個選擇器喉誊;要么是選擇器里面的內(nèi)容有問題導(dǎo)致沒有

       爬取到結(jié)果

2.請求頭 報錯

    HTTP請求包括:一個請求行,若干請求頭纵顾,實體內(nèi)容

        1伍茄、http請求細(xì)節(jié)----請求行:

            1)請求方式:post、get施逾、head敷矫、options、delete音念、trace沪饺、put;

            2)常用post、get

            3)post闷愤、get區(qū)別:表現(xiàn)在數(shù)據(jù)傳遞上

            A)get方式可在url地址后以?形式帶上交給服務(wù)器的數(shù)據(jù)整葡,多個數(shù)據(jù)之間以&分隔,但數(shù)據(jù)容量不能超過1k;

            B)post可在請求的實體中向服務(wù)器發(fā)送請求讥脐,傳送數(shù)據(jù)量無限制

        2遭居、http請求頭 

            Accept:告訴服務(wù)器  客戶機(jī)支持的數(shù)據(jù)類型

            Accept-Charset:告訴服務(wù)器,客戶機(jī)采用的編碼

            Accept-Encoding:告訴服務(wù)器旬渠,客戶機(jī)支持的壓縮格式

            Accept-Language:客戶機(jī)的語言環(huán)境

            Host:客戶機(jī)通過這個頭告訴服務(wù)器想訪問的主機(jī)

       3俱萍、例如:headers = {
                      'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64)AppleWebKit/537.36 (KHTML, like Gecko)                                                Chrome/67.0.3396.99                              Safari/537.36'

        }

                     :兩邊都分別用引號括起來,開頭不允許有空格

      4告丢、有些有著反爬機(jī)制的網(wǎng)站枪蘑,請求頭要寫全,否則會被屏蔽,或者報錯

3.抓取url

   最好用.xpath

4.UnicodeEncodeError

    在寫入文本中是會出現(xiàn)岳颇,用try:except:pass掉

5.集合減集合

    set(link_list) - set(exist_url)

    去掉重復(fù)的元素

6.AJAX:

在 XHR 里面不顯示數(shù)據(jù)的話照捡,只能在 ALL 哪些文件里面找 對應(yīng)的文件的 json 數(shù)據(jù)

7.\r:

   代表 刪除后面的字符

8.拼接url:

params = {
'offset': offset,
'format': 'json',
'keyword': '街拍',
'autoload': 'true',
'count': '20',
'cur_tab': '1',
'from': 'search_tab'
}
base_url = 'https://www.toutiao.com/search_content/?'
url = base_url + urlencode(params)

9.訪問遇見403:

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市话侧,隨后出現(xiàn)的幾起案子栗精,更是在濱河造成了極大的恐慌,老刑警劉巖瞻鹏,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件悲立,死亡現(xiàn)場離奇詭異,居然都是意外死亡新博,警方通過查閱死者的電腦和手機(jī)薪夕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來赫悄,“玉大人寥殖,你說我怎么就攤上這事∩” “怎么了?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵熏纯,是天一觀的道長同诫。 經(jīng)常有香客問我,道長樟澜,這世上最難降的妖魔是什么误窖? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮秩贰,結(jié)果婚禮上霹俺,老公的妹妹穿的比我還像新娘。我一直安慰自己毒费,他們只是感情好丙唧,可當(dāng)我...
    茶點故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著觅玻,像睡著了一般想际。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上溪厘,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天胡本,我揣著相機(jī)與錄音,去河邊找鬼畸悬。 笑死侧甫,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播披粟,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼僻爽!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起胸梆,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤敦捧,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后碰镜,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體兢卵,經(jīng)...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年绪颖,在試婚紗的時候發(fā)現(xiàn)自己被綠了秽荤。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡柠横,死狀恐怖窃款,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情牍氛,我是刑警寧澤晨继,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站搬俊,受9級特大地震影響紊扬,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜唉擂,卻給世界環(huán)境...
    茶點故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一计寇、第九天 我趴在偏房一處隱蔽的房頂上張望兴泥。 院中可真熱鬧忠怖,春花似錦欲鹏、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至勺卢,卻和暖如春伙判,著一層夾襖步出監(jiān)牢的瞬間黑忱,已是汗流浹背宴抚。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工勒魔, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人菇曲。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓冠绢,卻偏偏與公主長得像,于是被迫代替她去往敵國和親常潮。 傳聞我的和親對象是個殘疾皇子弟胀,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 本文是學(xué)習(xí) 天善學(xué)院 Python3爬蟲三大案例實戰(zhàn)分享 / 分析Ajax抓取今日頭條街拍美圖 后所寫,感謝崔慶才...
    4ffde5305e8f閱讀 1,808評論 0 5
  • ? 筆者是頭條的深度使用者喊式,經(jīng)常用頭條完成“看片”大業(yè)孵户。若不信的話可以試試在頭條搜索街拍,返回的都是一道道靚麗的風(fēng)...
    派派森森閱讀 3,839評論 0 0
  • 題外話:從今天開始保持每周至少兩篇技術(shù)博客的更新速率…… 關(guān)于JS中的this岔留,是JS語言核心中最讓人難懂的一部分...
    ChangYan閱讀 188評論 0 0
  • 文|央央 圖|央央 雅思考試献联,即International English Language Testing...
    英語老師Ann閱讀 582評論 0 1
  • 今天過得好充實啊竖配,早上七點起床就去鄉(xiāng)間小道散步,一路都是翠綠色里逆,全是農(nóng)作物进胯,好養(yǎng)眼(??)啊,看得眼睛很舒服...
    hxk古月閱讀 120評論 0 0