從零開始做直播導(dǎo)航網(wǎng)站 第三天

關(guān)鍵詞:

爬蟲 urllib3 BeautifulSoup4

思路:

之前用過python寫爬蟲,用的urllib疤祭,看了看現(xiàn)在還有urllib3,API更簡單饵婆,性能可能更好勺馆,然后分析網(wǎng)頁還是之前用過的BeautifuleSoup4

過程:

1.先試試urllib3 獲得斗魚分類內(nèi)容


pip install urllib3


import urllib3

http = urllib3.PoolManager()

r = http.request('GET', "https://www.douyu.com/directory")

plain_text = r.data.decode("utf-8")

file = open("content.html", "w", encoding='utf-8')

file.write(plain_text);

content.html生成了,用chrome打開發(fā)現(xiàn)也是有內(nèi)容的侨核,說明這個是沒有問題的草穆,不過以后真的開始爬蟲運行起來,可能會被斗魚封ip搓译,這個以后發(fā)生了再看怎么解決悲柱。

  1. 獲得分類信息

Chrome打開 https://www.douyu.com/directory,按F12出來源碼些己。尋找分類的源碼塊


用beautifulSoup拿到這部分內(nèi)容

import urllib3
from bs4 import BeautifulSoup

http = urllib3.PoolManager()

def getClassify():
    r = http.request('GET', "https://www.douyu.com/directory")
    plain_text = r.data.decode("utf-8")
    file = open("content.html", "w", encoding='utf-8')
    file.write(plain_text);
    soup = BeautifulSoup(plain_text, "html5lib")
    classify_list = soup.findAll(attrs={'class':'layout-Classify-item'})
    for classify in classify_list:
        link_info = classify.find('a')
        link = link_info.get('href')
        name_info = classify.find('strong')
        classify_name = name_info.text
        print(classify_name + ":" + link)
getClassify()


可以看到打印出了分類的信息豌鸡,前幾個空值嘿般,看了一下,推薦分類也是相同的layout-Classify-item涯冠,在沒有登錄情況下推薦都是空的炉奴,問題不大,后續(xù)再處理蛇更。
3.獲得英雄聯(lián)盟分類下的主播
Chrome打開https://www.douyu.com/g_LOL瞻赶,查看主播信息


還是使用bs4來拿到相關(guān)信息

import urllib3
from bs4 import BeautifulSoup

http = urllib3.PoolManager()
def getLOL():
    r = http.request('GET', "https://www.douyu.com/g_LOL")
    plain_text = r.data.decode("utf-8")
    file = open("content_lol.html", "w", encoding='utf-8')
    file.write(plain_text);
    soup = BeautifulSoup(plain_text, "html5lib")
    classify_list = soup.findAll('li', {'class':'layout-Cover-item'})
    for classify in classify_list:
        link_info = classify.find('a')
        link = link_info.get('href')
        name_info = classify.find(attrs={'class':'DyListCover-user'})
        user_name = name_info.text
        print(user_name + ":" + link)

getLOL()

可以看到主播信息,但是只有第一頁的派任。
下次再做跳轉(zhuǎn)砸逊。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市掌逛,隨后出現(xiàn)的幾起案子师逸,更是在濱河造成了極大的恐慌,老刑警劉巖豆混,帶你破解...
    沈念sama閱讀 222,729評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件字旭,死亡現(xiàn)場離奇詭異,居然都是意外死亡崖叫,警方通過查閱死者的電腦和手機遗淳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,226評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來心傀,“玉大人屈暗,你說我怎么就攤上這事≈校” “怎么了养叛?”我有些...
    開封第一講書人閱讀 169,461評論 0 362
  • 文/不壞的土叔 我叫張陵兢榨,是天一觀的道長鬓照。 經(jīng)常有香客問我,道長神年,這世上最難降的妖魔是什么汁讼? 我笑而不...
    開封第一講書人閱讀 60,135評論 1 300
  • 正文 為了忘掉前任淆攻,我火速辦了婚禮,結(jié)果婚禮上嘿架,老公的妹妹穿的比我還像新娘瓶珊。我一直安慰自己,他們只是感情好耸彪,可當我...
    茶點故事閱讀 69,130評論 6 398
  • 文/花漫 我一把揭開白布伞芹。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪唱较。 梳的紋絲不亂的頭發(fā)上扎唾,一...
    開封第一講書人閱讀 52,736評論 1 312
  • 那天,我揣著相機與錄音南缓,去河邊找鬼稽屏。 笑死,一個胖子當著我的面吹牛西乖,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播坛增,決...
    沈念sama閱讀 41,179評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼获雕,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了收捣?” 一聲冷哼從身側(cè)響起届案,我...
    開封第一講書人閱讀 40,124評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎罢艾,沒想到半個月后楣颠,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,657評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡咐蚯,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,723評論 3 342
  • 正文 我和宋清朗相戀三年童漩,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片春锋。...
    茶點故事閱讀 40,872評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡矫膨,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出期奔,到底是詐尸還是另有隱情侧馅,我是刑警寧澤,帶...
    沈念sama閱讀 36,533評論 5 351
  • 正文 年R本政府宣布呐萌,位于F島的核電站馁痴,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏肺孤。R本人自食惡果不足惜罗晕,卻給世界環(huán)境...
    茶點故事閱讀 42,213評論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望赠堵。 院中可真熱鬧攀例,春花似錦、人聲如沸顾腊。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,700評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽杂靶。三九已至梆惯,卻和暖如春酱鸭,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背垛吗。 一陣腳步聲響...
    開封第一講書人閱讀 33,819評論 1 274
  • 我被黑心中介騙來泰國打工凹髓, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人怯屉。 一個月前我還...
    沈念sama閱讀 49,304評論 3 379
  • 正文 我出身青樓蔚舀,卻偏偏與公主長得像,于是被迫代替她去往敵國和親锨络。 傳聞我的和親對象是個殘疾皇子赌躺,可洞房花燭夜當晚...
    茶點故事閱讀 45,876評論 2 361

推薦閱讀更多精彩內(nèi)容