Python爬蟲筆記

講道理，還是應(yīng)該先把正則學(xué)一下的意述，不過因?yàn)槿蝿?wù)簡(jiǎn)單提佣，我就簡(jiǎn)單的嘗試用了BeautifulSoup，還是很好用的荤崇。

任務(wù)1：獲取康奈爾圖書館的論文的題目拌屏、日期、摘要信息术荤。

圖書館地址：https://arxiv.org/

github代碼：https://github.com/leiseraiesecqd/Python-crawler/blob/master/for%20paper%20info.py

========================================

主要解決的問題倚喂，獲取第一級(jí)頁(yè)面中的N個(gè)href鏈接（論文），依次訪問所有鏈接瓣戚，進(jìn)入二級(jí)頁(yè)面（每篇論文的主頁(yè)）端圈，爬取論文的具體信息。

主要的兩個(gè)方法：

1）bs4.BeautifulSoup/bs4.element.Tag共有的

get_text()---->去掉標(biāo)簽带兜，獲取文本信息（返回str類型）

find_all()--->獲得標(biāo)簽（返回bs4.element.ResultSet類型枫笛，每個(gè)元素都是一個(gè)bs4.element.Tag）

2）bs4.BeautifulSoup的select（）方法，返回bs4.element.Tag類型刚照。

例子：find_all('a')[0]['href']--->獲取所有a標(biāo)簽集合中第一個(gè)a標(biāo)簽的href值,即鏈接

最后編輯于：2017.12.11 13:13:42

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末刑巧，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子无畔，更是在濱河造成了極大的恐慌啊楚，老刑警劉巖，帶你破解...
沈念sama閱讀 216,692評(píng)論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件浑彰，死亡現(xiàn)場(chǎng)離奇詭異恭理，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)郭变，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,482評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門颜价，熙熙樓的掌柜王于貴愁眉苦臉地迎上來涯保，“玉大人，你說我怎么就攤上這事周伦∠Υ海” “怎么了？”我有些...
開封第一講書人閱讀 162,995評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵专挪，是天一觀的道長(zhǎng)及志。經(jīng)常有香客問我，道長(zhǎng)寨腔，這世上最難降的妖魔是什么速侈？我笑而不...
開封第一講書人閱讀 58,223評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮迫卢，結(jié)果婚禮上倚搬，老公的妹妹穿的比我還像新娘。我一直安慰自己乾蛤，他們只是感情好潭枣，可當(dāng)我...
茶點(diǎn)故事閱讀 67,245評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著幻捏，像睡著了一般盆犁。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上篡九，一...
開封第一講書人閱讀 51,208評(píng)論 1贊 299
城市分裂傳說
那天谐岁，我揣著相機(jī)與錄音，去河邊找鬼榛臼。笑死伊佃，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的沛善。我是一名探鬼主播航揉，決...
沈念sama閱讀 40,091評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼金刁！你這毒婦竟也來了帅涂？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,929評(píng)論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤尤蛮，失蹤者是張志新（化名）和其女友劉穎媳友，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體产捞，經(jīng)...
沈念sama閱讀 45,346評(píng)論 1贊 311
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡醇锚，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,570評(píng)論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了坯临。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片焊唬。...
茶點(diǎn)故事閱讀 39,739評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡恋昼，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出赶促，到底是詐尸還是另有隱情焰雕，我是刑警寧澤，帶...
沈念sama閱讀 35,437評(píng)論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布芳杏，位于F島的核電站，受9級(jí)特大地震影響辟宗，放射性物質(zhì)發(fā)生泄漏爵赵。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,037評(píng)論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一泊脐、第九天我趴在偏房一處隱蔽的房頂上張望空幻。院中可真熱鬧，春花似錦容客、人聲如沸秕铛。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,677評(píng)論 0贊 22
一樁弒父案缩挑，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)但两。三九已至，卻和暖如春供置，著一層夾襖步出監(jiān)牢的瞬間谨湘，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,833評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國(guó)打工芥丧，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留紧阔，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,760評(píng)論 2贊 369
代替公主和親
正文我出身青樓续担，卻偏偏與公主長(zhǎng)得像擅耽，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子物遇，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,647評(píng)論 2贊 354

Python爬蟲筆記

推薦閱讀更多精彩內(nèi)容