講道理,還是應(yīng)該先把正則學(xué)一下的意述,不過因?yàn)槿蝿?wù)簡(jiǎn)單提佣,我就簡(jiǎn)單的嘗試用了BeautifulSoup,還是很好用的荤崇。
任務(wù)1:獲取康奈爾圖書館的論文的題目拌屏、日期、摘要信息术荤。
圖書館地址:https://arxiv.org/
github代碼:https://github.com/leiseraiesecqd/Python-crawler/blob/master/for%20paper%20info.py
========================================
主要解決的問題倚喂,獲取第一級(jí)頁(yè)面中的N個(gè)href鏈接(論文),依次訪問所有鏈接瓣戚,進(jìn)入二級(jí)頁(yè)面(每篇論文的主頁(yè))端圈,爬取論文的具體信息。
主要的兩個(gè)方法:
1)bs4.BeautifulSoup/bs4.element.Tag共有的
get_text()---->去掉標(biāo)簽带兜,獲取文本信息(返回str類型)
find_all()--->獲得標(biāo)簽(返回bs4.element.ResultSet類型枫笛,每個(gè)元素都是一個(gè)bs4.element.Tag)
2)bs4.BeautifulSoup的select()方法,返回bs4.element.Tag類型刚照。
例子:find_all('a')[0]['href']--->獲取所有a標(biāo)簽集合中第一個(gè)a標(biāo)簽的href值,即鏈接