-
使用到框架:requests+bs4(BeautifulSoup)+pymysql
requests
: 一個數(shù)據(jù)抓取框架
bs4
:HTML
解析框架
pymysql
:python
數(shù)據(jù)庫框架 -
框架安裝:
- 安裝命令:
pip3 install XXX
- 安裝命令:
- 開整!
1.導(dǎo)入框架
import requests
from bs4 import BeautifulSoup
2.讓我們以抓取糗百首頁為例:
r = requests.get("https://www.qiushibaike.com/text")
print(r.text) #此時打印出首頁html內(nèi)容了已經(jīng)
3.創(chuàng)建bs對象,用于從html中過濾有效內(nèi)容
q = BeautifulSoup(r.text, 'html.parser')
4.期望從整個html中解析出正文內(nèi)容example
:<div class="content"> <span> 今天我耍朋友去了 晚上回去 爹媽問 你今天跑哪里去了 我說 我說朋友去了 他們呵呵一聲冷笑 就你這樣兒還耍的到朋友听哭? 哭了塘雳。。隘马。 </span> </div>
1.首先我們要取出所有的
div
節(jié)點
2.然后在所有的div
節(jié)點中篩選出我們的目標(biāo)div
divs = q.find_all('div')
for div in divs:
if div['class'] == ['content']: #正文
text = div.span.text
print(text) #自定義存儲
- 總結(jié):整理的流程就是:
從頁面抓取數(shù)據(jù) -> 對數(shù)據(jù)解析,取出內(nèi)容 -> 內(nèi)容存儲/分析 -> 展示