整體爬蟲邏輯:
1.獲取省份和城市的定位啸盏,然后定位出各個城市和相對應的url
2.獲取到 130 xx號段 (共317個)中的xxx個
3.獲取最終的號段號碼
先貼上源碼
#抓取省份及城市
import requests
from lxml import etree
url='http://www.51hao.cc/'
req=requests.get(url)
req.encoding='gb2312'
html=req.text
select=etree.HTML(html)
infos=select.xpath('//div[@class="fkce"]/div[@class="fkt"][position()>1]')
#print(len(infos)) #核對下省的數(shù)量是否一致
for info in infos:
#定位省的地址
province=info.xpath('div[@class="fkbj"]/p/a/text()')[0]
#print(province)
#定位城市
citys=info.xpath('div[@class="fklk"]/p/a/text()')
#print(citys)
#城市的url
city_urls = info.xpath('div[@class="fklk"]/p/a/@href')
#print(province,citys,city_urls)
city_infos = zip(citys, city_urls) #zip函數(shù)接受任意多個(包括0個和1個)序列作為參數(shù)兜蠕,返回一個tuple列表系草。
#print(city_infos)
for city_info in city_infos:
city=city_info[0]
#print(city)
city_url=city_info[1]
#print(province,city,city_url)
url2 = 'http://www.51hao.cc/city/beijing/beijing.php'
req2 = requests.get(url2)
req2.encoding = 'gb2312'
html2 = req2.text
selector2 = etree.HTML(html2)
infos = selector2.xpath('//div[@class="all"]//div[@class="num_bg"]')
num = len(infos)
# print(num) #打印出共有多少個
for i in range(num):
first_3 = selector2.xpath('//div[@class="all"]/div[%s]/div[1]/span[@class="nums"]/text()' % str(i + 2))[
0] # 號碼段前三位
# print(first_3)
types = selector2.xpath('//div[@class="all"]/div[%s]/div[1]/text()' % str(i + 2))[0] # xx號段 (共xxx個)
# print(types)
mobiles = selector2.xpath('//div[@class="all"]/ul[%s]/li/a/text()' % str(i + 1)) # 號碼段內的號碼
# print(mobiles)
type1 = types.split(" ")[0] # 獲取xx號段 (共xxx個)中xx號段
# print(type1)
total = types.split(' ')[1].replace('(共', '').replace('個)', '') # 獲取(共xxx個)中的xxx
# print(total)
# print(i+2,first_3,type1,total,mobiles)
for mobile in mobiles:
#print(i + 2, first_3, type1, total, mobile)
print(province, city, first_3, type1, total, mobile)
關于定位的問題:
1. infos=select.xpath('//div[@class="fkce"]/div[@class="fkt"][position()>1]')
第一個div[class="fkce"]下可以找到省份和城市锋拖,可是div[@class="fkce"]下第一個div[@class="fkt"]下的第一個為各省市號段的那一列,要過濾掉第一個div侨嘀,這里用到position()過濾第一div內的內容燕差。
2. city_infos = zip(citys, city_urls) #把city是,和city_urls返回一個元祖秽褒,再去取里面的值
zip函數(shù)接受任意多個(包括0個和1個)序列作為參數(shù)册赛,返回一個tuple列表。只能在循環(huán)中打印出來震嫉。在循環(huán)中元祖中選出城市與相對應的url打印出來
在循環(huán)中元祖中選出城市與相對應的url打印出來
3. infos=selector.xpath('//div[@class="all"]//div[@class="num_bg"]') #在這個范圍內找到 獲取到 130 xx號段 (共317個)中的xxx個
4. first_3 = selector.xpath('//div[@class="all"]/div[%s]/div[1]/span[@class="nums"]/text()'%str(i+2))[0] #號碼段前三位
用到了【 】方法
div[%s] %str(i+2))過濾第一個
5. types = selector.xpath('//div[@class="all"]/div[%s]/div[1]/text()' % str(i + 2))[0] #xx號段 (共xxx個)
mobiles = selector.xpath('//div[@class="all"]/ul[%s]/li/a/text()' % str(i + 1)) #號碼段內的號碼
6. type1=types.split(" ")[0] #獲取xx號段 (共xxx個)中xx號段
total = types.split(' ')[1].replace('(共', '').replace('個)', '') #獲取(共xxx個)中的xxx
最后把獲取的連接到一起打印出來
for mobile in mobiles:
print(province, city, first_3, type1, total, mobile)