需求分析
從某網(wǎng)站上,抓取若干用戶名和IP地址向臀,并根據(jù)地址的歸屬地和出現(xiàn)頻率生成一張地圖秒拔。
流程步驟
(1)抓取數(shù)據(jù)
(2)數(shù)據(jù)存入Excel表格
(3)數(shù)據(jù)去重,過濾重復(fù)IP
(4)讀取Excel表格里的IP飒硅,依次向IP查詢工具網(wǎng)站請(qǐng)求查詢結(jié)果
(5)將查詢結(jié)果存入Excel表格
(6)統(tǒng)計(jì)出查詢結(jié)果中各城市的出現(xiàn)頻率砂缩,從大到小排序
(7)用[城市-出現(xiàn)頻率]生成地圖。
工具環(huán)境
(1)Python版本:3.7.3
(2)pyecharts版本:0.1.9.4
(3)查詢IP的工具網(wǎng)站:http://ip.taobao.com
具體實(shí)現(xiàn)
(01)def getData():
爬取某網(wǎng)站數(shù)據(jù)三娩,獲取用戶名和IP地址庵芭,分別存入兩個(gè)列表:name 和 ip。
(02)def createTable():
創(chuàng)建表格雀监,設(shè)置樣式双吆,寫入的表頭格式如下:
(03)def addName():
將抓取到的用戶名列表name存入Excel表格中的[用戶名]列。
(04)def addIp():
將抓取到的IP地址列表ip存入Excel表格中的[IP地址]列会前。
(05)def dropDuplicates():
IP地址去重好乐。由于該網(wǎng)站用戶名可以重復(fù),并且存在有在不同的網(wǎng)頁(yè)中瓦宜,抓取到同一位用戶的情況蔚万。所以進(jìn)行IP地址去重,根據(jù)IP地址判斷是否為同一用戶临庇,如果是反璃,則過濾掉昵慌。
(06)def readIp():
從Excel中讀取去重后的IP地址,存為列表ipList淮蜈。
(07)def getArea():
依次從IP地址列表ipList中取值斋攀,向IP查詢的工具網(wǎng)站[http://ip.taobao.com]請(qǐng)求結(jié)果,獲取結(jié)果中的城市名稱[city]梧田,存入列表city淳蔼;如果沒有獲取到城市名稱,則寫入[未知]裁眯。
(08)def addArea():
將獲取到的城市名稱列表city中的數(shù)據(jù)肖方,存入Excel表格中的[歸屬地]列。
(09)def readArea():
讀取Excel表格中的[歸屬地]列未状,存為areaList俯画。(話說(shuō)這里我為什么不直接用上面抓取到的city列表得了......魚的記憶啊......)
(10)def dataCount():
做數(shù)據(jù)統(tǒng)計(jì)。首先是歸屬地去重司草,去重后的歸屬地存為areaSet艰垂;再?gòu)腶reaSet中依次取值,統(tǒng)計(jì)每個(gè)城市在城市名稱列表areaList里出現(xiàn)過多少次埋虹,將次數(shù)存入timesCount列表猜憎;將areaSet和timesCount以鍵值對(duì)的方式存入字典timesDic,按值[values]從大到小排序搔课。將排序后的鍵值對(duì)依次存入Excel表格的[地名]和[頻率]兩列胰柑。
(11)def drawArea():
利用pyecharts模塊中的Map,Geo繪制中國(guó)地圖(省爬泥、直轄市邊界線)柬讨。
廢話連篇:
從網(wǎng)站爬數(shù)據(jù)的時(shí)候,我的參數(shù)就好像一個(gè)軍隊(duì)方陣袍啡,我是指揮官踩官。然后我喊“開槍!”境输,所有人依次舉起槍朝面前開槍蔗牡,BoomBoomBoom,后面的士兵就把前面的士兵干掉了嗅剖。我和最后面的一排兵面面相覷辩越,我的兵呢。(有張動(dòng)圖找不到了)
其實(shí)做了不少無(wú)用功信粮,比如重復(fù)定義同樣的變量黔攒,明明直接拿來(lái)用就好了。
Python3.5以后的版本中,字典的鍵值對(duì)是按照初始化時(shí)的排列順序輸出的亏钩,但是經(jīng)過sorted()排序后莲绰,print()輸出的是排序后的數(shù)值欺旧,寫入Excel表格中卻是未經(jīng)排序的姑丑,print()輸出的邏輯和write()的不同嗎?這點(diǎn)還沒搞明白辞友。
總而言之還是有很多的收獲栅哀,比如Excel文件的讀寫,Python中的列表称龙、字典留拾,數(shù)據(jù)的統(tǒng)計(jì)、排序鲫尊,以及明白了IP很珍貴的這個(gè)道理痴柔,所以不要在寫爬蟲的時(shí)候,有事沒事調(diào)試運(yùn)行一下疫向,會(huì)被網(wǎng)站判定為訪問異常的咳蔚。不過睡一覺醒來(lái)就好了,換個(gè)IP也行搔驼。
程序要一截一截地運(yùn)行谈火,爬到滿意的數(shù)據(jù)以后就不要再反復(fù)爬了,擔(dān)心被覆寫/被打亂的話可以備份一下舌涨,IP珍貴糯耍,不要反復(fù)爬。
最后囊嘉,感慨我的美術(shù)修養(yǎng)實(shí)在不行温技,地圖的配色都是從網(wǎng)上嫖來(lái)的。
參考資料:
python xlwt 設(shè)置單元格樣式
如何使用drop_duplicates進(jìn)行簡(jiǎn)單去重(入門篇)
python批量跑IP地址歸屬地的排坑之路
python最全畫地圖扭粱,可視化數(shù)據(jù)
感謝各位老哥的技術(shù)分享荒揣!
源代碼:
# 環(huán)境:Python 3.7.3
# pyecharts 0.1.9.4
import random
import re
import requests
import xlwt
import xlrd
import time
from xlutils.copy import copy
import pandas as pd
from pyecharts import Map, Geo
# 設(shè)置起始時(shí)間
start = time.time()
# 常用的請(qǐng)求頭部
userAgentList = [
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)',
'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)',
'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11',
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',
'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)',
'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0',
'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
]
# 隨機(jī)選擇一個(gè)
userAgent = random.choice(userAgentList)
# 傳遞給header
headers = {'User-Agent': userAgent}
# 初始化表格存放地址和命名
xlPath = 'IpMap.xlsx'
# 從網(wǎng)站上獲取數(shù)據(jù)并存入列表
def getData():
......略......
# 創(chuàng)建表格并設(shè)置表格樣式
def createTable():
# 新建一個(gè)表格
wb = xlwt.Workbook()
# 給表格新建一個(gè)sheet
sheet = wb.add_sheet('sheet1', cell_overwrite_ok=True)
# 創(chuàng)建一個(gè)樣式對(duì)象并初始化樣式
style = xlwt.XFStyle()
# 創(chuàng)建一個(gè)對(duì)齊方式的對(duì)象
al = xlwt.Alignment()
# 設(shè)置水平居中
al.horz = 0X02
# 設(shè)置垂直居中
al.vert = 0X01
style.alignment = al
# 寫表頭
sheet.write(0, 0, '用戶名', style)
sheet.write(0, 1, 'IP地址', style)
sheet.write(0, 2, '歸屬地', style)
sheet.write(0, 3, '地名', style)
sheet.write(0, 4, '頻率', style)
# 保存數(shù)據(jù)
wb.save(xlPath)
# 追加寫入用戶名
def addName():
# 打開表格
wb = xlrd.open_workbook(xlPath)
# 獲取所有sheet
sheets = wb.sheet_names()
# 獲取第一個(gè)sheet
sheet = wb.sheet_by_name(sheets[0])
# 獲取所有存在數(shù)據(jù)的行數(shù)
oldRows = sheet.nrows
# 將xlrd對(duì)象copy轉(zhuǎn)化為xlwt對(duì)象
newWb = copy(wb)
# 獲取轉(zhuǎn)換后的第一個(gè)sheet
newSheet = newWb.get_sheet(0)
# 追加寫入數(shù)據(jù)
for i in range(0, len(name)):
newSheet.write(i + oldRows, 0, name[i])
# 保存表格
newWb.save(xlPath)
# 追加寫入用戶IP地址
def addIp():
# 打開表格
wb = xlrd.open_workbook(xlPath)
# 將xlrd對(duì)象copy轉(zhuǎn)化為xlwt對(duì)象
newWb = copy(wb)
# 獲取轉(zhuǎn)換后的第一個(gè)sheet
newSheet = newWb.get_sheet(0)
# 追加寫入數(shù)據(jù)
for i in range(0, len(ip)):
newSheet.write(i + 1, 1, ip[i])
# 保存表格
newWb.save(xlPath)
# IP地址去重
def dropDuplicates():
frame = pd.read_excel(xlPath)
data = pd.DataFrame(frame)
# subset:需要去重的列名集合;
# keep:first保留首項(xiàng)(默認(rèn))焊刹,last保留尾項(xiàng)系任,F(xiàn)alse全部刪除;
# inplace:布爾值虐块,默認(rèn)為False俩滥,是否直接在原數(shù)據(jù)上刪除重復(fù)項(xiàng)或刪除重復(fù)項(xiàng)后返回副本。
data.drop_duplicates(subset=['IP地址'], keep='first', inplace=True)
data.to_excel(xlPath)
# 讀取表格里的Ip信息贺奠,存入列表
def readIp():
# 初始化ipList列表
global ipList
ipList = []
# 打開表格
wb = xlrd.open_workbook(xlPath)
# 獲取所有sheet
sheets = wb.sheet_names()
# 獲取第一個(gè)sheet
sheet = wb.sheet_by_name(sheets[0])
# 獲取整列的值
ipList = sheet.col_values(2)
# 使用del按索引刪除列表中指定位置的元素
del ipList[0]
# 獲取IP的歸屬地信息
def getArea():
# 初始化area列表
global area
area = []
# 循環(huán)查詢IP地址
for i in ipList:
url = 'http://ip.taobao.com/outGetIpInfo?ip=' + i + '&accessKey=alibaba-inc'
response = requests.get(url, headers=headers)
if response.json()['code'] == 0:
DetailedAddress = response.json()['data']
city = DetailedAddress['city']
area.append(city)
else:
area.append('未知')
# 追加寫入IP歸屬地
def addArea():
# 打開表格
wb = xlrd.open_workbook(xlPath)
# 將xlrd對(duì)象copy轉(zhuǎn)化為xlwt對(duì)象
newWb = copy(wb)
# 獲取轉(zhuǎn)換后的第一個(gè)sheet
newSheet = newWb.get_sheet(0)
# 追加寫入數(shù)據(jù)
for i in range(0, len(area)):
newSheet.write(i + 1, 3, area[i])
# 保存表格
newWb.save(xlPath)
# 從表格中讀取歸屬地霜旧,存入列表
def readArea():
# 初始化全局變量
global areaList
areaList = []
# 打開表格
wb = xlrd.open_workbook(xlPath)
# 獲取所有sheet
sheets = wb.sheet_names()
# 獲取第一個(gè)sheet
sheet = wb.sheet_by_name(sheets[0])
# 獲取整列的值
areaList = sheet.col_values(3)
# 使用del按索引刪除列表中指定位置的元素
del areaList[0]
# 數(shù)據(jù)統(tǒng)計(jì)
def dataCount():
# 初始化去重后的歸屬地列表
global areaSet
areaSet = []
# 去重歸屬地
areaSet = list(set(areaList))
# 初始化頻率列表
global timesCount
timesCount = []
# 循環(huán)統(tǒng)計(jì)頻率次數(shù)存入列表
for i in areaSet:
timesCount.append(areaList.count(i))
# 創(chuàng)建字典
timesDic = dict(zip(areaSet, timesCount))
# 按timesCount對(duì)字典進(jìn)行排序
timesDic = sorted(timesDic.items(), key=lambda item: item[1], reverse=True)
# 打開表格
wb = xlrd.open_workbook(xlPath)
# 將xlrd對(duì)象copy轉(zhuǎn)化為xlwt對(duì)象
newWb = copy(wb)
# 獲取轉(zhuǎn)換后的第一個(gè)sheet
newSheet = newWb.get_sheet(0)
# 草,有沒有誰(shuí)能告訴我為什么直接輸出字典鍵值對(duì)到Excel的順序是亂的
# 在2.7-3.5的python版本中,字典的鍵值對(duì)是按照哈希表的存儲(chǔ)順序排列輸出的挂据,而在3.6及以上版本中以清,
# 字典的鍵值對(duì)是按照初始化時(shí)的排列順序輸出的。
# 那為什么print()打印出來(lái)又是有序的捌樘印掷倔?
# print()內(nèi)部調(diào)用的方法不同的嗎?
# 聲明兩個(gè)列表用來(lái)存放字典中的keys,values
kList = []
vList = []
for k, v in timesDic:
kList.append(k)
vList.append(v)
# 循環(huán)將數(shù)據(jù)寫入excel
for i in range(0, len(kList)):
newSheet.write(i + 1, 4, kList[i])
newSheet.write(i + 1, 5, vList[i])
newWb.save(xlPath)
# 終于排好序輸出了个绍,命都差點(diǎn)去掉半條
# 畫圖部分
def drawArea():
geo = Geo("IP歸屬地統(tǒng)計(jì)圖", title_color="#303843", width=1100, height=600, background_color='#404A59')
geo.add("IP歸屬地頻率", areaSet, timesCount, type='heatmap', is_random=True, visual_range=[0, 15],
visual_text_color="#fff", symbol_size=15, is_visualmap=True, is_roam=False)
geo.show_config()
geo.render(path="IP歸屬地統(tǒng)計(jì)圖.html")
# 請(qǐng)一截一截地運(yùn)行勒葱,備份數(shù)據(jù),請(qǐng)勿短時(shí)間內(nèi)多次調(diào)試運(yùn)行巴柿,IP很珍貴的
#第一截:爬取數(shù)據(jù)凛虽,寫入Excel并進(jìn)行去重處理
# 爬取數(shù)據(jù)
getData()
# 創(chuàng)建表格
createTable()
# 寫入用戶名
addName()
# 寫入IP地址
addIp()
# 去重
dropDuplicates()
# 第二截:獲取IP歸屬地,并存入Excel
# 讀取IP列表
readIp()
# 獲取位置信息
getArea()
# 寫入位置信息
addArea()
# 第三截:對(duì)Excel中的數(shù)據(jù)做統(tǒng)計(jì)處理广恢,并繪制地圖
# 讀取位置列表
readArea()
# 數(shù)據(jù)統(tǒng)計(jì)
dataCount()
# 畫圖
drawArea()
# 設(shè)置終止時(shí)間
end = time.time()
print("總共用時(shí):" + str(end - start))