【Python】DAY04-05蟋座，爬取某網(wǎng)站的用戶名和IP地址拗踢，根據(jù)IP歸屬地繪制地圖

需求分析

從某網(wǎng)站上，抓取若干用戶名和IP地址向臀，并根據(jù)地址的歸屬地和出現(xiàn)頻率生成一張地圖秒拔。

流程步驟

（1）抓取數(shù)據(jù)

（2）數(shù)據(jù)存入Excel表格

（3）數(shù)據(jù)去重，過濾重復(fù)IP

（4）讀取Excel表格里的IP飒硅，依次向IP查詢工具網(wǎng)站請(qǐng)求查詢結(jié)果

（5）將查詢結(jié)果存入Excel表格

（6）統(tǒng)計(jì)出查詢結(jié)果中各城市的出現(xiàn)頻率砂缩，從大到小排序

（7）用[城市-出現(xiàn)頻率]生成地圖。

工具環(huán)境

（1）Python版本：3.7.3

（2）pyecharts版本：0.1.9.4

（3）查詢IP的工具網(wǎng)站：http://ip.taobao.com

具體實(shí)現(xiàn)

（01）def getData():

爬取某網(wǎng)站數(shù)據(jù)三娩，獲取用戶名和IP地址庵芭，分別存入兩個(gè)列表：name 和 ip。

（02）def createTable():

創(chuàng)建表格雀监，設(shè)置樣式双吆，寫入的表頭格式如下：

image.png

（03）def addName():

將抓取到的用戶名列表name存入Excel表格中的[用戶名]列。

（04）def addIp():
將抓取到的IP地址列表ip存入Excel表格中的[IP地址]列会前。

（05）def dropDuplicates():
IP地址去重好乐。由于該網(wǎng)站用戶名可以重復(fù)，并且存在有在不同的網(wǎng)頁(yè)中瓦宜，抓取到同一位用戶的情況蔚万。所以進(jìn)行IP地址去重，根據(jù)IP地址判斷是否為同一用戶临庇，如果是反璃，則過濾掉昵慌。

（06）def readIp():
從Excel中讀取去重后的IP地址，存為列表ipList淮蜈。

（07）def getArea():
依次從IP地址列表ipList中取值斋攀，向IP查詢的工具網(wǎng)站[http://ip.taobao.com]請(qǐng)求結(jié)果，獲取結(jié)果中的城市名稱[city]梧田，存入列表city淳蔼；如果沒有獲取到城市名稱，則寫入[未知]裁眯。

（08）def addArea():
將獲取到的城市名稱列表city中的數(shù)據(jù)肖方，存入Excel表格中的[歸屬地]列。

（09）def readArea():
讀取Excel表格中的[歸屬地]列未状，存為areaList俯画。（話說(shuō)這里我為什么不直接用上面抓取到的city列表得了......魚的記憶啊......）

（10）def dataCount():
做數(shù)據(jù)統(tǒng)計(jì)。首先是歸屬地去重司草，去重后的歸屬地存為areaSet艰垂；再?gòu)腶reaSet中依次取值，統(tǒng)計(jì)每個(gè)城市在城市名稱列表areaList里出現(xiàn)過多少次埋虹，將次數(shù)存入timesCount列表猜憎；將areaSet和timesCount以鍵值對(duì)的方式存入字典timesDic，按值[values]從大到小排序搔课。將排序后的鍵值對(duì)依次存入Excel表格的[地名]和[頻率]兩列胰柑。

image.png

（11）def drawArea():
利用pyecharts模塊中的Map，Geo繪制中國(guó)地圖（省爬泥、直轄市邊界線）柬讨。

image.png

廢話連篇：

從網(wǎng)站爬數(shù)據(jù)的時(shí)候，我的參數(shù)就好像一個(gè)軍隊(duì)方陣袍啡，我是指揮官踩官。然后我喊“開槍！”境输，所有人依次舉起槍朝面前開槍蔗牡，BoomBoomBoom，后面的士兵就把前面的士兵干掉了嗅剖。我和最后面的一排兵面面相覷辩越，我的兵呢。（有張動(dòng)圖找不到了）

其實(shí)做了不少無(wú)用功信粮，比如重復(fù)定義同樣的變量黔攒，明明直接拿來(lái)用就好了。

Python3.5以后的版本中，字典的鍵值對(duì)是按照初始化時(shí)的排列順序輸出的亏钩，但是經(jīng)過sorted()排序后莲绰，print()輸出的是排序后的數(shù)值欺旧，寫入Excel表格中卻是未經(jīng)排序的姑丑，print()輸出的邏輯和write()的不同嗎？這點(diǎn)還沒搞明白辞友。

總而言之還是有很多的收獲栅哀，比如Excel文件的讀寫，Python中的列表称龙、字典留拾，數(shù)據(jù)的統(tǒng)計(jì)、排序鲫尊，以及明白了IP很珍貴的這個(gè)道理痴柔，所以不要在寫爬蟲的時(shí)候，有事沒事調(diào)試運(yùn)行一下疫向，會(huì)被網(wǎng)站判定為訪問異常的咳蔚。不過睡一覺醒來(lái)就好了，換個(gè)IP也行搔驼。

程序要一截一截地運(yùn)行谈火，爬到滿意的數(shù)據(jù)以后就不要再反復(fù)爬了，擔(dān)心被覆寫/被打亂的話可以備份一下舌涨，IP珍貴糯耍，不要反復(fù)爬。

最后囊嘉，感慨我的美術(shù)修養(yǎng)實(shí)在不行温技，地圖的配色都是從網(wǎng)上嫖來(lái)的。

參考資料：

python xlwt 設(shè)置單元格樣式
 如何使用drop_duplicates進(jìn)行簡(jiǎn)單去重（入門篇）
python批量跑IP地址歸屬地的排坑之路
 python最全畫地圖扭粱，可視化數(shù)據(jù)

感謝各位老哥的技術(shù)分享荒揣！

源代碼：

# 環(huán)境：Python 3.7.3
#      pyecharts 0.1.9.4

import random
import re
import requests
import xlwt
import xlrd
import time
from xlutils.copy import copy
import pandas as pd
from pyecharts import Map, Geo

# 設(shè)置起始時(shí)間
start = time.time()

# 常用的請(qǐng)求頭部
userAgentList = [
    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
    'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
    'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
    'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
    'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)',
    'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)',
    'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
    'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',
    'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)',
    'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0',
    'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
]
# 隨機(jī)選擇一個(gè)
userAgent = random.choice(userAgentList)
# 傳遞給header
headers = {'User-Agent': userAgent}

# 初始化表格存放地址和命名
xlPath = 'IpMap.xlsx'

# 從網(wǎng)站上獲取數(shù)據(jù)并存入列表
def getData():
   ......略......


# 創(chuàng)建表格并設(shè)置表格樣式
def createTable():
    # 新建一個(gè)表格
    wb = xlwt.Workbook()
    # 給表格新建一個(gè)sheet
    sheet = wb.add_sheet('sheet1', cell_overwrite_ok=True)
    # 創(chuàng)建一個(gè)樣式對(duì)象并初始化樣式
    style = xlwt.XFStyle()
    # 創(chuàng)建一個(gè)對(duì)齊方式的對(duì)象
    al = xlwt.Alignment()
    # 設(shè)置水平居中
    al.horz = 0X02
    # 設(shè)置垂直居中
    al.vert = 0X01
    style.alignment = al

    # 寫表頭
    sheet.write(0, 0, '用戶名', style)
    sheet.write(0, 1, 'IP地址', style)
    sheet.write(0, 2, '歸屬地', style)
    sheet.write(0, 3, '地名', style)
    sheet.write(0, 4, '頻率', style)
    # 保存數(shù)據(jù)
    wb.save(xlPath)


# 追加寫入用戶名
def addName():
    # 打開表格
    wb = xlrd.open_workbook(xlPath)
    # 獲取所有sheet
    sheets = wb.sheet_names()
    # 獲取第一個(gè)sheet
    sheet = wb.sheet_by_name(sheets[0])
    # 獲取所有存在數(shù)據(jù)的行數(shù)
    oldRows = sheet.nrows
    # 將xlrd對(duì)象copy轉(zhuǎn)化為xlwt對(duì)象
    newWb = copy(wb)
    # 獲取轉(zhuǎn)換后的第一個(gè)sheet
    newSheet = newWb.get_sheet(0)

    # 追加寫入數(shù)據(jù)
    for i in range(0, len(name)):
        newSheet.write(i + oldRows, 0, name[i])
        # 保存表格
        newWb.save(xlPath)


# 追加寫入用戶IP地址
def addIp():
    # 打開表格
    wb = xlrd.open_workbook(xlPath)
    # 將xlrd對(duì)象copy轉(zhuǎn)化為xlwt對(duì)象
    newWb = copy(wb)
    # 獲取轉(zhuǎn)換后的第一個(gè)sheet
    newSheet = newWb.get_sheet(0)

    # 追加寫入數(shù)據(jù)
    for i in range(0, len(ip)):
        newSheet.write(i + 1, 1, ip[i])
        # 保存表格
        newWb.save(xlPath)


# IP地址去重
def dropDuplicates():
    frame = pd.read_excel(xlPath)
    data = pd.DataFrame(frame)
    # subset:需要去重的列名集合；
    # keep:first保留首項(xiàng)(默認(rèn))焊刹，last保留尾項(xiàng)系任，F(xiàn)alse全部刪除；
    # inplace:布爾值虐块，默認(rèn)為False俩滥，是否直接在原數(shù)據(jù)上刪除重復(fù)項(xiàng)或刪除重復(fù)項(xiàng)后返回副本。
    data.drop_duplicates(subset=['IP地址'], keep='first', inplace=True)
    data.to_excel(xlPath)


# 讀取表格里的Ip信息贺奠，存入列表
def readIp():
    # 初始化ipList列表
    global ipList
    ipList = []
    # 打開表格
    wb = xlrd.open_workbook(xlPath)
    # 獲取所有sheet
    sheets = wb.sheet_names()
    # 獲取第一個(gè)sheet
    sheet = wb.sheet_by_name(sheets[0])
    # 獲取整列的值
    ipList = sheet.col_values(2)
    # 使用del按索引刪除列表中指定位置的元素
    del ipList[0]


# 獲取IP的歸屬地信息
def getArea():
    # 初始化area列表
    global area
    area = []
    # 循環(huán)查詢IP地址
    for i in ipList:
        url = 'http://ip.taobao.com/outGetIpInfo?ip=' + i + '&accessKey=alibaba-inc'
        response = requests.get(url, headers=headers)
        if response.json()['code'] == 0:
            DetailedAddress = response.json()['data']
            city = DetailedAddress['city']
            area.append(city)
        else:
            area.append('未知')


# 追加寫入IP歸屬地
def addArea():
    # 打開表格
    wb = xlrd.open_workbook(xlPath)
    # 將xlrd對(duì)象copy轉(zhuǎn)化為xlwt對(duì)象
    newWb = copy(wb)
    # 獲取轉(zhuǎn)換后的第一個(gè)sheet
    newSheet = newWb.get_sheet(0)

    # 追加寫入數(shù)據(jù)
    for i in range(0, len(area)):
        newSheet.write(i + 1, 3, area[i])
        # 保存表格
        newWb.save(xlPath)


# 從表格中讀取歸屬地霜旧，存入列表
def readArea():
    # 初始化全局變量
    global areaList
    areaList = []
    # 打開表格
    wb = xlrd.open_workbook(xlPath)
    # 獲取所有sheet
    sheets = wb.sheet_names()
    # 獲取第一個(gè)sheet
    sheet = wb.sheet_by_name(sheets[0])
    # 獲取整列的值
    areaList = sheet.col_values(3)
    # 使用del按索引刪除列表中指定位置的元素
    del areaList[0]


# 數(shù)據(jù)統(tǒng)計(jì)
def dataCount():
    # 初始化去重后的歸屬地列表
    global areaSet
    areaSet = []
    # 去重歸屬地
    areaSet = list(set(areaList))
    # 初始化頻率列表
    global timesCount
    timesCount = []
    # 循環(huán)統(tǒng)計(jì)頻率次數(shù)存入列表
    for i in areaSet:
        timesCount.append(areaList.count(i))

    # 創(chuàng)建字典
    timesDic = dict(zip(areaSet, timesCount))
    # 按timesCount對(duì)字典進(jìn)行排序
    timesDic = sorted(timesDic.items(), key=lambda item: item[1], reverse=True)

    # 打開表格
    wb = xlrd.open_workbook(xlPath)
    # 將xlrd對(duì)象copy轉(zhuǎn)化為xlwt對(duì)象
    newWb = copy(wb)
    # 獲取轉(zhuǎn)換后的第一個(gè)sheet
    newSheet = newWb.get_sheet(0)

    # 草，有沒有誰(shuí)能告訴我為什么直接輸出字典鍵值對(duì)到Excel的順序是亂的
    # 在2.7-3.5的python版本中，字典的鍵值對(duì)是按照哈希表的存儲(chǔ)順序排列輸出的挂据，而在3.6及以上版本中以清，
    # 字典的鍵值對(duì)是按照初始化時(shí)的排列順序輸出的。
    # 那為什么print()打印出來(lái)又是有序的捌樘印掷倔？
    # print()內(nèi)部調(diào)用的方法不同的嗎？

    # 聲明兩個(gè)列表用來(lái)存放字典中的keys,values
    kList = []
    vList = []
    for k, v in timesDic:
        kList.append(k)
        vList.append(v)
    # 循環(huán)將數(shù)據(jù)寫入excel
    for i in range(0, len(kList)):
        newSheet.write(i + 1, 4, kList[i])
        newSheet.write(i + 1, 5, vList[i])
        newWb.save(xlPath)
    # 終于排好序輸出了个绍，命都差點(diǎn)去掉半條


# 畫圖部分
def drawArea():
    geo = Geo("IP歸屬地統(tǒng)計(jì)圖", title_color="#303843", width=1100, height=600, background_color='#404A59')
    geo.add("IP歸屬地頻率", areaSet, timesCount, type='heatmap', is_random=True, visual_range=[0, 15],
            visual_text_color="#fff", symbol_size=15, is_visualmap=True, is_roam=False)
    geo.show_config()
    geo.render(path="IP歸屬地統(tǒng)計(jì)圖.html")


# 請(qǐng)一截一截地運(yùn)行勒葱，備份數(shù)據(jù)，請(qǐng)勿短時(shí)間內(nèi)多次調(diào)試運(yùn)行巴柿，IP很珍貴的

#第一截：爬取數(shù)據(jù)凛虽，寫入Excel并進(jìn)行去重處理

# 爬取數(shù)據(jù)
getData()
# 創(chuàng)建表格
createTable()
# 寫入用戶名
addName()
# 寫入IP地址
addIp()
# 去重
dropDuplicates()

# 第二截：獲取IP歸屬地，并存入Excel

# 讀取IP列表
readIp()
# 獲取位置信息
getArea()
# 寫入位置信息
addArea()

# 第三截：對(duì)Excel中的數(shù)據(jù)做統(tǒng)計(jì)處理广恢，并繪制地圖

# 讀取位置列表
readArea()
# 數(shù)據(jù)統(tǒng)計(jì)
dataCount()
# 畫圖
drawArea()

# 設(shè)置終止時(shí)間
end = time.time()
print("總共用時(shí)：" + str(end - start))

最后編輯于：2020.11.09 13:21:54

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末凯旋，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子钉迷，更是在濱河造成了極大的恐慌至非，老刑警劉巖，帶你破解...
沈念sama閱讀 206,126評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件篷牌，死亡現(xiàn)場(chǎng)離奇詭異睡蟋，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)枷颊，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門戳杀，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人夭苗，你說(shuō)我怎么就攤上這事信卡。” “怎么了题造？”我有些...
開封第一講書人閱讀 152,445評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵傍菇，是天一觀的道長(zhǎng)。經(jīng)常有香客問我界赔，道長(zhǎng)丢习，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,185評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任淮悼，我火速辦了婚禮咐低，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘袜腥。我一直安慰自己见擦，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布。她就那樣靜靜地躺著鲤屡，像睡著了一般损痰。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上酒来，一...
開封第一講書人閱讀 48,970評(píng)論 1贊 284
城市分裂傳說(shuō)
那天卢未，我揣著相機(jī)與錄音，去河邊找鬼役首。笑死尝丐，一個(gè)胖子當(dāng)著我的面吹牛显拜，可吹牛的內(nèi)容都是我干的衡奥。我是一名探鬼主播，決...
沈念sama閱讀 38,276評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼远荠，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼矮固！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起譬淳，我...
開封第一講書人閱讀 36,927評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤档址，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后邻梆，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體守伸，經(jīng)...
沈念sama閱讀 43,400評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年浦妄，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了尼摹。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 37,997評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡剂娄，死狀恐怖蠢涝，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情阅懦，我是刑警寧澤和二，帶...
沈念sama閱讀 33,646評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站耳胎，受9級(jí)特大地震影響惯吕，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜怕午，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一废登、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧诗轻，春花似錦钳宪、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評(píng)論 0贊 19
一樁弒父案吏颖，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)搔体。三九已至，卻和暖如春半醉，著一層夾襖步出監(jiān)牢的瞬間疚俱，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,423評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工缩多，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留呆奕，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,423評(píng)論 2贊 352
代替公主和親
正文我出身青樓衬吆，卻偏偏與公主長(zhǎng)得像梁钾，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子逊抡，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評(píng)論 2贊 345