通過高德地圖抓起所有城市的銀行信息

目標:通過高德地圖的搜索接口姑尺,抓取每個城市的所有銀行的分行信息

思路:1. 在本地mysql中存儲有全國各城市名稱竟终、編碼

  1. 將城市編碼讀取到數(shù)組中

  2. 按照數(shù)據(jù)讀取每個編碼,組拼URL切蟋,通過POST請求訪問接口

  3. 獲取xml后解析出我們需要的數(shù)據(jù)统捶,插入到mysql中

第一步,定義訪問接口的基本參數(shù)

file_name='result.txt'          # write result to this file

url_header='http://restapi.amap.com/v3/place/text?&keyword=&types=160100&'

url_end='&citylimit=true&&output=xml&offset=20&page=1&key=c787ae8e49424a657127c3ed64cfe053&extensions=base'

url_amap='city='

each_page_rec=20          # results that displays in one page

xml_file='tmp.xml'           # xml filen name

第二步,建立本地數(shù)據(jù)庫訪問請求喘鸟,獲取數(shù)據(jù)庫中的所有城市編碼
首先匆绣,在本地mysql中建立一張region表,可以從網上down一份全國各地省市區(qū)編碼表什黑,結構如下圖:

省市區(qū)編碼表.png

為了方便大家崎淳,我將表的結構及數(shù)據(jù)導出為sql語句,直接復制到mysql中執(zhí)行即可愕把,鏈接如下 http://www.reibang.com/p/0b9b0e3cda5f

def getallcity():
    cityarr = []
    connection = pymysql.connect(host='127.0.0.1', user='root', passwd='123456', port=3306,
                                 db='icoachu', charset="utf8")
    cursor = connection.cursor()
    sql = "select * from region where parent_id in (select id from region where parent_id=0)"
    try:
        cursor.execute(sql)
        rows = cursor.fetchall()
        for row in rows:
            cityarr.append(row[0])
        return cityarr
    finally:
        cursor.close()
        connection.close()
    return cityarr

關于如何訪問本地mysql的拣凹,比較簡單,此處不做說明礼华,需要強調的是在try 語句中咐鹤,一定要在finally中關閉cursor及connection。

第三步圣絮,通過接口訪問獲取html數(shù)據(jù)祈惶,并將數(shù)據(jù)寫入到文件中

# get html by url and save the data to xml file
def gethtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    # print(html)

    try:
        # open xml file and save data to it
        with open(xml_file, 'wb+') as xml_file_handle:
            xml_file_handle.write(html)
    except IOError as err:
        print
        "IO error: " + str(err)
        return -1
    return 0

第四步,獲取xml格式的數(shù)據(jù)之后扮匠,解析相關字段捧请,并插入到mysql中

# phrase data from xml
def parsexml():
    total_rec = 1  # record number

    # open xml file and get data record
    try:
        with open(file_name, 'a') as file_handle:
            dom = minidom.parse(xml_file)
            root = dom.getElementsByTagName("response")  # The function getElementsByTagName returns NodeList.

            for node in root:
                total_rec = node.getElementsByTagName('count')[0].childNodes[0].nodeValue

                pois = node.getElementsByTagName("pois")
                for poi in pois[0].getElementsByTagName('poi'):
                    branch_id = poi.getElementsByTagName("id")[0].childNodes[0].nodeValue
                    branch_name = poi.getElementsByTagName("name")[0].childNodes[0].nodeValue
                    branch_type = poi.getElementsByTagName("type")[0].childNodes[0].nodeValue
                    bank_type = poi.getElementsByTagName("typecode")[0].childNodes[0].nodeValue
                    pname = poi.getElementsByTagName("pname")[0].childNodes[0].nodeValue
                    cityname = poi.getElementsByTagName("cityname")[0].childNodes[0].nodeValue
                    aname = poi.getElementsByTagName("adname")[0].childNodes[0].nodeValue
                    # address = poi.getElementsByTagName("address")[0].childNodes[0].nodeValue
                    # biz_type = poi.getElementsByTagName("biz_type")[0].childNodes[0].nodeValue
                    # tel = poi.getElementsByTagName("tel")[0].childNodes[0].nodeValue
                    # distance = poi.getElementsByTagName("distance")[0].childNodes[0].nodeValue
                    arr = branch_type.split(';')
                    bank_name = arr[-1]
                    sql = "insert into bankinfo(branch_id, branch_name, branch_type, bank_name, bank_type, pname, cityname, aname) values('%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s')" % (
                    branch_id, branch_name.replace('(', '').replace(')', ''), branch_type, bank_name, bank_type, pname, cityname, aname)

                    connection = pymysql.connect(host='127.0.0.1', user='root', passwd='123456', port=3306,
                                                 db='icoachu', charset="utf8")
                    cursor = connection.cursor()
                    try:
                        print(sql)
                        cursor.execute(sql)
                        connection.commit()
                        if cursor.rowcount != 1:
                            raise Exception("數(shù)據(jù)插入失敗%s", sql)
                    finally:
                        connection.close()
                        cursor.close()

    except IOError as err:
        print
        "IO error: " + str(err)

    return total_rec

第五步,在主函數(shù)中實現(xiàn)處理相關調用

if __name__ == '__main__':
    cityarr = getallcity()
    for cityId in cityarr:
        url = r'%scity=%s%s' % (url_header, cityId, url_end)
        if gethtml(url) == 0:
            total_record_str = parsexml()
            total_record = int(str(total_record_str))
            if (total_record % each_page_rec) != 0:
                page_number = total_record / each_page_rec + 2
            else:
                page_number = total_record / each_page_rec + 1

            for each_page in frange(2, float(page_number)):
                print
                'parsing page ' + str(each_page) + ' ... ...'
                url = url.replace('page=' + str(each_page - 1), 'page=' + str(each_page))
                print(url)
                gethtml(url)
                parsexml()
        else:
            print
            'error: fail to get xml from amap'

完整的代碼如下

# coding:utf-8


# 目標:通過高德地圖的搜索接口棒搜,抓取每個城市的所有銀行的分行信息
# 思路:1. 在本地mysql中存儲有全國各城市名稱疹蛉、編碼
#      2. 將城市編碼讀取到數(shù)組中
#      3. 按照數(shù)據(jù)讀取每個編碼,組拼URL力麸,通過POST請求訪問接口
#      4. 獲取xml后解析出我們需要的數(shù)據(jù)可款,插入到mysql中


import urllib
import xml.dom.minidom as minidom
import string
import urllib.request
import pymysql

file_name = 'result.txt'  # write result to this file
url_header = 'http://restapi.amap.com/v3/place/text?&keyword=&types=160100&'
url_end = '&citylimit=true&&output=xml&offset=20&page=1&key=c787ae8e49424a657127c3ed64cfe053&extensions=base'
url_amap = 'city='
each_page_rec = 20  # results that displays in one page
xml_file = 'tmp.xml'  # xml filen name


# get html by url and save the data to xml file
def gethtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    # print(html)

    try:
        # open xml file and save data to it
        with open(xml_file, 'wb+') as xml_file_handle:
            xml_file_handle.write(html)
    except IOError as err:
        print
        "IO error: " + str(err)
        return -1
    return 0


# phrase data from xml
def parsexml():
    total_rec = 1  # record number

    # open xml file and get data record
    try:
        with open(file_name, 'a') as file_handle:
            dom = minidom.parse(xml_file)
            root = dom.getElementsByTagName("response")  # The function getElementsByTagName returns NodeList.

            for node in root:
                total_rec = node.getElementsByTagName('count')[0].childNodes[0].nodeValue

                pois = node.getElementsByTagName("pois")
                for poi in pois[0].getElementsByTagName('poi'):
                    branch_id = poi.getElementsByTagName("id")[0].childNodes[0].nodeValue
                    branch_name = poi.getElementsByTagName("name")[0].childNodes[0].nodeValue
                    branch_type = poi.getElementsByTagName("type")[0].childNodes[0].nodeValue
                    bank_type = poi.getElementsByTagName("typecode")[0].childNodes[0].nodeValue
                    pname = poi.getElementsByTagName("pname")[0].childNodes[0].nodeValue
                    cityname = poi.getElementsByTagName("cityname")[0].childNodes[0].nodeValue
                    aname = poi.getElementsByTagName("adname")[0].childNodes[0].nodeValue
                    # address = poi.getElementsByTagName("address")[0].childNodes[0].nodeValue
                    # biz_type = poi.getElementsByTagName("biz_type")[0].childNodes[0].nodeValue
                    # tel = poi.getElementsByTagName("tel")[0].childNodes[0].nodeValue
                    # distance = poi.getElementsByTagName("distance")[0].childNodes[0].nodeValue
                    arr = branch_type.split(';')
                    bank_name = arr[-1]
                    sql = "insert into bankinfo(branch_id, branch_name, branch_type, bank_name, bank_type, pname, cityname, aname) values('%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s')" % (
                    branch_id, branch_name.replace('(', '').replace(')', ''), branch_type, bank_name, bank_type, pname, cityname, aname)

                    connection = pymysql.connect(host='127.0.0.1', user='root', passwd='123456', port=3306,
                                                 db='icoachu', charset="utf8")
                    cursor = connection.cursor()
                    try:
                        print(sql)
                        cursor.execute(sql)
                        connection.commit()
                        if cursor.rowcount != 1:
                            raise Exception("數(shù)據(jù)插入失敗%s", sql)
                    finally:
                        connection.close()
                        cursor.close()

    except IOError as err:
        print
        "IO error: " + str(err)

    return total_rec


def frange(start, stop, step=1):
    i = start
    while i < stop:
        yield i
        i += step


def getallcity():
    cityarr = []
    connection = pymysql.connect(host='127.0.0.1', user='root', passwd='123456', port=3306,
                                 db='icoachu', charset="utf8")
    cursor = connection.cursor()
    sql = "select * from region where parent_id in (select id from region where parent_id=0)"
    try:
        cursor.execute(sql)
        rows = cursor.fetchall()
        for row in rows:
            cityarr.append(row[0])
        return cityarr
    finally:
        cursor.close()
        connection.close()
    return cityarr


if __name__ == '__main__':
    cityarr = getallcity()
    for cityId in cityarr:
        url = r'%scity=%s%s' % (url_header, cityId, url_end)
        if gethtml(url) == 0:
            total_record_str = parsexml()
            total_record = int(str(total_record_str))
            if (total_record % each_page_rec) != 0:
                page_number = total_record / each_page_rec + 2
            else:
                page_number = total_record / each_page_rec + 1

            for each_page in frange(2, float(page_number)):
                print
                'parsing page ' + str(each_page) + ' ... ...'
                url = url.replace('page=' + str(each_page - 1), 'page=' + str(each_page))
                print(url)
                gethtml(url)
                parsexml()
        else:
            print
            'error: fail to get xml from amap'

數(shù)據(jù)庫中數(shù)據(jù)如下:

查詢結果.png
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市克蚂,隨后出現(xiàn)的幾起案子闺鲸,更是在濱河造成了極大的恐慌,老刑警劉巖埃叭,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件摸恍,死亡現(xiàn)場離奇詭異,居然都是意外死亡赤屋,警方通過查閱死者的電腦和手機立镶,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來类早,“玉大人媚媒,你說我怎么就攤上這事∩В” “怎么了欣范?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵变泄,是天一觀的道長。 經常有香客問我恼琼,道長妨蛹,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任晴竞,我火速辦了婚禮蛙卤,結果婚禮上,老公的妹妹穿的比我還像新娘噩死。我一直安慰自己颤难,他們只是感情好,可當我...
    茶點故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布已维。 她就那樣靜靜地躺著行嗤,像睡著了一般。 火紅的嫁衣襯著肌膚如雪垛耳。 梳的紋絲不亂的頭發(fā)上栅屏,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天,我揣著相機與錄音堂鲜,去河邊找鬼栈雳。 笑死,一個胖子當著我的面吹牛缔莲,可吹牛的內容都是我干的哥纫。 我是一名探鬼主播,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼痴奏,長吁一口氣:“原來是場噩夢啊……” “哼蛀骇!你這毒婦竟也來了?” 一聲冷哼從身側響起读拆,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤松靡,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后建椰,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡岛马,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年棉姐,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片啦逆。...
    茶點故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡伞矩,死狀恐怖,靈堂內的尸體忽然破棺而出夏志,到底是詐尸還是另有隱情乃坤,我是刑警寧澤,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站湿诊,受9級特大地震影響狱杰,放射性物質發(fā)生泄漏。R本人自食惡果不足惜厅须,卻給世界環(huán)境...
    茶點故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一仿畸、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧朗和,春花似錦错沽、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至忆植,卻和暖如春放可,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背唱逢。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工吴侦, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人坞古。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓备韧,卻偏偏與公主長得像,于是被迫代替她去往敵國和親痪枫。 傳聞我的和親對象是個殘疾皇子织堂,可洞房花燭夜當晚...
    茶點故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內容

  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務發(fā)現(xiàn)奶陈,斷路器易阳,智...
    卡卡羅2017閱讀 134,628評論 18 139
  • 1. Java基礎部分 基礎部分的順序:基本語法,類相關的語法吃粒,內部類的語法潦俺,繼承相關的語法,異常的語法徐勃,線程的語...
    子非魚_t_閱讀 31,598評論 18 399
  • 國家電網公司企業(yè)標準(Q/GDW)- 面向對象的用電信息數(shù)據(jù)交換協(xié)議 - 報批稿:20170802 前言: 排版 ...
    庭說閱讀 10,916評論 6 13
  • 分手很久事示,我還是喜歡你,即使很喜歡也知道我們再也不可能在一起了僻肖,不久的將來肖爵,你會娶別的女孩,我會嫁給別的男生臀脏,此生...
    Mermaid66閱讀 193評論 0 0
  • 貪婪劝堪,不知足的表現(xiàn)形式是完美主義冀自。我們要做到有舍才有得,先定一個小目標秒啦。 耶穌于是對眾人說:“你們要謹慎自守熬粗,免去...
    Charging99閱讀 145評論 0 0