基于百度地圖API的城市數(shù)據(jù)采集方式

在進(jìn)行定量城市分析時(shí)(如研究某市某片區(qū)的空間分析)戳气,需要用到地理位置信息以及現(xiàn)狀設(shè)施建筑等的分布情況鳖链,這就必須獲得相關(guān)的地理坐標(biāo)信息喳坠。因此數(shù)據(jù)的獲取與處理是進(jìn)行定量城市分析所需的前置作業(yè),此階段的工作決定了后續(xù)分析的效度和質(zhì)量夏块。

一遥赚、使用工具

這里采集數(shù)據(jù)使用到的工具是火車頭采集器8.5扬舒。

火車頭采集器一款互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理凫佛、分析讲坎,挖掘軟件,可以抓取網(wǎng)頁(yè)上散亂分布的數(shù)據(jù)信息愧薛,并通過(guò)一系列的分析處理晨炕,準(zhǔn)確挖掘出所需數(shù)據(jù)。

特點(diǎn):采集不限網(wǎng)頁(yè)厚满,不限內(nèi)容府瞄;

分布式采集系統(tǒng),提高效率;

支持PHP和C#插件擴(kuò)展遵馆,方便修改處理數(shù)據(jù)鲸郊,但需要懂得火車頭規(guī)則或者正則表達(dá)式。

二货邓、數(shù)據(jù)采集方式--基于百度地圖API的數(shù)據(jù)采集

? API是一些預(yù)先定義的函數(shù)秆撮,目的是提供應(yīng)用程序開發(fā)人員基于某軟件或硬件得以訪問(wèn)一組程序的能力,而又無(wú)需訪問(wèn)源碼换况,或理解程序內(nèi)部工作機(jī)制的細(xì)節(jié)职辨。API服務(wù)商在提供數(shù)據(jù)的同時(shí)也在收集用戶的信息,這是一個(gè)雙向過(guò)程戈二。

百度地圖Web服務(wù)API中提供了地點(diǎn)檢索服務(wù)舒裤、正/逆地理編碼服務(wù)、路線規(guī)劃觉吭、批量算數(shù)腾供、時(shí)區(qū)服務(wù)、坐標(biāo)轉(zhuǎn)換服務(wù)及鷹眼軌跡服務(wù)等鲜滩。其中地點(diǎn)檢索服務(wù)(又名Place API)伴鳖,提供多種場(chǎng)景的地點(diǎn)(POI)檢索功能,包括城市檢索徙硅、周邊檢索榜聂、矩形區(qū)域檢索。

以通過(guò)百度地圖API獲取綿陽(yáng)市飯店數(shù)據(jù)為例嗓蘑。

三须肆、數(shù)據(jù)采集步驟

1.申請(qǐng)百度地圖開放平臺(tái)開發(fā)者秘鑰

首先打開百度地圖開放平臺(tái)(http://lbsyun.baidu.com/index.php?title=%E9%A6%96%E9%A1%B5),點(diǎn)擊右上角控制臺(tái)桩皿,再點(diǎn)擊應(yīng)用管理→我的應(yīng)用→創(chuàng)建應(yīng)用休吠,申請(qǐng)開發(fā)者秘鑰(ak),并選擇以下服務(wù)項(xiàng)业簿。





申請(qǐng)后獲得的ak

2.通過(guò)接口獲取詳細(xì)地理信息

開發(fā)者可以通過(guò)接口獲取地點(diǎn)(POI)基礎(chǔ)或詳細(xì)地地理信息。其返回的是Json類型數(shù)據(jù)(一個(gè)區(qū)域最大返回?cái)?shù)是400阳懂,每頁(yè)最大返回?cái)?shù)為20)梅尤。當(dāng)某區(qū)域、岩调,某類POI個(gè)數(shù)多于400時(shí)巷燥,可以選擇把該區(qū)域分成子區(qū)域進(jìn)行檢索或通過(guò)矩形、圓形區(qū)域方式進(jìn)行檢索查閱頁(yè)面中Place檢索格式和實(shí)例如下:

格式:http://api.map.baidu.com/place/search?&query=關(guān)鍵字&bounds=查詢區(qū)域&output=輸出格式類型&key=用戶密鑰

實(shí)例:http://api.map.baidu.com/place/search?&query=ATM機(jī)&bounds=綿陽(yáng)&output=json&ak=你的密鑰?(你的秘鑰就是上一步申請(qǐng)得到的)

(什么是Place API詳細(xì)說(shuō)明可見此網(wǎng)址https://developer.baidu.com/map/place-api.htm#.E4.BB.80.E4.B9.88.E6.98.AFPlace_API.EF.BC.9F)

其中“關(guān)鍵字”号枕、“查詢區(qū)域”缰揪、“輸出格式類型”、“用戶秘鑰”可以根據(jù)自己的需要替換,而page_num為選填項(xiàng)钝腺,表示分頁(yè)碼抛姑,因?yàn)橹挥性O(shè)置了page_num字段才會(huì)在結(jié)果頁(yè)面中返回標(biāo)識(shí)總條數(shù)的total字段,方便在火車采集器中做相關(guān)設(shè)置艳狐,如下:

http://api.map.baidu.com/place/v2/search?&query=飯店&tage=美食&region=綿陽(yáng)&output=json&page_num=0&ak=kRA0vIfH6UHEVYUAhPLnkS72BwtVBYnI

訪問(wèn)該網(wǎng)址定硝,返回結(jié)果如下圖:

3.用火車頭采集器采集地理信息

在火車頭軟件中,首先點(diǎn)擊左上角的“新建”毫目,然后點(diǎn)擊“分組”進(jìn)入新建界面自己命名然后保存既可蔬啡。建好分組后,再點(diǎn)擊新建镀虐。然后點(diǎn)擊“任務(wù)”箱蟆,命名為“百度API”。


然后在第一步--采集規(guī)則頁(yè)面刮便,點(diǎn)擊“添加”鍵空猜,在添加開始采集網(wǎng)址頁(yè)面,選擇“批量/多頁(yè)”方式獲取地址格式诺核,在地址格式一欄中填入Place檢索鏈接抄肖,并將page_num字段用(*)標(biāo)識(shí)為變量,選擇等差數(shù)量方式窖杀,在項(xiàng)數(shù)與返回Json結(jié)果中total字段一致漓摩,公差為1。

在訪問(wèn)百度地圖API接口返回的Json網(wǎng)頁(yè)中入客,在需要提取信息處復(fù)制該條信息管毙。例如復(fù)制此處獲得“name”:周肥腸(總店)”,桌硫。

在火車頭采集器第二步采集內(nèi)容規(guī)則頁(yè)面夭咬,添加標(biāo)簽,標(biāo)簽名填入“名稱”铆隘,提取數(shù)據(jù)方式處選擇“前后截取”卓舵,在標(biāo)簽編輯頁(yè)用(*)代替要采集的內(nèi)容,并將要采集內(nèi)容的前后內(nèi)容分別填入“開始字符串”膀钠、“結(jié)束字符串處”掏湾。

經(jīng)度、緯度的獲取方式與“名稱”方式相同肿嘲。

添加完成后融击,點(diǎn)擊規(guī)則測(cè)試頁(yè)面的“測(cè)試”鍵,對(duì)POI的“名稱”雳窟、“經(jīng)度”尊浪、“緯度”三種標(biāo)簽進(jìn)行測(cè)試,測(cè)試可以得到正確獲取信息之后,進(jìn)入“第三步:發(fā)布內(nèi)容設(shè)置”頁(yè)面拇涤,選擇“方式二:保存為本地Word捣作,Excel,Html工育,Txt等文件”虾宇,并制作與標(biāo)簽相對(duì)應(yīng)的Gsv格式的模板,完成后如绸,點(diǎn)擊“保存”按鈕嘱朽,采集數(shù)據(jù)就完成了。

退回到主界面怔接,在“采網(wǎng)頁(yè)”及“采內(nèi)容”下打?qū)刺掠荆c(diǎn)擊開始任務(wù),即可完成百度地圖綿陽(yáng)市飯店的數(shù)據(jù)獲取扼脐。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末岸军,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子瓦侮,更是在濱河造成了極大的恐慌艰赞,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,331評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件肚吏,死亡現(xiàn)場(chǎng)離奇詭異方妖,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)罚攀,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,372評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門党觅,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人斋泄,你說(shuō)我怎么就攤上這事杯瞻。” “怎么了炫掐?”我有些...
    開封第一講書人閱讀 167,755評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵魁莉,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我募胃,道長(zhǎng)沛厨,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,528評(píng)論 1 296
  • 正文 為了忘掉前任摔认,我火速辦了婚禮,結(jié)果婚禮上宅粥,老公的妹妹穿的比我還像新娘参袱。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,526評(píng)論 6 397
  • 文/花漫 我一把揭開白布抹蚀。 她就那樣靜靜地躺著剿牺,像睡著了一般。 火紅的嫁衣襯著肌膚如雪环壤。 梳的紋絲不亂的頭發(fā)上晒来,一...
    開封第一講書人閱讀 52,166評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音郑现,去河邊找鬼湃崩。 笑死,一個(gè)胖子當(dāng)著我的面吹牛接箫,可吹牛的內(nèi)容都是我干的攒读。 我是一名探鬼主播,決...
    沈念sama閱讀 40,768評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼辛友,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼薄扁!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起废累,我...
    開封第一講書人閱讀 39,664評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤邓梅,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后邑滨,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體日缨,經(jīng)...
    沈念sama閱讀 46,205評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,290評(píng)論 3 340
  • 正文 我和宋清朗相戀三年驼修,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了殿遂。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,435評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡乙各,死狀恐怖墨礁,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情耳峦,我是刑警寧澤恩静,帶...
    沈念sama閱讀 36,126評(píng)論 5 349
  • 正文 年R本政府宣布,位于F島的核電站蹲坷,受9級(jí)特大地震影響驶乾,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜循签,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,804評(píng)論 3 333
  • 文/蒙蒙 一级乐、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧县匠,春花似錦风科、人聲如沸撒轮。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,276評(píng)論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)题山。三九已至,卻和暖如春故痊,著一層夾襖步出監(jiān)牢的瞬間顶瞳,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工愕秫, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留慨菱,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,818評(píng)論 3 376
  • 正文 我出身青樓豫领,卻偏偏與公主長(zhǎng)得像抡柿,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子等恐,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,442評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容