使用百度地圖API進行數(shù)據(jù)清理

事情是這樣的峻呕,我有一大堆用戶的的個人數(shù)據(jù)利职,數(shù)據(jù)中包含用戶的”住址“這個字段。住址可能來源于身份證上的地址瘦癌,也有可能是手工錄入的地址猪贪,比如地址是“南京金陵飯店”。為了對用戶住址進行更精確的定位讯私,需要將地址轉(zhuǎn)換成更加規(guī)范的格式热押,形如(省,市斤寇,區(qū)桶癣,街道,街道號)這樣的形式抡驼」砝“南京金陵飯店”就會被映射為(江蘇省,南京市致盟,鼓樓區(qū)碎税,漢中路, 2號).

使用手工的方式來轉(zhuǎn)換肯定是不現(xiàn)實的,一定需要借助于工具馏锡。開始考慮過通過關(guān)鍵字匹配的方式進行轉(zhuǎn)換雷蹂,比如把地址中包含“鼓樓區(qū)”的映射到(江蘇省,南京市杯道,鼓樓區(qū)匪煌,,)党巾。 但這樣有兩個弱點:

  1. 覆蓋率低萎庭,很多地址是XXX小區(qū),或直接寫成XXX街道XX號齿拂。
  2. 準確率低驳规,只能精確到區(qū)縣級別。

最后選擇是用百度地圖提供的API (http://lbsyun.baidu.com/ )來進行轉(zhuǎn)換署海。百度地圖提供了
a. 地址解析吗购,將文本描述的地址轉(zhuǎn)換成坐標医男。
b.逆地址解析, 將坐標轉(zhuǎn)換陳格式化的地址捻勉。

基本思路是 輸入文本->獲取坐標->轉(zhuǎn)換成格式化的文本镀梭。

但是現(xiàn)在的問題是API對調(diào)用次數(shù)有限制,未認證用戶每天限6000次踱启,大致算了下报账,差不多要10多天才算的完。我又不想去弄個認證禽捆,咋辦呢笙什?

百度地圖API提供一個演示平臺 http://lbsyun.baidu.com/jsdemo.htm#i7_1

image.png

支持通過編輯代碼來執(zhí)行自己的功能,而在這里執(zhí)行的代碼是 沒有 API調(diào)用次數(shù)限制的胚想。但是前端執(zhí)行的代碼琐凭,數(shù)據(jù)輸出是一個大問題。內(nèi)容不能直接輸出成文件浊服,更不能輸出到數(shù)據(jù)庫了统屈。最常用的輸出也就是輸出到控制臺上,但是對于大量數(shù)據(jù)來說牙躺,如何把console上的數(shù)據(jù)采集回來有是一個問題愁憔。 我們選擇把數(shù)據(jù)存儲到localstorage中去,這樣既能保持數(shù)據(jù)的格式良好孽拷,又便于數(shù)據(jù)的收集吨掌。要做的事情也很簡單

  1. 定義一個大的數(shù)組
  2. 通過setInterval的方式調(diào)用下面的函數(shù),先進行地址轉(zhuǎn)換得到坐標脓恕,再進行逆地址轉(zhuǎn)換得到格式化的地址膜宋,最后存入localstorage。
function getLocation(address)
  {
    var currentLocation = address;
    myGeo.getPoint(currentLocation, function(point){
        if (point) {
          myGeo.getLocation(point, function(rs){

            if(rs && rs.addressComponents){
                var addComp = rs.addressComponents;
                var newAddress = addComp.province + ", " + addComp.city + ", " + addComp.district + ", " + addComp.street + ", " + addComp.streetNumber;
                localStorage.setItem(currentLocation, newAddress);
            }
        }); 
        }else{
            //alert("您選擇地址沒有解析到結(jié)果!");
        }
    }, "重慶市");
  }

問題

對轉(zhuǎn)換結(jié)果進行分析炼幔,絕大部分轉(zhuǎn)換還是很準確秋茫,但還存在如下問題:

  1. 有些地址本身并沒有精確到街道號,但是轉(zhuǎn)換出來的地址中竟然包含街道號乃秀。我猜想在進行地址->坐標的轉(zhuǎn)換時肛著,API會把這個地址映射到系統(tǒng)內(nèi)部定義好的并和輸入的地址盡可能近的坐標,但是系統(tǒng)內(nèi)已定義的地址和輸入的地址并不是完全一致跺讯。而在進行逆地址解析時返回的就是系統(tǒng)已定義的地址枢贿。
  2. 對錯別字的容忍度較低。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末刀脏,一起剝皮案震驚了整個濱河市萨咕,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌火本,老刑警劉巖危队,帶你破解...
    沈念sama閱讀 210,914評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異钙畔,居然都是意外死亡茫陆,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,935評論 2 383
  • 文/潘曉璐 我一進店門擎析,熙熙樓的掌柜王于貴愁眉苦臉地迎上來簿盅,“玉大人,你說我怎么就攤上這事揍魂〗按祝” “怎么了?”我有些...
    開封第一講書人閱讀 156,531評論 0 345
  • 文/不壞的土叔 我叫張陵现斋,是天一觀的道長喜最。 經(jīng)常有香客問我,道長庄蹋,這世上最難降的妖魔是什么瞬内? 我笑而不...
    開封第一講書人閱讀 56,309評論 1 282
  • 正文 為了忘掉前任,我火速辦了婚禮限书,結(jié)果婚禮上虫蝶,老公的妹妹穿的比我還像新娘。我一直安慰自己倦西,他們只是感情好能真,可當我...
    茶點故事閱讀 65,381評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著扰柠,像睡著了一般粉铐。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上耻矮,一...
    開封第一講書人閱讀 49,730評論 1 289
  • 那天秦躯,我揣著相機與錄音,去河邊找鬼裆装。 笑死踱承,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的哨免。 我是一名探鬼主播茎活,決...
    沈念sama閱讀 38,882評論 3 404
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼琢唾!你這毒婦竟也來了载荔?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,643評論 0 266
  • 序言:老撾萬榮一對情侶失蹤采桃,失蹤者是張志新(化名)和其女友劉穎懒熙,沒想到半個月后丘损,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,095評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡工扎,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,448評論 2 325
  • 正文 我和宋清朗相戀三年徘钥,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片肢娘。...
    茶點故事閱讀 38,566評論 1 339
  • 序言:一個原本活蹦亂跳的男人離奇死亡呈础,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出橱健,到底是詐尸還是另有隱情而钞,我是刑警寧澤,帶...
    沈念sama閱讀 34,253評論 4 328
  • 正文 年R本政府宣布拘荡,位于F島的核電站臼节,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏俱病。R本人自食惡果不足惜官疲,卻給世界環(huán)境...
    茶點故事閱讀 39,829評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望亮隙。 院中可真熱鬧途凫,春花似錦、人聲如沸溢吻。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,715評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽促王。三九已至犀盟,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蝇狼,已是汗流浹背阅畴。 一陣腳步聲響...
    開封第一講書人閱讀 31,945評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留迅耘,地道東北人贱枣。 一個月前我還...
    沈念sama閱讀 46,248評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像颤专,于是被迫代替她去往敵國和親纽哥。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,440評論 2 348

推薦閱讀更多精彩內(nèi)容