爬取攜程和螞蜂窩的景點評論數(shù)據(jù)\爬取攜程景點評論\爬取旅游網(wǎng)站評論

本人長期出售超大量微博數(shù)據(jù)、旅游網(wǎng)站評論數(shù)據(jù)谷异，并提供各種指定數(shù)據(jù)爬取服務(wù)界拦，Message to YuboonaZhang@Yahoo.com吸申。同時歡迎加入社交媒體數(shù)據(jù)交流群：99918768

前言

??為了獲取多源數(shù)據(jù)需要到各個網(wǎng)站獲取一些景點的評論信息和圖片，首先選到了攜程和螞蜂窩這兩個網(wǎng)站享甸，將一些爬取過程記錄下來

攜程

分析數(shù)據(jù)

??首先我們?nèi)y程的鼓浪嶼景點速覽看一下我們要爬取的頁面截碴，大概發(fā)現(xiàn)有幾十個景點，每個景點的結(jié)構(gòu)應(yīng)該都是差不多的蛉威，所以我們選擇第一個景點進(jìn)去看看具體的頁面應(yīng)該怎么爬取日丹。

[站外圖片上傳中...(image-14bb2e-1513948356467)]

我們需要的是紅圈的部分，很容易可以知道這個評論頁面是動態(tài)加載的蚯嫌，所以不能直接用bs4或者正則直接提取元素哲虾，我們需要分析一下頁面動態(tài)傳輸?shù)慕涌诒铩４蜷_chrome審查元素,切換到network查看一下傳輸?shù)膬?nèi)容，首先清空內(nèi)容避免干擾束凑，然后點擊下一頁晒旅，我們可以得到

[站外圖片上傳中...(image-f5a92b-1513948356467)]

通過查看傳回的數(shù)據(jù)我們可以得到這就是我們所要的接口，使用的是post進(jìn)行傳輸湘今，傳輸?shù)腇orm Data 有很多字段敢朱，大致可以猜測出來

poiID 是景點的poiID pagenow 是當(dāng)前的頁數(shù) star 是評分1-5剪菱，0代表全部 resourceId 是一個每個資源對應(yīng)的值

爬取的時候只需要改變這些值就可以根據(jù)自己的需求爬取內(nèi)容了摩瞎，但是需要注意的事攜程的pagenow最多只能獲取100頁，而且poiID和resourceId的值是沒有規(guī)律的孝常，需要我們逐個景點查看...我自己依次找了鼓浪嶼所有景點的值旗们，并存在文本中，文末有g(shù)ithub的共享构灸。

建庫

??我們要做的第一件事就是想好數(shù)據(jù)庫的結(jié)構(gòu),我選擇的還是使用mysql上渴，具體的結(jié)構(gòu)如下：

[站外圖片上傳中...(image-b486a2-1513948356467)]

獲取數(shù)據(jù)

??這個我就不具體分析了，也不難喜颁，就是有幾個坑要注意一下稠氮。

第一，不是所有評論都有景色半开，性價比之類的評分隔披，所以這里要加一個判斷。 第二寂拆，原來是有出行時間這一項的奢米，現(xiàn)在好像沒有了額。 第三纠永，評論文本可能會出現(xiàn)單引號鬓长，插入數(shù)據(jù)庫會出現(xiàn)錯誤，要轉(zhuǎn)義或者替代一下尝江。 第四涉波，抓取速度不要太快，攜程反扒還是比較厲害的炭序。

螞蜂窩

分析數(shù)據(jù)

??同樣怠蹂，螞蜂窩的數(shù)據(jù)也是動態(tài)加載的，用相同的方法查看分析數(shù)據(jù)接口少态。

[站外圖片上傳中...(image-83988-1513948356467)]

可以看到螞蜂窩的數(shù)據(jù)獲取方式是get城侧，我們可以找出請求的url的規(guī)律。經(jīng)過比較不同景點和不同頁面的數(shù)據(jù)彼妻，我們發(fā)現(xiàn)參數(shù)的改變主要在兩個地方嫌佑，一個是poiid我用href代替豆茫，一個是頁數(shù)我用num代替。獲取景點的評論數(shù)據(jù)只要改變這兩個值就可以了

url='http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?callback=jQuery18105332634542482972_1511924148475&params=%7B%22poi_id%22%3A%22{href}%22%2C%22page%22%3A{num}%2C%22just_comment%22%3A1%7D'

獲取每個景點的poi

這個不是post請求我們就不必一個個景點去獲取參數(shù)了屋摇，我們可以訪問這個站點來發(fā)現(xiàn)所有的用戶揩魂，然而這個站點的數(shù)據(jù)也是動態(tài)加載的

螞蜂窩

[站外圖片上傳中...(image-45564c-1513948356467)]

根據(jù)上面的圖片我們可以清晰的看到我們只需要傳入頁碼數(shù)就可以得到所有的景點的poiid,然后根據(jù)這些poiid我們就可以得到所有的評論數(shù)據(jù)，這一部分我們用一個函數(shù)來處理

def get_param():
    # 獲取所有景點的參數(shù)
    total = []
    router_url = 'http://www.mafengwo.cn/ajax/router.php'
    for num in range(1, 6):
        params = {
            'sAct': 'KMdd_StructWebAjax|GetPoisByTag',
            'iMddid': 12522,
            'iTagId': 0,
            'iPage': num
        }
        pos = requests.post(url=router_url, data=params, headers=headers).json()
        soup_pos = BeautifulSoup(pos['data']['list'], 'lxml')

        result = [{'scenery': p['title'], 'href': re.findall(re.compile(r'/poi/(\d+).html'), p['href'])[0]} for p in
                  soup_pos.find_all('a')]
        total.extend(result)

    return total

??其余部分相似炮温，不再過多說明火脉。
1:http://you.ctrip.com/sight/gulangyu120058.html
2:http://you.ctrip.com/sight/gulangyu120058/57405.html
3:http://www.mafengwo.cn/jd/12522/gonglve.htmlonaZhang@Yahoo.com

前言

??為了獲取多源數(shù)據(jù)需要到各個網(wǎng)站獲取一些景點的評論信息和圖片，首先選到了攜程和螞蜂窩這兩個網(wǎng)站柒啤，將一些爬取過程記錄下來

攜程

分析數(shù)據(jù)

??首先我們?nèi)y程的鼓浪嶼景點速覽看一下我們要爬取的頁面倦挂，大概發(fā)現(xiàn)有幾十個景點，每個景點的結(jié)構(gòu)應(yīng)該都是差不多的担巩，所以我們選擇第一個景點進(jìn)去看看具體的頁面應(yīng)該怎么爬取方援。

鼓浪嶼評論分析

我們需要的是紅圈的部分，很容易可以知道這個評論頁面是動態(tài)加載的涛癌，所以不能直接用bs4或者正則直接提取元素犯戏，我們需要分析一下頁面動態(tài)傳輸?shù)慕涌凇４蜷_chrome審查元素,切換到network查看一下傳輸?shù)膬?nèi)容拳话，首先清空內(nèi)容避免干擾先匪，然后點擊下一頁，我們可以得到

鼓浪嶼審查元素

通過查看傳回的數(shù)據(jù)我們可以得到這就是我們所要的接口弃衍，使用的是post進(jìn)行傳輸呀非，傳輸?shù)腇orm Data 有很多字段，大致可以猜測出來

poiID 是景點的poiID pagenow 是當(dāng)前的頁數(shù) star 是評分1-5笨鸡，0代表全部 resourceId 是一個每個資源對應(yīng)的值

爬取的時候只需要改變這些值就可以根據(jù)自己的需求爬取內(nèi)容了姜钳，但是需要注意的事攜程的pagenow最多只能獲取100頁，而且poiID和resourceId的值是沒有規(guī)律的形耗，需要我們逐個景點查看...我自己依次找了鼓浪嶼所有景點的值哥桥，并存在文本中，文末有g(shù)ithub的共享激涤。

建庫

??我們要做的第一件事就是想好數(shù)據(jù)庫的結(jié)構(gòu),我選擇的還是使用mysql拟糕，具體的結(jié)構(gòu)如下：

攜程建庫

獲取數(shù)據(jù)

??這個我就不具體分析了，也不難倦踢，就是有幾個坑要注意一下送滞。

第一，不是所有評論都有景色辱挥，性價比之類的評分犁嗅，所以這里要加一個判斷。 第二晤碘，原來是有出行時間這一項的褂微，現(xiàn)在好像沒有了額功蜓。 第三，評論文本可能會出現(xiàn)單引號宠蚂，插入數(shù)據(jù)庫會出現(xiàn)錯誤式撼，要轉(zhuǎn)義或者替代一下。 第四求厕，抓取速度不要太快著隆，攜程反扒還是比較厲害的。

螞蜂窩

分析數(shù)據(jù)

??同樣呀癣，螞蜂窩的數(shù)據(jù)也是動態(tài)加載的美浦，用相同的方法查看分析數(shù)據(jù)接口。

螞蜂窩

可以看到螞蜂窩的數(shù)據(jù)獲取方式是get十艾，我們可以找出請求的url的規(guī)律抵代。經(jīng)過比較不同景點和不同頁面的數(shù)據(jù)腾节，我們發(fā)現(xiàn)參數(shù)的改變主要在兩個地方忘嫉，一個是poiid我用href代替，一個是頁數(shù)我用num代替案腺。獲取景點的評論數(shù)據(jù)只要改變這兩個值就可以了

url='http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?callback=jQuery18105332634542482972_1511924148475&params=%7B%22poi_id%22%3A%22{href}%22%2C%22page%22%3A{num}%2C%22just_comment%22%3A1%7D'

獲取每個景點的poi

這個不是post請求我們就不必一個個景點去獲取參數(shù)了庆冕，我們可以訪問這個站點來發(fā)現(xiàn)所有的用戶，然而這個站點的數(shù)據(jù)也是動態(tài)加載的

螞蜂窩

根據(jù)上面的圖片我們可以清晰的看到我們只需要傳入頁碼數(shù)就可以得到所有的景點的poiid,然后根據(jù)這些poiid我們就可以得到所有的評論數(shù)據(jù)劈榨，這一部分我們用一個函數(shù)來處理

def get_param():
    # 獲取所有景點的參數(shù)
    total = []
    router_url = 'http://www.mafengwo.cn/ajax/router.php'
    for num in range(1, 6):
        params = {
            'sAct': 'KMdd_StructWebAjax|GetPoisByTag',
            'iMddid': 12522,
            'iTagId': 0,
            'iPage': num
        }
        pos = requests.post(url=router_url, data=params, headers=headers).json()
        soup_pos = BeautifulSoup(pos['data']['list'], 'lxml')

        result = [{'scenery': p['title'], 'href': re.findall(re.compile(r'/poi/(\d+).html'), p['href'])[0]} for p in
                  soup_pos.find_all('a')]
        total.extend(result)

    return total

??其余部分相似访递，不再過多說明。

個人博客

8aoy1.cn

最后編輯于：2018.04.17 10:44:09

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末同辣，一起剝皮案震驚了整個濱河市拷姿，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌旱函，老刑警劉巖响巢，帶你破解...
沈念sama閱讀 222,252評論 6贊 516
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異棒妨，居然都是意外死亡踪古，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,886評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門券腔，熙熙樓的掌柜王于貴愁眉苦臉地迎上來伏穆，“玉大人，你說我怎么就攤上這事纷纫≌砩ǎ” “怎么了？”我有些...
開封第一講書人閱讀 168,814評論 0贊 361
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵辱魁，是天一觀的道長烟瞧。經(jīng)常有香客問我偷厦，道長，這世上最難降的妖魔是什么燕刻？我笑而不...
開封第一講書人閱讀 59,869評論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮卵洗，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘过蹂。我一直安慰自己，他們只是感情好酷勺，可當(dāng)我...
茶點故事閱讀 68,888評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布本橙。她就那樣靜靜地躺著脆诉，像睡著了一般甚亭。火紅的嫁衣襯著肌膚如雪击胜。梳的紋絲不亂的頭發(fā)上亏狰，一...
開封第一講書人閱讀 52,475評論 1贊 312
城市分裂傳說
那天，我揣著相機(jī)與錄音偶摔，去河邊找鬼暇唾。笑死辰斋，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的宫仗。我是一名探鬼主播，決...
沈念sama閱讀 41,010評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼下硕，長吁一口氣：“原來是場噩夢啊……” “哼汁胆！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起嫩码，我...
開封第一講書人閱讀 39,924評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎铡恕，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體探熔，經(jīng)...
沈念sama閱讀 46,469評論 1贊 319
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,552評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年柬甥，在試婚紗的時候發(fā)現(xiàn)自己被綠了其垄。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,680評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡臂外，死狀恐怖喇颁，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情无牵，我是刑警寧澤厂抖，帶...
沈念sama閱讀 36,362評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站七蜘，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏橡卤。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 42,037評論 3贊 335
男人毒藥：我在死后第九天來索命
文/蒙蒙一碧库、第九天我趴在偏房一處隱蔽的房頂上張望巧勤。院中可真熱鬧，春花似錦颅悉、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,519評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽豌鹤。三九已至，卻和暖如春布疙，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背拣挪。一陣腳步聲響...
開封第一講書人閱讀 33,621評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工俱诸，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留菠劝，地道東北人睁搭。一個月前我還...
沈念sama閱讀 49,099評論 3贊 378
代替公主和親
正文我出身青樓园骆，卻偏偏與公主長得像舔痪，于是被迫代替她去往敵國和親锌唾。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,691評論 2贊 361

爬取攜程和螞蜂窩的景點評論數(shù)據(jù)\爬取攜程景點評論\爬取旅游網(wǎng)站評論

前言

攜程

分析數(shù)據(jù)

建庫

獲取數(shù)據(jù)

螞蜂窩

分析數(shù)據(jù)

獲取每個景點的poi

前言

攜程

分析數(shù)據(jù)

建庫

獲取數(shù)據(jù)

螞蜂窩

分析數(shù)據(jù)

獲取每個景點的poi

個人博客

推薦閱讀更多精彩內(nèi)容