本人長期出售超大量微博數(shù)據(jù)、旅游網(wǎng)站評論數(shù)據(jù)谷异,并提供各種指定數(shù)據(jù)爬取服務(wù)界拦,Message to YuboonaZhang@Yahoo.com吸申。同時歡迎加入社交媒體數(shù)據(jù)交流群:99918768
前言
??為了獲取多源數(shù)據(jù)需要到各個網(wǎng)站獲取一些景點的評論信息和圖片,首先選到了攜程和螞蜂窩這兩個網(wǎng)站享甸,將一些爬取過程記錄下來
攜程
分析數(shù)據(jù)
??首先我們?nèi)y程的鼓浪嶼景點速覽看一下我們要爬取的頁面截碴,大概發(fā)現(xiàn)有幾十個景點,每個景點的結(jié)構(gòu)應(yīng)該都是差不多的蛉威,所以我們選擇第一個景點進(jìn)去看看具體的頁面應(yīng)該怎么爬取日丹。
[站外圖片上傳中...(image-14bb2e-1513948356467)]
我們需要的是紅圈的部分,很容易可以知道這個評論頁面是動態(tài)加載的蚯嫌,所以不能直接用bs4或者正則直接提取元素哲虾,我們需要分析一下頁面動態(tài)傳輸?shù)慕涌诒铩4蜷_chrome審查元素,切換到network查看一下傳輸?shù)膬?nèi)容,首先清空內(nèi)容避免干擾束凑,然后點擊下一頁晒旅,我們可以得到
[站外圖片上傳中...(image-f5a92b-1513948356467)]
通過查看傳回的數(shù)據(jù)我們可以得到這就是我們所要的接口,使用的是post進(jìn)行傳輸湘今,傳輸?shù)腇orm Data 有很多字段敢朱,大致可以猜測出來
poiID 是景點的poiID </br> pagenow 是當(dāng)前的頁數(shù) </br> star 是評分1-5剪菱,0代表全部 </br> resourceId 是一個每個資源對應(yīng)的值
爬取的時候只需要改變這些值就可以根據(jù)自己的需求爬取內(nèi)容了摩瞎,但是需要注意的事攜程的pagenow最多只能獲取100頁,而且poiID和resourceId的值是沒有規(guī)律的孝常,需要我們逐個景點查看...我自己依次找了鼓浪嶼所有景點的值旗们,并存在文本中,文末有g(shù)ithub的共享构灸。
建庫
??我們要做的第一件事就是想好數(shù)據(jù)庫的結(jié)構(gòu),我選擇的還是使用mysql上渴,具體的結(jié)構(gòu)如下:
[站外圖片上傳中...(image-b486a2-1513948356467)]
獲取數(shù)據(jù)
??這個我就不具體分析了,也不難喜颁,就是有幾個坑要注意一下稠氮。
第一,不是所有評論都有景色半开,性價比之類的評分隔披,所以這里要加一個判斷。</br> 第二寂拆,原來是有出行時間這一項的奢米,現(xiàn)在好像沒有了額。</br> 第三纠永,評論文本可能會出現(xiàn)單引號鬓长,插入數(shù)據(jù)庫會出現(xiàn)錯誤,要轉(zhuǎn)義或者替代一下尝江。</br> 第四涉波,抓取速度不要太快,攜程反扒還是比較厲害的炭序。
螞蜂窩
分析數(shù)據(jù)
??同樣怠蹂,螞蜂窩的數(shù)據(jù)也是動態(tài)加載的,用相同的方法查看分析數(shù)據(jù)接口少态。
[站外圖片上傳中...(image-83988-1513948356467)]
可以看到螞蜂窩的數(shù)據(jù)獲取方式是get城侧,我們可以找出請求的url的規(guī)律。經(jīng)過比較不同景點和不同頁面的數(shù)據(jù)彼妻,我們發(fā)現(xiàn)參數(shù)的改變主要在兩個地方嫌佑,一個是poiid我用href代替豆茫,一個是頁數(shù)我用num代替。獲取景點的評論數(shù)據(jù)只要改變這兩個值就可以了
url='http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?callback=jQuery18105332634542482972_1511924148475¶ms=%7B%22poi_id%22%3A%22{href}%22%2C%22page%22%3A{num}%2C%22just_comment%22%3A1%7D'
獲取每個景點的poi
這個不是post請求我們就不必一個個景點去獲取參數(shù)了屋摇,我們可以訪問這個站點來發(fā)現(xiàn)所有的用戶揩魂,然而這個站點的數(shù)據(jù)也是動態(tài)加載的
[站外圖片上傳中...(image-45564c-1513948356467)]
根據(jù)上面的圖片我們可以清晰的看到我們只需要傳入頁碼數(shù)就可以得到所有的景點的poiid,然后根據(jù)這些poiid我們就可以得到所有的評論數(shù)據(jù),這一部分我們用一個函數(shù)來處理
def get_param():
# 獲取所有景點的參數(shù)
total = []
router_url = 'http://www.mafengwo.cn/ajax/router.php'
for num in range(1, 6):
params = {
'sAct': 'KMdd_StructWebAjax|GetPoisByTag',
'iMddid': 12522,
'iTagId': 0,
'iPage': num
}
pos = requests.post(url=router_url, data=params, headers=headers).json()
soup_pos = BeautifulSoup(pos['data']['list'], 'lxml')
result = [{'scenery': p['title'], 'href': re.findall(re.compile(r'/poi/(\d+).html'), p['href'])[0]} for p in
soup_pos.find_all('a')]
total.extend(result)
return total
??其余部分相似炮温,不再過多說明火脉。
1:http://you.ctrip.com/sight/gulangyu120058.html
2:http://you.ctrip.com/sight/gulangyu120058/57405.html
3:http://www.mafengwo.cn/jd/12522/gonglve.htmlonaZhang@Yahoo.com
前言
??為了獲取多源數(shù)據(jù)需要到各個網(wǎng)站獲取一些景點的評論信息和圖片,首先選到了攜程和螞蜂窩這兩個網(wǎng)站柒啤,將一些爬取過程記錄下來
攜程
分析數(shù)據(jù)
??首先我們?nèi)y程的鼓浪嶼景點速覽看一下我們要爬取的頁面倦挂,大概發(fā)現(xiàn)有幾十個景點,每個景點的結(jié)構(gòu)應(yīng)該都是差不多的担巩,所以我們選擇第一個景點進(jìn)去看看具體的頁面應(yīng)該怎么爬取方援。
我們需要的是紅圈的部分,很容易可以知道這個評論頁面是動態(tài)加載的涛癌,所以不能直接用bs4或者正則直接提取元素犯戏,我們需要分析一下頁面動態(tài)傳輸?shù)慕涌凇4蜷_chrome審查元素,切換到network查看一下傳輸?shù)膬?nèi)容拳话,首先清空內(nèi)容避免干擾先匪,然后點擊下一頁,我們可以得到
通過查看傳回的數(shù)據(jù)我們可以得到這就是我們所要的接口弃衍,使用的是post進(jìn)行傳輸呀非,傳輸?shù)腇orm Data 有很多字段,大致可以猜測出來
poiID 是景點的poiID </br> pagenow 是當(dāng)前的頁數(shù) </br> star 是評分1-5笨鸡,0代表全部 </br> resourceId 是一個每個資源對應(yīng)的值
爬取的時候只需要改變這些值就可以根據(jù)自己的需求爬取內(nèi)容了姜钳,但是需要注意的事攜程的pagenow最多只能獲取100頁,而且poiID和resourceId的值是沒有規(guī)律的形耗,需要我們逐個景點查看...我自己依次找了鼓浪嶼所有景點的值哥桥,并存在文本中,文末有g(shù)ithub的共享激涤。
建庫
??我們要做的第一件事就是想好數(shù)據(jù)庫的結(jié)構(gòu),我選擇的還是使用mysql拟糕,具體的結(jié)構(gòu)如下:
獲取數(shù)據(jù)
??這個我就不具體分析了,也不難倦踢,就是有幾個坑要注意一下送滞。
第一,不是所有評論都有景色辱挥,性價比之類的評分犁嗅,所以這里要加一個判斷。</br> 第二晤碘,原來是有出行時間這一項的褂微,現(xiàn)在好像沒有了額功蜓。</br> 第三,評論文本可能會出現(xiàn)單引號宠蚂,插入數(shù)據(jù)庫會出現(xiàn)錯誤式撼,要轉(zhuǎn)義或者替代一下。</br> 第四求厕,抓取速度不要太快著隆,攜程反扒還是比較厲害的。
螞蜂窩
分析數(shù)據(jù)
??同樣呀癣,螞蜂窩的數(shù)據(jù)也是動態(tài)加載的美浦,用相同的方法查看分析數(shù)據(jù)接口。
可以看到螞蜂窩的數(shù)據(jù)獲取方式是get十艾,我們可以找出請求的url的規(guī)律抵代。經(jīng)過比較不同景點和不同頁面的數(shù)據(jù)腾节,我們發(fā)現(xiàn)參數(shù)的改變主要在兩個地方忘嫉,一個是poiid我用href代替,一個是頁數(shù)我用num代替案腺。獲取景點的評論數(shù)據(jù)只要改變這兩個值就可以了
url='http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?callback=jQuery18105332634542482972_1511924148475¶ms=%7B%22poi_id%22%3A%22{href}%22%2C%22page%22%3A{num}%2C%22just_comment%22%3A1%7D'
獲取每個景點的poi
這個不是post請求我們就不必一個個景點去獲取參數(shù)了庆冕,我們可以訪問這個站點來發(fā)現(xiàn)所有的用戶,然而這個站點的數(shù)據(jù)也是動態(tài)加載的
根據(jù)上面的圖片我們可以清晰的看到我們只需要傳入頁碼數(shù)就可以得到所有的景點的poiid,然后根據(jù)這些poiid我們就可以得到所有的評論數(shù)據(jù)劈榨,這一部分我們用一個函數(shù)來處理
def get_param():
# 獲取所有景點的參數(shù)
total = []
router_url = 'http://www.mafengwo.cn/ajax/router.php'
for num in range(1, 6):
params = {
'sAct': 'KMdd_StructWebAjax|GetPoisByTag',
'iMddid': 12522,
'iTagId': 0,
'iPage': num
}
pos = requests.post(url=router_url, data=params, headers=headers).json()
soup_pos = BeautifulSoup(pos['data']['list'], 'lxml')
result = [{'scenery': p['title'], 'href': re.findall(re.compile(r'/poi/(\d+).html'), p['href'])[0]} for p in
soup_pos.find_all('a')]
total.extend(result)
return total
??其余部分相似访递,不再過多說明。