采集淘寶和天貓商品的詳情有多種方式泉瞻,可以從單品詳情頁采集被济、從PC端的ajax接口采败徊、從開放平臺的API接口采。不同的來源數(shù)據(jù)結構是不同的质涛,能采集到的信息也有所差別。
從淘寶開放平臺的API采的話掰担,目前來講汇陆,比較容易申請到淘客API權限,但是淘客權限的API能采集到的信息是很少的带饱≌贝可以參考API文檔:http://open.taobao.com/docs/api.htm?apiId=24518
從API采有一個好處,就是在配額里勺疼,不用考慮被封的問題教寂。從網(wǎng)頁或者從ajax接口采的話,就得考慮采集頻率执庐,很容易就會觸發(fā)防采集機制酪耕。
從網(wǎng)頁采的話,由于淘寶天貓用了很多異步加載轨淌,所以需要解析JS才能得到最終的源碼迂烁,才能拿到你想要的數(shù)據(jù),這個可以考慮在軟件中嵌入瀏覽器猿诸,或者使用phantomjs來解決婚被。
從ajax接口采是目前采集淘寶和天貓詳情的最好方式,如何去找出這些接口梳虽?主要就是依靠抓包的方法址芯,本文就先不講如何抓包,直接給大家一些目前可以用的接口窜觉。
http://hws.m.taobao.com/cache/wdetail/5.0/?id=549084765841
這個接口直接傳入一個商品ID谷炸,就可以獲得該商品大量的信息,不僅有商品基本信息禀挫,還有該商品對應的店鋪信息旬陡。
通過這個接口可以獲取到商品標題、價格语婴、圖片描孟、屬性驶睦、店鋪信息、評論等匿醒。也可以通過該接口來驗證商品是否在售场航。美中不足是無法獲取30天銷量。
https://rate.taobao.com/detailCommon.htm?auctionNumId=549084765841
這個接口傳入一個商品ID廉羔,可以返回商品的評價標簽溉痢,所謂商品的評價標簽,就是比如:快遞不錯憋他、包裝挺好孩饼、款示好看。并不是所有商品都有竹挡,有些類別的商品可能沒有這個標簽镀娶。
該接口傳入一個Json數(shù)據(jù),{"item_num_id":"549084765841"}此迅,返回商品描述(商品詳情)汽畴。這個json數(shù)據(jù)需要進行urlencode。
https://tui.taobao.com/recommend?itemid=549084765841&callback=detail_pine&appid=115&count=8&page=1
該接口根據(jù)傳入的商品ID耸序,返回該商品的相關商品推薦(看了又看)忍些。
還有一些接口由于穩(wěn)定性問題,就不公開了坎怪,以上的接口已經(jīng)可以根據(jù)一個商品ID罢坝,獲取很豐富的單品信息了,比較遺憾的是沒有銷量數(shù)據(jù)搅窿,不過這并不是問題嘁酿,銷量數(shù)據(jù)可以用其它的方式獲取,比如API或者網(wǎng)頁采集男应。還有就是如果我們是通過商品列表先采集的話闹司,在列表時已經(jīng)是擁有銷量信息了。獲取詳情時也就不需要再獲取了沐飘。
另外還有一些接口游桩,比如優(yōu)惠券信息,以后再分享耐朴!
這些接口可以實現(xiàn)一些應用借卧,比如通過固定頻率去采集商品價格數(shù)據(jù),然后記錄下來筛峭,就可以做出商品價格曲線铐刘,那我們就可以知道雙11大促哪些商品是真的歷史最低價。類似下面的曲線:
對于賣家影晓,可以通過這些接口來監(jiān)控競品镰吵,監(jiān)控競品是否改了標題檩禾、換了圖片、調(diào)整了價格等捡遍,再加微信提醒和短信提醒锌订,那么競爭對手的動作就一清二楚了。還別說画株,有些公司就拿這個功能在賣錢。
接下來還會分享搜索接口啦辐,店鋪接口谓传,優(yōu)惠券接口等。不局限于淘寶芹关、天貓续挟、還有其它電商平臺的接口,當然也會包括Python開源代碼侥衬!