每年各大品牌旗艦機發(fā)布都是一大熱點,特別是前幾天發(fā)布的iPhone Xs Max算是手機界的大新聞了链患,新款iPhone的價格也再度刷新了手機定價的記錄巧鸭∑磕看完發(fā)布會麻捻,相信很多人的心情是這樣的(文末爬蟲資料贈送)
我一朋友魚哥之前用的蘋果機,現(xiàn)在想換個安卓的呀袱,但是安卓種類太多贸毕,讓他這個選擇困難癥的人來說,確實有點犯難夜赵,相信也有很多朋友會有選擇困難的問題吧明棍,其實借助數(shù)據(jù)分析就能很好的幫你解決問題,幫你解決犯難的問題寇僧。
分析思路
思路很簡單摊腋,上京東商城把所有手機的數(shù)據(jù)爬下來,然后根據(jù)配置嘁傀、價格過濾出符合條件的手機兴蒸,在過濾出來的手機里選擇一部性價比最高的。畫成流程圖细办,大致是這樣的
?
爬取數(shù)據(jù)
第一步橙凳,我們先從京東商城爬取所有在售的手機數(shù)據(jù)。這里我們關(guān)心的主要是價格和配置信息笑撞,商品頁面上的價格和配置信息像下面兩張圖所示
?
?
我們編寫代碼爬取所有手機的價格和配置信息岛啸,爬蟲的核心代碼如下
# 獲取手機單品的價格
def get_price(skuid):
url = "https://c0.3.cn/stock?skuId=" + str(skuid) + "&area=1_72_4137_0&venderId=1000004123&cat=9987,653,655&buyNum=1&choseSuitSkuIds=&extraParam={%22originid%22:%221%22}&ch=1&fqsp=0&pduid=15379228074621272760279&pdpin=&detailedAdd=null&callback=jQuery3285040"
r = requests.get(url, verify=False)
content = r.content.decode('GBK')
matched = re.search(r'jQuery\d+\((.*)\)', content, re.M)
if matched:
data = json.loads(matched.group(1))
price = float(data["stock"]["jdPrice"]["p"])
return price
return 0
# 獲取手機的配置信息
def get_item(skuid, url):
price = get_price(skuid)
r = requests.get(url, verify=False)
content = r.content
root = etree.HTML(content)
nodes = root.xpath('.//div[@class="Ptable"]/div[@class="Ptable-item"]')
params = {"price": price, "skuid": skuid}
for node in nodes:
text_nodes = node.xpath('./dl')[0]
k = ""
v = ""
for text_node in text_nodes:
if text_node.tag == "dt":
k = text_node.text
elif text_node.tag == "dd" and "class" not in text_node.attrib:
v = text_node.text
params[k] = v
return params
# 獲取一個頁面中的所有手機信息
def get_cellphone(page):
url = "https://list.jd.com/list.html?cat=9987,653,655&page={}&sort=sort_rank_asc&trans=1&JL=6_0_0&ms=4#J_main".format(page)
r = requests.get(url, verify=False)
content = r.content.decode("utf-8")
root = etree.HTML(content)
cell_nodes = root.xpath('.//div[@class="p-img"]/a')
client = pymongo.MongoClient()
db = client[DB]
for node in cell_nodes:
item_url = fix_url(node.attrib["href"])
matched = re.search('item.jd.com/(\d+)\.html', item_url)
skuid = int(matched.group(1))
saved = db.items.find({"skuid": skuid}).count()
if saved > 0:
print(saved)
continue
item = get_item(skuid, item_url)
# 結(jié)果存入MongoDB
db.items.insert(item)
需要注意的是,上面的get_price和get_item函數(shù)分別從兩個url獲取數(shù)據(jù)茴肥,這是因為配置信息可以直接從商品頁面中解析得到坚踩,而價格信息需要從另外一個ajax請求里獲得。爬下來的所有數(shù)據(jù)存入MongoDB瓤狐。
過濾數(shù)據(jù)
爬下來的手機數(shù)據(jù)當(dāng)中瞬铸,信息完整的共有4700多條數(shù)據(jù),這4700多部手機屬于70個手機品牌芬首。 這些品牌畫成詞云圖是這樣的
?
手機的配置主要有以下這些參數(shù)
是否雙卡雙待
機身材質(zhì)
CPU型號
內(nèi)存大小
存儲容量
電池容量
屏幕材質(zhì)
屏幕大小
分辨率
攝像頭
強哥平時用手機主要是看看書赴捞、刷刷知乎微信、買買東西郁稍,所以選購新手機的時候最關(guān)心的就是速度赦政、容量、待機時間這幾項,對攝像頭恢着、屏幕材質(zhì)倒不是特別在乎桐愉。考慮以上因素掰派,在對數(shù)據(jù)做過濾的時候从诲,我設(shè)定了以下幾個條件
CPU的品牌是高通
內(nèi)存大小大于等于6GB
存儲容量大于等于64GB
電池容量大于3000mAh
必須是雙卡雙待
價格在1500元以內(nèi)
過濾數(shù)據(jù)的代碼如下
client = pymongo.MongoClient()
db = client[DB]
items = db.items.find({})
result = preprocess(items)
df = pd.DataFrame(result)
df_res = df[df.cpu_brand=="驍龍(Snapdragon)"][df.battery_cap >= 3000][df.rom >= 64][df.ram >= 6][df.dual_sim == True][df.price<=1500]
print(df_res[["brand", "model", "color", "cpu_brand", "cpu_freq", "cpu_core", "cpu_model", "rom", "ram", "battery_cap", "price"]].sort_values(by="price"))
首先從MongoDB里讀取數(shù)據(jù),然后創(chuàng)建DataFrame靡羡,對DataFrame里的數(shù)據(jù)按照上面的條件作選擇系洛。代碼的最后一行將篩選出來的手機打印出來,并按價格從低到高排序略步。
經(jīng)過了這樣一輪篩選后描扯,我們得到了下面的38款手機
?
上面的幾部手機配置都比較接近,但是網(wǎng)上對小米的評價普遍比較高趟薄,于是又在上面的列表里篩選出了所有的小米手機绽诚,得到下面7款
?
這里就變成了紅米Note5和小米6X的PK了。價格上杭煎,兩者不差上下恩够。配置方面,網(wǎng)上查到紅米Note5的cpu是驍龍636的(上面的表格里缺少紅米Note5的cpu型號)羡铲,相比小米6X的驍龍660蜂桶,636雖然性能上不如660,但更省電犀勒,而且考慮到紅米Note5 4000毫安的超大容量電池屎飘,最后決定了購買紅米Note 5這一款。作為一款千元機贾费,驍龍636八核CPU钦购、6G大內(nèi)存、64G大存儲褂萧、5.99英寸大視野全面屏押桃、前置相機+后置雙攝、超長的待機時間导犹,這款手機大概算是千元機中的機皇了唱凯。
其實購買其他物件也可以爬取相關(guān)網(wǎng)站上的數(shù)據(jù),選出自己最適合的產(chǎn)品服務(wù)谎痢。好了磕昼,也到福利時間了,需要相關(guān)爬蟲資料以及更多Python技術(shù)學(xué)習(xí)資料可以加Q群519970686免費領(lǐng)取节猿,一起學(xué)習(xí)票从,相互討論漫雕。群內(nèi)還有大咖分享項目經(jīng)驗。