2011年的時(shí)候蛇损,我在 Qing 做產(chǎn)品設(shè)計(jì)師。
剛?cè)胄袝r(shí)最長(zhǎng)做的任務(wù)就是競(jìng)品分析,當(dāng)時(shí)國(guó)內(nèi)的輕博客產(chǎn)品有很多淤齐,Qing股囊、點(diǎn)點(diǎn)、Lofter床玻、人人小站等毁涉,如何分析競(jìng)品的數(shù)據(jù)變?yōu)橐粋€(gè)重要的問(wèn)題。
這類(lèi)內(nèi)容開(kāi)放的產(chǎn)品锈死,一般搜索引擎的爬取率很高贫堰。當(dāng)時(shí)突發(fā)奇想是不是我通過(guò)搜索 Google 高級(jí)搜索來(lái)獲取競(jìng)品的數(shù)據(jù)。
首先待牵,我們來(lái)了解下 Google 的高級(jí)搜索功能其屏。
表單功能很強(qiáng)大,可以通過(guò)關(guān)鍵詞進(jìn)行搜索缨该,也可以選擇字詞出現(xiàn)的位置偎行。比如,我們現(xiàn)在想看簡(jiǎn)書(shū)有多少文章贰拿。根據(jù)文章的鏈接蛤袒,http://www.reibang.com/p/cba3e43cd5b0
我們可設(shè)置參數(shù),包含關(guān)鍵字: "p" 膨更,域名為:"www.reibang.com"妙真。
allinurl:? "p" site:www.reibang.com
可以看出簡(jiǎn)書(shū)大概 1,100,000 條發(fā)布的文章,那么這個(gè)數(shù)據(jù)是不是準(zhǔn)確的呢荚守?除了 Google 這個(gè)渠道珍德,還有另外獲得數(shù)據(jù)的方式么!
通常我們還可以通過(guò) URL 來(lái)看數(shù)據(jù)矗漾,以知乎的鏈接為例锈候,很多網(wǎng)站的鏈接中均會(huì)包含數(shù)字,有些數(shù)字是未經(jīng)過(guò)處理的自增 ID 敞贡。也就是說(shuō)你想知道該產(chǎn)品的數(shù)據(jù)泵琳,可以通過(guò)創(chuàng)建一個(gè)用戶(hù)、一個(gè)文章嫡锌、一個(gè)問(wèn)題的方式虑稼,來(lái)讓對(duì)象+1,然后查看鏈接中的數(shù)字势木,就可以大致判斷出蛛倦。
https://www.zhihu.com/question/24325481
但對(duì)于簡(jiǎn)書(shū)這種在 URL 中做過(guò)放爬處理的產(chǎn)品,就很難看出啦桌,這個(gè)時(shí)候我們可以通過(guò) API 調(diào)用來(lái)查看溯壶,比如喜愛(ài)文章及皂、關(guān)注用戶(hù)等。
http://www.reibang.com/p/cba3e43cd5b0
正常情況下且改,產(chǎn)品很難把所有的路徑都堵上验烧。比如簡(jiǎn)書(shū)雖然在 URL 和前端 API 上都做了 hash 處理。但是當(dāng)用戶(hù)新建文章時(shí)又跛,URL中依然有對(duì)應(yīng)的文集ID碍拆、文章ID。
http://www.reibang.com/writer#/notebooks/3126817/notes/2938972
由此通過(guò)重新創(chuàng)建用戶(hù)創(chuàng)建文章慨蓝,可推測(cè)出文集數(shù)為 3126817(通過(guò)文集數(shù)可以大致推測(cè)用戶(hù)數(shù))感混,文章數(shù)為 2938972。
這與我們通過(guò) Google 獲取的數(shù)據(jù)相比礼烈,差了3倍左右弧满。可能的原因:一是搜索引擎沒(méi)有全量抓取此熬,二是有大量的草稿被創(chuàng)建而沒(méi)有發(fā)布庭呜。
盡管通過(guò)這些方式獲得的數(shù)據(jù)不是完全準(zhǔn)確,但是也可以通過(guò)數(shù)據(jù)曲線的變化犀忱,了解產(chǎn)品發(fā)展的趨勢(shì)募谎。
完