前幾天,一個(gè)朋友在微信上告訴我說樱哼,他抓了2.7M微信號(hào)哀九。
我驚的差點(diǎn)把手機(jī)掉到地上,趕緊讓他給我發(fā)一份搅幅,然后問他從哪里抓的勾栗。他給我發(fā)過來(lái)一份文件,一個(gè)網(wǎng)址盏筐。
我打開文件围俘,里面都是一些字母數(shù)字的組合,還有一些以wxid開頭的字符串琢融。我隨機(jī)測(cè)試了一下界牡,發(fā)現(xiàn)有的可以搜索到微信用戶,但是以wxid開頭的不行漾抬。
我又打開他發(fā)來(lái)的網(wǎng)站宿亡,大概看了下,應(yīng)該不止這么少網(wǎng)站纳令。于是我用webscraper又重新抓了一遍挽荠。
用了 2 小時(shí),抓下來(lái) 250w 個(gè)微信號(hào)平绩。
經(jīng)過去重圈匆,然后將wxid開頭的去除掉,剩余9w微信號(hào)捏雌。這次我隨機(jī)測(cè)試跃赚,發(fā)現(xiàn)都可以正常搜索到用戶,而且不是那種不用審核就通過的死用戶性湿,從簽名來(lái)看纬傲,也不是微商。
如下面幾張圖片:
其實(shí)很巧肤频,知道這個(gè)網(wǎng)站的人叹括,不會(huì)webscraper;而會(huì)webscraper的人宵荒,又不知道這個(gè)網(wǎng)站汁雷。我剛好兩個(gè)都知道净嘀,于是就拿到了這部分?jǐn)?shù)據(jù)。
這部分?jǐn)?shù)據(jù)如何處理摔竿,我還沒有想好。而且這個(gè)網(wǎng)站少孝,朋友叮囑過继低,我也不能公開。
不過我可以提供另外一個(gè)思路稍走,用來(lái)抓取其他微信號(hào)袁翁,而且是精準(zhǔn)群體。不過這種方式就需要你會(huì) webscraper婿脸,或者編程粱胜。
編程的話,門檻太高狐树。而webscraper很簡(jiǎn)單焙压,我之前寫過兩篇文章介紹過webscraper:http://www.reibang.com/p/cd5124ac0871。這里直接說思路抑钟。
下面是具體方式:
————————
在新郎微博網(wǎng)址涯曲,搜索 “留下微信號(hào)”,會(huì)發(fā)現(xiàn)很多相關(guān)帖子在塔,帖子下面的評(píng)論都是微信號(hào)幻件。如下圖:
將這些評(píng)論抓取下來(lái)后,根據(jù)帖子內(nèi)容蛔溃,得到的都是具體行業(yè)绰沥、人群的精準(zhǔn)用戶。
webscraper抓取思路:
1贺待、微博搜索關(guān)鍵字得到的網(wǎng)頁(yè)徽曲,作為一級(jí)頁(yè)面。
2麸塞、每篇帖子疟位,作為二級(jí)頁(yè)面。
3喘垂、在二級(jí)頁(yè)面甜刻,抓取下面所以的評(píng)論
抓取下來(lái)后,可能會(huì)有一些無(wú)效評(píng)論正勒,這個(gè)需要你處理一下得院。
我大致看了下流程,webscraper 是可以做到的章贞,有些細(xì)節(jié)祥绞,比如,搜索結(jié)果里,需要用鼠標(biāo)點(diǎn)擊一下才能展開留言蜕径,這個(gè)用Element click两踏。之前的文章里有講過這種方式。
思路在這里兜喻,可能過程中還會(huì)有一些具體問題梦染,具體情況具體對(duì)待。有興趣的朋友可以試試朴皆。
當(dāng)然帕识,可能用 webscraper 不能一次性完美抓取,那就分開吧遂铡。
先把各個(gè)帖子的鏈接抓下來(lái)肮疗,放到一個(gè)網(wǎng)頁(yè),再到各個(gè)帖子抓評(píng)論扒接。
這次就分享到這里伪货,大家有什么疑問可以在評(píng)論里提出來(lái)。
我寫作的一個(gè)網(wǎng)站钾怔,很好玩:http://www.zsxq100.com/