如何用webscraper抓取精準(zhǔn)群體微信號(hào)拗小?

前幾天,一個(gè)朋友在微信上告訴我說樱哼,他抓了2.7M微信號(hào)哀九。

我驚的差點(diǎn)把手機(jī)掉到地上,趕緊讓他給我發(fā)一份搅幅,然后問他從哪里抓的勾栗。他給我發(fā)過來(lái)一份文件,一個(gè)網(wǎng)址盏筐。

我打開文件围俘,里面都是一些字母數(shù)字的組合,還有一些以wxid開頭的字符串琢融。我隨機(jī)測(cè)試了一下界牡,發(fā)現(xiàn)有的可以搜索到微信用戶,但是以wxid開頭的不行漾抬。

我又打開他發(fā)來(lái)的網(wǎng)站宿亡,大概看了下,應(yīng)該不止這么少網(wǎng)站纳令。于是我用webscraper又重新抓了一遍挽荠。

用了 2 小時(shí),抓下來(lái) 250w 個(gè)微信號(hào)平绩。

經(jīng)過去重圈匆,然后將wxid開頭的去除掉,剩余9w微信號(hào)捏雌。這次我隨機(jī)測(cè)試跃赚,發(fā)現(xiàn)都可以正常搜索到用戶,而且不是那種不用審核就通過的死用戶性湿,從簽名來(lái)看纬傲,也不是微商。

如下面幾張圖片:


image.png
image.png
image.png
image.png
image.png

其實(shí)很巧肤频,知道這個(gè)網(wǎng)站的人叹括,不會(huì)webscraper;而會(huì)webscraper的人宵荒,又不知道這個(gè)網(wǎng)站汁雷。我剛好兩個(gè)都知道净嘀,于是就拿到了這部分?jǐn)?shù)據(jù)。

這部分?jǐn)?shù)據(jù)如何處理摔竿,我還沒有想好。而且這個(gè)網(wǎng)站少孝,朋友叮囑過继低,我也不能公開。

不過我可以提供另外一個(gè)思路稍走,用來(lái)抓取其他微信號(hào)袁翁,而且是精準(zhǔn)群體。不過這種方式就需要你會(huì) webscraper婿脸,或者編程粱胜。

編程的話,門檻太高狐树。而webscraper很簡(jiǎn)單焙压,我之前寫過兩篇文章介紹過webscraper:http://www.reibang.com/p/cd5124ac0871。這里直接說思路抑钟。

下面是具體方式:
————————
在新郎微博網(wǎng)址涯曲,搜索 “留下微信號(hào)”,會(huì)發(fā)現(xiàn)很多相關(guān)帖子在塔,帖子下面的評(píng)論都是微信號(hào)幻件。如下圖:

image.png
image.png
image.png
image.png

將這些評(píng)論抓取下來(lái)后,根據(jù)帖子內(nèi)容蛔溃,得到的都是具體行業(yè)绰沥、人群的精準(zhǔn)用戶。

webscraper抓取思路:
1贺待、微博搜索關(guān)鍵字得到的網(wǎng)頁(yè)徽曲,作為一級(jí)頁(yè)面。
2麸塞、每篇帖子疟位,作為二級(jí)頁(yè)面。
3喘垂、在二級(jí)頁(yè)面甜刻,抓取下面所以的評(píng)論

抓取下來(lái)后,可能會(huì)有一些無(wú)效評(píng)論正勒,這個(gè)需要你處理一下得院。

我大致看了下流程,webscraper 是可以做到的章贞,有些細(xì)節(jié)祥绞,比如,搜索結(jié)果里,需要用鼠標(biāo)點(diǎn)擊一下才能展開留言蜕径,這個(gè)用Element click两踏。之前的文章里有講過這種方式。

思路在這里兜喻,可能過程中還會(huì)有一些具體問題梦染,具體情況具體對(duì)待。有興趣的朋友可以試試朴皆。

當(dāng)然帕识,可能用 webscraper 不能一次性完美抓取,那就分開吧遂铡。

先把各個(gè)帖子的鏈接抓下來(lái)肮疗,放到一個(gè)網(wǎng)頁(yè),再到各個(gè)帖子抓評(píng)論扒接。


這次就分享到這里伪货,大家有什么疑問可以在評(píng)論里提出來(lái)。


我寫作的一個(gè)網(wǎng)站钾怔,很好玩:http://www.zsxq100.com/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末超歌,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子蒂教,更是在濱河造成了極大的恐慌巍举,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,122評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件凝垛,死亡現(xiàn)場(chǎng)離奇詭異懊悯,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)梦皮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門炭分,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人剑肯,你說我怎么就攤上這事捧毛。” “怎么了让网?”我有些...
    開封第一講書人閱讀 164,491評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵呀忧,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我溃睹,道長(zhǎng)而账,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,636評(píng)論 1 293
  • 正文 為了忘掉前任因篇,我火速辦了婚禮泞辐,結(jié)果婚禮上笔横,老公的妹妹穿的比我還像新娘。我一直安慰自己咐吼,他們只是感情好吹缔,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,676評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著锯茄,像睡著了一般厢塘。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上撇吞,一...
    開封第一講書人閱讀 51,541評(píng)論 1 305
  • 那天俗冻,我揣著相機(jī)與錄音礁叔,去河邊找鬼牍颈。 笑死,一個(gè)胖子當(dāng)著我的面吹牛琅关,可吹牛的內(nèi)容都是我干的煮岁。 我是一名探鬼主播,決...
    沈念sama閱讀 40,292評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼涣易,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼画机!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起新症,我...
    開封第一講書人閱讀 39,211評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤步氏,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后徒爹,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體荚醒,經(jīng)...
    沈念sama閱讀 45,655評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,846評(píng)論 3 336
  • 正文 我和宋清朗相戀三年隆嗅,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了界阁。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,965評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡胖喳,死狀恐怖泡躯,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情丽焊,我是刑警寧澤较剃,帶...
    沈念sama閱讀 35,684評(píng)論 5 347
  • 正文 年R本政府宣布,位于F島的核電站技健,受9級(jí)特大地震影響重付,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜凫乖,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,295評(píng)論 3 329
  • 文/蒙蒙 一确垫、第九天 我趴在偏房一處隱蔽的房頂上張望弓颈。 院中可真熱鬧,春花似錦删掀、人聲如沸翔冀。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)纤子。三九已至,卻和暖如春款票,著一層夾襖步出監(jiān)牢的瞬間控硼,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工艾少, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留卡乾,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,126評(píng)論 3 370
  • 正文 我出身青樓缚够,卻偏偏與公主長(zhǎng)得像幔妨,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子谍椅,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,914評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,133評(píng)論 25 707
  • 用兩張圖告訴你误堡,為什么你的 App 會(huì)卡頓? - Android - 掘金 Cover 有什么料? 從這篇文章中你...
    hw1212閱讀 12,724評(píng)論 2 59
  • 學(xué)習(xí)金字塔中說道,“最有效的學(xué)習(xí)方法就是教別人”杖们。 如果我們學(xué)到某些知識(shí)悉抵,能清楚的講給別人聽;或者我們學(xué)會(huì)某些技能...
    明白1閱讀 17,173評(píng)論 21 63
  • 夜已深胀莹,還有什么人基跑,讓你這樣醒著數(shù)傷痕…… 然則,傷痕是沒有的描焰,但人必是醒著的媳否。這深更半夜既無(wú)傷痕可...
    如玉素顏閱讀 280評(píng)論 0 0
  • 窗外的落日漸漸被這片廣敄的黑海吞沒,隨之而來(lái)的又是一個(gè)漫無(wú)盡頭的夜荆秦。 我在日志上輕輕敲下一行字: 近來(lái)天涼篱竭,媽媽一...
    陳小花fa閱讀 620評(píng)論 0 10