廿貳-NodeJS簡單代理池(承) 以及 Python 捉取網(wǎng)頁內(nèi)容

1.關(guān)于 NodeJS 簡單代理池

前面基本建設(shè)可以參考以前的文章:
拾肆-NodeJS簡單代理池(起)
拾捌-NodeJS簡單代理池(轉(zhuǎn))

1.1 本次更新綜述

本次只是在看到很多代理服務(wù)器上面醇滥,高匿代理都是以9999端口開放的,思考是否可以自己爬出代理阅虫?

1.2 新增函數(shù)

其實(shí)思路很簡單颓帝,就是隨機(jī)一個(gè) IP 窝革,然后如果該 IP 能順利通過代理驗(yàn)證就直接放進(jìn)代理池上面,完整代碼如下:

reqRandPro(objCTLSave, funCB) {
    const that = this;
    // 處理函數(shù)
    let funGoRandSpy = (strRandProxy, funCB) => {
        // 上網(wǎng)看到很多高匿的代理都是9999端口的虐译,就嘗試一下隨機(jī)測試網(wǎng)上所有9999端口唄
        let strProxy = 'http://' + strRandProxy + ':9999';
        request.get('https://www.baidu.com').timeout({ response: that.intTimeout, deadline: that.intTimeout * 3 }).use(superagentCheerio).proxy(strProxy).set(that.objHeader).then((res) => {
            let objProxyForSave = { u: strRandProxy, p: '9999' };
            // 通過之后就進(jìn)行保存
            objCTLSave.saveOneProxy(objProxyForSave, () => {});
            console.log('  ' + strProxy + '  測試居然通過菱蔬!');
            funCB(null, true);
        }).catch((err) => {
            funCB(null, true);
        });
    };
    let arrRandProxy = [];
    for (let intJ = 0; intJ < 100; intJ++) {
        // 生成100個(gè)隨機(jī) IP
        let strTestingIP = (Math.floor(Math.random() * 255)).toString() + "." + (Math.floor(Math.random() * 255)).toString() + "." + (Math.floor(Math.random() * 255)).toString() + "." + (Math.floor(Math.random() * 255)).toString();
        arrRandProxy.push(strTestingIP);
    }
    // 異步測試
    async.eachLimit(arrRandProxy, 5, funGoRandSpy, (err) => {
        funCB(err, true);
    });
}

1.3 再之后

其實(shí)我也想不出什么其他辦法可以了拴泌,準(zhǔn)備吃飯了。

2.關(guān)于 Python 捉取網(wǎng)頁內(nèi)容

在前期的內(nèi)容上箭昵,思來想去回季,如果根據(jù)捉取的鏈接再重新捉取內(nèi)容好像很麻煩,思來想去泡一,還是覺得直接在捉取的時(shí)候直接捉內(nèi)容比較好吧鼻忠。

2.1 依靠是什么帖蔓?

Beautiful Soup 文檔
所謂有事沒事看文檔塑娇,是做學(xué)術(shù)的人應(yīng)該有的態(tài)度。

2.2 我做了什么哨啃?

我前期已經(jīng)做倒請(qǐng)求了每一個(gè)頁面:
廿壹-爬 URL 棘催、Python 異步 、Supervisor 安裝配置等事宜
我只是在爬鏈接時(shí)順便把所有 <p> 的內(nèi)容加起來而已邑跪,函數(shù)如下:

def AddPContent(self, arrTagP):
    # print('   成功爬了一個(gè)網(wǎng)站')
    strPContent = ''
    for eleP in arrTagP:
        strPContent += eleP.get_text()+' '
    dictNewContent = self.AnEmptyContentEle()
    dictNewContent['ct']=strPContent
    if len(strPContent)>20:
        # print('   成功爬了一個(gè)網(wǎng)站')
        self.objMongoDB.InsertOne('sampledb', dictNewContent)
    # else :
    #     print('   字?jǐn)?shù)不夠不保存')

這樣我就能把內(nèi)容都放到數(shù)據(jù)庫中了画畅!很開心轴踱!

2.3 后續(xù)要干嘛谚赎?

其實(shí)我覺得我還有三個(gè)東西要做,不知道假期結(jié)束前能不能完成:

  • 做一個(gè) Django控制以及判斷情緒是否正確
  • 根據(jù)關(guān)鍵字生成決策樹雳灵,看對(duì)一篇文章情緒是正面還是負(fù)面
  • 捉取數(shù)據(jù)時(shí)看能否捉取 JS 內(nèi)容
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末悯辙,一起剝皮案震驚了整個(gè)濱河市躲撰,隨后出現(xiàn)的幾起案子拢蛋,更是在濱河造成了極大的恐慌瓤狐,老刑警劉巖批幌,帶你破解...
    沈念sama閱讀 217,509評(píng)論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異嗓节,居然都是意外死亡荧缘,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門拦宣,熙熙樓的掌柜王于貴愁眉苦臉地迎上來截粗,“玉大人信姓,你說我怎么就攤上這事〕衤蓿” “怎么了意推?”我有些...
    開封第一講書人閱讀 163,875評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長珊蟀。 經(jīng)常有香客問我菊值,道長,這世上最難降的妖魔是什么育灸? 我笑而不...
    開封第一講書人閱讀 58,441評(píng)論 1 293
  • 正文 為了忘掉前任儿子,我火速辦了婚禮柔逼,結(jié)果婚禮上蜂桶,老公的妹妹穿的比我還像新娘扑媚。我一直安慰自己,他們只是感情好旬痹,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,488評(píng)論 6 392
  • 文/花漫 我一把揭開白布人弓。 她就那樣靜靜地躺著意蛀,像睡著了一般县钥。 火紅的嫁衣襯著肌膚如雪省有。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,365評(píng)論 1 302
  • 那天雪侥,我揣著相機(jī)與錄音速缨,去河邊找鬼搁吓。 笑死擂橘,一個(gè)胖子當(dāng)著我的面吹牛通贞,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播峡迷,決...
    沈念sama閱讀 40,190評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了啄栓?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,062評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤奖亚,失蹤者是張志新(化名)和其女友劉穎爆袍,沒想到半個(gè)月后所坯,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體堂湖,經(jīng)...
    沈念sama閱讀 45,500評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡蒙谓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,706評(píng)論 3 335
  • 正文 我和宋清朗相戀三年躁锡,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了拦焚。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蠢甲。...
    茶點(diǎn)故事閱讀 39,834評(píng)論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡峡钓,死狀恐怖妓笙,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情能岩,我是刑警寧澤拉鹃,帶...
    沈念sama閱讀 35,559評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站篷就,受9級(jí)特大地震影響未辆,放射性物質(zhì)發(fā)生泄漏咐柜。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,167評(píng)論 3 328
  • 文/蒙蒙 一顶考、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧妖泄,春花似錦驹沿、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至罚渐,卻和暖如春却汉,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背荷并。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評(píng)論 1 269
  • 我被黑心中介騙來泰國打工合砂, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人源织。 一個(gè)月前我還...
    沈念sama閱讀 47,958評(píng)論 2 370
  • 正文 我出身青樓翩伪,卻偏偏與公主長得像,于是被迫代替她去往敵國和親雀鹃。 傳聞我的和親對(duì)象是個(gè)殘疾皇子幻工,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,779評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 01寫在前面 常聽到很多人抱怨自己的IP因爬蟲次數(shù)太多而被網(wǎng)站屏蔽,不得不頻繁使用各種代理IP黎茎,卻又因?yàn)榫W(wǎng)上...
    小賢tx閱讀 921評(píng)論 0 1
  • 如今爬蟲越來越多囊颅,一些網(wǎng)站網(wǎng)站加強(qiáng)反爬措施,其中最為常見的就是限制IP,對(duì)于爬蟲愛好者來說踢代,能有一個(gè)屬于自己的IP...
    沐碼人閱讀 2,587評(píng)論 0 4
  • 前幾天,安靜的高中同學(xué)群里突然冒出這樣一句話慕爬。 “好想回到高中啊窑眯。” 隨即医窿,也出現(xiàn)幾個(gè)同學(xué)磅甩,一言一語地討論著自己的...
    夏冬冬子閱讀 1,216評(píng)論 0 1
  • 隨著企業(yè)的全球化,公司的法務(wù)部也要全球化姥卢。所謂的全球法務(wù)部就是指一家公司的國際化發(fā)展程度高度發(fā)達(dá)的情況下卷要,法...
    xiaohuialex閱讀 639評(píng)論 0 0