Golddata如何采集需要登錄/會話的數(shù)據(jù)?

概要

本文將介紹使用GoldData半自動登錄功能寿烟,來采集需要登錄網(wǎng)站的數(shù)據(jù)。GoldData半自動登錄功能艾杏,就是指通過腳本來執(zhí)行登錄韧衣,如果需要驗證碼或者其它內(nèi)容需要人工輸入時盅藻,可以通過收發(fā)郵件來執(zhí)行登錄流程购桑。

下載例子

為了講解方便,我們以采集mydict的單詞數(shù)據(jù)來講解采集需要登錄的網(wǎng)站數(shù)據(jù)氏淑。這個mydict例子程序可以從開源網(wǎng)站下載到(?https://github.com/TheGoldData/mydict/releases?勃蜘,或?https://gitee.com/golddata/mydict/attach_files?)。

下載之后假残,打開命令行缭贡,運行下面的命令就可以啟動例子程序炉擅。

java -jar mydict.war

啟動之后,打開瀏覽器阳惹,輸入網(wǎng)址http://localhost:8080/打開一個登錄頁面谍失。如下圖所示:

輸入用戶名和密碼(都是admin),就可以打開首頁單詞列表莹汤。

編寫登錄和檢查會話腳本

點擊“采集管理》網(wǎng)站管理”快鱼,點擊“添加”按扭,添加名為mydict的站點纲岭。如下所示:

接下來配制登錄和檢查會話腳本抹竹,點擊“設(shè)置半自動登錄”,會打開站點半自動登錄配制頁面止潮,如下圖所示:

登錄腳本如下:

//發(fā)送ajax請求驗證碼

var va=$ajax('http://localhost:8080/code/vcode?timestamp=1554001708730',{encoding:false});

var arg_={

label:site.name+"驗證碼",

type:1,

content:va.content

}

//waitForInput內(nèi)置函數(shù)將發(fā)送郵件窃判,并等待輸入

//(回復(fù)郵件,或者goldData平臺輸入)喇闸,

//并把輸入內(nèi)容當(dāng)作驗證碼返回袄琳。

var code=waitForInput(arg_);

var data="username=admin&password=admin&vcode="+code

var m=new? Map()

m.put('Cookie',va.cookie)

//發(fā)送ajax請求執(zhí)行登錄

var content=$ajax('http://localhost:8080/doLogin',{method:'POST',headers:m,data:data})

//如果正確,將返回狀態(tài)1(登錄成功)燃乍,和headers信息給GoldData跨蟹,

//否則返回0(登錄失敗)橘沥!

if(content.headers){

m.putAll(content.headers)

}

var ret={status:1,headers:m}

if(content.status!=200){

? ? ret.status=0

}

ret

檢查腳本如下:

```javascript

var ret=true;

if(html.contains("我的單詞-登錄")){

ret=false

}

ret;

配制好之后窗轩,我們回到網(wǎng)站管理頁面,點擊“啟動登錄”座咆,則會開始執(zhí)行“自動登錄”痢艺,這之后,點擊“查詢”按扭來刷新頁面介陶,可以看到“等待輸入”的狀態(tài)堤舒。如下圖所示:

此時,您設(shè)置的通知郵箱哺呜,也應(yīng)該同時收到了郵件舌缤。點開郵件,或者點擊頁面上的“錄入等待輸入”按扭某残,將會看到如下內(nèi)容:?

依據(jù)郵件內(nèi)容国撵,回復(fù)郵件“{{qcxe}}”,就可以讓程序繼續(xù)執(zhí)行。在golddata頁面里輸入"qcxe",效果是一樣的玻墅。程序?qū)氐健皐aitForInput()”介牙,并且返回輸入的內(nèi)容。

回復(fù)之后澳厢,我們將在golddata頁面里环础,點擊“查詢”刷新頁面囚似,mydict的登錄狀態(tài)會變?yōu)椤耙训卿洝薄H缦聢D所示:

接下來线得,我們可以定義抓取規(guī)則饶唤。

定義抓取規(guī)則

在添加規(guī)則之前,我們還需要定義類似于表結(jié)構(gòu)的數(shù)據(jù)集贯钩。如下圖所示:

接下來搬素,點擊“采集管理》規(guī)則管理”,添加規(guī)則魏保,打開添加規(guī)則頁面熬尺,如下圖所示:?

抓取規(guī)則腳本如下:

[

? {

? ? __sample: http://localhost:8080/word/index?pageNum=2

? ? match0: http\:\/\/localhost\:8080\/word\/index(\?pageNum=\d+)?

? ? fields0:

? ? {

? ? ? __model: true

? ? ? __dataset: word

? ? ? __node: "#content? ul >li"

? ? ? sn:

? ? ? {

? ? ? ? expr: ""

? ? ? ? attr: ""

? ? ? ? js: md5(item.name)

? ? ? ? __label: ""

? ? ? ? __showOnList: false

? ? ? ? __type: ""

? ? ? ? down: "0"

? ? ? ? accessPathJs: ""

? ? ? ? uploadConf: s1

? ? ? }

? ? ? name:

? ? ? {

? ? ? ? expr: h5

? ? ? ? attr: ""

? ? ? ? js: ""

? ? ? ? __label: ""

? ? ? ? __showOnList: true

? ? ? ? __type: ""

? ? ? ? down: "0"

? ? ? ? accessPathJs: ""

? ? ? ? uploadConf: s1

? ? ? }

? ? ? uk:

? ? ? {

? ? ? ? expr: li span.uk

? ? ? ? attr: ""

? ? ? ? js: source.replace("uk: ",'')

? ? ? ? __label: ""

? ? ? ? __showOnList: false

? ? ? ? __type: ""

? ? ? ? down: "0"

? ? ? ? accessPathJs: ""

? ? ? ? uploadConf: s1

? ? ? }

? ? ? us:

? ? ? {

? ? ? ? expr: li span.us

? ? ? ? attr: ""

? ? ? ? js: source.replace("us: ",'')

? ? ? ? __label: ""

? ? ? ? __showOnList: false

? ? ? ? __type: ""

? ? ? ? down: "0"

? ? ? ? accessPathJs: ""

? ? ? ? uploadConf: s1

? ? ? }

? ? }

? ? fields1:

? ? {

? ? ? __node: .pagination a

? ? ? href:

? ? ? {

? ? ? ? expr: a

? ? ? ? attr: abs:href

? ? ? ? js: ""

? ? ? ? __label: ""

? ? ? ? __showOnList: false

? ? ? ? __type: ""

? ? ? ? down: "0"

? ? ? ? accessPathJs: ""

? ? ? ? uploadConf: s1

? ? ? }

? ? }

? }

]

然后點擊測試,將會進行測試抓取谓罗。我們發(fā)現(xiàn)數(shù)據(jù)的確被抓取到了粱哼,如下圖所示:?

配制抓取器抓取

這和之前是一樣的,將抓取器設(shè)置抓取站點“mydict”.然后點擊開始抓取檩咱。然后會在數(shù)據(jù)管理里面查看抓取的數(shù)據(jù)揭措。

結(jié)論

GoldData半自動登錄實質(zhì)是提供了一個可以人工介入來異步獲取會話的框架,既可以調(diào)用AI接口做到完全自動登錄刻蚯;也可以將類似于驗證碼需要復(fù)雜識別需要提供輸入時绊含,直接將cookie或者token信息通過郵件收發(fā)到GoldData平臺(這樣可以不管CAPTCHA多復(fù)雜 ),都可以讓GoldData抓取數(shù)據(jù)的動作持續(xù)進行下去炊汹。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末躬充,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子讨便,更是在濱河造成了極大的恐慌充甚,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件霸褒,死亡現(xiàn)場離奇詭異伴找,居然都是意外死亡,警方通過查閱死者的電腦和手機废菱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進店門技矮,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人殊轴,你說我怎么就攤上這事衰倦。” “怎么了梳凛?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵耿币,是天一觀的道長梳杏。 經(jīng)常有香客問我韧拒,道長淹接,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任叛溢,我火速辦了婚禮塑悼,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘楷掉。我一直安慰自己厢蒜,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布烹植。 她就那樣靜靜地躺著斑鸦,像睡著了一般。 火紅的嫁衣襯著肌膚如雪草雕。 梳的紋絲不亂的頭發(fā)上巷屿,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天,我揣著相機與錄音墩虹,去河邊找鬼嘱巾。 笑死,一個胖子當(dāng)著我的面吹牛诫钓,可吹牛的內(nèi)容都是我干的旬昭。 我是一名探鬼主播,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼菌湃,長吁一口氣:“原來是場噩夢啊……” “哼问拘!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起惧所,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤场梆,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后纯路,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體或油,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年驰唬,在試婚紗的時候發(fā)現(xiàn)自己被綠了顶岸。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡叫编,死狀恐怖辖佣,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情搓逾,我是刑警寧澤卷谈,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站霞篡,受9級特大地震影響世蔗,放射性物質(zhì)發(fā)生泄漏端逼。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一污淋、第九天 我趴在偏房一處隱蔽的房頂上張望顶滩。 院中可真熱鬧,春花似錦寸爆、人聲如沸礁鲁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽仅醇。三九已至,卻和暖如春魔种,著一層夾襖步出監(jiān)牢的瞬間着憨,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工务嫡, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留甲抖,地道東北人。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓心铃,卻偏偏與公主長得像准谚,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子去扣,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 概述 通常抓取級聯(lián)數(shù)數(shù)據(jù)情況不多愉棱,但要是真需要時唆铐,確多了一些麻煩,比如抓取商品分類級別信息等奔滑。本內(nèi)容將講述如何采集...
    takemefly100閱讀 990評論 0 0
  • 第一部分 HTML&CSS整理答案 1. 什么是HTML5艾岂? 答:HTML5是最新的HTML標(biāo)準(zhǔn)。 注意:講述HT...
    kismetajun閱讀 27,486評論 1 45
  • 工廠模式類似于現(xiàn)實生活中的工廠可以產(chǎn)生大量相似的商品朋其,去做同樣的事情王浴,實現(xiàn)同樣的效果;這時候需要使用工廠模式。簡單...
    舟漁行舟閱讀 7,769評論 2 17
  • 本博客轉(zhuǎn)自:「作者:若愚鏈接:https://zhuanlan.zhihu.com/p/22361337來源:知乎...
    韓寶億閱讀 2,764評論 0 3
  • 一支筆梅猿, 如劍起舞動氓辣, 橫墨飛揚, 豎直方正袱蚓, 紙下周周練钞啸, 再提次次起。 一支筆, 也許它比不了境遇中的仙女体斩, ...
    楓橋下的光閱讀 283評論 0 4