前言
關(guān)于DHT網(wǎng)絡(luò)的一些原理網(wǎng)上很多绢要,這里就不搬運(yùn)了屑彻,以下鏈接可供參考
http://codemacro.com/2013/05/19/crawl-dht/
http://www.cppblog.com/kevinlynx/archive/2013/05/19/200410.html
以及協(xié)議官方的地址:
http://www.bittorrent.org/beps/bep_0005.html
http://www.bittorrent.org/beps/bep_0009.html
http://www.bittorrent.org/beps/bep_0010.html
talk is cheap,直接上代碼吧 https://github.com/dotaljyajxf/DHTsimple 歡迎點(diǎn)星
簡(jiǎn)介
DHT爬蟲(chóng)要做的事情救巷,首先就是要加入到DHT網(wǎng)絡(luò)中熙兔,這樣就會(huì)源源不斷收到其他節(jié)點(diǎn)發(fā)過(guò)來(lái)的請(qǐng)求容客,然后從中獲取種子的hash值。
那么問(wèn)題來(lái)了
1: 怎么加入到DHT網(wǎng)絡(luò)中二跋?
2: 怎么讓其他節(jié)點(diǎn)給你發(fā)消息战惊?
3: 哪些請(qǐng)求里面包含hash信息?
看過(guò)上面的文章扎即,大家應(yīng)該明白DHT網(wǎng)絡(luò)中節(jié)點(diǎn)之間的通信只有下面4種請(qǐng)求
- ping
- find_node
- get_peer
- announce_peer
1:加入DHT網(wǎng)絡(luò)
要加入網(wǎng)絡(luò)要給下面的根地址發(fā)消息:
"router.utorrent.com:6881",
"router.bittorrent.com:6881",
"dht.transmissionbt.com:6881",
向這幾個(gè)節(jié)點(diǎn)查找任意節(jié)點(diǎn)(發(fā)送find_node請(qǐng)求)吞获,然后他們會(huì)返回距離該節(jié)點(diǎn)最近的K個(gè)節(jié)點(diǎn),那么我們?cè)僖来蜗騅個(gè)節(jié)點(diǎn)查找任意節(jié)點(diǎn)谚鄙,以此類推各拷,就有更多的節(jié)點(diǎn)認(rèn)識(shí)自己。
2: 加入網(wǎng)絡(luò)后就會(huì)收到其他節(jié)點(diǎn)的信息闷营,認(rèn)識(shí)的節(jié)點(diǎn)越多收到的消息就越多撤逢,所以爬蟲(chóng)應(yīng)該盡可能讓更多的節(jié)點(diǎn)認(rèn)識(shí)自己
3: 要獲取的hash信息主要是來(lái)自announce_peer請(qǐng)求,這個(gè)請(qǐng)求同時(shí)還會(huì)攜帶ip和port信息粮坞,get_peer也可以得到一個(gè)hash信息蚊荣,但是這個(gè)hash不能確定是否真實(shí)存在,如果我們只是想得到hash值然后通過(guò)其的軟件下載莫杈,也可以把這個(gè)hash收集起來(lái)互例。
另外announce_peer請(qǐng)求中implied_port這個(gè)字段,表示忽略參數(shù)中的port筝闹,繼續(xù)使用默認(rèn)的udp端口媳叨,這個(gè)記得處理腥光。
得到的hash只需要hex之后,就可以通過(guò)某雷下載了
下載metadata
得到了hash需要去下載元數(shù)據(jù)糊秆,元數(shù)據(jù)中包含主題名稱武福,以及種子包含的所有文件的名稱,這樣就可以做一些搜索了痘番。
Bt協(xié)議調(diào)試了很久捉片,出錯(cuò)的時(shí)候認(rèn)真核對(duì)協(xié)議檢查每一個(gè)細(xì)節(jié)。(參考上面bep_0009汞舱,bep_0010的鏈接)
下載之后的信息直接保存到了elasticsearch伍纫,建立了torrent-日期的模板索引,當(dāng)機(jī)器存儲(chǔ)不足的時(shí)候可以刪除一些舊的數(shù)據(jù)昂芜,或者遷移到別處莹规,并對(duì)種子名和種子中包含的每個(gè)文件名稱做了全文索引,這樣一個(gè)簡(jiǎn)單的磁力鏈接搜索器就可以運(yùn)行了泌神。不過(guò)這里只在本地用kibana進(jìn)行了測(cè)試良漱,沒(méi)有做頁(yè)面(擔(dān)心太好用-)。
最后:
樓主用的騰訊云服務(wù)器欢际,搜索的效率很低债热,一天也就幾百個(gè),目前認(rèn)為效率低兩個(gè)方面的問(wèn)題幼苛。
1: 服務(wù)器的上傳帶寬只有1M,每秒只能發(fā)大約1000-1300個(gè)包焕刮,收集的有效hash就很少舶沿。
2: 剛剛得到的hash信息,下載metadata的時(shí)候大多數(shù)都是timeout配并,這里還不清楚為什么括荡,有了解的大佬還望告知。