由Java爬蟲所想到的

爬蟲,聽起來似乎很高端术幔,然而也就那么回事另萤,有很多爬蟲框架湃密,Java實現(xiàn)的有crawler4j诅挑,WebCollector,webMagic泛源,Python實現(xiàn)的最著名的應該是Scrapy拔妥,工作中用到,但是沒用什么爬蟲框架达箍,整個工作基于HttpClient和Jsoup没龙。

  • 流程

    1. HttpClient去模擬get和post請求;

    2. 獲取返回的數據缎玫,

      • 如果是json或者XML硬纤,直接解析;

      • 如果是html赃磨,使用Jsoup去分析筝家;

  • 技能要求

    1. 熟悉HTML,JavaScript邻辉,jQuery

    2. 熟悉HttpClient溪王,Jsoup

  • 使用工具

    1. FireFox(FireBug)/ chrome : 用于觀察HTML文檔結構

    2. WireShark:抓數據包(不是十分常用,在爬取不成功的時用于對比瀏覽器數據和模擬數據)

    3. 一些插件值骇,如 RESTClient(不常用)

  • 額外的一些記錄

    1. HttpClient與jsonp

最近在爬取某市圖書館莹菱,發(fā)現(xiàn)其中有一個jsonp的請求,期初以為是一個普通的get請求吱瘩,但是url感覺很奇怪道伟,就搜了下,發(fā)現(xiàn)是jQuery的jsonp請求


#host地址已改

api.baidu.com/book/isbn/978-7-5442-4725-2/?glc=P2HBJ0315013&returnType=json&callback=insertAllBookMetaInfo&jsoncallback=jQuery1620053801810543760764_1464099784203&_=1464099796349

也了解了下jsonp使碾,具體請參看:

1. [跨域JSONP原理及調用具體示例](http://blog.csdn.net/yuebinghaoyuan/article/details/32706277)

2. jsonp原理:[說說JSON和JSONP皱卓,也許你會豁然開朗,含jQuery用例](http://www.cnblogs.com/dowinning/archive/2012/04/19/json-jsonp-jquery.html)
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末部逮,一起剝皮案震驚了整個濱河市娜汁,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌兄朋,老刑警劉巖掐禁,帶你破解...
    沈念sama閱讀 212,454評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異颅和,居然都是意外死亡傅事,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評論 3 385
  • 文/潘曉璐 我一進店門峡扩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蹭越,“玉大人,你說我怎么就攤上這事教届∠炀椋” “怎么了驾霜?”我有些...
    開封第一講書人閱讀 157,921評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長买置。 經常有香客問我粪糙,道長,這世上最難降的妖魔是什么忿项? 我笑而不...
    開封第一講書人閱讀 56,648評論 1 284
  • 正文 為了忘掉前任蓉冈,我火速辦了婚禮,結果婚禮上轩触,老公的妹妹穿的比我還像新娘寞酿。我一直安慰自己,他們只是感情好脱柱,可當我...
    茶點故事閱讀 65,770評論 6 386
  • 文/花漫 我一把揭開白布熟嫩。 她就那樣靜靜地躺著,像睡著了一般褐捻。 火紅的嫁衣襯著肌膚如雪掸茅。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,950評論 1 291
  • 那天柠逞,我揣著相機與錄音昧狮,去河邊找鬼。 笑死板壮,一個胖子當著我的面吹牛逗鸣,可吹牛的內容都是我干的。 我是一名探鬼主播绰精,決...
    沈念sama閱讀 39,090評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼撒璧,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了笨使?” 一聲冷哼從身側響起卿樱,我...
    開封第一講書人閱讀 37,817評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎硫椰,沒想到半個月后繁调,有當地人在樹林里發(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 44,275評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡靶草,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,592評論 2 327
  • 正文 我和宋清朗相戀三年蹄胰,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片奕翔。...
    茶點故事閱讀 38,724評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡裕寨,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情宾袜,我是刑警寧澤捻艳,帶...
    沈念sama閱讀 34,409評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站试和,受9級特大地震影響,放射性物質發(fā)生泄漏纫普。R本人自食惡果不足惜阅悍,卻給世界環(huán)境...
    茶點故事閱讀 40,052評論 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望昨稼。 院中可真熱鬧节视,春花似錦、人聲如沸假栓。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽匾荆。三九已至拌蜘,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間牙丽,已是汗流浹背简卧。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留烤芦,地道東北人举娩。 一個月前我還...
    沈念sama閱讀 46,503評論 2 361
  • 正文 我出身青樓,卻偏偏與公主長得像构罗,于是被迫代替她去往敵國和親铜涉。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,627評論 2 350

推薦閱讀更多精彩內容

  • 隨著互聯(lián)網+時代的來臨遂唧,越來越多的互聯(lián)網企業(yè)層出不窮芙代,涉及游戲、視頻盖彭、新聞链蕊、社交、電商谬泌、房產滔韵、旅游等眾多行業(yè)。如今...
    JackChen1024閱讀 10,711評論 2 49
  • AJAX 原生js操作ajax 1.創(chuàng)建XMLHttpRequest對象 var xhr = new XMLHtt...
    碧玉含香閱讀 3,186評論 0 7
  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理掌实,服務發(fā)現(xiàn)陪蜻,斷路器,智...
    卡卡羅2017閱讀 134,637評論 18 139
  • 雖然很多人覺得在手機上玩擦屏幕的虛擬按鍵游戲非常不爽滋将,但是俗話說蘿卜青菜各有所愛,除了喜歡玩在手機上玩游戲而不喜歡...
    最美應用閱讀 1,519評論 0 2
  • 2017.10.初 當初選擇的遠嫁症昏,雖說沒什么后悔的随闽;可隨著年齡的增長,越發(fā)的思念家中的老父母肝谭,越...
    含紫煙閱讀 378評論 0 0