JavaWeb小項(xiàng)目之綜合搜索工具(一):前端篇
JavaWeb小項(xiàng)目之綜合搜索工具(二):爬蟲篇
JavaWeb小項(xiàng)目之綜合搜索工具(三):創(chuàng)建RESTful服務(wù)篇
關(guān)于此項(xiàng)目的后臺(tái)搜索核心部分就是爬蟲了,因?yàn)橹皼]有接觸過Java爬蟲的編寫尊沸,因此上網(wǎng)找了一些相關(guān)Demo來學(xué)習(xí)威沫,下邊這個(gè)博主寫的demo很實(shí)在也夠基礎(chǔ),起碼擴(kuò)展性是非常強(qiáng)的洼专。
因?yàn)榇薲emo只是設(shè)置了鏈接棒掠、關(guān)鍵字、和請求類型屁商,但對于爬到的數(shù)據(jù)沒有進(jìn)行清洗烟很。所以,根據(jù)需要,為自己想要的信息使用Jsoup雾袱,進(jìn)行篩選恤筛。
Jsoup-API文檔:http://www.open-open.com/jsoup/
邊學(xué)邊用也就大致清楚了,有用過Python的話谜酒,其實(shí)用法跟BeautifulSoup差不多。
思路大概如下:
1.找到目標(biāo)的標(biāo)簽位置
如何快速定位目標(biāo)位置 妻枕?
Tips:
在Chrome中僻族,右鍵單擊目標(biāo)位置->審查元素->右鍵選中位置->Copy->Copy selector
上圖
2.發(fā)起數(shù)據(jù)請求
先分析使用搜索時(shí),對哪個(gè)地址發(fā)起請求屡谐,請求類型是什么(GET / POST) 述么,使用Chrome的NetWork 工具進(jìn)行分析(在搜索結(jié)果頁面開著Network重新刷新頁面便能記錄下來),(已劃重點(diǎn))
這里可以看出,是向 http://www.baikemy.com/search/searchlist
發(fā)送了POST
請求愕掏,而且還帶著兩個(gè)參數(shù)度秘,title & dataClass。
那么規(guī)則類可以這樣寫
Rule Baikemy_rule = new Rule(
"http://www.baikemy.com/search/searchlist",
new String[] { "title","dataClass" },
new String[] { "羥基","http://search.baikemy.com/home"},
"div.ssjgye_nav > div.ssjgye_left ",
Rule.SELECTION,
Rule.POST
);
3.數(shù)據(jù)的清洗
以Baikemy_rule發(fā)起請求饵撑,將獲得Response的Document進(jìn)行數(shù)據(jù)的篩選與輸出剑梳。
public static void SelectData_Baikemy(Element item, List<LinkTypeData> datas){
try {
//疾病百科下的第一個(gè)a標(biāo)簽就是疾病的目標(biāo)鏈接
Element link = item.getElementsByTag("a").get(0);
String link_ + link.attr("href");
String link_text = link.text();
//疾病百科下的第二個(gè)p標(biāo)簽就是描述疾病詳情的內(nèi)容
Element details = item.getElementsByTag("p").get(1);
String details_text = details.text();
LinkTypeData data = new LinkTypeData();
data.setLinkHref(link_href);
data.setLinkText(link_text);
data.setSummary(details_text);
//添加該元素到List集合中
datas.add(data);
}catch (RuntimeException e){
e.printStackTrace();
System.out.println("沒有找到搜索結(jié)果");
}
}
4.封裝成一個(gè)對象輸出
此處把得到的數(shù)據(jù)以一個(gè)對象的形式輸出,也方便后面把此對象封裝成一個(gè)JSON結(jié)構(gòu)滑潘。
for (Element result : results){
Elements targets_jbkx=result.getElementsByClass("ssjgye_jbkx");
Elements targets_yyjs=result.getElementsByClass("ssjgye_yyjs");
Elements targets_lsjl=result.getElementsByClass("ssjgye_lsjl");
//疾病百科
for (Element target_jbkx : targets_jbkx){
SelectData_Baikemy(target_jbkx,baike_datas);
}
//醫(yī)患問答
for (Element target_yyjs:targets_yyjs){
SelectData_Baikemy(target_yyjs,wenda_datas);
}
//科普
for (Element target_lsjl:targets_lsjl){
SelectData_Baikemy(target_lsjl,kepu_datas);
}
}
//三個(gè)List匯總為一個(gè)對象
Summary_datas=new Link_Items(baike_datas,wenda_datas,kepu_datas);