上一篇寫了一個簡單的新浪新聞爬蟲作為上手主要是用jsoup包來對url頁面進行抓取到本地,并在本地進行數(shù)據(jù)的解析提取稠歉。這里就不重復敘述jsoup的用法了蛮拔,百度一下基本一大片钮追。看了網(wǎng)上大神們都有對知乎進行爬取,今天我也拿它來試試手攻谁。寫這篇文章的目的主要是想將自己在爬取中遇到的一些坑稚伍,以及怎么解決的做一下記錄。也算是一次加深理解的過程戚宦。
爬取的目標頁面目標是爬取問題推薦頁面的所有問題个曙。但是隨后我就發(fā)現(xiàn)一個問題,第一次我是通過抓取這個https://www.zhihu.com/explore/recommendations鏈接來獲取問題列表受楼,但是當代碼敲完測試的時候發(fā)現(xiàn)數(shù)據(jù)只有20條垦搬。。艳汽。這顯然不是我所期望的猴贰,看了一遍代碼 發(fā)現(xiàn)代碼是沒有毛病周偎,那么問題出在哪里上煤?排查了一片以及debug模式。最終發(fā)現(xiàn)是頁面的問題割疾。因為我忽略了一個重要的地方馋艺。頁面是動態(tài)加載的栅干,而且每次只加載20條。
問題就出在這個地方捐祠,這里其實還包含了一個地址(https://www.zhihu.com/node/ExploreRecommendListV2)碱鳞。通過抓包可以發(fā)現(xiàn)(google的F12真的好用,推薦多去看看)
知道問題出在哪里其實就已經(jīng)完成了一半了踱蛀。說一下接下來我的思路:
- 因為用請求的參數(shù)可以看出其實這就是一個類似于一個分頁信息一樣劫笙。那么我只要在java代碼中每次模仿頁面的請求給知乎發(fā)送ajax請求,然后解析返回的json結(jié)果是不是就可以獲取其中的問題信息了星岗。
- 上面其實就已經(jīng)有兩個需求需要解決填大。
- 在java代碼中模仿ajax發(fā)送請求。采用的是Httpclient俏橘。
- 解析返回的json允华,Gson jar包可以完美解決。
封裝了httpclient post請求
public class HttpClientUtil {
/**
*
* @Title: doPost
* @Description: 模仿提交post請求
* @param @param url
* @param @param map 請求的參數(shù) 采用map集合封裝參數(shù)
* @param @param charset 編碼格式
* @param @return 參數(shù)
* @return String 返回類型
* @author liangchu
* @date 2017-12-31 下午7:09:14
* @throws
*/
public static String doPost(String url,Map<String,Object> map,String charset){
HttpClient httpClient = null;
HttpPost httpPost = null;
String result = null;
try{
httpClient = new SSLClient();
httpPost = new HttpPost(url);
//設(shè)置參數(shù)
List<NameValuePair> list = new ArrayList<NameValuePair>();
Iterator iterator = map.entrySet().iterator();
while(iterator.hasNext()){
Entry<String,Object> elem = (Entry<String, Object>) iterator.next();
list.add(new BasicNameValuePair(elem.getKey(),(String) elem.getValue()));
}
if(list.size() > 0){
UrlEncodedFormEntity entity = new UrlEncodedFormEntity(list,charset);
httpPost.setEntity(entity);
}
HttpResponse response = httpClient.execute(httpPost);
if(response != null){
HttpEntity resEntity = response.getEntity();
if(resEntity != null){
result = EntityUtils.toString(resEntity,charset);
}
}
}catch(Exception ex){
ex.printStackTrace();
}
return result;
}
}
根據(jù)url鏈接地址獲取對應(yīng)的信息列表
/**
*
* @Title: spiderZH2
* @Description: 這里是采用httpclient包發(fā)送請求 獲取需要加載的列表
* @param @param url 參數(shù)url地址 offset 根據(jù)offset顯示問題信息列表
* @return void 返回類型
* @author liangchu
* @date 2017-12-31 下午2:11:23
* @throws
*/
public static void spiderZH2(String url,int offset){
try {
//String curl ="https://www.zhihu.com/node/ExploreRecommendListV2";
Map<String,Object> createMap = new HashMap<String,Object>();
String charset = "utf-8";
// method 提交的參數(shù)
createMap.put("method", "next");
Map<String,Object> map = new HashMap<String, Object>();
// 分頁顯示的數(shù)據(jù)
map.put("limit", 20);
map.put("offset", offset);
createMap.put("method", "next");
Gson gson = new Gson();
String mapStr = gson.toJson(map);
// 請求的參數(shù)
createMap.put("params", mapStr);
// 根據(jù)httpclient模仿post請求
String httpOrgCreateTestRtn = HttpClientUtil.doPost(url,createMap,charset);
Map maps = gson.fromJson(httpOrgCreateTestRtn, Map.class);
String html = maps.get("msg").toString();
Document doc = Jsoup.parse(html);
Elements elements =
doc.select("div[class=zm-item]").select("h2").
select("a[class=question_link]");
File file = new File("F:/replite/zhifuwenda.txt");
// 遍歷每個問題節(jié)點
for (Element question : elements) {
// 獲取連接地址
String qUrl = question.attr("href");
// 這里需要判斷urlhttp格式
if(!qUrl.contains("https://")){
qUrl = "https://www.zhihu.com"+qUrl;
}
Document document2=Jsoup.connect(qUrl)
.userAgent("Mozilla/5.0 "
+ "(iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) "
+ "AppleWebKit/533.17.9"
+ " (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5")
.get();
// 問題標題
Elements title = document2.select("#root").select("div").select("main").
select("div").select("div:nth-child(10)").select("div.QuestionHeader").
select("div.QuestionHeader-content").select("div.QuestionHeader-main").
select("h1");
// 回答問題的內(nèi)容
Elements content = document2.select("#root").select("div").select("main").
select("div").select("div.Question-main").select("div.Question-mainColumn").
select("div.Card.AnswerCard").select("div").select("div").
select("div.RichContent.RichContent--unescapable").
select("div.RichContent-inner");
if (!file.getParentFile().exists()) {//判斷路徑是否存在寥掐,如果不存在靴寂,則創(chuàng)建上一級目錄文件夾
file.getParentFile().mkdirs();
}
FileWriter fileWriter=new FileWriter(file, true);
fileWriter.write("=============鏈接:"+qUrl+"\r\n");
fileWriter.write("=============標題:"+title.get(0).text()+"\r\n");
fileWriter.write("=============回答:"+content.get(0).text()+"\r\n");
fileWriter.close();
}
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
調(diào)用
public static void main(String [] args){
// 這里采用循環(huán)的方式去除列表
String url = "https://www.zhihu.com/node/ExploreRecommendListV2";
for(int i=1;i<1000;i++){
spiderZH2(url,59+i*20);
}
}
數(shù)據(jù)采集截圖
改進的地方還有很多,比如說可以采用多線程采集召耘,應(yīng)該效率會比較高百炬,在實際的應(yīng)用應(yīng)該是采集的數(shù)據(jù)可以存入redis中,然后在由redis insert進數(shù)據(jù)庫污它。要改進的地方還有很多剖踊,時間的問題也就沒有去考慮的庶弃。這也算是上一個版本一個小小的提升吧。O(∩_∩)O