java爬蟲進階篇(半小時知乎兩萬推薦問題)

上一篇寫了一個簡單的新浪新聞爬蟲作為上手主要是用jsoup包來對url頁面進行抓取到本地,并在本地進行數(shù)據(jù)的解析提取稠歉。這里就不重復敘述jsoup的用法了蛮拔,百度一下基本一大片钮追。看了網(wǎng)上大神們都有對知乎進行爬取,今天我也拿它來試試手攻谁。寫這篇文章的目的主要是想將自己在爬取中遇到的一些坑稚伍,以及怎么解決的做一下記錄。也算是一次加深理解的過程戚宦。

爬取的目標頁面
2017-12-31_172919.png

目標是爬取問題推薦頁面的所有問題个曙。但是隨后我就發(fā)現(xiàn)一個問題,第一次我是通過抓取這個https://www.zhihu.com/explore/recommendations鏈接來獲取問題列表受楼,但是當代碼敲完測試的時候發(fā)現(xiàn)數(shù)據(jù)只有20條垦搬。。艳汽。這顯然不是我所期望的猴贰,看了一遍代碼 發(fā)現(xiàn)代碼是沒有毛病周偎,那么問題出在哪里上煤?排查了一片以及debug模式。最終發(fā)現(xiàn)是頁面的問題割疾。因為我忽略了一個重要的地方馋艺。頁面是動態(tài)加載的栅干,而且每次只加載20條。

頁面加載.png

問題就出在這個地方捐祠,這里其實還包含了一個地址(https://www.zhihu.com/node/ExploreRecommendListV2)碱鳞。通過抓包可以發(fā)現(xiàn)(google的F12真的好用,推薦多去看看)
ajax請求頭.png

請求參數(shù).png

返回json結(jié)果.png

知道問題出在哪里其實就已經(jīng)完成了一半了踱蛀。說一下接下來我的思路:

  • 因為用請求的參數(shù)可以看出其實這就是一個類似于一個分頁信息一樣劫笙。那么我只要在java代碼中每次模仿頁面的請求給知乎發(fā)送ajax請求,然后解析返回的json結(jié)果是不是就可以獲取其中的問題信息了星岗。
  • 上面其實就已經(jīng)有兩個需求需要解決填大。
    1. 在java代碼中模仿ajax發(fā)送請求。采用的是Httpclient俏橘。
    2. 解析返回的json允华,Gson jar包可以完美解決。

封裝了httpclient post請求

  public class HttpClientUtil {
    /**
     * 
    * @Title: doPost
    * @Description: 模仿提交post請求
    * @param @param url
    * @param @param map 請求的參數(shù) 采用map集合封裝參數(shù)
    * @param @param charset 編碼格式
    * @param @return    參數(shù)
    * @return String 返回類型
    * @author  liangchu
    * @date 2017-12-31 下午7:09:14 
    * @throws
     */
    public static String doPost(String url,Map<String,Object> map,String charset){  
        HttpClient httpClient = null;  
        HttpPost httpPost = null;  
        String result = null;  
        try{  
            httpClient = new SSLClient();  
            httpPost = new HttpPost(url);  
            //設(shè)置參數(shù)  
            List<NameValuePair> list = new ArrayList<NameValuePair>();  
            Iterator iterator = map.entrySet().iterator();  
            while(iterator.hasNext()){  
                Entry<String,Object> elem = (Entry<String, Object>) iterator.next();  
                list.add(new BasicNameValuePair(elem.getKey(),(String) elem.getValue()));  
            }  
            if(list.size() > 0){  
                UrlEncodedFormEntity entity = new UrlEncodedFormEntity(list,charset);  
                httpPost.setEntity(entity);  
            }  
            HttpResponse response = httpClient.execute(httpPost);  
            if(response != null){  
                HttpEntity resEntity = response.getEntity();  
                if(resEntity != null){  
                    result = EntityUtils.toString(resEntity,charset);  
                }  
            }  
        }catch(Exception ex){  
            ex.printStackTrace();  
        }  
        return result;  
    }  
}

根據(jù)url鏈接地址獲取對應(yīng)的信息列表

/**
     * 
    * @Title: spiderZH2
    * @Description: 這里是采用httpclient包發(fā)送請求 獲取需要加載的列表
    * @param @param url    參數(shù)url地址 offset 根據(jù)offset顯示問題信息列表 
    * @return void 返回類型
    * @author  liangchu
    * @date 2017-12-31 下午2:11:23 
    * @throws
     */
    public static void spiderZH2(String url,int offset){
        try {
            //String curl ="https://www.zhihu.com/node/ExploreRecommendListV2";
             Map<String,Object> createMap = new HashMap<String,Object>();
             String charset = "utf-8";
             // method 提交的參數(shù)             
             createMap.put("method", "next");
             Map<String,Object> map = new HashMap<String, Object>();
             // 分頁顯示的數(shù)據(jù)
             map.put("limit", 20);
             map.put("offset", offset);
             createMap.put("method", "next");
             Gson gson = new Gson();
             String mapStr = gson.toJson(map);
             // 請求的參數(shù)
             createMap.put("params", mapStr);
             // 根據(jù)httpclient模仿post請求
             String httpOrgCreateTestRtn = HttpClientUtil.doPost(url,createMap,charset); 
             Map maps = gson.fromJson(httpOrgCreateTestRtn, Map.class);
            String html = maps.get("msg").toString();
             Document doc = Jsoup.parse(html);
             Elements elements = 
                     doc.select("div[class=zm-item]").select("h2").
                     select("a[class=question_link]");
            File file = new File("F:/replite/zhifuwenda.txt");
            // 遍歷每個問題節(jié)點
            for (Element question : elements) {
                // 獲取連接地址
                String qUrl = question.attr("href");
                // 這里需要判斷urlhttp格式
                if(!qUrl.contains("https://")){
                    qUrl = "https://www.zhihu.com"+qUrl;
                }
                Document document2=Jsoup.connect(qUrl)
                        .userAgent("Mozilla/5.0 "
                                + "(iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) "
                                + "AppleWebKit/533.17.9"
                                + " (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5")
                        .get();             
                // 問題標題             
                Elements title = document2.select("#root").select("div").select("main").
                select("div").select("div:nth-child(10)").select("div.QuestionHeader").
                select("div.QuestionHeader-content").select("div.QuestionHeader-main").
                select("h1");
                // 回答問題的內(nèi)容
                Elements content = document2.select("#root").select("div").select("main").
                        select("div").select("div.Question-main").select("div.Question-mainColumn").
                        select("div.Card.AnswerCard").select("div").select("div").
                        select("div.RichContent.RichContent--unescapable").
                        select("div.RichContent-inner");                
                if (!file.getParentFile().exists()) {//判斷路徑是否存在寥掐,如果不存在靴寂,則創(chuàng)建上一級目錄文件夾
                    file.getParentFile().mkdirs();
                }
                FileWriter fileWriter=new FileWriter(file, true); 
                fileWriter.write("=============鏈接:"+qUrl+"\r\n");
                fileWriter.write("=============標題:"+title.get(0).text()+"\r\n");
                fileWriter.write("=============回答:"+content.get(0).text()+"\r\n");
                fileWriter.close();
            }
            
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

調(diào)用

public static void main(String [] args){
        // 這里采用循環(huán)的方式去除列表
        String url = "https://www.zhihu.com/node/ExploreRecommendListV2";
        for(int i=1;i<1000;i++){
        spiderZH2(url,59+i*20);
        }
    }

數(shù)據(jù)采集截圖

2017-12-31_191857.png

改進的地方還有很多,比如說可以采用多線程采集召耘,應(yīng)該效率會比較高百炬,在實際的應(yīng)用應(yīng)該是采集的數(shù)據(jù)可以存入redis中,然后在由redis insert進數(shù)據(jù)庫污它。要改進的地方還有很多剖踊,時間的問題也就沒有去考慮的庶弃。這也算是上一個版本一個小小的提升吧。O(∩_∩)O

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末德澈,一起剝皮案震驚了整個濱河市歇攻,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌梆造,老刑警劉巖缴守,帶你破解...
    沈念sama閱讀 216,470評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異镇辉,居然都是意外死亡屡穗,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,393評論 3 392
  • 文/潘曉璐 我一進店門忽肛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來村砂,“玉大人,你說我怎么就攤上這事麻裁」烤担” “怎么了源祈?”我有些...
    開封第一講書人閱讀 162,577評論 0 353
  • 文/不壞的土叔 我叫張陵煎源,是天一觀的道長。 經(jīng)常有香客問我香缺,道長手销,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,176評論 1 292
  • 正文 為了忘掉前任图张,我火速辦了婚禮锋拖,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘祸轮。我一直安慰自己兽埃,他們只是感情好,可當我...
    茶點故事閱讀 67,189評論 6 388
  • 文/花漫 我一把揭開白布适袜。 她就那樣靜靜地躺著柄错,像睡著了一般。 火紅的嫁衣襯著肌膚如雪苦酱。 梳的紋絲不亂的頭發(fā)上售貌,一...
    開封第一講書人閱讀 51,155評論 1 299
  • 那天,我揣著相機與錄音疫萤,去河邊找鬼颂跨。 笑死,一個胖子當著我的面吹牛扯饶,可吹牛的內(nèi)容都是我干的恒削。 我是一名探鬼主播池颈,決...
    沈念sama閱讀 40,041評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼蔓同!你這毒婦竟也來了饶辙?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,903評論 0 274
  • 序言:老撾萬榮一對情侶失蹤斑粱,失蹤者是張志新(化名)和其女友劉穎弃揽,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體则北,經(jīng)...
    沈念sama閱讀 45,319評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡矿微,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,539評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了尚揣。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片涌矢。...
    茶點故事閱讀 39,703評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖快骗,靈堂內(nèi)的尸體忽然破棺而出娜庇,到底是詐尸還是另有隱情,我是刑警寧澤方篮,帶...
    沈念sama閱讀 35,417評論 5 343
  • 正文 年R本政府宣布名秀,位于F島的核電站,受9級特大地震影響藕溅,放射性物質(zhì)發(fā)生泄漏匕得。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,013評論 3 325
  • 文/蒙蒙 一巾表、第九天 我趴在偏房一處隱蔽的房頂上張望汁掠。 院中可真熱鬧,春花似錦集币、人聲如沸考阱。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,664評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽乞榨。三九已至,卻和暖如春偶妖,著一層夾襖步出監(jiān)牢的瞬間姜凄,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,818評論 1 269
  • 我被黑心中介騙來泰國打工趾访, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留态秧,地道東北人。 一個月前我還...
    沈念sama閱讀 47,711評論 2 368
  • 正文 我出身青樓扼鞋,卻偏偏與公主長得像申鱼,于是被迫代替她去往敵國和親愤诱。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,601評論 2 353

推薦閱讀更多精彩內(nèi)容

  • 隨著互聯(lián)網(wǎng)+時代的來臨捐友,越來越多的互聯(lián)網(wǎng)企業(yè)層出不窮淫半,涉及游戲、視頻匣砖、新聞科吭、社交、電商猴鲫、房產(chǎn)对人、旅游等眾多行業(yè)。如今...
    JackChen1024閱讀 10,721評論 2 49
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,072評論 25 707
  • 自從在朋友@gyg 的幫助下拂共,注冊了steemit賬號牺弄,并于2017年9月24日發(fā)出了第一篇文章,說是文章宜狐,其實就...
    胡義華閱讀 752評論 4 3
  • 看到這條線了嗎势告,看樣了,你很快會擁有一場轟轟烈烈的愛情抚恒! ...
    晨若若曦閱讀 4,729評論 7 7
  • 他叫笨南北咱台, 你叫小東西。 他是小沙彌柑爸, 你是小伶俐吵护。 他很喜歡你盒音,輕輕嘆息表鳍。 像夏蟲語冰, 心碎自欺祥诽。 像風吹大...
    忘蘇閱讀 360評論 5 7