java簡(jiǎn)單的爬蟲(今日頭條)

之前在做資訊站的時(shí)候需要用到爬蟲來(lái)獲取一些文章,今天剛好有空就研究了一下.在網(wǎng)上看到了一個(gè)demo,使用的是Jsoup,我拿過(guò)來(lái)修改了一下,
由于今日頭條的文章的特殊性,所以無(wú)法直接獲取文章的地址,需要獲取文章的id然后在拼接成url再訪問(wèn).

public class Demo2 {

 public static void main(String[] args) {

    // 需要爬的網(wǎng)頁(yè)的文章列表
    String url = "http://www.toutiao.com/news_finance/";
    //文章詳情頁(yè)的前綴(由于今日頭條的文章都是在group這個(gè)目錄下,所以定義了前綴,而且通過(guò)請(qǐng)求獲取到的html頁(yè)面)
    String url2="http://www.toutiao.com/group/";
    //鏈接到該網(wǎng)站
    Connection connection = Jsoup.connect(url);
    Document content = null;
    try {
        //獲取內(nèi)容
        content = connection.get();
    } catch (IOException e) {
        e.printStackTrace();
    }
    //轉(zhuǎn)換成字符串
    String htmlStr = content.html();
    //因?yàn)榻袢疹^條的文章展示比較奇葩,都是通過(guò)js定義成變量,所以無(wú)法使用獲取dom元素的方式獲取值
    String jsonStr = StringUtils.substringBetween(htmlStr,"var _data = ", ";");
    System.out.println(jsonStr);
    Map parse = (Map) JSONObject.parse(jsonStr);
    JSONArray parseArray = (JSONArray) parse.get("real_time_news");
    Map map=null;
    List<Map> maps=new ArrayList<>();
    //遍歷這個(gè)jsonArray,獲取到每一個(gè)json對(duì)象,然后將其轉(zhuǎn)換成Map對(duì)象(在這里其實(shí)只需要一個(gè)group_id,那么沒(méi)必要使用map)
    for(int i=0;i<parseArray.size();i++){
        map = (Map)parseArray.get(i);
        maps.add((Map)parseArray.get(i));
        System.out.println(map.get("group_id"));
        
    }
    //遍歷之前獲取到的map集合,然后分別訪問(wèn)這些文章詳情頁(yè)
    for (Map map2 : maps) {
        connection = Jsoup.connect(url2+map2.get("group_id"));
        try {
            Document document = connection.get();
            //獲取文章標(biāo)題
            Elements title = document.select("[class=article-title]");
            System.out.println(title.html());
            //獲取文章來(lái)源和文章發(fā)布時(shí)間
            Elements articleInfo = document.select("[class=articleInfo]");
            Elements src = articleInfo.select("[class=src]");
            System.out.println(src.html());
            Elements time = articleInfo.select("[class=time]");
            System.out.println(time.html());
            //獲取文章內(nèi)容
            Elements contentEle = document.select("[class=article-content]");
            System.out.println(contentEle.html());
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
 }
}

最后編輯于：2017.12.04 07:13:34

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末帜消，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子蹄殃，更是在濱河造成了極大的恐慌侣诺，老刑警劉巖虹蒋，帶你破解...
沈念sama閱讀 217,509評(píng)論 6贊 504
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件蹋凝，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡工禾，警方通過(guò)查閱死者的電腦和手機(jī)运提，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,806評(píng)論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)帜篇，“玉大人糙捺，你說(shuō)我怎么就攤上這事◇舷叮” “怎么了洪灯？”我有些...
開(kāi)封第一講書人閱讀 163,875評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)竟痰。經(jīng)常有香客問(wèn)我签钩，道長(zhǎng)，這世上最難降的妖魔是什么坏快？我笑而不...
開(kāi)封第一講書人閱讀 58,441評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任铅檩，我火速辦了婚禮，結(jié)果婚禮上莽鸿，老公的妹妹穿的比我還像新娘昧旨。我一直安慰自己拾给，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,488評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布兔沃。她就那樣靜靜地躺著蒋得，像睡著了一般。火紅的嫁衣襯著肌膚如雪乒疏。梳的紋絲不亂的頭發(fā)上额衙，一...
開(kāi)封第一講書人閱讀 51,365評(píng)論 1贊 302
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音怕吴，去河邊找鬼窍侧。笑死，一個(gè)胖子當(dāng)著我的面吹牛转绷，可吹牛的內(nèi)容都是我干的伟件。我是一名探鬼主播，決...
沈念sama閱讀 40,190評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼暇咆，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼锋爪！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起爸业，我...
開(kāi)封第一講書人閱讀 39,062評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤其骄，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后扯旷，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拯爽，經(jīng)...
沈念sama閱讀 45,500評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,706評(píng)論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年钧忽，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了毯炮。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,834評(píng)論 1贊 347
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡耸黑，死狀恐怖桃煎，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情大刊，我是刑警寧澤为迈，帶...
沈念sama閱讀 35,559評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站缺菌，受9級(jí)特大地震影響葫辐，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜伴郁，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,167評(píng)論 3贊 328
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一耿战、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧焊傅，春花似錦剂陡、人聲如沸狈涮。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 31,779評(píng)論 0贊 22
一樁弒父案鸭栖，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)薯嗤。三九已至，卻和暖如春纤泵，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背镜粤。一陣腳步聲響...
開(kāi)封第一講書人閱讀 32,912評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工捏题，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人肉渴。一個(gè)月前我還...
沈念sama閱讀 47,958評(píng)論 2贊 370
代替公主和親
正文我出身青樓公荧，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親同规。傳聞我的和親對(duì)象是個(gè)殘疾皇子循狰，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,779評(píng)論 2贊 354

java簡(jiǎn)單的爬蟲(今日頭條)

推薦閱讀更多精彩內(nèi)容