Jsoup爬取愛奇藝高分電影排行榜數(shù)據(jù)

原文地址:https://xeblog.cn/articles/27

Jsoup簡介

Jsoup官網(wǎng):https://jsoup.org/

jsoup 是一款Java 的HTML解析器坏快,可直接解析某個URL地址枣氧、HTML文本內容今魔。它提供了一套非常省力的API,可通過DOM率触,CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)母蛛。

分析網(wǎng)頁

瀏覽器打開愛奇藝高分電影排行榜的地址 https://www.iqiyi.com/dianying_new/i_list_paihangbang.html?type=2铭污,按 F12 審查元素。

仔細觀察后可以知道 data-seq 屬性是用于區(qū)分排行榜類型的寿羞,值為1表示是熱播榜,值為2表示是高分榜赂蠢。

image

查看高分榜的 <div> 標簽绪穆,里面存在一個 <ul> 標簽,<ul> 標簽中的每一個 <li> 標簽都是一部電影的信息虱岂。

image

<li> 標簽里通過獲取一個ClassName為 site-title_score<div> 標簽就可以得到電影的評分玖院、電影的名字、電影的視頻地址等信息第岖。

image

各個信息的獲取方式:

  • 電影評分:獲取這個 <div> 內的 <span> 標簽的文本內容难菌。
  • 電影名稱:獲取這個 <div> 內的 <a> 標簽的文本內容。
  • 電影地址:獲取這個 <div> 內的 <a> 標簽的 href 屬性的值蔑滓。

編寫代碼

添加 Maven 依賴

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.11.3</version>
</dependency>
package cn.xeblog.jsoup;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

/**
 * 爬取愛奇藝高分電影排行榜數(shù)據(jù)
 *
 * @author anlingyi
 */
public class HighScoreMoviesByIQIYI {

    /**
     * 網(wǎng)址
     */
    private static final String URL = "https://www.iqiyi.com/dianying_new/i_list_paihangbang.html?type=2";

    /**
     * 請求超時時間郊酒,15秒
     */
    private static final int TIMEOUT = 15000;

    public static void main(String[] args) throws IOException {
        // Get請求獲取指定的網(wǎng)址內容,并將內容解析為一個文檔對象键袱,設置請求超時時間
        Document document = Jsoup.connect(URL).timeout(TIMEOUT).get();
        // 獲取高分榜的元數(shù)據(jù)燎窘,先通過data-seq屬性的值(高分榜值為2)來定位元素節(jié)點,再通過ClassName精確查找出需要的數(shù)據(jù)
        Elements metaData = document.getElementsByAttributeValue("data-seq", "2")
                // 第0個元素是Tab導航蹄咖,所以從第二個元素開始查找
                .get(1)
                // 獲取ClassName為site-title_score的元素褐健,可以獲取到電影評分、電影名比藻、視頻地址
                .getElementsByClass("site-title_score");
        System.out.println("電影名\t\t\t電影評分\t\t\t視頻地址");

        // 遍歷元數(shù)據(jù)
        for (Element element : metaData) {
            // 通過<span>標簽可以獲取電影評分
            String score = element.select("span").text();
            // 通過<a>標簽可以獲取電影名和視頻地址
            Element data = element.selectFirst("a");
            // 電影名
            String name = data.text();
            // 視頻地址
            String url = data.attr("href");
            System.out.println(name + "\t\t\t" + score + "\t\t\t" + url);
        }
    }
}

爬取結果

image
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末铝量,一起剝皮案震驚了整個濱河市倘屹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌慢叨,老刑警劉巖纽匙,帶你破解...
    沈念sama閱讀 212,454評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異拍谐,居然都是意外死亡烛缔,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評論 3 385
  • 文/潘曉璐 我一進店門轩拨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來践瓷,“玉大人,你說我怎么就攤上這事亡蓉≡未洌” “怎么了?”我有些...
    開封第一講書人閱讀 157,921評論 0 348
  • 文/不壞的土叔 我叫張陵砍濒,是天一觀的道長淋肾。 經常有香客問我,道長爸邢,這世上最難降的妖魔是什么樊卓? 我笑而不...
    開封第一講書人閱讀 56,648評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮杠河,結果婚禮上碌尔,老公的妹妹穿的比我還像新娘。我一直安慰自己券敌,他們只是感情好唾戚,可當我...
    茶點故事閱讀 65,770評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著陪白,像睡著了一般颈走。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上咱士,一...
    開封第一講書人閱讀 49,950評論 1 291
  • 那天立由,我揣著相機與錄音,去河邊找鬼序厉。 笑死锐膜,一個胖子當著我的面吹牛,可吹牛的內容都是我干的弛房。 我是一名探鬼主播道盏,決...
    沈念sama閱讀 39,090評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了荷逞?” 一聲冷哼從身側響起媒咳,我...
    開封第一講書人閱讀 37,817評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎种远,沒想到半個月后涩澡,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 44,275評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡坠敷,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,592評論 2 327
  • 正文 我和宋清朗相戀三年妙同,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片膝迎。...
    茶點故事閱讀 38,724評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡粥帚,死狀恐怖,靈堂內的尸體忽然破棺而出限次,到底是詐尸還是另有隱情芒涡,我是刑警寧澤,帶...
    沈念sama閱讀 34,409評論 4 333
  • 正文 年R本政府宣布掂恕,位于F島的核電站拖陆,受9級特大地震影響弛槐,放射性物質發(fā)生泄漏懊亡。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 40,052評論 3 316
  • 文/蒙蒙 一乎串、第九天 我趴在偏房一處隱蔽的房頂上張望店枣。 院中可真熱鬧,春花似錦叹誉、人聲如沸鸯两。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽钧唐。三九已至,卻和暖如春匠襟,著一層夾襖步出監(jiān)牢的瞬間钝侠,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評論 1 266
  • 我被黑心中介騙來泰國打工酸舍, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留帅韧,地道東北人。 一個月前我還...
    沈念sama閱讀 46,503評論 2 361
  • 正文 我出身青樓啃勉,卻偏偏與公主長得像忽舟,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,627評論 2 350

推薦閱讀更多精彩內容