B站視頻下載(VideoHelper)

繼續(xù)上次的知乎爬蟲, 這次開始了嗶哩嗶哩的爬蟲實(shí)踐悼嫉;

首先介紹下如何下載吧: VideoHelper 里面有三種方式下載b站視頻。

同樣的流程拼窥, 還是先抓包戏蔑,分析參數(shù)蹋凝,尋找參數(shù)(包括之前的請求包和頁面源碼),找出視頻真實(shí)地址总棵, 然后在模擬鳍寂。

抓包是注意幾個(gè)參數(shù):

aid:每個(gè)視頻都會有對應(yīng)的 aid, 包括ep類型的情龄;

cid:彈幕的id伐割, 通過相關(guān)api可由cid找到對應(yīng)的資源列表

ep_id: 就是地址欄上顯示的ep類型的id了

這里詳細(xì)的流程我就不介紹了(其實(shí)我是來宣傳VideoHelper 的,目前還支持知乎等網(wǎng)站視頻, 歡迎star刃唤「粜模滑稽‘(>﹏<))

其中需要注意的是模擬發(fā)包是有些請求頭是不能掉的, user-agent我就不說了尚胞, 不如Referer硬霍;

另外我發(fā)現(xiàn)網(wǎng)上目前僅存的b站的視頻爬蟲好像大多不支持ep類型的, 不過我那個(gè)最近測試是支持了的笼裳, 但是vip專屬的也是會直接報(bào)錯(cuò)唯卖;

另外注明:該項(xiàng)目參考了you-get的部分api

下面老規(guī)矩貼上主要源碼:

package website;

import bean.BilibiliBean;
import bean.VideoBean;
import org.dom4j.DocumentException;
import org.dom4j.io.SAXReader;
import org.json.JSONArray;
import org.json.JSONObject;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import util.DownloadUtil;
import util.HttpUtil;
import util.MD5Encoder;

import java.io.ByteArrayInputStream;
import java.io.File;
import java.io.IOException;
import java.util.*;

import static util.PrintUtil.println;

/**

// private List<String> urls = new ArrayList<>();
private String playUrl;
private String fileName;
private int timeLength;
private int fileSize = 0;
private int aid;
private int cid;

// 視頻類型
private final int AV_VIDEO = 1;
private final int EP_VIDEO = 2;
private final int SS_VIDEO = 3;

private int type = AV_VIDEO;
private boolean isSupported;

// ep的關(guān)聯(lián)系列
private List<BilibiliBean> serialList = new ArrayList<>();

// 是否已經(jīng)解析
private boolean isResolved;


public Bilibili() {
}

/**
 * 先獲取信息再決定是否下載
 * @param playUrl
 * @param outputDir
 */
public Bilibili(String playUrl, String outputDir) {
    if (!isResolved) {
        this.playUrl = playUrl;

        String[] strs = playUrl.split("/");

        for (String str : strs) {
            if (str.matches("av\\d{4,}")) {
                aid = Integer.parseInt(str.substring(2));
                isSupported = true;
                break;
            } else if(str.matches("ep\\d{4,}")){
                type = EP_VIDEO;
                isSupported = true;
                break;
            } else if(str.matches("ss\\d{4,}")){
                type = SS_VIDEO;
                isSupported = true;
                break;
            }
        }

        try {
            switch (type) {
                case SS_VIDEO:
                case EP_VIDEO:
                    initEp();

                    String epApi = generateEpApi(EpApi, cid, quality);
                    println(epApi);

                    parseEpApiResponse(epApi);
                    break;
                case AV_VIDEO:
                    initAv();

                    String avApi = generateAvApi(AvApi, cid, quality);
                    println(avApi);

                    parseAvApiResponse(avApi);
                    break;
            }

        } catch (Exception e) {
            e.printStackTrace();
        }
        isResolved = true;
    }
}

@Override
public void downloadByUrl(String playUrl, String outputDir) {
    println("Bilibili start: ");

    this.playUrl = playUrl;
    String[] strs = playUrl.split("/");

    for (String str : strs) {
        if (str.matches("av\\d{4,}")) {
            aid = Integer.parseInt(str.substring(2));
            isSupported = true;
            break;
        } else if(str.matches("ep\\d{4,}")){
            type = EP_VIDEO;
            isSupported = true;
            break;
        } else if(str.matches("ss\\d{4,}")){
            type = SS_VIDEO;
            isSupported = true;
            break;
        }
    }

    try {

        if (!isResolved) {
            switch (type) {
                case SS_VIDEO:
                case EP_VIDEO:
                    initEp();

                    String epApi = generateEpApi(EpApi, cid, quality);
                    println(epApi);

                    parseEpApiResponse(epApi);
                    break;
                case AV_VIDEO:
                    initAv();

                    String avApi = generateAvApi(AvApi, cid, quality);
                    println(avApi);

                    parseAvApiResponse(avApi);
                    break;
            }
            isResolved = true;
        }

        println("# Title: " + fileName);
        println("     -TimeLength: " + timeLength / 1000 / 60 + ":" + String.format("%02d", timeLength / 1000 % 60));
        println("     -File Size: " + fileSize / 1024 / 1024 + " M");

        download(urls, outputDir);

    } catch (Exception e) {
        e.printStackTrace();
    }
}

/**
 * 內(nèi)部下載入口
 *
 * @param videoSrcs
 * @param outputDir
 */
@Override
public void download(List<String> videoSrcs, String outputDir) throws IOException {
    Map<String, List<String>> headerMap = new HashMap<>();
    // 缺失Referer會導(dǎo)致453錯(cuò)誤
    headerMap.put("Referer", Collections.singletonList("http://interface.bilibili.com/v2/playurl?appkey=84956560bc028eb7&cid=59389212&otype=json&qn=3&quality=3&type=&sign=4c841d687bb7e479e3111428c6a4d3b8"));

    int index = 0;

    for (String src : videoSrcs) {
        println("Download: " + ++index + "/" + videoSrcs.size());

        String fileDir;
        if (videoSrcs.size() == 1) {

            fileDir = outputDir + File.separatorChar + fileName.replaceAll("[/|\\\\]", "") + ".flv";
        } else {
            fileDir = outputDir + File.separatorChar + fileName.replaceAll("[/|\\\\]", "") + "【" + index + "】.flv";
        }

        DownloadUtil.downloadVideo(src, fileDir, headerMap);
    }
    println("Download: All Done!");
}

@Override
public VideoBean getInfo() {
    VideoBean bean = new VideoBean();
    bean.setTitle(fileName);
    bean.setTimeLength(timeLength / 1000 / 60 + ":" + String.format("%02d", timeLength / 1000 % 60));
    bean.setSize(fileSize / 1024 / 1024);
    return bean;
}

public List<BilibiliBean> getSerialList(){
    return serialList;
}

/**
 * cid, fileName
 *
 * @throws IOException
 */
private void initAv() throws IOException {
    String result = HttpUtil.getResponseContent(ApiGetList + aid);
    JSONObject jb = (JSONObject) new JSONArray(result).get(0);
    cid = jb.getInt("cid");

    Document doc = Jsoup.connect(playUrl).get();

    Element ele = doc.selectFirst("div[id=viewbox_report]").selectFirst("h1");
    if (ele.hasAttr("title"))
        fileName = ele.attr("title");

}

/**
 * cid, fileName and related eps
 *
 * @throws IOException
 */
private void initEp() throws IOException {
    Document doc = Jsoup.connect(playUrl).get();
    Element ele = doc.body().child(2);

    String preResult = ele.toString();
    // println(preResult);

    String result = preResult.substring(preResult.indexOf("__=") + 3, preResult.indexOf(";(function()"));
    // println(result);

    JSONObject object = new JSONObject(result);

    JSONObject curEpInfo = object.getJSONObject("epInfo");

    fileName = object.getJSONObject("mediaInfo").getString("title");

    cid = curEpInfo.getInt("cid");


    JSONArray ja = object.getJSONArray("epList");

    for (Object obj : ja) {
        JSONObject epObject = (JSONObject) obj;

        int aid = epObject.getInt("aid");
        int cid = epObject.getInt("cid");
        int duration = epObject.getInt("duration");
        int epId = epObject.getInt("ep_id");

        String index = epObject.getString("index");
        String indexTitle = epObject.getString("index_title");

        BilibiliBean bean = new BilibiliBean(aid, cid, duration, epId, index, indexTitle);

        serialList.add(bean);

        println(bean.toString());
    }
}

/**
 * timeLength, fileSize, urls
 *
 * @param avReqApi
 * @throws IOException
 */
private void parseAvApiResponse(String avReqApi) throws IOException {
    String result = HttpUtil.getResponseContent(avReqApi);

    // println(result);

    JSONObject jsonObject = new JSONObject(result);
    timeLength = jsonObject.getInt("timelength");

    JSONArray ja = jsonObject.getJSONArray("durl");

    Iterator<Object> iterator = ja.iterator();
    while (iterator.hasNext()) {
        JSONObject jb = (JSONObject) iterator.next();

        String videoSrc = jb.getString("url");
        urls.add(videoSrc);

        fileSize += jb.getInt("size");
    }
}

/**
 * timeLength, fileSize, urls
 *
 * @param epReqApi
 * @throws IOException
 * @throws DocumentException
 */
private void parseEpApiResponse(String epReqApi) throws IOException, DocumentException {
    String response = HttpUtil.getResponseContent(epReqApi);

    SAXReader reader = new SAXReader();
    org.dom4j.Element rootElement = reader.read(new ByteArrayInputStream(response.getBytes("utf-8"))).getRootElement();

    timeLength = Integer.parseInt(rootElement.element("timelength").getText().trim());

    List<org.dom4j.Element> elements = rootElement.elements("durl");

    for (org.dom4j.Element ele : elements) {
        int curSize = Integer.parseInt(ele.element("size").getText());
        fileSize += curSize;

        String url = ele.element("url").getText();
        urls.add(url);
    }

    println(fileName + ": " + fileSize / 1024 / 1024 + "M");
}

/**
 * 生成av類型視頻下載信息的api請求鏈接
 *
 * @param url
 * @param cid
 * @param quality
 * @return
 */
private String generateAvApi(String url, int cid, int quality) {
    String paramStr = String.format("appkey=84956560bc028eb7&cid=%d&otype=json&qn=%d&quality=%d&type=", cid, quality, quality);
    try {
        String checkSum = MD5Encoder.md5(paramStr + SEC_1).toLowerCase();
        return url + paramStr + "&sign=" + checkSum;
    } catch (Exception e) {
        e.printStackTrace();
    }
    return null;
}

/**
 * 生成ep類型視頻下載信息的api請求鏈接
 *
 * @param url
 * @param cid
 * @param quality
 * @return
 */
private String generateEpApi(String url, int cid, int quality) {
    String paramStr = String.format("cid=%d&module=bangumi&player=1&quality=%d&ts=%s",
            cid, quality, System.currentTimeMillis() / 1000 + "");
    try {
        String checkSum = MD5Encoder.md5(paramStr + SEC_2).toLowerCase();
        return url + paramStr + "&sign=" + checkSum;
    } catch (Exception e) {
        e.printStackTrace();
    }
    return null;
}

}

完整代碼位于:

https://github.com/asche910/VideoHelper

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市躬柬,隨后出現(xiàn)的幾起案子拜轨,更是在濱河造成了極大的恐慌,老刑警劉巖允青,帶你破解...
    沈念sama閱讀 216,919評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件橄碾,死亡現(xiàn)場離奇詭異,居然都是意外死亡颠锉,警方通過查閱死者的電腦和手機(jī)法牲,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,567評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來琼掠,“玉大人拒垃,你說我怎么就攤上這事〈赏埽” “怎么了悼瓮?”我有些...
    開封第一講書人閱讀 163,316評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長艰猬。 經(jīng)常有香客問我横堡,道長,這世上最難降的妖魔是什么姥宝? 我笑而不...
    開封第一講書人閱讀 58,294評論 1 292
  • 正文 為了忘掉前任翅萤,我火速辦了婚禮,結(jié)果婚禮上腊满,老公的妹妹穿的比我還像新娘套么。我一直安慰自己,他們只是感情好碳蛋,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,318評論 6 390
  • 文/花漫 我一把揭開白布胚泌。 她就那樣靜靜地躺著,像睡著了一般肃弟。 火紅的嫁衣襯著肌膚如雪玷室。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,245評論 1 299
  • 那天笤受,我揣著相機(jī)與錄音穷缤,去河邊找鬼。 笑死箩兽,一個(gè)胖子當(dāng)著我的面吹牛津肛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播汗贫,決...
    沈念sama閱讀 40,120評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼身坐,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了落包?” 一聲冷哼從身側(cè)響起部蛇,我...
    開封第一講書人閱讀 38,964評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎咐蝇,沒想到半個(gè)月后涯鲁,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,376評論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡有序,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,592評論 2 333
  • 正文 我和宋清朗相戀三年撮竿,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片笔呀。...
    茶點(diǎn)故事閱讀 39,764評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡幢踏,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出许师,到底是詐尸還是另有隱情房蝉,我是刑警寧澤,帶...
    沈念sama閱讀 35,460評論 5 344
  • 正文 年R本政府宣布微渠,位于F島的核電站搭幻,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏逞盆。R本人自食惡果不足惜檀蹋,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,070評論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望云芦。 院中可真熱鬧俯逾,春花似錦贸桶、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,697評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至坠七,卻和暖如春水醋,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背彪置。 一陣腳步聲響...
    開封第一講書人閱讀 32,846評論 1 269
  • 我被黑心中介騙來泰國打工拄踪, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人拳魁。 一個(gè)月前我還...
    沈念sama閱讀 47,819評論 2 370
  • 正文 我出身青樓惶桐,卻偏偏與公主長得像,于是被迫代替她去往敵國和親的猛。 傳聞我的和親對象是個(gè)殘疾皇子耀盗,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,665評論 2 354