Python制作詞云視頻(使用B站視頻及彈幕文本)

使用到的第三方庫

Package         Version
--------------- ---------
baidu-aip       2.2.18.0
jieba           0.42.1
moviepy         1.0.3
numpy           1.20.2
opencv-python   4.5.1.48
Pillow          8.2.0
requests        2.25.1
wordcloud       1.8.1
you-get         0.4.1520

項目思路和代碼流程

graph TB;
        start("開始")-->bilibili["B站彈幕爬取(requests)"];
        bilibili-->download["視頻下載(you-get)"];
　　download-->isClip{"是否需要剪輯？"};
　　isClip-->|yes| clip["視頻、音頻剪輯(moviepy)"];
　　clip-->getAudio["音頻提取(moviepy)"];
　　isClip-->|no| split["視頻幀提取(cv2)"];
　　getAudio-->split;
　　split-->binary["圖片二值化((baidu-aip & PIL) | cv2)"];
　　binary-->wordcloud["詞云圖片生成(wordcloud)"];
　　wordcloud-->merge["原圖與詞云圖拼接(numpy)"];
　　merge-->joint["圖片合并生成視頻(cv2)"];
　　joint-->addAudio["音視頻合并(moviepy)"];
　　addAudio-->export["視頻導(dǎo)出(moviepy)"];
　　export-->en("結(jié)束");

B站彈幕爬取

思路

通過視頻BV號請求cid瀑构，再使用cid請求彈幕文件氛改，最后使用正則表達式去匹配彈幕文本，將匹配出來的結(jié)果保存在本地供之后使用表悬，代碼及思路比較簡單，就不做過多贅述

實現(xiàn)

cid請求鏈接：https://api.bilibili.com/x/web-interface/view?bvid=
彈幕請求鏈接：https://api.bilibili.com/x/v1/dm/list.so?oid=

參考代碼

    def get_cid(cls, bv):
        url = "https://api.bilibili.com/x/web-interface/view?bvid=" + str(bv)
        response = requests.get(url)
        dirt = json.loads(response.text)
        aid = dirt['data']['cid']
        return str(aid)

    def get_barrage(cls, bv, to_file_path):
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36",
        }
        cid = cls.get_cid(bv)
        response = requests.get("https://api.bilibili.com/x/v1/dm/list.so?oid=" + cid, headers=headers)
        html_doc = response.content.decode('utf-8')
        regex = re.compile("<d.*?>(.*?)</d>")
        DanMu = regex.findall(html_doc)
        with open(to_file_path, "w", encoding="utf_8")as f:
            for i in DanMu:
                f.write(i)
                f.write("\n")

視頻下載

思路

使用第三方開源庫you-get進行下載

獲取視頻信息

視頻下載

you-get支持的音視頻網(wǎng)站

Site	URL	Videos?	Images?	Audios?
YouTube	https://www.youtube.com/	?
Twitter	https://twitter.com/	?	?
VK	http://vk.com/	?	?
Vine	https://vine.co/	?
Vimeo	https://vimeo.com/	?
Veoh	http://www.veoh.com/	?
Tumblr	https://www.tumblr.com/	?	?	?
TED	http://www.ted.com/	?
SoundCloud	https://soundcloud.com/			?
SHOWROOM	https://www.showroom-live.com/	?
Pinterest	https://www.pinterest.com/		?
MTV81	http://www.mtv81.com/	?
Mixcloud	https://www.mixcloud.com/			?
Metacafe	http://www.metacafe.com/	?
Magisto	http://www.magisto.com/	?
Khan Academy	https://www.khanacademy.org/	?
Internet Archive	https://archive.org/	?
Instagram	https://instagram.com/	?	?
InfoQ	http://www.infoq.com/presentations/	?
Imgur	http://imgur.com/		?
Heavy Music Archive	http://www.heavy-music.ru/			?
Freesound	http://www.freesound.org/			?
Flickr	https://www.flickr.com/	?	?
FC2 Video	http://video.fc2.com/	?
Facebook	https://www.facebook.com/	?
eHow	http://www.ehow.com/	?
Dailymotion	http://www.dailymotion.com/	?
Coub	http://coub.com/	?
CBS	http://www.cbs.com/	?
Bandcamp	http://bandcamp.com/			?
AliveThai	http://alive.in.th/	?
interest.me	http://ch.interest.me/tvn	?
755 ナナゴーゴー	http://7gogo.jp/	?	?
niconico ニコニコ動畫	http://www.nicovideo.jp/	?
163 網(wǎng)易視頻網(wǎng)易云音樂	http://v.163.com/ http://music.163.com/	?		?
56網(wǎng)	http://www.56.com/	?
AcFun	http://www.acfun.cn/	?
Baidu 百度貼吧	http://tieba.baidu.com/	?	?
爆米花網(wǎng)	http://www.baomihua.com/	?
bilibili 嗶哩嗶哩	http://www.bilibili.com/	?	?	?
豆瓣	http://www.douban.com/	?		?
斗魚	http://www.douyutv.com/	?
鳳凰視頻	http://v.ifeng.com/	?
風(fēng)行網(wǎng)	http://www.fun.tv/	?
iQIYI 愛奇藝	http://www.iqiyi.com/	?
激動網(wǎng)	http://www.joy.cn/	?
酷6網(wǎng)	http://www.ku6.com/	?
酷狗音樂	http://www.kugou.com/			?
酷我音樂	http://www.kuwo.cn/			?
樂視網(wǎng)	http://www.le.com/	?
荔枝FM	http://www.lizhi.fm/			?
懶人聽書	http://www.lrts.me/			?
秒拍	http://www.miaopai.com/	?
MioMio彈幕網(wǎng)	http://www.miomio.tv/	?
MissEvan 貓耳FM	http://www.missevan.com/			?
痞客邦	https://www.pixnet.net/	?
PPTV聚力	http://www.pptv.com/	?
齊魯網(wǎng)	http://v.iqilu.com/	?
QQ 騰訊視頻	http://v.qq.com/	?
企鵝直播	http://live.qq.com/	?
Sina 新浪視頻微博秒拍視頻	http://video.sina.com.cn/ http://video.weibo.com/	?
Sohu 搜狐視頻	http://tv.sohu.com/	?
Tudou 土豆	http://www.tudou.com/	?
陽光衛(wèi)視	http://www.isuntv.com/	?
Youku 優(yōu)酷	http://www.youku.com/	?
戰(zhàn)旗TV	http://www.zhanqi.tv/lives	?
央視網(wǎng)	http://www.cntv.cn/	?
Naver ???	http://tvcast.naver.com/	?
芒果TV	http://www.mgtv.com/	?
火貓TV	http://www.huomao.com/	?
陽光寬頻網(wǎng)	http://www.365yg.com/	?
西瓜視頻	https://www.ixigua.com/	?
新片場	https://www.xinpianchang.com/	?
快手	https://www.kuaishou.com/	?	?
抖音	https://www.douyin.com/	?
TikTok	https://www.tiktok.com/	?
中國體育(TV)	http://v.zhibo.tv/ http://video.zhibo.tv/	?
知乎	https://www.zhihu.com/	?

參考命令

# 獲取視頻信息
you-get -i https://www.bilibili.com/video/BV1f4411M7QC

# 下載視頻
you-get --format=flv -o E:\Desktop\output https://www.bilibili.com/video/BV1f4411M7QC

更多使用方法請參考you-get項目地址

視頻丧靡、音頻剪輯和音頻提取

思路

這部分的需求非常簡單蟆沫，就是剪下視頻或者音頻中的某一段并保存
Python有一個叫moviepy的第三方庫，可以實現(xiàn)視頻的剪輯温治、拼接饭庞，音頻的剪輯、拼接熬荆、提取舟山，以及音視頻的合并等操作

參考代碼

    def cut_video(cls, origin_file_path, to_file_path, start, end):
        """
        視頻剪輯
        :param origin_file_path: 原視頻文件路徑
        :param to_file_path: 保存路徑
        :param start: 起始時間點
        :param end: 結(jié)束時間點
        """
        clip = VideoFileClip(origin_file_path).subclip(start, end)
        clip.write_videofile(to_file_path)

    def cut_audio(cls, origin_file_path, to_file_path, start, end):
        """
        音頻剪輯
        :param origin_file_path: 原視頻文件路徑
        :param to_file_path: 保存路徑
        :param start: 起始時間點
        :param end: 結(jié)束時間點
        """
        clip = AudioFileClip(origin_file_path).subclip(start, end)
        clip.write_audiofile(to_file_path)

    def get_audio_from_video(cls, video_file_path, to_file_path):
        """
        音頻提取
        :param video_file_path: 視頻文件路徑
        :param to_file_path: 音頻文件路徑
        """
        video = VideoFileClip(video_file_path)
        video.audio.write_audiofile(to_file_path)

視頻幀提取

思路

使用opencv-python(cv2)打開視頻文件并按幀讀取，再將每一幀保存到文件夾中

視頻幀提取

參考代碼

    def split(cls, from_file_path, to_folder_path, frames=0):
        """
        視頻按幀讀取并保存
        :param from_file_path: 視頻路徑
        :param to_folder_path: 保存路徑
        :param frames: 保存幀數(shù)(張數(shù))，為0則保存所有幀
        """
        vc = cv2.VideoCapture(from_file_path)    # cv2打開視頻文件
        frames_count = vc.get(7)    # 獲取視頻總幀數(shù)
        c = 0
        if vc.isOpened():
            ret, frame = vc.read()          # 按幀讀取視頻
        else:
            ret = False

        while ret:
            if 0 < frames == c:
                break
            ret, frame = vc.read()  # 讀取每一視頻幀累盗，并保存至圖片中
            cv2.imwrite(os.path.join(to_folder_path, '{}.jpg'.format(c)), frame)
            c += 1
            if c == frames_count - 1:
                break
            print('第 {} 張圖片存放成功寒矿！'.format(c))

圖片二值化

思路

圖片二值化這里有兩種思路，一種是使用opencv若债，還有一種方法是使用百度智能云的人像分割接口符相。
兩種方法各有優(yōu)劣：

使用opencv的速度快，但是只能對整張圖片二值化蠢琳，無法有效提取出圖片主體部分啊终，只適用于純色背景及輪廓分明的圖片，當圖片中有背景或者其他干擾畫面時傲须，效果不理想蓝牲，達不到做詞云遮罩的效果
百度的人像分割接口可以將圖片中的人物摳出來，單獨對人物進行二值化躏碳，但是速度很慢(處理速度慢搞旭，還限制接口并發(fā)數(shù))，一千張圖片往往需要一兩個小時

所以具體使用時需要根據(jù)視頻的情況進行切換
下面為兩周處理方法的不同效果(圖一為cv2菇绵，圖二為百度人像分割)

使用cv2進行二值化

使用百度人像分割進行二值化

參考代碼

    def binary_option_cv2(cls, from_file_path, to_file_path):
        """
        圖片二值化并保存(使用cv2)
        :param from_file_path: 原圖路徑
        :param to_file_path: 二值化圖路徑
        """
        img = cv2.imread(from_file_path)
        gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
        new_gray = np.uint8((255 * (gray / 255.0) ** 1.4))
        dst = cv2.adaptiveThreshold(new_gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 15, 1)
        cv2.medianBlur(dst, 5)
        cv2.imwrite(to_file_path, dst)
        
    def binary_option_baidu(cls, from_file_path, to_file_path):
        """
        圖片二值化并保存(使用百度人像分割)
        :param from_file_path: 原圖路徑
        :param to_file_path: 二值化圖路徑
        """

        def get_file_content(filePath):
            with open(filePath, 'rb') as fp:
                return fp.read()

        height, width, bgr = cv2.imread(from_file_path).shape
        image = get_file_content(from_file_path)
        cls.client.bodySeg(image)
        res = cls.client.bodySeg(image)
        labelmap = base64.b64decode(res['labelmap'])
        labelimg = np.frombuffer(labelmap, np.uint8)  # 轉(zhuǎn)化為np數(shù)組 0-255
        labelimg = cv2.imdecode(labelimg, 1)
        labelimg = cv2.resize(labelimg, (width, height), interpolation=cv2.INTER_NEAREST)
        img_new = np.where(labelimg == 1, 255, labelimg)  # 將 1 轉(zhuǎn)化為 255
        cv2.imwrite(to_file_path, img_new)

詞云圖片生成

思路

使用wordcloud庫肄渗，并使用前面爬取的B站彈幕作為詞云內(nèi)容，二值化圖片作為遮罩

詞云效果

參考代碼

def word_cloud(cls, frequencies, mask_file_path, to_file_path):
    """
    生成詞云圖片
    :param frequencies: 詞頻dict
    :param mask_file_path: 遮罩圖片路徑
    :param to_file_path: 保存位置
    """
    pic_mask = 255 - np.array(Image.open(mask_file_path))
    wc = WordCloud(
        background_color='white',
        max_font_size=100,
        min_font_size=10,
        repeat=True,
        max_words=1000,
        mode='RGB',
        mask=pic_mask
    )
    wc.generate_from_frequencies(frequencies)
    # wc.generate(words)
    wc.to_file(to_file_path)

原圖與詞云圖拼接和圖片合并生成視頻

思路

使用numpy拼接圖片咬最，使用cv2將拼接的圖片寫入視頻流并保存
為了將視頻與音軌對齊翎嫡，生成視頻時需要設(shè)置合適的視頻幀率（與原視頻保持一致），原視頻幀率可以使用播放器查看永乌，也可以使用cv2獲取

拼接效果

參考代碼

    def joint(cls, origin_folder, word_cloud_folder, to_file_path):
        """
        批量拼接圖片并合成視頻
        :param origin_folder: 原圖文件夾
        :param word_cloud_folder: 詞云圖片文件夾
        :param to_file_path: 保存路徑
        """
        num_list = [int(str(i).split('.')[0]) for i in os.listdir(origin_folder)]
        fps = 30  # 視頻幀率惑申，需要根據(jù)原視頻幀率做調(diào)整
        height, width, _ = cv2.imread(os.path.join(origin_folder, '{}.jpg'.format(num_list[0]))).shape  # 視頻高度和寬度
        width = width * 2
        # 創(chuàng)建一個寫入操作;
        video_writer = cv2.VideoWriter(to_file_path, cv2.VideoWriter_fourcc(*'mp4v'), fps, (width, height))

        for i in sorted(num_list):
            i = '{}.jpg'.format(i)
            ori_jpg = os.path.join(origin_folder, str(i))
            word_jpg = os.path.join(word_cloud_folder, str(i))
            # com_jpg = os.path.join(Composite_path,str(i))
            ori_arr = cv2.imread(ori_jpg)
            word_arr = cv2.imread(word_jpg)

            # 利用 Numpy 進行拼接
            com_arr = np.hstack((ori_arr, word_arr))
            video_writer.write(com_arr)  # 將每一幀畫面寫入視頻流中
            print("{}寫入視頻流成功".format(ori_jpg))

音視頻合并和視頻導(dǎo)出

思路

與前面視頻、音頻剪輯和音頻提取思路相似

參考代碼

    def set_audio_for_video(cls, video_file_path, audio_file_path, to_file_path):
        """
        音視頻合并
        :param video_file_path: 視頻文件路徑
        :param audio_file_path: 音頻文件路徑
        :param to_file_path: 保存路徑
        """
        video = VideoFileClip(video_file_path)
        audio = AudioFileClip(audio_file_path)
        new_video = video.set_audio(audio)
        new_video.write_videofile(to_file_path)

最終效果

https://www.bilibili.com/video/BV1do4y1f7AU

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末翅雏，一起剝皮案震驚了整個濱河市圈驼，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌望几，老刑警劉巖绩脆，帶你破解...
沈念sama閱讀 219,188評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異橄抹，居然都是意外死亡靴迫，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,464評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門楼誓，熙熙樓的掌柜王于貴愁眉苦臉地迎上來玉锌，“玉大人，你說我怎么就攤上這事疟羹≈魇兀” “怎么了禀倔？”我有些...
開封第一講書人閱讀 165,562評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長丸逸。經(jīng)常有香客問我蹋艺，道長剃袍，這世上最難降的妖魔是什么黄刚？我笑而不...
開封第一講書人閱讀 58,893評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮民效，結(jié)果婚禮上憔维，老公的妹妹穿的比我還像新娘。我一直安慰自己畏邢，他們只是感情好业扒，可當我...
茶點故事閱讀 67,917評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著舒萎，像睡著了一般程储。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上臂寝，一...
開封第一講書人閱讀 51,708評論 1贊 305
城市分裂傳說
那天章鲤，我揣著相機與錄音，去河邊找鬼咆贬。笑死败徊，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的掏缎。我是一名探鬼主播皱蹦，決...
沈念sama閱讀 40,430評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼眷蜈！你這毒婦竟也來了沪哺？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,342評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤酌儒，失蹤者是張志新（化名）和其女友劉穎辜妓，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體今豆，經(jīng)...
沈念sama閱讀 45,801評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡嫌拣，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,976評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了呆躲。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片异逐。...
茶點故事閱讀 40,115評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖插掂，靈堂內(nèi)的尸體忽然破棺而出灰瞻，到底是詐尸還是另有隱情腥例，我是刑警寧澤，帶...
沈念sama閱讀 35,804評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布酝润，位于F島的核電站燎竖，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏要销。R本人自食惡果不足惜构回，卻給世界環(huán)境...
茶點故事閱讀 41,458評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望疏咐。院中可真熱鬧纤掸，春花似錦、人聲如沸浑塞。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,008評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽酌壕。三九已至掏愁，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間卵牍，已是汗流浹背果港。一陣腳步聲響...
開封第一講書人閱讀 33,135評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留辽慕，地道東北人京腥。一個月前我還...
沈念sama閱讀 48,365評論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長得像溅蛉，于是被迫代替她去往敵國和親公浪。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 45,055評論 2贊 355

Python制作詞云視頻(使用B站視頻及彈幕文本)

使用到的第三方庫

項目思路和代碼流程

B站彈幕爬取

思路

實現(xiàn)

參考代碼

視頻下載

思路

參考命令

視頻丧靡、音頻剪輯和音頻提取

思路

參考代碼

視頻幀提取

思路

參考代碼

圖片二值化

思路

參考代碼

詞云圖片生成

思路

參考代碼

原圖與詞云圖拼接和圖片合并生成視頻

思路

參考代碼

音視頻合并和視頻導(dǎo)出

思路

參考代碼

最終效果

推薦閱讀更多精彩內(nèi)容