自動(dòng)生成字幕

本文目的：

識(shí)別視頻中的音頻生成字幕并合成新的帶字幕的視頻秘豹，win11+anaconda+python3.9環(huán)境

步驟：

分離音頻：ffmpeg
語(yǔ)音識(shí)別：whisper
合成字幕：moviepy

資源連接：

ffmpeg：https://ffmpeg.org/download.html
whisper：https://github.com/openai/whisper.git
ImageMagick：http://www.imagemagick.org/script/download.php#windows

操作步驟

一携御、安裝環(huán)境

提示：如果沒(méi)裝git需要先本地安裝git并添加環(huán)境變量

創(chuàng)建conda環(huán)境

conda create -n yu39 python=3.9
conda install pytorch torchvision torchaudio cpuonly -c pytorch
conda install -c conda-forge moviepy
pip install git+https://github.com/openai/whisper.git
(重裝)pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
(如需翻譯)conda install -c auto translate

安裝ffmpeg,ImageMagick

moviepy會(huì)使用到ffmpeg,ImageMagick，下載解壓安裝
兩種方式指定二選一：添加環(huán)境變既绕、修改配置文件啄刹，均精確到exe文件

moviepy配置文件anaconda3\envs\yu38\Lib\site-packages\moviepy\config_defaults.py:
FFMPEG_BINARY = os.getenv('FFMPEG_BINARY', 'ffmpeg-imageio')
IMAGEMAGICK_BINARY = os.getenv('IMAGEMAGICK_BINARY', 'auto-detect')

修改后：
FFMPEG_BINARY=D:\ProgramFiles\ffmpeg-5.1.2-essentials_build\bin\ffmpeg.exe
IMAGEMAGICK_BINARY=D:\Program Files\ImageMagick-7.1.0-Q16-HDRI\magick.exe

若添加環(huán)境變量，其變量名為FFMPEG_BINARY凄贩，IMAGEMAGICK_BINARY

二誓军、實(shí)際操作

一、分離音頻

命令方式：

ffmpeg.exe -i E:\est\bb.mp4 E:\est\bb.mp3
ffmpeg.exe -i E:\est\bb.mp4 -vcodec copy -an E:\est\bb.avi

python代碼

# 將mp4文件轉(zhuǎn)為mp3音頻文件并返回其文件路徑,生成路徑仍在原路徑中(需要先下載moviepy庫(kù))
def mp4_to_mp3(path):
    try:
       video = VideoFileClip(path)
       audio = video.audio
       # 設(shè)置生成的mp3文件路徑
       newPath = path.replace('mp4', 'mp3')
       audio.write_audiofile(newPath)
       return newPath
    except Exception as e:
        print(e)
        return None
mp4_to_mp3(r'E:\est\bb.mp4')

二怎炊、語(yǔ)音識(shí)別

命令方式：

whisper.exe所在位置：anaconda3\envs\yu38\Scripts\whisper.exe
whisper E:\est\bb.mp3 --model small --language Chinese
--model：tiny谭企、base、small评肆、medium债查、large，準(zhǔn)確率耗時(shí)依次遞增瓜挽，首次執(zhí)行會(huì)自動(dòng)下載
效果：

[00:00.000 --> 00:01.000] 我說(shuō)一個(gè)事實(shí)
[00:01.000 --> 00:03.000] 就是一個(gè)人的思想境界越高
[00:03.000 --> 00:06.000] 那種以人際關(guān)系為目標(biāo)的欲望就會(huì)越低
[00:06.000 --> 00:10.000] 我發(fā)現(xiàn)如果一個(gè)人特別熱衷于社交盹廷、感情、關(guān)系這些
[00:10.000 --> 00:12.000] 而且搞得頭頭是道道的人
[00:12.000 --> 00:14.000] 往往缺乏深刻的認(rèn)知和知識(shí)
[00:14.000 --> 00:16.000] 因?yàn)樗恍枰羁痰囊?jiàn)識(shí)
[00:16.000 --> 00:18.000] 他只需要隨著大溜跟著群體走
[00:18.000 --> 00:20.000] 就可以保證一時(shí)唯有生活安危
[00:20.000 --> 00:23.000] 而事實(shí)上那些特別深刻的道理和見(jiàn)解
[00:23.000 --> 00:25.000] 一般都是需要經(jīng)歷很大的痛苦
[00:25.000 --> 00:28.000] 并且對(duì)其充分的思考之后才能得到的
[00:28.000 --> 00:29.000] 兩個(gè)條件少一個(gè)都不行
[00:29.000 --> 00:33.000] 而這些痛苦和思考基本上都有不合群這一特征
[00:33.000 --> 00:35.000] 不是那種不善良的不合群
[00:35.000 --> 00:37.000] 而是屬于人際關(guān)系技巧的那一種
[00:37.000 --> 00:38.000] 就比如說(shuō)他故意不合群

python代碼:

import whisper

# 語(yǔ)音識(shí)別
model = whisper.load_model("small")
result = model.transcribe(r'E:\est\bb.mp3', language='chinese')
print(result["text"])

# 翻譯
translator = Translator(from_lang="Chinese",to_lang="Japanese")

# 提取字幕[起始時(shí)間久橙，持續(xù)時(shí)間俄占，字幕]
segments = result['segments']
l_subtitle = []
for seg in segments:
    start = seg['start']
    end = seg['end']
    text = seg['text']
    # subtitle = [round(start,2), round(end-start, 2), translator.translate(text)]
    subtitle = [round(start,2), round(end-start, 2), text]
    print(subtitle)
    l_subtitle.append(subtitle)

三、合成字幕

from moviepy.editor import *

def videocaption(src_mp4, dst_mp4, subtitle):
    video = VideoFileClip(src_mp4)
    position = 'bottom'
    txts = []
    for start, duration, text in subtitle:
        txt = (TextClip(text, fontsize=40,font='SimHei', size=(1900, 40),
                        align='center', color='red')
                        .set_position(position)
                        .set_duration(duration).set_start(start))
        txts.append(txt)

    # 合成字幕
    video = CompositeVideoClip([video, *txts])
    # 合成音頻
    # videos = video.set_audio(AudioFileClip('Python.mp3'))
    # 保存視頻淆衷，注意加上參數(shù)audio_codec缸榄，否則音頻無(wú)聲音
    video.write_videofile(dst_mp4, audio_codec='mp3')

if __name__ == '__main__':
    src_mp4 = r'E:\est\bb_有聲無(wú)字幕.mp4'
    dst_mp4 = r'E:\est\bb_有聲有字幕.mp4'
    videocaption(src_mp4,dst_mp4,l_subtitle)

三、結(jié)語(yǔ)

本目標(biāo)核心點(diǎn)在用whisper語(yǔ)音轉(zhuǎn)文字

最后編輯于：2023.02.02 16:28:47

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末祝拯，一起剝皮案震驚了整個(gè)濱河市甚带，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌佳头，老刑警劉巖鹰贵，帶你破解...
沈念sama閱讀 218,204評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異康嘉，居然都是意外死亡碉输，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,091評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)亭珍，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)敷钾，“玉大人枝哄，你說(shuō)我怎么就攤上這事∪蚍牵” “怎么了膘格？”我有些...
開(kāi)封第一講書(shū)人閱讀 164,548評(píng)論 0贊 354
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)财松。經(jīng)常有香客問(wèn)我瘪贱，道長(zhǎng)，這世上最難降的妖魔是什么辆毡？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,657評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任菜秦，我火速辦了婚禮，結(jié)果婚禮上舶掖，老公的妹妹穿的比我還像新娘球昨。我一直安慰自己，他們只是感情好眨攘，可當(dāng)我...
茶點(diǎn)故事閱讀 67,689評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布主慰。她就那樣靜靜地躺著，像睡著了一般鲫售。火紅的嫁衣襯著肌膚如雪共螺。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,554評(píng)論 1贊 305
城市分裂傳說(shuō)
那天情竹，我揣著相機(jī)與錄音藐不，去河邊找鬼。笑死秦效，一個(gè)胖子當(dāng)著我的面吹牛雏蛮，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播阱州，決...
沈念sama閱讀 40,302評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼嚼吞，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼光酣！你這毒婦竟也來(lái)了悼枢？” 一聲冷哼從身側(cè)響起指黎，我...
開(kāi)封第一講書(shū)人閱讀 39,216評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎蒲赂，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體刁憋，經(jīng)...
沈念sama閱讀 45,661評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡滥嘴，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,851評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了至耻。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片若皱。...
茶點(diǎn)故事閱讀 39,977評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡镊叁，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出走触，到底是詐尸還是另有隱情晦譬，我是刑警寧澤，帶...
沈念sama閱讀 35,697評(píng)論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布互广，位于F島的核電站敛腌，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏惫皱。R本人自食惡果不足惜像樊，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,306評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望旅敷。院中可真熱鬧生棍，春花似錦、人聲如沸媳谁。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,898評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)晴音。三九已至柔纵，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間段多，已是汗流浹背首量。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,019評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留进苍，地道東北人加缘。一個(gè)月前我還...
沈念sama閱讀 48,138評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像觉啊，于是被迫代替她去往敵國(guó)和親拣宏。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,927評(píng)論 2贊 355

自動(dòng)生成字幕

本文目的：

步驟：

資源連接：

操作步驟

一携御、安裝環(huán)境

創(chuàng)建conda環(huán)境

安裝ffmpeg,ImageMagick

二誓军、實(shí)際操作

一、分離音頻

命令方式：

python代碼

二怎炊、語(yǔ)音識(shí)別

命令方式：

python代碼:

三、合成字幕

三、結(jié)語(yǔ)

推薦閱讀更多精彩內(nèi)容