名詞解釋
名稱 | 含義 |
---|---|
sr(sample_rate) | 采樣率,表示一秒采樣多少個(gè)樣本點(diǎn) |
hop_length | 步幅;幀移對(duì)應(yīng)卷積中的stride;連續(xù)幀分割長(zhǎng)度 |
overlapping | 連續(xù)兩幀的重疊部分 |
n_fft | 窗口大小闸翅;n_fft = hop_length+overlapping |
spectrum | 光譜碑韵,頻譜 |
spectrogram: | 光譜圖;聲譜圖 |
Chromagram | 色譜圖 |
Scaleogram | |
magnitude spectrogram | |
amplitude | 振幅 |
logarithmic amplitude-frequency | 對(duì)數(shù)振幅頻譜圖 |
mono | 單聲道 |
stereo | 立體聲 |
constant-Q transform (cqt) | |
pitch | 音高 |
timbral | 音色 |
cqt特征捕獲音高缎脾,mfcc捕獲音色
音頻處理的流程
- 音頻分幀
通過(guò)使用窗口函數(shù)將長(zhǎng)短不一的音頻分割成大小相同的音頻片段祝闻。(默認(rèn)采樣率22050Hz)
一般有兩種描述方式:
方式一:(幀描述方式)使用2048((20481000ms)/22050=93ms)個(gè)采樣點(diǎn),前后兩個(gè)窗的重疊5123采樣點(diǎn)遗菠。
方式二:(時(shí)間描述方式)使用 93ms 的幀長(zhǎng)联喘、23ms 的幀移(hop_length),以及周期性的 Hann 窗口對(duì)語(yǔ)音進(jìn)行分幀辙纬。
例如:下面的圖通過(guò)一個(gè)滑動(dòng)窗口將一個(gè)音頻分割成6個(gè)等成的音頻片段豁遭。
#這是一個(gè)窗口大小為window_size,連續(xù)窗口的重疊部分為window_size/2
def windows(audio, window_size):
start = 0
while start < len(audio):
#len(audio)是一個(gè)音頻文件的總樣本點(diǎn)數(shù)贺拣。
yield start, start + window_size #取出長(zhǎng)度為window_size的樣本點(diǎn)下標(biāo)索引
start += (window_size / 2) #計(jì)算下一個(gè)分割片段的起始位置
- 計(jì)算每一幀mel聲譜圖蓖谢。
signal = audio[0,2048] #(audio[0,2048] 表示圖中的分割的1片段
#下面一行計(jì)算分割片段audio[0,2048]的64階mel譜
#sr表示采樣率,表示一秒采樣多少個(gè)樣本點(diǎn)。
#n_fft表示短時(shí)傅里葉變化用到的連續(xù)的樣本點(diǎn)個(gè)數(shù)
#hop_length:連續(xù)兩個(gè)傅里葉變化的重疊樣本點(diǎn)個(gè)數(shù)
melspec = librosa.feature.melspectrogram(signal, sr=22050,
n_fft=2048,
hop_length=512,
n_mels = 64)
logspec = librosa.logamplitude(melspec)#計(jì)算log mel
輸出:
#本代碼計(jì)算將一個(gè)原始音頻文件分割成等大小的片段譬涡,
#然后計(jì)算每一個(gè)片段的og mel_sepctrogram.
for (start,end) in windows(audio,window_size):
#(1)此處是為了是將大小不一樣的音頻文件用大小window_size闪幽,
#stride=window_size/2的窗口,分割為等大小的時(shí)間片段涡匀。
#(2)計(jì)算每一個(gè)分割片段的log mel_sepctrogram.
if(end<= len(audio)): #最后不夠一個(gè)窗口的樣本點(diǎn)舍去
signal = audio[start:end] #分割的音頻幀(圖中的1盯腌,2,3陨瘩,4腕够,5级乍,6)
melspec = librosa.feature.melspectrogram(signal, n_mels = 64) #計(jì)算每個(gè)分割片段的mel譜
logspec = librosa.logamplitude(melspec)#計(jì)算log mel 譜
參考教材:
- Urban Sound Classification Part 1 Part 2
- Karol J. Piczak github
- 如何使用TensorFlow實(shí)現(xiàn)音頻分類任務(wù) 教材
LibROSA
LibROSA is a python package for music and audio analysis. It provides the building blocks necessary to create music information retrieval systems.
這個(gè)過(guò)程對(duì)應(yīng)計(jì)算信號(hào)s(t)的
short-time Fourier transform magnitude平方。窗口大小w. spectrogram(t,w) = |STFT(t,w)|**2帚湘∶等伲可以理解為譜是傅里葉變換的平方。
- 計(jì)算log mel-spectrogram
y 與 S只需提供一個(gè)大诸。y是讀入的音頻文件崇决,S是音頻的譜
n_fft:STFT window size
hop_length : STFT hop length
melspec = melspectrogram(y=None, sr=22050, S=None, n_fft=2048, hop_length=512, power=2.0, **kwargs):
logspec = librosa.logamplitude(melspec)
def windows(data, window_size):
start = 0
while start < len(data):
yield start, start + window_size
start += (window_size / 2)
def extract_features(parent_dir,sub_dirs,file_ext="*.wav",bands = 60, frames = 41):
window_size = 512 * (frames - 1)
log_specgrams = []
labels = []
for l, sub_dir in enumerate(sub_dirs):
for fn in glob.glob(os.path.join(parent_dir, sub_dir, file_ext)):
sound_clip,s = librosa.load(fn)
label = fn.split('/')[2].split('-')[1]
for (start,end) in windows(sound_clip,window_size):
#(1)此處是為了是將大小不一樣的音頻文件用大小window_size,
#stride=window_size/2的窗口底挫,分割為等大小的時(shí)間片段恒傻。
#(2)計(jì)算每一個(gè)分割片段的log mel_sepctrogram.
#或者,先分別計(jì)算大小不一的音頻的log mel_spectrogram,在通過(guò)固定的窗口建邓,
#切割等大小的頻譜圖盈厘。
if(len(sound_clip[start:end]) == window_size):
signal = sound_clip[start:end]
melspec = librosa.feature.melspectrogram(signal, n_mels = bands)
logspec = librosa.logamplitude(melspec)
logspec = logspec.T.flatten()[:, np.newaxis].T
log_specgrams.append(logspec)
labels.append(label)