本文是由哥倫比亞大學博士生羅藝主講的『端到端聲源分離研究進展』整理而來列林。 內(nèi)容主要覆蓋了單通道和多通道上端到端音源分離的現(xiàn)狀和進展以及未來的研究方向瑞你。
------本文約5580字,閱讀約需20min------
文末有彩蛋希痴,評論可獲取課程學習資料~
端到端音源分離定義與進展
什么是端到端音源分離呢者甲?羅藝老師首先介紹了端到端音源分離的定義。從名稱來看砌创,端到端的含義是模型輸入源波形后直接輸出目標波形虏缸,不需要進行傅里葉變換將時域信號轉(zhuǎn)換至頻域;音源分離的含義是將混合語音中的兩個或多個聲源分離出來嫩实。
(圖1)
目前刽辙,端到端音源分離已經(jīng)有了一些在時域和頻域上的研究,羅藝老師以“WSJ0-2mix”數(shù)據(jù)集為例甲献,并以在語音分離任務(wù)中使用十分廣泛的SI-SDR為指標宰缤,為我們展示了目前端到端音源分離研究的進展。
從圖2中也可以直觀地看到時域方法相較頻域方法能夠帶來非常明顯的提升晃洒,時域方法也因此成為了端到端音源分離的熱門研究方向慨灭。
(圖2)
單通道端到端音源分離研究
頻域方法中廣泛使用神經(jīng)網(wǎng)絡(luò)估計TF- Masking,并作用于混合語音從而得到分離語音球及。但該方法存在相位信息缺失氧骤、性能上限受制于oracle mask以及STFT特征不一定是分離模型最優(yōu)特征等問題或挑戰(zhàn)。
因此時域模型提出可以通過使用實數(shù)特征提取器以替代STFT特征以及直接建立wav2wav映射的方法來解決上述問題吃引。
最先被提出的方法為TasNet模型筹陵,該模型使用Encoder提取語音二維特征,隨后通過Separation估計說話人mask际歼,最后通過Decoder實現(xiàn)二維特征到語音波形的轉(zhuǎn)換從而得到分離語音。
(圖3)
由于Decoder存在無法完美重構(gòu)的問題姑蓝,因此對于TasNet的深入探究和修改也得到了很多新的研究結(jié)果鹅心。在下述Two-step separation中,首先單獨訓練Encoder以及Decoder以期其能引入更少的失真纺荧。隨后固定Encoder和Decoder只訓練Separation旭愧,該訓練方法可提升分離上限颅筋。
(圖4)
此外我們希望Encoder能夠更關(guān)注低中頻部分,因此提出了Multi-phase Gammatone filterbank输枯,相較于隨機初始化學習议泵,該方法可得到更好的頻率響應(yīng)分布。
(圖5)
此外還有對訓練目標和訓練任務(wù)上的一些探索桃熄。Wavesplit引入說話人特征進行分離先口。該模型首先在一個固定時間窗內(nèi)計算說話人向量,然后通過聚類計算出全局向量瞳收。之后將說話人信息送入分離網(wǎng)絡(luò)得到分離結(jié)果碉京。
(圖6)
MulCat DPRNN通過同時優(yōu)化分離和說話人識別兩個目標實現(xiàn)更好的說話人分離,此外該網(wǎng)絡(luò)能夠?qū)崿F(xiàn)5-6人的分離螟深,因此該網(wǎng)絡(luò)是一個很好的設(shè)計谐宙。
(圖7)
以上介紹的網(wǎng)絡(luò)目標均為將所有源分離出來,但在一些情況下一些源不具備很明顯的被分離的意義界弧,如智能音箱場景凡蜻,因此說話人提取也具有十分重要的研究意義。
SpEx/SpEx+聯(lián)合TasNet和說話人提取網(wǎng)絡(luò)垢箕,從而只輸出一個說話人的mask划栓,實現(xiàn)聲源提取的工作。
(圖8)
時域分離模型亦可作用到音樂分離任務(wù)上舰讹。音樂分離與語音分離的不同之處在于不存在置換問題茅姜。但由于音樂采樣率普遍高于語音,因此會存在建模長序列及不同頻帶信息捕捉的問題月匣。
Music separation采用progressive learning方法钻洒,從低至高分采樣率處理,并通過元學習(meta-learning)的方法锄开,對不同聲源類型進行網(wǎng)絡(luò)參數(shù)調(diào)整素标。
(圖9)
語音分離的最終目標為Universal separation,即廣義語音分離。Universal sound separation通過聲學事件檢測萍悴,提取聲學事件特征头遭,從而輔助廣義聲源分離。
(圖10)
如果跳出音頻癣诱,多模態(tài)信息亦可輔助語音分離计维。例如視頻會議場景下,我們可以通過視頻信息檢測說話人特征撕予,并分離該說話人語音鲫惶。Audio-visual separation通過圖像分析網(wǎng)絡(luò)對嘴唇運動特征提取,送入TasNet模塊实抡,從而輔助音頻分離任務(wù)欠母。
(圖11)
如果跳出Encoder-Separation-Decoder框架欢策,可以進行waveform-to-waveform直接映射。Wave-U-Net通過設(shè)計相同層數(shù)的廣義編解碼器并實現(xiàn)編解碼器間向量拼接操作赏淌,通過一維卷積實現(xiàn)波形-波形映射踩寇。
(圖12)?
基于WaveNet設(shè)計的模型結(jié)構(gòu)在最后一層的輸出上將所有聲源分離開來。
(圖13)?
多通道端到端音源分離研究
相較于單通道六水,多通道語音可得到更多的空間信息俺孙,從而進一步輔助語音分離。目前多通道端到端語音分離研究主要集中在兩個方向:神經(jīng)網(wǎng)絡(luò)波束形成以及單通道模型向多通道擴展缩擂。
基于輸出的神經(jīng)網(wǎng)絡(luò)波束形成方法主要有DeepBeam和Beam-TasNet方法鼠冕。
DeepBeam使用時域多通道維納濾波,先選擇一個參考麥克風胯盯,通過訓練單通道增強網(wǎng)絡(luò)對該麥克風信號進行預(yù)增強得到更加干凈語音的信息懈费,并利用該信息作為維納濾波的目標,對其他麥克風解最優(yōu)維納濾波解得到最優(yōu)濾波器參數(shù)博脑。
(圖14)?
Beam-TasNet方法通過時域頻域結(jié)合的方法憎乙。首先通過多通道TasNet分離得到預(yù)分離語音,隨后通過分離語音估計頻域上的MVDR權(quán)重叉趣,并作用于混合語音中得到分離語音泞边。
該方法通過時域方法隱式地進行了相位估計,并利用了空間特征得到分離語音疗杉。此外時域方法loss函數(shù)存在靜音段消除過于激進的問題從而導致聽感上的不友好阵谚。
而MVDR方法可對整句話進行濾波,對某一聲源消除能力略低但失真較少烟具,因此Beam-TasNet 中也考慮了如何將二者的長處在后處理步驟中進行結(jié)合梢什,以得到更好的性能。
(圖15)
此外基于神經(jīng)網(wǎng)絡(luò)的波束形成主要工作有Neural network adaptive beamforming(NAB)朝聋,F(xiàn)ilter-and-sum Network(FaSNet)嗡午。
NAB方法通過將多通道信號拼接送入神經(jīng)網(wǎng)絡(luò)估計得到每個通道的濾波器系數(shù),并作用于每個通道的原始信號可得到增強信號冀痕。該方法類似于Filter-and-Sum Beamformer荔睹。
(圖16)
FaSNet則側(cè)重于多通道間信息共享以聯(lián)合優(yōu)化多通道時域濾波器。(該方法也是筆者目前嘗試的所有時域分離模型中效果最好的方法)
(圖17)
而對于單通道向多通道擴展的方向言蛇,目前主要的方法是對單通道信號加入多通道信息作為模型輸入以及直接將多通道信號作為模型輸入僻他。
Multi-channel TasNet通過將單通道信息拼入IPD進行聯(lián)合訓練,或直接使用二維卷積估計通道間特征插值進行聯(lián)合訓練腊尚。
(圖18)
Multi-channel Wave-U-Net則是將多通道信號拼接送入Wave-U-Net吨拗,因此只需將模型的輸入通道數(shù)改為信號的通道數(shù)即可。
(圖19)
一些問題和未來展望
如何得知混合音頻中有多少說話人?在會議或討論場景中兩人同時說話的占比一般最高只為30%左右丢胚,大多數(shù)時間為一個人甚至沒有人說話。
因此如何使用一個分離模型保證在不同說話人數(shù)量情況下都能保持較穩(wěn)定性能是一個比較挑戰(zhàn)的問題受扳。目前在嘗試的方法有多說話人活動檢測以及說話人識別等携龟,還可設(shè)計不同的訓練目標以匹配不同的說話人個數(shù)。
長時間語音分離勘高。如何保證在1-10min甚至1h的語音能夠一致保證分離的穩(wěn)定性峡蟋?目前已有LibriCSS數(shù)據(jù)集面向此應(yīng)用場景。此外還有JHU JSALT 2020 workshop面向長時間多人說話的說話人數(shù)量华望、語音識別蕊蝗、語音分離和說話人識別。(https://www.clsp.jhu.edu/speech-recognition-anddiarization-for-unsegmented-multi-talker-recordings-with-speaker-overlaps/)
未來一些挑戰(zhàn)包括廣泛的語音分離赖舟、前后端聯(lián)合優(yōu)化及真實場景(包括遠場蓬戚、噪聲、混響和域不匹配)下的應(yīng)用宾抓。
Q&A
1. 單通道與多通道語音分離的各自應(yīng)用場景有什么不同子漩,多通道有什么具體優(yōu)勢嗎?
對于應(yīng)用場景石洗,主要是設(shè)備上的區(qū)分幢泼,有些設(shè)備只有一個麥克風因此就只能做單通道語音分離。多通道由于有多路麥克風數(shù)據(jù)因此可以獲得更多的信息讲衫,輸入的信息越多我們能提取的信息也就越多缕棵,比如多通道中IPD等信息是可以直接幫助性能提升的。
另外從傳統(tǒng)上涉兽,多通道可以實現(xiàn)beamforming招驴,它的泛化能力和魯棒性非常強,因此相比于單通道有比較大的優(yōu)勢花椭。
2. 多通道的評估指標該怎么計算忽匈,因為源文件和混合音頻文件有多個通道,分離結(jié)果該怎樣像單通道一樣進行比對呢矿辽?
由于多通道大部分還是用于語音識別丹允,所以可以使用語音識別的指標詞錯誤率(Word Error Rate, WER)進行對比;另外還可以從主觀聽覺上進行比較袋倔,使用平均主觀意見分(Mean Opinion Score, MOS)雕蔽。
端到端則相對更容易一點,可以直接計算網(wǎng)絡(luò)的輸出和目標聲源之間的指標宾娜,包括頻域指標和時域指標批狐。整體上來講,目前對于可以廣泛應(yīng)用到端到端和非端到端的指標仍需研究。
3. 目前的語音分離還有哪些不足還需完善才能落地商用嚣艇,現(xiàn)在有online(實時的)語音分離的研究嗎承冰?
目前智能家居、耳機和麥克風等都用到了很多分離降噪的研究食零。Online主要取決于模型設(shè)計困乒,目前,可以在實時性和性能上進行研究贰谣。
4. 這些方法可以用來單通道語音降噪嗎娜搂,如果可以的話實時性上和rnnoise算法相比怎么樣,模型大小和速度和效果上如何吱抚?
分離模型都可以用來做降噪百宇,模型的大小和速度上需要進行權(quán)衡,和rnnoise進行對比的話還需要確定模型的參數(shù)大小秘豹,單看模型的話是無法分析這件事的携御。
5. Audio-Visual Speech Separation的研究進展如何?圍欄研究熱點集中在哪既绕?
我們舉一個Audio-Visual研究的例子因痛,我們對于Audio和Visual各有一個處理模塊,之后會有一個將Audio和Visual處理結(jié)果融合起來的模塊岸更,然后再去做一個分離鸵膏,這是Audio-Visual整體的框架。未來的研究方向主要是前文提到的一些挑戰(zhàn)怎炊。
6. 基于深度學習的降噪谭企,什么樣的代價函數(shù)效果最好?
這個問題分兩個方面评肆,首先看你的任務(wù)目標是什么债查,如果目標任務(wù)是識別的話,si-snr和具體詞錯誤率不一定是線性的瓜挽,所以我們不能說某個loss在任務(wù)上絕對比另一個更好盹廷,但如果我們評價指標和訓練指標相同,那我們使用評價指標作為loss肯定是最好的久橙。
irm對相位沒有建模俄占,因此irm在某些情況下不是很好,但是對于Perceptual evaluation of speech quality(PESQ)指標表現(xiàn)較好淆衷,可以減少語音的失真缸榄。
7. 近期的研究大多偏向時域分離,那時域分離效果為什么優(yōu)于頻域效果呢祝拯?以后的發(fā)展方向
主要是相位信息的建模甚带、頻域oracle mask的性能上限另外是使用的特征上來回優(yōu)化出一個較好的特征。以后的發(fā)展方向是其他各種模型的一些設(shè)計,多模態(tài)鹰贵、多通道以及其他前文提到的挑戰(zhàn)晴氨。
8. Source separation和speaker-diarization在技術(shù)實現(xiàn)上有什么聯(lián)系嗎,我在做speaker-diarization任務(wù)碉输,能借鑒source separation的什么思路瑞筐?
傳統(tǒng)的speaker-diarization一個假設(shè)是說話人之間獨立無重疊。但如果我們說話人之間有重疊腊瑟,那么不可避免的會用到分離,今年開始的做端到端的speaker-diarization的工作块蚌,speaker-diarization可以當作是一個粗粒度的source separation闰非,因此很多source separation的框架都可以用到speaker-diarization中。這是一個比較重要的task峭范。
9. 當輸入音頻存在混響時财松,對于Si-SNR loss是否需要修正?
是需要修正的纱控,對于輸入音頻存在混響的情況如何修正目前沒有特別好的方法辆毡。有很多工作都在關(guān)注修改Si-SNR loss使其更好的反應(yīng)分離的性能,并讓其包含有用的信息甜害。
10. 單通道語音分離由于沒有IPD/ISD等空間信息舶掖,智能做譜分析,那么說話人的聲紋特征是否是重要的分離依據(jù)尔店?訓練集中不同說話人樣本太少是否是跨數(shù)據(jù)集表現(xiàn)答復下降的主要原因眨攘?如果把speaker-diarization任務(wù)中的一些pre-train模塊放到分離網(wǎng)絡(luò)前輔助encode是否會有提升?
近期的一些模型嚣州,會在分離的時候直接加一個說話人識別的損失函數(shù)鲫售。或者是將說話人信息當作輸入提供給網(wǎng)絡(luò)该肴,但是對于它是否是主要的分離依據(jù)情竹,還需要更多的實驗進行對比。
對于最后一個問題把diarization中pre-train的模塊放到分離網(wǎng)絡(luò)前輔助encode是一定會有提升的匀哄。speaker-diarization和source separation是互幫互助的關(guān)系秦效。但是對于end2end模型由于處在較為早期的研究狀態(tài),具體的性能提升結(jié)果還需要更多研究涎嚼。
11. 干擾人聲棉安,混響和噪聲,遠場能不能一起處理铸抑?不同重疊率的泛化能力怎么提升贡耽?
直觀講可以,端到端的話可以將這些進行融合,但是一般這么做的效果并不會很好蒲赂。這里包括三個問題——分離阱冶、降噪、去混響滥嘴。一般來說端到端的程度越高泛化能力越差因此泛化能力也是一個比較大的問題木蹬。
不同重疊率的泛化能力提升最簡單的是通過不同比例的不同重疊率的數(shù)據(jù),也可以加入speaker count(說話人數(shù)量檢測)若皱,某些部分只有一個說話人镊叁,可以在這個部分不做分離,做一個動態(tài)的處理走触。
參考文獻
[1] Le Roux, Jonathan, et al. "SDR–half-baked or well done?." ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and??Signal Processing (ICASSP). IEEE, 2019.
[2]?Luo, Yi, and Nima Mesgarani. "TasNet: time-domain audio separation network for real-time, single-channel speech separation." 2018?IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
[3] Luo, Yi, and Nima Mesgarani. "Conv-TasNet: Surpassing ideal time–frequency magnitude masking for speech separation." IEEE/ACM??transactions on audio, speech, and language processing 27.8 (2019): 1256-1266.
[4] Luo, Yi, Zhuo Chen, and Takuya Yoshioka. "Dual-path RNN: efficient long sequence modeling for time-domain single-channel speech?separation." ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[5] Tzinis, Efthymios, et al. "Two-Step Sound Source Separation: Training On Learned Latent Targets." ICASSP 2020-2020 IEEE International?Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[6] Ditter, David, and Timo Gerkmann. "A multi-phase gammatone filterbank for speech separation via tasnet." ICASSP 2020-2020 IEEE?International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[7] Zeghidour, Neil, and David Grangier. "Wavesplit: End-to-end speech separation by speaker clustering." arXiv preprint arXiv:2002.08933?(2020).
[8] Nachmani, Eliya, Yossi Adi, and Lior Wolf. "Voice Separation with an Unknown Number of Multiple Speakers." arXiv preprint??arXiv:2003.01531 (2020)?
[9] Xu, Chenglin, et al. "SpEx: Multi-Scale Time Domain Speaker Extraction Network." arXiv preprint arXiv:2004.08326 (2020).
[10] Ge, Meng, et al. "SpEx+: A Complete Time Domain Speaker Extraction Network." arXiv preprint arXiv:2005.04686 (2020).
[11] Samuel, David, Aditya Ganeshan, and Jason Naradowsky. "Meta-learning Extractors for Music Source Separation." ICASSP 2020-2020?IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[12] Kavalerov, Ilya, et al. "Universal sound separation." 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics??(WASPAA). IEEE, 2019.
[13] Tzinis, Efthymios, et al. "Improving universal sound separation using sound classification." ICASSP 2020-2020 IEEE International?Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[14] Wu, Jian, et al. "Time domain audio visual speech separation." arXiv preprint arXiv:1904.03760 (2019).
[15] Stoller, Daniel, Sebastian Ewert, and Simon Dixon. "Wave-U-Net: A multi-scale neural network for end-to-end audio source??separation." arXiv preprint arXiv:1806.03185 (2018).
[16] Lluís, Francesc, Jordi Pons, and Xavier Serra. "End-to-end music source separation: is it possible in the waveform domain?." arXiv??preprint arXiv:1810.12187 (2018).?
[17] Qian, Kaizhi, et al. "Deep learning based speech beamforming." 2018 IEEE International Conference on Acoustics, Speech and Signal? ?Processing (ICASSP). IEEE, 2018.
[18] Ochiai, Tsubasa, et al. "Beam-TasNet: Time-domain audio separation network meets frequency-domain beamformer." ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[19] Li, Bo, et al. "Neural network adaptive beamforming for robust multichannel speech recognition." (2016).
[20] Luo, Yi, et al. "FaSNet: Low-latency adaptive beamforming for multi-microphone audio processing." 2019 IEEE Automatic Speech??Recognition and Understanding Workshop (ASRU). IEEE, 2019.
[21] Luo, Yi, et al. "End-to-end microphone permutation and number invariant multi-channel speech separation." ICASSP 2020-2020 IEEE??International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[22] Gu, Rongzhi, et al. "End-to-end multi-channel speech separation." arXiv preprint arXiv:1905.06286 (2019).
[23] Gu, Rongzhi, et al. "Enhancing End-to-End Multi-Channel Speech Separation Via Spatial Feature Learning." ICASSP 2020-2020 IEEE?International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[24] Medennikov, Ivan, et al. "Target-Speaker Voice Activity Detection: a Novel Approach for Multi-Speaker Diarization in a Dinner Party??Scenario." arXiv preprint arXiv:2005.07272 (2020)?
[25] Horiguchi, Shota, et al. "End-to-End Speaker Diarization for an Unknown Number of Speakers with Encoder-Decoder Based? ?Attractors." arXiv preprint arXiv:2005.09921 (2020).
[26] Takahashi, Naoya, et al. "Recursive speech separation for unknown number of speakers." arXiv preprint arXiv:1904.03065??(2019).
[27] Luo, Yi, and Nima Mesgarani. "Separating varying numbers of sources with auxiliary autoencoding loss." arXiv preprint??arXiv:2003.12326 (2020).
[28] Chen, Zhuo, et al. "Continuous speech separation: Dataset and analysis." ICASSP 2020-2020 IEEE International Conference on??Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[29] von Neumann, Thilo, et al. "End-to-end training of time domain audio separation and recognition." ICASSP 2020-2020 IEEE??International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[30] von Neumann, Thilo, et al. "Multi-talker ASR for an unknown number of sources: Joint training of source counting, separation??and ASR." arXiv preprint arXiv:2006.02786 (2020).
[31] Maciejewski, Matthew, et al. "WHAMR!: Noisy and reverberant single-channel speech separation." ICASSP 2020-2020 IEEE?International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
深藍學院——專注人工智能的在線教育 官網(wǎng):https://www.shenlanxueyuan.com/