前言
之前偶然看到一個(gè)PPT澄港,是一些視頻特效的講解劳景。首頁如下:
PPT解析了模糊鏡像、電擊效果、靈魂出竅县袱、動(dòng)態(tài)暈影等視頻處理效果祖搓,最后推薦作者自己寫的書:
在“音視頻進(jìn)階”、“唱吧核心架構(gòu)開發(fā)”引起的興趣之下讀完這本書筋量,做一個(gè)簡(jiǎn)單的讀書筆記烹吵。
正文
一、基礎(chǔ)概念
1毛甲、音頻
聲音的物理性質(zhì)--聲音是物體振動(dòng)產(chǎn)生的波年叮。
聲波的三要素:振幅、波形玻募、頻率只损;(對(duì)應(yīng)響度、音色、音調(diào))
聲音的傳播介質(zhì)--空氣跃惫、液體和固體叮叹。
人聲是聲帶振動(dòng),經(jīng)過口腔等區(qū)域的反射爆存,再經(jīng)過空氣傳播蛉顽。
回聲:反射聲和原聲相差超過80ms則人耳可聽。
數(shù)字音頻與模擬音頻:PCM脈沖編碼調(diào)制先较。(這里有更詳細(xì)介紹PCM基礎(chǔ))
常見音頻編碼:WAV携冤、AAC、MP3闲勺。
音頻壓縮原理:時(shí)域/頻域掩蔽曾棕。-
2、圖像
顏色空間:YUV和RGB菜循。(各有表示方式翘地,可相互轉(zhuǎn)化)
視頻編碼:H264。
視頻壓縮:運(yùn)動(dòng)估計(jì)癌幕、運(yùn)動(dòng)補(bǔ)償?shù)取?br> I幀衙耕、P幀、B幀:I幀是幀內(nèi)編碼幀勺远,P幀是幀間預(yù)測(cè)編碼幀橙喘,B幀又稱雙向預(yù)測(cè)編碼幀;同時(shí)胶逢,H264中還有IDR幀渴杆,表示首個(gè)I幀。
PTS宪塔、DTS磁奖、GOP:PTS是Presentation Time Stamp,DTS是Decoding Time Stamp某筐,GOP是Group Of Picture比搭。
一張圖理解DTS、PTS南誊、GOP
關(guān)于視頻壓縮編碼和音頻壓縮編碼的基本原理點(diǎn)擊這里
二身诺、iOS平臺(tái)上的音視頻
1、音頻
音頻錄制抄囚、播放使用AudioUnit霉赡。Audio Unit除了書上的內(nèi)容,也可以看看我的文章:
Audio Unit播放PCM文件
Audio Unit錄音(播放伴奏+耳返)
Audio Unit播放aac/m4a/mp3等文件
Audio Unit和ExtendedAudioFile播放音頻
AUGraph結(jié)合RemoteI/O Unit與Mixer Unit2幔托、視頻
視頻的渲染使用OpenGL ES穴亏。OpenGL ES除了書上的內(nèi)容蜂挪,也可以看看我的文章:
OpenGL ES文集
三、音頻的進(jìn)階知識(shí)
波形圖:反映各質(zhì)點(diǎn)在同一時(shí)刻不同位移的曲線嗓化,叫做波的圖像棠涮,也叫做波形圖。
頻譜圖:以橫軸縱軸的波紋方式刺覆,記錄畫出信號(hào)在各種頻率的圖形严肪。(有振幅頻譜圖和相位頻譜圖)
語譜圖:針對(duì)語音數(shù)據(jù)的頻譜圖,叫語譜圖谦屑。
傅里葉分析:可分為傅里葉級(jí)數(shù)(Fourier Serie)和傅里葉變換(Fourier Transformation)驳糯。
你能想到的任何波形都是可以如此方法用正弦波疊加起來。
傅里葉級(jí)數(shù)氢橙,在時(shí)域是一個(gè)周期且連續(xù)的函數(shù)结窘,而在頻域是一個(gè)非周期離散的函數(shù)。
傅里葉變換充蓝,將時(shí)域信號(hào)變換為頻域信號(hào)。
傅里葉分析之掐死教程
如何直觀形象喉磁、生動(dòng)有趣地給文科學(xué)生介紹傅里葉變換谓苟?
MIDI格式:MIDI(Musical Instrument Digital Interface)全稱是樂器數(shù)字接口,也是音樂標(biāo)準(zhǔn)格式协怒。MIDI是音符涝焙、控制參數(shù)等,在K歌軟件中用于打分孕暇。
均衡效果器:均衡效果器又稱為均衡器(Equalizer)仑撞,其最大的作用就是決定聲音的遠(yuǎn)近層次。我們時(shí)常聽到別人說這首歌曲是重金屬風(fēng)格的歌曲妖滔,或者說這首歌曲是舞曲風(fēng)格等隧哮,其實(shí)就與聲音的遠(yuǎn)近層次有關(guān)。不同歌曲風(fēng)格的區(qū)別在于聲音在不同頻段的提升或衰減座舍。
均衡效果器具有美化聲音的作用沮翔,即調(diào)整音色,每個(gè)人由于自身聲道曲秉、顱腔采蚀、口腔的形狀不同,導(dǎo)致音色不同承二。如果這個(gè)用戶所發(fā)出的聲音在低頻部分比較薄弱榆鼠,就可以在低頻部分予以增強(qiáng),使得整個(gè)聲音聽起來更加溫暖亥鸠;那個(gè)用戶所發(fā)出的聲音在高頻部分又過于強(qiáng)烈(薄弱)妆够,則可以在高頻部分予以減弱(增強(qiáng)),可以使聲音聽起來不那么刺耳(更加嘹亮)。
當(dāng)然责静,專家級(jí)別的混音師在為歌手處理后期混音時(shí)袁滥,會(huì)有更復(fù)雜的調(diào)節(jié)方法,比如這個(gè)歌手的聲音低頻部分有瑕疵灾螃,可以提高中頻部分來掩蓋有瑕疵的低頻段的聲音题翻。
均衡器最早是用來補(bǔ)償頻率缺陷的,因?yàn)槟菚r(shí)音頻設(shè)備的信號(hào)品質(zhì)很差腰鬼,在傳輸過程中損失非常嚴(yán)重嵌赠,到最后除非進(jìn)行信號(hào)補(bǔ)償,否則信號(hào)就會(huì)變得極差熄赡。而現(xiàn)在均衡器更多的應(yīng)用在掩蓋歌手的某一個(gè)頻段的聲音缺陷姜挺,或者增強(qiáng)某一個(gè)頻段的聲音優(yōu)勢(shì)上。
壓縮效果器:改變輸入信號(hào)和輸出信號(hào)電平大小比率的效果器彼硫。
混響效果器:聲波在傳播時(shí)會(huì)被各種障礙物反射炊豪,且每次反射都被障礙物吸收部分。于是聽到的聲音往往混合了原始聲音以及多次反射的聲音拧篮,這種現(xiàn)象叫做混響词渤。
四、音視頻實(shí)踐
1.AAC串绩、H264的編解碼缺虐;除了書上的內(nèi)容,也可以看看我的文章:
使用VideoToolbox硬編碼H.264
使用VideoToolbox硬解碼H.264
使用AudioToolbox編碼AAC
使用AudioToolbox播放AAC2.播放器礁凡;(音頻用AudioUnit高氮、視頻用FFmepg解碼、OpenGL ES渲染)
3顷牌。直播剪芍;包括錄制、渲染窟蓝、推流紊浩、拉流。
五疗锐、其他
書中還介紹了很重要的庫FFmpeg坊谁,還有圖像處理的對(duì)比度調(diào)節(jié)、飽和度調(diào)節(jié)滑臊、圖像處理進(jìn)階口芍、圖像的卷積過程、銳化效果器雇卷、高斯模糊算法鬓椭、雙邊濾波算法颠猴、圖層混合等等,推薦結(jié)合GPUImage一起學(xué)習(xí)小染。GPUImage除了書上的內(nèi)容翘瓮,也可以看看GPUImage 文集。
總結(jié)
內(nèi)容講解深入淺出裤翩,案例豐富多彩资盅,適合對(duì)音視頻開發(fā)感興趣的朋友。
同時(shí)踊赠,內(nèi)容在深度這塊也比較有限呵扛,對(duì)于音頻相關(guān)的知識(shí)介紹不足。
音頻相關(guān)的知識(shí)尋找不易筐带,如有好的資料萬請(qǐng)分享今穿,共同學(xué)習(xí)進(jìn)步。