為什么要使用音頻壓縮技術(shù)
要算一個PCM音頻流的碼率是一件很輕松的事情,采樣率值×采樣大小值×聲道數(shù)bps。一個采樣率為44.1KHz,采樣大小為16bit,雙聲道 的PCM編碼的WAV文件,它的數(shù)據(jù)速率則為 44.1K×16×2=1411.2 Kbps。我們常說128K的MP3,對應(yīng)的WAV的參數(shù),就是這個1411.2Kbps,這個參數(shù)也被稱為數(shù)據(jù)帶寬,它和ADSL中的帶寬是一個概念。 將碼率除以8,就可以得到這個WAV的數(shù)據(jù)速率,即176.4KB/s。這表示存儲一秒鐘采樣率為44.1KHz,采樣大小為16bit,雙聲道的PCM 編碼的音頻信號,需要176.4KB的空間,1分鐘則約為10.34M,這對大部分用戶是不可接受的,尤其是喜歡在電腦上聽音樂的朋友,要降低磁盤占用, 只有2種方法,降低采樣指標或者壓縮。降低指標是不可取的,因此專家們研發(fā)了各種壓縮方案。由于用途和針對的目標市場不一樣,各種音頻壓縮編碼所達到的音 質(zhì)和壓縮比都不一樣,在后面的文章中我們都會一一提到。有一點是可以肯定的,他們都壓縮過。
頻率與采樣率的關(guān)系
采樣率表示了每秒對原始信號采樣的次數(shù),我們常見到的音頻文件采樣率多為44.1KHz,這意味著什么呢?假設(shè)我們有2段正弦波信號,分別為 20Hz和20KHz,長度均為一秒鐘,以對應(yīng)我們能聽到的最低頻和最高頻,分別對這兩段信號進行40KHz的采樣,我們可以得到一個什么樣的結(jié)果呢?結(jié)果是:20Hz的信號每次振動被采樣了40K/20=2000次,而20K的信號每次振動只有2次采樣。顯然,在相同的采樣率下,記錄低頻的信息遠比高頻的詳細。這也是為什么有些音響發(fā)燒友指責CD有數(shù)碼聲不夠真實的原因,CD的44.1KHz采樣也無法保證高頻信號被較好記錄。要較好的記錄高頻信號,看來需要更高的采樣率,于是有些朋友在捕捉CD音軌的時候使用48KHz的采樣率,這是不可取的!這其實對音質(zhì)沒有任何好處,對抓軌軟件來說,保持和CD提供的44.1KHz一樣的采樣率才是最佳音質(zhì)的保證之一,而不是去提高它。較高的采樣率只有相對模擬信號的時候才有用,如果被采樣的信號是數(shù)字的,請不要 去嘗試提高采樣率。
PCM編碼
PCM脈沖編碼調(diào)制是Pulse CodeModulation的縮寫。前面的文字我們提到了PCM大致的工作流程,我們不需要關(guān)心PCM最終編碼采用的是什么計算方式,我們只需要知道 PCM編碼的音頻流的優(yōu)點和缺點就可以了。PCM編碼的最大的優(yōu)點就是音質(zhì)好,最大的缺點就是體積大。我們常見的AudioCD就采用了PCM編碼,一張光盤的容量只能容納72分鐘的音樂信息。
WAVE
這是一種古老的音頻文件格式,由微軟開發(fā)。WAV是一種文件格式,符合 PIFF Resource Interchange FileFormat規(guī)范。所有的WAV都有一個文件頭,這個文件頭音頻流的編碼參數(shù)。WAV對音頻流的編碼沒有硬性規(guī)定,除了PCM之外,還有幾乎所有 支持ACM規(guī)范的編碼都可以為WAV的音頻流進行編碼。很多朋友沒有這個概念,我們拿AVI做個示范,因為AVI和WAV在文件結(jié)構(gòu)上是非常相似的,不過 AVI多了一個視頻流而已。我們接觸到的AVI有很多種,因此我們經(jīng)常需要安裝一些Decode才能觀看一些AVI,我們接觸到比較多的DivX就是一種 視頻編碼,AVI可以采用DivX編碼來壓縮視頻流,當然也可以使用其他的編碼壓縮。同樣,WAV也可以使用多種音頻編碼來壓縮其音頻流,不過我們常見的 都是音頻流被PCM編碼處理的WAV,但這不表示W(wǎng)AV只能使用PCM編碼,MP3編碼同樣也可以運用在WAV中,和AVI一樣,只要安裝好了相應(yīng)的 Decode,就可以欣賞這些WAV了。
在Windows平臺下,基于PCM編碼的WAV是被支持得最好的音頻格式,所有音頻軟件都能完美支持, 由于本身可以達到較高的音質(zhì)的要求,因此,WAV也是音樂編輯創(chuàng)作的首選格式,適合保存音樂素材。因此,基于PCM編碼的WAV被作為了一種中介的格式, 常常使用在其他編碼的相互轉(zhuǎn)換之中,例如MP3轉(zhuǎn)換成WMA。
MP3編碼
MP3作為目前最為普及的音頻壓縮格式,為大家所大量接受,各種與MP3相關(guān)的軟件產(chǎn)品層出不窮,而且更多的硬件產(chǎn)品也開始支持MP3,我們能夠買 到的VCD/DVD播放機都很多都能夠支持MP3,還有更多的便攜的MP3播放器等等,雖然幾大音樂商極其反感這種開放的格式,但也無法阻止這種音頻壓縮 的格式的生存與流傳。MP3發(fā)展已經(jīng)有10個年頭了,他是MPEG(MPEG:Moving Picture Experts Group) AudioLayer-3的簡稱,是MPEG1的衍生編碼方案,1993年由德國FraunhoferIIS研究院和湯姆生公司合作發(fā)展成功。MP3可以 做到12:1的驚人壓縮比并保持基本可聽的音質(zhì),在當年硬盤天價的日子里,MP3迅速被用戶接受,隨著網(wǎng)絡(luò)的普及,MP3被數(shù)以億計的用戶接受。MP3編 碼技術(shù)的發(fā)布之初其實是非常不完善的,由于缺乏對聲音和人耳聽覺的研究,早期的mp3編碼器幾乎全是以粗暴方式來編碼,音質(zhì)破壞嚴重。隨著新技術(shù)的不斷導(dǎo) 入,mp3編碼技術(shù)一次一次的被改良,其中有2次重大技術(shù)上的改進。
VBR:MP3格式的文件有一個有意思的特征,就是可以邊讀邊放,這也符合流媒體的最基本特征。也就是說播放器可以不用預(yù)讀文件的全部內(nèi)容就可以播放,讀到哪里播放到哪里,即使是文件有部分損壞。雖然mp3可以有文件頭,但對于 mp3格式的文件卻不是很重要,正因為這種特性,決定了MP3文件的每一段每一幀都可以單獨的平均數(shù)據(jù)速率,而無需特別的解碼方案。于是出現(xiàn)了一種叫 VBR(Variablebitrate,動態(tài)數(shù)據(jù)速率)的技術(shù),可以讓MP3文件的每一段甚至每一幀都可以有單獨的bitrate,這樣做的好處就是在 保證音質(zhì)的前提下最大程度的限制了文件的大小。這種技術(shù)的優(yōu)越性是顯而易見的,但要運用確實是一件難事,因為這要求編碼器知道如何為每一段分配 bitrate,這對沒有波形分析的編碼器而言,這種技術(shù)如同虛設(shè)。正是如此,VBR技術(shù)并沒有一出現(xiàn)就顯得光彩奪目。
專家們通過長期的聲學研究,發(fā)現(xiàn)人耳存在遮蔽效應(yīng)。聲音信號實際是一種能量波,在空氣或其他媒介中傳播,人耳對聲音能量的多少即響度或聲壓最直接的 反應(yīng)就是聽到這個聲音的大小,我們稱它為響度,表示響度這種能量的單位為分貝(dB)。即使是同樣響度的聲音,人們也會因為它們頻率不同而感覺到聲音大小 不同。人耳最容易聽到的就是4000Hz的頻率,不管頻率是否增高或降低,即使是響度在相同的情況下,大家都會覺得聲音在變小。但響度降到一定程度時,人 耳就聽不到了,每一個頻率都有著不同的值。
可以看到這條曲線基本成一個V字型,當頻率超過15000Hz時,人耳的會感覺到聲音很小,很多聽覺不是很好的人,根本就聽不到20000Hz的頻 率,不管響度有多大。當人耳同時聽到兩個不同頻率、不同響度的聲音時,響度較小的那個也會被忽略,例如:在白天我們很難聽到電腦中散熱風扇的聲音,晚上卻 成了噪聲源,根據(jù)這種原理,編碼器可以過濾掉很多聽不到的聲音,以簡化信息復(fù)雜度,增加壓縮比,而不明顯的降低音質(zhì)。這種遮蔽被稱為同時遮蔽效應(yīng)。但聲音 A被聲音B遮蔽,如果A處于B為中心的遮蔽范圍內(nèi),遮蔽會更明顯,這個范圍叫臨界帶寬。每一種頻率的臨界帶寬都不一樣,頻率越高的臨界帶寬越寬。
頻率(Hz) 臨界帶寬(Hz) 頻率(Hz) 臨界帶寬(Hz)
50 80 1850 280
150 100 2150 320
350 100 2500 380
450 110 3400 550
570 120 4000 700
700 140 4800 900
840 150 5800 1100
1000 160 7000 1300
1170 190 8500 1800
1370 210 10500 2500
1600 240 13500 3500
根據(jù)這種效應(yīng),專家們設(shè)計出人耳聽覺心理模型,這個模型被導(dǎo)入到mp3編碼中后,導(dǎo)致了一場翻天覆地的音質(zhì)革命,mp3編碼技術(shù)一直背負著音質(zhì) 差的惡名,但這個惡名現(xiàn)在已經(jīng)逐漸被洗脫。到了此時,一直被埋沒的VBR技術(shù)光彩四射,配合心理模型的運用便現(xiàn)實出強大的誘惑力與殺傷力。
長期 來,很多人對MP3印象不好,更多人認為WMA的最佳音質(zhì)要好過MP3,這種說法是不正確的,在中高碼率下,編碼得當?shù)腗P3要比WMA優(yōu)秀很多,可以非 常接近CD音質(zhì),在不太好的硬件設(shè)備支持下,沒有多少人可以區(qū)分兩者的差異,這不是神話故事,盡管你以前盲聽就可以很輕松區(qū)分MP3和CD,但現(xiàn)在你難保 證你可以分辨正確。因為MP3是優(yōu)秀的編碼,以前被埋沒了。
評論