數碼音頻

hkborn 发表于 2012-11-19 20:04:17

數碼音頻

聲音是物理現象，由空氣振動而產生，振動本身有能量，能量隨時間減弱，最終消逝。人的聽覺系統極端敏感，耳膜受振動而將訊息傳遞至大腦是瞬間的事，但其複雜程度遠比任何音響系統為高。聲音的能量平常以音壓表示，高音壓令耳朵不適，輕則喪失聽力，重則致命。潛水員最致命是水壓，也是由耳朵開始。

聲音保存是近代很重要的發明，其原理是將音壓記錄下來，然後透過工具將音壓重現。當電力學出現後，人們發現電壓跟音壓有類似的物理性，電力成為聲音保存及重播的重要元素。

錄音的原理是將音壓透過米高峰轉化為電壓，剛好是喇叭將電壓轉化為音壓的相反。如果不用儲存，由米高峰得來的電壓要做兩個部驟才能使喇叭發聲。

喇叭需要足夠強的訊號以及足夠強的動力使喇叭的磁頭有足夠力量和訊息令薄膜來回移動，重塑原來的音壓。訊號的擴大是將米高峰錄得的微弱電壓擴大至適合後續處理的水平，一般稱之為前級擴大。訊號雖然完整，但要令喇叭準確移動的力量仍然不足，需要加大力量，這就是一般所謂後級。前級與後級基本上是處理截然不同的任務，在電力學上，前者處理電壓，後者處理電流，千萬不要混淆。

所謂模擬，其實是指連續性，電壓與音壓都是連續性的，在前數碼年代，聲音記錄的是連續性的資料，將音壓變化完整記錄下來。主要介面是磁帶，再用磁帶資料刻錄在膠片。唱盤將黑膠資料轉為微弱電壓，再交由前級後級工作。

眾所周知，數碼資料是二進制，全是零與一。聲音由米高峰收錄成電壓後，具體表現是波型圖。由於模擬是連續性，理論上它是無窮大，用數碼記錄有很大難度。現時最常用的是PCM (pulse-code moderation)，原理是將時間分割為等距，將訊號強度記錄。PCM廣泛用於將模擬訊號數碼化，隨音頻外，視頻及其他模擬訊號亦會採用。數碼化的準備度與時間，樣本數量和訊號強度有關。

樣本數量基於Nyquist–Shannon sampling theorem。其中一個重要假設係bandlimited，即係要劃定頻率範圍來取樣。模擬信號涵蓋所有頻率，而數碼信號的頻率一定是有限制的。可幸是人類聽力範圍不是無限，所以這不是問題。具體的說，一般CD規格取樣為44.1kHz，實際最高可用頻率只有22.05kHz，為免出現多餘雜訊，所有錄音進行數碼化之前都會將22至44這段頻率過瀘走，即是所謂anti-aliasing filter。這就像喇叭分頻線路一樣。

取樣率44.1kHz究竟代表什麼？一個是速度，一個是樣本數量，最後一個是訊號強度。

模擬訊號以電流形式持續流動，數碼化的工作是以每秒44100個樣本的速度去記錄有關資料。這原理跟電影每秒多少張照片差不多！至於要記錄什麼資料？那就是電壓！聲音的能量以dB表達，以電力表示是電壓。電壓高低代表著聲音量dB的高低。有多少資源做多少的事，數碼資源是bit，有4bit的話，可以有16個等級記錄，0000是最低，1111是最高。1bit大概有6dB，4bit有24dB，16bit有96dB， 20bit有120dB，24bit有144dB。CD兩聲道的速度是　2x16bitx44100sample=1411.2k/秒。一首四分鍾的歌的資料需要1411.2k x 60 x 4 =338,688k bit (/8) =42.336 Mb。

數碼資料的好處是穩定性高，保存和傳輸都很容易。音樂由模擬轉成數碼是專業錄音師的工作，最後的成果是數碼檔案。

要重播數碼音樂，先要將數碼檔案回復為電壓，然後經前級調節電壓量，再由喇叭將電壓轉為聲壓，播出美妙音樂。

數碼音樂最不穩定因素是速度！很多人說數碼音樂是0與1，不應該有差異。這只對了一半，資料對，但速度很難正確！禍根在我們耳朵太靈敏，人的視覺對每秒幾十張frame已產生正常移動的錯覺，聽覺要求是幾百倍的速度。影像可以定格，聲音不能。

數碼音樂檔案的儲存與傳送

PCM 是將聲音資訊由模擬狀態轉為數碼，其內容是原始數據，微軟制定wav檔案格式，儲存pcm資料，蘋果則用AIFF。又由於這類型檔案儲存量大，影響傳送速度，一些無損壓縮的檔案也應運而生，如flac, ape….。最早期數碼音樂的媒介是CD，為保障版權，只能用CD機才能讀取當中的音頻資料。當原始音頻轉為一般電腦格式後，它的儲存和傳送基本上和其他電腦檔案無異。這個層次的傳送沒有什麼問題，出問題的是由閱讀音頻檔案內的PCM資料，並傳送到解碼器的過程中所面對的困難。

這過程分兩階段，首階段是由檔案抽取原始PCM資料，之後是將PCM資料傳送至解碼器進行解碼。簡單一點，前者是軟件工作，後者是硬件工作爲主。一般電腦的音樂播放器，其實是程序指令，將wav，flac之類的音樂檔案，抽取當中PCM資料，並送到電腦處理音頻的部件作解碼，其實兩個部驟都會稱為解碼，一個涉及codec (code & decode)，一個是digital analog conversion。

解碼器要通過接收口來接收PCM資料，如果在機器內部，通常用I2S，機器同機器之間，有有ubs, firwwire, AES, Spdif。AES同spdif都係Audio Engineering Society 訂立的傳送標準，前者專業用，後者供消費者用。兩者係單向傳。由於資料以電流形式傳送，對硬件有一定要求。AES電壓較高，阻抗110ohm，可作遠程傳輸。spdif的同軸電壓低點，阻抗75ohm。AES3對傳送口及接收口的資料格式都有規定，所以播放器要格式轉換至AES才可傳送。
Firewire 較不普遍，主要是專業錄音室才用。由於驅動程序要專門開發，一般水平較高。
Usb接口近年發展迅速，基本上解決電及鐘的問題，也可以比較美其他傳輸工具。

usb audio

用usb來做音頻接口很長時間都被視為是最差的。

其實在硬體上usb 2.0的480Mbit/second已經足夠為音頻作通道。其問題一個在驅動程式(driver)。現時音頻驅動標準有usb1.0及2.0(這不同於usb硬件的1.0,2.0,3.0)，usb 1.0 通用於window, mac, linux，只支持16bit/44.1,48。usb2.0可高至24/192，但只有mac 及linux接受這標準，window仍未接受。軟件工程師要特別為window寫驅動程式。另一個是電和鐘，usb是多用途通道，很易受其他程序影響而電流受干擾，電腦內的晶振亦不是為音頻而設。一般現時做法是截斷電腦內部供電，改用外部電給usb，即所謂isolator。時鐘則用外置，因usb是雙向設計，接受方可不接收時鐘資料，改用自家或外接時鐘。一般是44.1x2x32=2.8224Mhz及48x2x32=3.072Mhz或倍數。

解碼器(DAC)

解碼器的功能是將數碼資料還原至原來的電壓。

數碼資料是一組組的數字，由0與1組成。每組數字代表著音壓或電壓的量值。要準確的還原，關鍵是速度的準確性！當原始錄音錄音是44.1kHz，即每秒取得44100個樣本，每個樣本的時間距離是相等的，即1/44100秒或0.00002267573696145125秒或0.022676millisecond。當這44100樣本準確的用一秒的時間轉換為電壓，聲音就可以還原！由於世界上沒有完全準確的時鐘，所有還原工作都會有誤差，看只看誤差多少而已。

獨碼器結構有下列幾部份：

[*]數碼輸入線路[*]時鐘線路[*]數碼訊號處理器[*]數碼模擬轉換[*]正負極轉換[*]輸出過濾[*]電壓輸出

數碼輸入線路(1)

所有解碼器都要接收數碼音頻的資料才可以進行轉換。就傳輸規格而言，行業標準是AES3，硬件規格是xlr, coaxial 及光纖。非標準是inter-IC sound，即I2S。USB不能直接跟解碼溝通，先要轉為I2S或AES才可。另外AES47及AES53亦有定出關於用ethernet傳輸AES3音頻標準，更可用ATM (Asynchronous Transfer Mode)，不過市面上幾乎沒有採用的例子！Linn DS的ethernet 接口，估計是檔案傳輸而不是音頻傳輸，也就是先接收音樂檔案，將檔案decode，再作DAC。Firewire 跟usb相似。

I2S是IC (integrated circuit)與IC 間用於音的溝通途徑，它至少有三條線路：

[*]BCLK (bit clock line)[*]LRCLK (left right clock line 或者word clock line)[*]SDATA (multiplexed data line) 至少一條可再有的是
[*]MCLK (通常是256 x LRCLK)[*]額外一條multiplexed line 用作資料上傳當資料要傳送時，bit clock 開始跳動，其頻率是對應資料取樣率。44.1kHz取樣率要有64倍的速度來運作，即2.8224MHz的晶振。
Word clock 作用是決定左右聲道(bit 是0或1，word 是一組的bit)。
I2S資料傳輸是順序的，由MSB(most significant bit)至LSB(least significant bit)。
這標準由Philips 制訂，用於CD機內。
及至解碼功能由CD機分拆出來，I2S也生出不同規格，有以cat 5 cable，也有用HDMI接口。
另一方面，由於電腦usb接口發展迅速，也有很多usb轉I2S的部件出現。

數碼輸入線路(2)

關於I2S，還有一點要補充是其長度，機器內的不成問題，機器之間不超過1.5M(根據PS Audio建議)。
AES 是最普遍的輸入方法，傳送格式是差不多的，只是硬件要求有所不同, 專業的傳輸距離要求較長，所以要有不同的阻抗水平,分別是110ohm及75ohm,前者是平衡傳輸，可以帶較高電壓，由2-7V，一般是5vTTL作邏輯電路，接口用xlr。後者是非平衡傳輸，電壓較低，0.5-0.6v左右，用同軸線，接口是rca，最好1-2米內。BNC質量較高。

時鐘線路

時鐘線路的核心在晶振，頻寬一般是44.1kHz或是48kHz的倍數。有些解碼器會有外接線路可以接收或是輸出時鐘訊息。

數碼訊號處理

DSP基本上是對數碼資料進行處理，這其實可以在電腦，DAW，解碼器進行，也就是說由閱讀原始音樂檔案到還原電壓的過程中任何一點都可以做到。
簡單來說DSP可選擇用軟件或硬件來做，很多專業人士認為用電腦做DSP更好，因為電腦運算速度高，效率更佳，遠比一些平價SRC為佳，硬件升頻和軟件升頻也引起不少爭議，軟件派認為實時升頻增加處理時間，影響音質。DSP牽涉大量及數學模型的選擇，其效果亦有爭議，亦有不少品牌堅持不升頻。
對升頻有興趣的可參考幾個產品。
Weiss Saracon
iZotope RX2 Advanced
Lavry Gold 3000S

值得注意的是眾多軟件播放器均建築不要在實時播歌時升頻，以免影響音質。

數碼模擬轉換

這是解碼器的心臟部份，將PCM資料恢復為原來電壓，大部份解碼器都用現成晶片來完成這工作，輸入電路為數碼資料，時鐘，數碼及模擬電源。

正負極轉換

數碼電路大都不需要負極，一端是地線或0 volt；另外一端是正極，5 volt或3.2 volt。所以要轉換為正負極。

輸出過濾

解碼後的電壓通常包含了多餘的電能，主要是20kHz以上的方型雜訊，雖然這不在人耳聆聽範圍，但很多音頻電路設計會因這些超高頻而影響其表現，所以要將之濾走。

電壓輸出

解碼器的最後一部份是將電壓調整至Line level以作輸出之用，RCA頭是-10dBV供家庭用，專業用的為+4dBu，XLR接頭。

結語

數碼音頻並不複雜，最困難的一部份已經由recording engineer完成了，作為用家，購買CD碟或電腦音樂檔案就可以了。傳統用家有一部CD機或SACD機基本上可播放大部份音樂。如果不用CD機，那要解決的是播放器和解碼器。

播放器

CD機和CAS的比較有點像黑膠與CD的比較，不過隨著技術進步，CAS已經穩佔市場一席，爭論慢慢由CAS是否比得上CD而轉為CAS會否取代CD。其實這是沒有結果的爭論，感性因素又那能量度？不要說黑膠會繼續存在，就算收音機到現在也有市場，古董收音機仍是很多人的至愛。CD單一格式，單一音源雖然有其侷限，但多年的使用習慣以至成熟的技術，絕對不會在一時三刻被淘汰。CAS格式有16至24bit,44.1kHz至192kHz，檔案技術有其優勢。
CAS由於使用方便而普及，音質本來不是強項，又由於破解CD技術由電腦開始，用電腦作播放器也成為理所當然的事。當大家意識到電腦硬件及操作系統對音質的影響甚大時，種種不同方案湧現。硬件優化以除噪為核心，硬盤用solid state，音頻接口用PCI，拆除散熱用的風扇，獨立的usb接口專供音頻用，堅固防震的箱體。。。最後是專供音樂播放的獨立電腦；軟件優化一方面針對操作系統，將不必要的運作關掉，一方面尋找最佳播放器。現時最佳方案不離用RAM播放及real-time kernel。主要目的就是少用電腦！
電腦用來作播放器衍生的問題是音頻接口，firewire應該是原生的最佳接口，不過對口產品少，通常是專業錄音用，又只限於Mac機。usb接口發展迅速，現時已不弱於firewire。
現時電腦以外的播放器五花八門，其實最要緊的還是播放器。很多其他功能都有不錯取代品。明顯的例子是CD ripping，這其實可以由電腦做。又如內置硬盤，完全可以由NAS取代！播放器還是簡單的將音樂檔案還原為PCM最好。

解碼器

解碼器最大誤區是只看解碼晶片及技術指標。32bit 比16bit好，384kHz比192kHz好。解碼晶片其實不貴，難的是整體設計，從輸入口到時鐘到解碼到電壓還原到訊號調整至輸出水平，每一環節都影響音質。同一粒晶片，不同廠家會攪出不同聲音來。如果相信原汁原味解碼，那可以投資一部好的CD級解碼；如果相信upsampling,oversampling的，那可以等一等；現時最新的DXD對原來PCM有很大衝擊，還有很大發展空間，只宜玩玩，不宜投入太大，否則更新換代太頻密可不好受！

dan_cancer 发表于 2012-11-19 21:51:15

很好的科普文

jamesgjh 发表于 2012-11-20 14:30:43

作者不像是搞技术的，一些专业问题解释的不准确，初学者要注意。

[ 本帖最后由 jamesgjh 于 2012-11-20 14:38 编辑 ]

hkborn 发表于 2012-11-20 14:42:32

原帖由 jamesgjh 于 2012-11-20 14:30 发表 http://bbs.headphoneclub.com/images/common/back.gif
这种文章有点误人子弟了，作者不像是大陆人，应该不是搞技术的，一些专业问题解释的都不对。建议初学者不用看了。
請具體說那點有問題！

不像是大陸人也要受到指責？

發表意見可以，但也要有客觀理據！

jamesgjh 发表于 2012-11-20 14:58:55

原帖由 hkborn 于 2012-11-20 14:42 发表 http://bbs.headphoneclub.com/images/common/back.gif

請具體說那點有問題！

不像是大陸人也要受到指責？

發表意見可以，但也要有客觀理據！

不好意思，我就是怕人家不高兴，所以把我的原始帖子编辑了一下，用词平和了些。不过还是让你看到了。对不起哦。

我并没有指责作者不是大陆人，只是说话与大陆人不同而已。

hkborn 发表于 2012-11-20 15:07:06

原帖由 jamesgjh 于 2012-11-20 14:58 发表 http://bbs.headphoneclub.com/images/common/back.gif

不好意思，我就是怕人家不高兴，所以把我的原始帖子编辑了一下，用词平和了些。不过还是让你看到了。对不起哦。

我并没有指责作者不是大陆人，只是说话与大陆人不同而已。
這篇是原創文章，雖然有點雜亂，但也參考不少資料。
兄台覺得那部份有問題，請具體指正！
有錯自然要改，但不知錯在那裡，卻被說沒有技術含量就有點冤！

言高手低 发表于 2012-11-20 15:16:22

H兄还是宽容一些为好, 无论在论坛,还是在现实生活中,非理性的太多了,您自己不宽容, 反而自己难受.
我眼睛不太好,又是繁体字,几次都没有看完,所以就没有回帖,今天全部拜读了,蛮好蛮系统的.
谢谢!

hkborn 发表于 2012-11-20 15:32:43

原帖由言高手低于 2012-11-20 15:16 发表 http://bbs.headphoneclub.com/images/common/back.gif
H兄还是宽容一些为好, 无论在论坛,还是在现实生活中,非理性的太多了,您自己不宽容, 反而自己难受.
我眼睛不太好,又是繁体字,几次都没有看完,所以就没有回帖,今天全部拜读了,蛮好蛮系统的.
谢谢!
受教了，可能也有受西方教育影響，有點喜歡思辯，言辭如有過火還請讀者包涵。

陈坚发表于 2012-11-20 16:02:56

写的相当好！为很多菜鸟科普啦一下，包括我本人，如果是事实的话，我感觉真的是对本人很有用！！谢谢！赞一个！有些其他的声音也是正常的，不过仙在撒比也很少啦！大家的心中都明白！

陈坚发表于 2012-11-20 16:04:32

《解碼器最大誤區是只看解碼晶片及技術指標。32bit 比16bit好，384kHz比192kHz好。解碼晶片其實不貴，難的是整體設計，從輸入口到時鐘到解碼到電壓還原到訊號調整至輸出水平，每一環節都影響音質。同一粒晶片，不同廠家會攪出不同聲音來。》---------这一段我要谢谢LZ

GLIADIATOR 发表于 2012-11-20 22:41:36

标题

多谢分享，很有参考价值

页: [1]

耳机俱乐部论坛's Archiver

數碼音頻

标题