沉浸聲專題討論一：《沉浸聲—聲音情景的重構(gòu)與創(chuàng)造（上）》

來(lái)源：中國(guó)傳媒大學(xué) 編輯：ZZZ 2024-07-22 14:13:52 加入收藏

隨著技術(shù)發(fā)展和時(shí)代進(jìn)步，近年來(lái)，沉浸聲這一概念成為了音頻界最為熱點(diǎn)的詞匯，并出現(xiàn)了眾多與之類似的稱謂，如全景聲、全向聲、3D音頻、空間音頻等。

沉浸聲——聲音情景的重構(gòu)與創(chuàng)造（上）

魏增來(lái) 耿依楊徐曉軼

中國(guó)傳媒大學(xué)

　　摘要

　　沉浸聲技術(shù)是近年來(lái)音頻領(lǐng)域的熱點(diǎn)之一。本文首先解析了人耳聽(tīng)覺(jué)感知的內(nèi)容和過(guò)程，指出“聲源特征”、“空間特征”及“個(gè)人特征”是影響聽(tīng)覺(jué)感知的三個(gè)主要因素;此后從電聲重現(xiàn)聲音情景的發(fā)展歷程入手，探討了沉浸聲的基本概念，并結(jié)合影響聽(tīng)感的三個(gè)要素，分析了沉浸聲通過(guò)耳機(jī)重放和揚(yáng)聲器重放這兩個(gè)主要實(shí)現(xiàn)手段的基本原理;在此基礎(chǔ)上，本文探討了沉浸聲用以重構(gòu)復(fù)刻和聯(lián)想創(chuàng)造聲音情景的這兩個(gè)主要用途;最后筆者分別從呈現(xiàn)感知層面和使用操作層面提出了當(dāng)前沉浸聲技術(shù)所面臨的主要問(wèn)題，并對(duì)未來(lái)沉浸聲的發(fā)展目標(biāo)進(jìn)行了展望。

　　關(guān)鍵詞：

　　沉浸聲聲音情景聲源特征空間特征個(gè)人特征寫(xiě)實(shí)還原寫(xiě)意創(chuàng)造

　　正文

　　隨著技術(shù)發(fā)展和時(shí)代進(jìn)步，近年來(lái)，沉浸聲這一概念成為了音頻界最為熱點(diǎn)的詞匯，并出現(xiàn)了眾多與之類似的稱謂，如全景聲、全向聲、3D音頻、空間音頻等，但究其根本，如何理解這些名詞，到底什么樣的聲音又可以被稱之為沉浸聲呢，業(yè)界也存在一定的爭(zhēng)鳴。以此為背景，筆者嘗試從人耳聽(tīng)覺(jué)感知入手，逐步梳理電聲化重現(xiàn)聲音情景的發(fā)展歷程，進(jìn)而對(duì)沉浸聲的定義及其用途進(jìn)行探索和討論。

　　一、人耳聽(tīng)覺(jué)感知

　　所謂人耳聽(tīng)覺(jué)感知，可以簡(jiǎn)單理解為人對(duì)聲波產(chǎn)生行為反應(yīng)的過(guò)程。在日常生活中，具體表現(xiàn)為發(fā)聲體通過(guò)振動(dòng)而產(chǎn)生的聲波，經(jīng)由空氣傳播到人耳，并在人耳結(jié)構(gòu)中完成一系列信號(hào)傳輸和轉(zhuǎn)換后，最終在大腦聽(tīng)覺(jué)皮層形成有效信息的生物感知過(guò)程。盡管基于聲源、空間環(huán)境等“因”的不同，我們通過(guò)聽(tīng)覺(jué)所能獲取到的“果”，即語(yǔ)義信息、聽(tīng)感體驗(yàn)等也都不盡相同，但人類形成聽(tīng)覺(jué)的過(guò)程和原理卻是一致的。當(dāng)談及聽(tīng)覺(jué)感知時(shí)，首先需要明確兩個(gè)最為關(guān)鍵的問(wèn)題，即“聽(tīng)什么”和“如何聽(tīng)”。

　　（一）“聽(tīng)什么？”

　　當(dāng)人耳接收聲音信息時(shí)，主要有兩方面因素會(huì)對(duì)聽(tīng)感產(chǎn)生影響，一是聲音元素，二是空間聲學(xué)環(huán)境信息。所謂聲音元素，泛指直接振動(dòng)發(fā)聲的聲源，如人聲、樂(lè)器、物體撞擊、鳥(niǎo)鳴等。不同聲源有著不同的聲音特征，通?？捎身懚?、音調(diào)和音色來(lái)描述。以小提琴為例，每把琴、每次演奏的音量、音調(diào)以及相關(guān)的基波、諧波以及頻譜包絡(luò)等因素均有所不同，這些因素共同構(gòu)成了聲源的特征，而聲源特征的變化對(duì)聽(tīng)覺(jué)感知產(chǎn)生的影響是不言而喻的。

　　此外，當(dāng)聲源處在某一空間中發(fā)聲時(shí)，其所表現(xiàn)出來(lái)的聲音將不可避免地受到該空間聲學(xué)環(huán)境的影響，例如由于界面的反射聲波而使聲源的響度加強(qiáng)并產(chǎn)生混響感等。同樣以小提琴為例，同一位演奏家在室外、音樂(lè)廳、大教堂、錄音棚、消聲室內(nèi)等不同場(chǎng)所使用同一把小提琴演奏相同曲目時(shí)，聽(tīng)眾通過(guò)聽(tīng)覺(jué)所捕獲的琴聲聽(tīng)感肯定是不同的，甚至同一空間內(nèi)位于不同位置的聽(tīng)眾所捕獲的聽(tīng)感也有一定差異，因?yàn)槁?tīng)音位置不同時(shí)，直達(dá)聲音量、方位以及反射聲音量、方位都會(huì)不同，它們的共同作用一定會(huì)帶來(lái)聽(tīng)感的不同。這時(shí)，人耳所接收的聲音信息中不僅會(huì)包括聲源本身的聲音特征，同時(shí)也會(huì)包含聲源所處的空間環(huán)境的聲音特征，具體如圖1所示，這也就是說(shuō)空間特征一定會(huì)對(duì)聽(tīng)覺(jué)感知產(chǎn)生影響。

圖1：人耳所接收的“聲源特征”及“空間特征”示意圖

　　綜上所述，聽(tīng)覺(jué)感知是與聲源本身以及聲源所處的空間環(huán)境緊密聯(lián)系的，聲源特征和空間特征共同構(gòu)成了人耳能夠感知和獲取到的聽(tīng)覺(jué)特征信息，所謂“聽(tīng)什么”，實(shí)際上就是收聽(tīng)“聲源特征”和“空間特征”。

　　（二）“如何聽(tīng)？”

　　所謂“如何聽(tīng)”，本文中主要指人耳接收聲音信息并將其轉(zhuǎn)換成具體的、可被聽(tīng)者理解的含義的這一過(guò)程，包括客觀感知和主觀映射兩個(gè)環(huán)節(jié)。其中，客觀感知環(huán)節(jié)與耳朵的生理結(jié)構(gòu)以及耳內(nèi)各個(gè)部位所對(duì)應(yīng)的功能息息相關(guān)。當(dāng)聲源在空間中通過(guò)振動(dòng)產(chǎn)生聲波并經(jīng)由介質(zhì)傳播到人耳后，由耳廓和外耳道所構(gòu)成的外耳首先對(duì)聲波進(jìn)行聚合并傳導(dǎo)至中耳;中耳則通過(guò)鼓膜、鼓室、聽(tīng)小骨、咽鼓管等的共同作用將聲波進(jìn)一步放大并傳導(dǎo)至內(nèi)耳;內(nèi)耳再利用前庭、半規(guī)管、耳蝸以及神經(jīng)束等，將聲波信號(hào)轉(zhuǎn)換為生物電信號(hào)，并傳導(dǎo)至大腦聽(tīng)覺(jué)皮層。這一環(huán)節(jié)眾多研究已非常清楚地進(jìn)行了闡述，本文不再贅述。概括來(lái)說(shuō)，聽(tīng)音者通過(guò)外耳、中耳、內(nèi)耳和大腦聽(tīng)覺(jué)皮層的共同作用，完成了對(duì)聲音信息的客觀感知。

　　此外，在整個(gè)聽(tīng)音的過(guò)程中，還有最為重要的主觀映射環(huán)節(jié)，也就是聽(tīng)音者如何將聽(tīng)到的客觀聲學(xué)信息(如音節(jié)、起伏包絡(luò)、響度、頻率、音色等)轉(zhuǎn)換成可以理解的含義及其他相關(guān)信息的環(huán)節(jié)。筆者認(rèn)為，主觀映射的過(guò)程一部分可能來(lái)自于我們的基因，但絕大部分應(yīng)該源于我們從呱呱墜地后經(jīng)過(guò)長(zhǎng)期的聽(tīng)覺(jué)與其他如視覺(jué)、觸覺(jué)、嗅覺(jué)等多重感覺(jué)聯(lián)結(jié)在一起時(shí)，所共同建立起的主觀映射聯(lián)系。以語(yǔ)言為例，當(dāng)我們從小聽(tīng)到漢語(yǔ)、英語(yǔ)、日語(yǔ)等不同語(yǔ)言的某一句話或某一個(gè)詞語(yǔ)，如“請(qǐng)跑過(guò)去”、“抓住你的胳膊”等，并通過(guò)后續(xù)一系列與之相關(guān)的過(guò)程或動(dòng)作或感覺(jué)獲得相應(yīng)結(jié)果后，我們就可以將這種聲音特征與某種含義建立關(guān)聯(lián)，而通過(guò)長(zhǎng)期的這種類似關(guān)聯(lián)后，我們則可以建立起這種聲音特征與特定含義之間的映射關(guān)系。甚至當(dāng)這種主觀映射達(dá)到更高階段，如說(shuō)話者帶著不同的語(yǔ)氣和情緒來(lái)陳述同一句話時(shí)，也能夠使聽(tīng)者獲取到不同的語(yǔ)義信息。當(dāng)然，這一過(guò)程中，同樣也會(huì)逐漸建立起聽(tīng)音者對(duì)聲源空間方位及所處空間環(huán)境的判斷映射。這種現(xiàn)象的產(chǎn)生與日常生活中不斷的聯(lián)覺(jué)體驗(yàn)及其主觀映射的建立不可分割。

　　在闡述“如何聽(tīng)”這一過(guò)程時(shí)，不得不提到人的“雙耳效應(yīng)”、 “頭相關(guān)傳遞函數(shù)(HRTF)” 和“雙耳聲(Binaural)”這三個(gè)概念，其示意可見(jiàn)圖2。我們都知道，人類是通過(guò)兩只耳朵來(lái)采集聲音并據(jù)此進(jìn)行主觀映射的。由于橫向排布的兩只耳朵與聲源間的不同距離會(huì)造成時(shí)間差，從而形成相位差，同時(shí)頭部的遮擋也會(huì)造成音色差，且距離差和頭部遮擋還會(huì)造成響度差，上述雙耳間的相位差、音色差以及響度差這些因素均會(huì)對(duì)聽(tīng)者的定位感知和環(huán)境感知方面造成一定影響，導(dǎo)致客觀感知層面產(chǎn)生不同的聽(tīng)感并影響到主觀映射的建立，這就是所謂的雙耳效應(yīng)。此外，當(dāng)人通過(guò)兩只耳朵接收聲音時(shí)，還會(huì)受到耳廓、頭、肩形狀以及毛發(fā)甚至衣物等相關(guān)部位或因素的影響，它們匯同雙耳效應(yīng)，共同對(duì)聲波的傳輸產(chǎn)生一定的作用，使得進(jìn)入耳朵的聲音類似于經(jīng)過(guò)了一個(gè)特定的綜合濾波器，這個(gè)特定濾波器這就是所謂的“頭相關(guān)傳遞函數(shù)(Head-Related Transfer Function, HRTF )”，它包含了聲波與人體發(fā)生作用后所引起的所有譜特征。由于不同的人體在上述人體結(jié)構(gòu)及其影響因素上具有一定的差異性，因此，每個(gè)人的頭相關(guān)傳遞函數(shù)其實(shí)也是不同的、個(gè)性化的。而且，即便我們位于同一空間的同一位置收聽(tīng)同樣的聲源信息，每個(gè)人經(jīng)過(guò)其個(gè)體的頭相關(guān)傳遞函數(shù)濾波后所感知到的聲音客觀信息也是不同的，并進(jìn)而影響到其主觀映射的建立和后續(xù)判斷。因此，我們可以認(rèn)為，任何人在空間中感知聲音時(shí)，一定會(huì)受到個(gè)性化頭相關(guān)傳遞函數(shù)的影響，這種影響就形成了所謂的“雙耳聲”，而這種雙耳聲，在聲音的聲源特征、空間特征的基礎(chǔ)上，又不可避免地加載了每位聽(tīng)者獨(dú)特的個(gè)人特征。

圖2：雙耳效應(yīng)、頭相關(guān)傳遞函數(shù)及雙耳聲示意

　　（三）聽(tīng)覺(jué)感知三要素

　　綜上所述，筆者認(rèn)為，在現(xiàn)實(shí)生活中，個(gè)人對(duì)任何聲源的感知實(shí)則就是在聲源特征、空間特征和個(gè)體特征這三個(gè)要素的共同影響下產(chǎn)生聽(tīng)覺(jué)，再基于心理聲學(xué)建立起長(zhǎng)期主觀映射的復(fù)雜過(guò)程。聲源特征、空間特征和個(gè)體特征是構(gòu)成聽(tīng)覺(jué)感知的最重要的三個(gè)基于物理層面的要素。

　　（四）現(xiàn)實(shí)生活中的“沉浸聲”

　　實(shí)際在日常生活中，我們其實(shí)每天處于來(lái)自于各個(gè)方向不同聲源所發(fā)出的，且結(jié)合了當(dāng)前空間環(huán)境特征所提供的各級(jí)次反射的聲音的包圍中，它們?cè)谑艿轿覀儌€(gè)人HRTF特征影響后被大腦所感知。這也就是說(shuō)，我們?cè)谏钪惺冀K“沉浸”于這種最原始、也最為真實(shí)和自然的聲場(chǎng)中，這種聲場(chǎng)，正是目前沉浸式聲音技術(shù)所不斷追求的最終還原目標(biāo)。因此要實(shí)現(xiàn)對(duì)沉浸聲的良好理解和應(yīng)用，就需要從聲源特征、空間特征和人體特征這三個(gè)聽(tīng)覺(jué)感知要素入手，它們都會(huì)對(duì)最終的整體聽(tīng)覺(jué)感知產(chǎn)生重要的影響。

　　二、電聲化重現(xiàn)聲音情景的發(fā)展歷程

　　聲音情景的電聲化重現(xiàn)就是指通過(guò)電聲方式實(shí)現(xiàn)某個(gè)聲音情景中各類聲音元素的虛擬再現(xiàn)和相關(guān)空間聲學(xué)環(huán)境的虛擬重構(gòu)，從而為聽(tīng)眾復(fù)刻該特定的聲音情景的過(guò)程，如流水潺潺的溪谷、演奏熱烈的音樂(lè)廳等。其實(shí)，如前所述，我們?nèi)粘Ｔ谏钪?，始終都“沉浸”于這種原始、真實(shí)和自然的聲場(chǎng)中。而這種聲場(chǎng)，正是電聲技術(shù)所不斷追求的最終還原目標(biāo)。

　　（一）從單點(diǎn)還原到三維還原

　　19世紀(jì)70年代留聲機(jī)的誕生使人們迎來(lái)了最早的音響系統(tǒng)，它采用單點(diǎn)(單聲道)還原方式，重現(xiàn)了所播放聲音情景的部分特征(主要為聲源特征)。但在時(shí)代的發(fā)展之下，它逐漸難以適應(yīng)人們?cè)絹?lái)越高的審美追求，因此，到20世紀(jì)20年代，英、法、美等國(guó)家開(kāi)始使用立體聲系統(tǒng)，相比較于單聲道方式，它能夠提供較好的音質(zhì)和一定的水平空間定位感，使聲源特征和空間特征都適當(dāng)?shù)靡约訌?qiáng)，但同時(shí)也存在著較多的局限，對(duì)此，很多文獻(xiàn)已進(jìn)行了詳細(xì)探討，本文不再贅述。之后，到了1977年，杜比實(shí)驗(yàn)室成功研發(fā)出了包括左、中、右、后四個(gè)聲道在內(nèi)的商用環(huán)繞系統(tǒng)——Dolby Stereo，這一系統(tǒng)的研發(fā)既成為了后續(xù)主流的Dolby Digital5.1聲道系統(tǒng)的前身，也標(biāo)志著重放系統(tǒng)進(jìn)入了多聲道環(huán)繞時(shí)代。之后基于影院音響系統(tǒng)的應(yīng)用，又逐步開(kāi)發(fā)出了側(cè)向、頂向和后向的揚(yáng)聲器來(lái)用于環(huán)境聲的重放，從而起到輔助和烘托整體氛圍的作用，并逐漸將其應(yīng)用于影院之外的其它場(chǎng)景中(如唱片、現(xiàn)場(chǎng)擴(kuò)聲等)。因此，聲音情景的電聲化重現(xiàn)歷程可以簡(jiǎn)單概括為從最早的幾乎不具備任何空間特征的單聲道再現(xiàn)，逐漸演變?yōu)槟軌虿糠殖尸F(xiàn)水平空間特征的立體聲(Stereo)或前置多聲道再現(xiàn)，再到之后可以在水平和縱深兩維方向上展現(xiàn)空間特征的再現(xiàn)，到如今又逐步發(fā)展到可以在水平、縱深和高度三個(gè)維度上體現(xiàn)空間特征的再現(xiàn)，這一過(guò)程，實(shí)際上就是人類不斷嘗試更好地重現(xiàn)現(xiàn)實(shí)生活中真實(shí)場(chǎng)景的探索。

　　（二）何謂“沉浸聲”或“Immersive Sound”？

　　行文至此，筆者也想基于自己的理解，給出所謂沉浸聲或?qū)?yīng)的英文名詞“Immersive Sound”的定義。應(yīng)該講，目前業(yè)界對(duì)于沉浸聲并沒(méi)有形成統(tǒng)一且明確的定義，此類音頻的叫法也五花八門(mén)，包括全景聲、全向聲、3D音頻、空間音頻等，但查閱“沉浸”的中文語(yǔ)意，可以得到三個(gè)解釋，其一為“浸泡，浸入水中。多比喻完全處于某種境界或思想活動(dòng)中”;其二為“全神貫注于某種事物”;其三則為“使......充滿”。而查閱英文單詞術(shù)語(yǔ)“Immersive”，則可以得到“used to describe a computer system or image that seems to surround the user——感覺(jué)圍繞在使用者周圍，慣用于描述計(jì)算機(jī)系統(tǒng)或圖像。” 或“(of a computer display or system)generating a 3-dimensional image which appears to surround the user——(計(jì)算機(jī)系統(tǒng)或顯示設(shè)備)產(chǎn)生出一種三維的、使人感覺(jué)被圍繞的畫(huà)面。” ，由此可見(jiàn)，無(wú)論中文還是英文，其解釋中最為核心的詞匯為“浸泡”、“完全處于”、“充滿”、“圍繞”、“三維”等，意即從四面八方包裹起來(lái)的意思，而“沉浸聲”加上后綴這個(gè)“聲”字后，我們還需要結(jié)合聲音學(xué)科及其發(fā)展歷程來(lái)研究其定義。所以，經(jīng)多維度考慮后，筆者認(rèn)為：所謂沉浸聲或Immersive Sound，就是指與人類日常生活中實(shí)際聽(tīng)覺(jué)感知極其類似的、可以從水平、縱深及高度三個(gè)維度呈現(xiàn)聲音信息的聲場(chǎng)。人類利用電聲系統(tǒng)從單點(diǎn)還原到一維還原再到兩維還原聲場(chǎng)的過(guò)程，實(shí)際上都可以看做是沉浸聲還原聲場(chǎng)(即三維還原聲場(chǎng))的前期探索。

　　在這里特別值得一提的是，目前在沉浸聲擴(kuò)聲系統(tǒng)的應(yīng)用中，有一個(gè)名詞叫做前置式系統(tǒng)(Frontal System),它通常指布置在舞臺(tái)(或表演區(qū))前部，面向觀眾供聲的多組揚(yáng)聲器，那它到底算不算沉浸聲系統(tǒng)呢?筆者認(rèn)為，這個(gè)要依賴于其要重構(gòu)的聲音情景來(lái)看。研究表明，人耳對(duì)于聲音高度信息的變化并不敏感，所以當(dāng)多個(gè)不存在明顯高度差異的聲源只排列于聽(tīng)眾前方并且距觀眾有一定距離時(shí)，這種高度差異或其變化已不容易引起聽(tīng)眾聽(tīng)感的不同了，而這時(shí)，如果前置的多組揚(yáng)聲器能夠準(zhǔn)確虛擬出各聲源的發(fā)聲效果(包括其聲源音色、空間布局等)，且不需要電聲系統(tǒng)重構(gòu)相關(guān)空間聲學(xué)環(huán)境特征的話，那么這種前置式系統(tǒng)也可以稱之為沉浸聲。以室外空曠場(chǎng)地舉行的流行音樂(lè)演唱會(huì)為例，首先，該空間可以近似的認(rèn)為是自由場(chǎng)，不存在頂部、側(cè)向及后向反射聲;其次，流行音樂(lè)的演員全部都在舞臺(tái)上表演，也不存在位于觀眾側(cè)向、后向及頂部的演出用聲源，這時(shí)，如果良好的前置式系統(tǒng)能夠較好地虛擬再現(xiàn)出與我們視覺(jué)感知非常接近的聲音情景的話，我們將其稱為沉浸式擴(kuò)聲也并無(wú)不妥。

　　由此可見(jiàn)，雖然從字面上講，沉浸聲是指可以從水平、縱深及高度三個(gè)維度呈現(xiàn)聲音信息的聲場(chǎng)，但從應(yīng)用角度來(lái)看，能夠較為準(zhǔn)確地還原出與人類視覺(jué)等其他感知維度在心里聲學(xué)層面所映射到的聽(tīng)覺(jué)效果相接近的聲場(chǎng)，其實(shí)就可以稱之為沉浸聲。不過(guò)，通常而言，這種聲場(chǎng)必須具備呈現(xiàn)水平、縱深及高度三個(gè)維度聲音信息的能力，因?yàn)榻^大多數(shù)日常生活中的聲音情景都是三維的。

　　（三）基于聲道與基于對(duì)象

　　當(dāng)前，沉浸聲的制作與實(shí)現(xiàn)主要包括基于聲道(Channel Based)和基于對(duì)象(Object Based)兩種技術(shù)。其中在傳統(tǒng)的立體聲或5.1、7.1平面環(huán)繞聲或5.1.2等格式的三維沉浸聲中，聲道格式和揚(yáng)聲器布局二者間需要統(tǒng)一，即理想的聲源制作端要求使用多聲道的拾音制式、同樣數(shù)量的多聲道母線分配機(jī)制和多聲道監(jiān)聽(tīng)揚(yáng)聲器(當(dāng)然，也可以通過(guò)母線分配機(jī)制將少于監(jiān)聽(tīng)揚(yáng)聲器通道數(shù)量的拾音信號(hào)或非實(shí)際拾音獲取的信號(hào)進(jìn)行重新的通道分配)，同時(shí)重放端揚(yáng)聲器數(shù)量和布局方式也要和制作端嚴(yán)格匹配，以此來(lái)對(duì)聲音場(chǎng)景及空間進(jìn)行再現(xiàn)，這樣的實(shí)現(xiàn)方式一般稱之為基于聲道的沉浸聲音頻。該技術(shù)主要應(yīng)用于廣播、唱片、影院等固定揚(yáng)聲器布局和模式的標(biāo)準(zhǔn)應(yīng)用場(chǎng)景下，可遷移性及應(yīng)用靈活性較差，因此，基于對(duì)象的沉浸聲音頻在這之后便應(yīng)運(yùn)而生。這種基于對(duì)象的沉浸聲技術(shù)對(duì)制作和重放揚(yáng)聲器的布局沒(méi)有特定的要求，不管采用何種方式，聲源制作端只需要提供各個(gè)聲源對(duì)象的空間坐標(biāo)信息，那么在重放端就能通過(guò)沉浸式引擎算法對(duì)聲源對(duì)象進(jìn)行渲染，并分配給不同布局的重放揚(yáng)聲器或耳機(jī)，即可再現(xiàn)包括空間特征在內(nèi)的聲音情景，因此這種技術(shù)具有更強(qiáng)的靈活性、適應(yīng)性和可遷移性，近年來(lái)已成為了沉浸聲制作播出的主流方式。

　　三、沉浸聲的實(shí)現(xiàn)

　　對(duì)于沉浸聲的實(shí)現(xiàn)來(lái)說(shuō)，其最終呈現(xiàn)載體通常而言有兩種方式，一種是通過(guò)耳機(jī)進(jìn)行重放，另一種是通過(guò)揚(yáng)聲器進(jìn)行重放。

　　（一）耳機(jī)重放

　　通過(guò)前面的分析我們知道，影響聲音聽(tīng)感的三個(gè)重要因素分別是聲源特征、空間特征和人體特征。針對(duì)將沉浸式聲音通過(guò)耳機(jī)重放這種再現(xiàn)方式來(lái)說(shuō)，因?yàn)樵诖诉^(guò)程中，聲音將直接通過(guò)耳機(jī)進(jìn)入到人耳(即左、右聲道信號(hào)分別被直接送入左耳和右耳)，所以聲音在整個(gè)傳播過(guò)程中缺少了人體特征(即包含了雙耳效應(yīng)的頭相關(guān)傳遞函數(shù))的影響，因此，在利用耳機(jī)實(shí)現(xiàn)沉浸聲重放時(shí)，非常重要的一點(diǎn)就是需要人為地對(duì)聲音進(jìn)行人體特征的重構(gòu)，無(wú)論這種重構(gòu)是在制作端還是在播出端。

　　如前文所述，人體特征主要表現(xiàn)為個(gè)性化的HRTF，所以，在用耳機(jī)實(shí)現(xiàn)沉浸聲這一過(guò)程中，一定需要加載與聽(tīng)音者相匹配的HRTF才能完全還原聲音，根據(jù)聲音信號(hào)的電聲化重現(xiàn)過(guò)程來(lái)看，加載HRTF的方式無(wú)外乎三種：第一，在拾音環(huán)節(jié)加載HRTF;第二，在聲音信號(hào)制作環(huán)節(jié)加載HRTF;第三，在耳機(jī)重放環(huán)節(jié)加載HRTF。

　　1.拾音環(huán)節(jié)加載HRTF

　　如果想在拾音時(shí)加載HRTF，最理想的方式就是在演出現(xiàn)場(chǎng)將拾音器置于聽(tīng)音者的雙耳進(jìn)行拾音，將聽(tīng)音者本人在特定空間的特定位置聽(tīng)到的原始聲音記錄下來(lái)，這個(gè)信號(hào)既包括聲源特征和空間特征，也包含聽(tīng)音者個(gè)性化的人體特征。之后，無(wú)論聽(tīng)音者在任何空間、任何位置進(jìn)行耳機(jī)重放時(shí)，都將完全還原拾音時(shí)的聲音狀態(tài)。這一方法雖然相對(duì)完美，但從實(shí)際應(yīng)用的角度來(lái)看，并不具可操作性，因?yàn)椴豢赡苊總€(gè)聽(tīng)音者都能親自到現(xiàn)場(chǎng)進(jìn)行雙耳拾音，所以可以適當(dāng)妥協(xié)，在最終效果和實(shí)用性之間進(jìn)行平衡，如采用普適性的人工頭來(lái)代替聽(tīng)音者完成現(xiàn)場(chǎng)的雙耳拾音工作。當(dāng)然，在此過(guò)程中一定要注意一個(gè)細(xì)節(jié)，即人工頭擺放于該聲場(chǎng)空間的哪個(gè)位置，重放時(shí)的聽(tīng)感就會(huì)置身于此位置，例如將人工頭擺放在觀眾席位置拾音和擺放在樂(lè)隊(duì)指揮的位置進(jìn)行拾音，重放時(shí)所得到的聲音聽(tīng)感是不一樣的，即人體特征已被加載的前提下，不同聽(tīng)音位置所拾取到的聲源特征和空間特征將會(huì)決定最終的聽(tīng)感。圖3即為采用Neumman KU100人工頭或KEMAR人體模型進(jìn)行拾音的示意。

圖3：Neumman KU100人工頭及

KEMAR人體模型拾音示意圖

　　2.信號(hào)制作環(huán)節(jié)加載HRTF

　　如果拾音時(shí)沒(méi)有采用真人雙耳拾音或人工頭拾音，那么所拾取的信號(hào)雖然具有一定的聲源特征和空間特征(如通過(guò)立體聲或環(huán)繞聲、沉浸聲制式所拾取的聲音)，但卻不會(huì)包含人體特征。尤其是通過(guò)近距離單點(diǎn)拾音方式拾取的信號(hào)，其空間特征極其不明確。當(dāng)然，除此之外，還有些聲音信號(hào)可能是非實(shí)際物理聲學(xué)所產(chǎn)生的合成音源或電子類音源，它們更不具備實(shí)際的空間特征，所以，對(duì)于這類聲音信號(hào)的沉浸聲重現(xiàn)，就需要以創(chuàng)作者的視角來(lái)制作沉浸聲了，即需要給它們?nèi)藶榈?“加載”人體特征和空間特征。對(duì)于前者，目前已有眾多公司提供了沉浸聲雙耳渲染硬件設(shè)備或軟件插件，如圖4所示的Dolby、Anaglyph等，通過(guò)它們對(duì)原始信號(hào)的渲染，可以獲得類似雙耳聲的聽(tīng)感，但在渲染之前，對(duì)于那些不具備空間特征的聲音信號(hào)，制作者還需通過(guò)各種聲像(Pan)類電位器、各類混響器、延時(shí)器等來(lái)賦予其空間特征。上述兩種方法結(jié)合在一起，可以共同幫助我們努力接近想要的沉浸式聲音效果。不過(guò)就目前而言，到底哪款雙耳渲染設(shè)備或插件的算法更逼真、更普遍適用、聽(tīng)感更好，則需要更深一步進(jìn)行相關(guān)的主觀評(píng)價(jià)實(shí)驗(yàn)。

圖4：Dolby及Anaglyph的雙耳聲渲染插件

　　3.耳機(jī)重放環(huán)節(jié)加載HRTF

　　所謂在信號(hào)重放環(huán)節(jié)加載HRTF是指將帶有聲源特征和空間特征的聲音信號(hào)送入耳機(jī)重放時(shí)，首先經(jīng)過(guò)與聽(tīng)音者相匹配的HRTF濾波器，從而將其轉(zhuǎn)化成雙耳聲來(lái)實(shí)現(xiàn)沉浸式重放。當(dāng)然，最精準(zhǔn)的效果就是加載聽(tīng)音者自己的個(gè)性化HRTF，但這需要在專業(yè)的消聲室內(nèi)進(jìn)行多角度、全方位的先期測(cè)量并做歸納運(yùn)算，這實(shí)際上這很難實(shí)現(xiàn)。于是，妥協(xié)的方案有兩個(gè)，一個(gè)是加載經(jīng)過(guò)大數(shù)據(jù)統(tǒng)計(jì)平均而來(lái)的普適性HRTF;另一個(gè)則是可以在某一個(gè)空間環(huán)境里用某一款揚(yáng)聲器重放脈沖信號(hào)來(lái)測(cè)量聽(tīng)音者雙耳的全頻脈沖響應(yīng)，以快速獲得該聽(tīng)音人的個(gè)性化HRTF，實(shí)際上這個(gè)HRTF同時(shí)也加載了當(dāng)時(shí)重放揚(yáng)聲器以及重放空間環(huán)境的影響，可以說(shuō)是一個(gè)綜合性的HRTF，而不是僅僅基于個(gè)人影響的HRTF。該類設(shè)備目前已有成熟的量產(chǎn)商用產(chǎn)品，如圖5所示的Smyth Realizer A16等，它們多用于通過(guò)耳機(jī)虛擬某一制作空間的聽(tīng)覺(jué)感受，如好萊塢的某個(gè)杜比全景聲電影混錄棚等，以用于異地仿真混音等。

圖5：Smyth Realizer A16虛擬現(xiàn)實(shí)渲染器

　　（二）揚(yáng)聲器重放

　　利用揚(yáng)聲器重現(xiàn)沉浸聲時(shí)，聽(tīng)音者依靠雙耳收聽(tīng)聲音信息，本身就帶有了個(gè)人HRTF的影響，所以無(wú)需再考慮重構(gòu)人體特征了。此時(shí)，我們需要著重考慮聲源特征和空間特征的重構(gòu)。當(dāng)然，這種重構(gòu)也依據(jù)聲音信號(hào)的電聲化重現(xiàn)過(guò)程，主要分為兩種方法。第一，在拾音環(huán)節(jié)予以確定;第二，在制作環(huán)節(jié)予以確定?；诔ＷR(shí)，我們知道，無(wú)論是話筒拾取的聲音信號(hào)，亦或電子化方式合成的聲音信號(hào)，其已基本具備較為清晰的聲源特征了，所以空間特征(包括聲源方位和聲場(chǎng)環(huán)境特征等，則是上述聲音重構(gòu)過(guò)程的核心工作。

　　1.在拾音環(huán)節(jié)確定聲源的空間特征

　　我們知道，利用立體聲拾音制式、環(huán)繞聲拾音制式及相關(guān)調(diào)整，即可獲取聲源的水平位置信息或者水平+縱深位置信息，那么同理，利用沉浸式拾音制式(或稱之為三維聲拾音制式)，具體如Sennheiser Ambeo、Rode SoundField、LDK Cube等，則同樣可以獲取三維空間信息。之后，基于當(dāng)前的技術(shù)現(xiàn)狀，通過(guò)與重放揚(yáng)聲器通道的直接對(duì)應(yīng)或經(jīng)相關(guān)的轉(zhuǎn)換算法后，通常即可得到基于聲道的沉浸聲，并可通過(guò)同樣聲道的揚(yáng)聲器予以重放。當(dāng)然，制作人員也可以更進(jìn)一步，將所拾取到的聲音通道視為不同的聲源對(duì)象，并將其送入基于對(duì)象的相關(guān)沉浸聲處理器，依據(jù)制作場(chǎng)地監(jiān)聽(tīng)的聽(tīng)感進(jìn)行再制作，以獲取更符合創(chuàng)作者期望或者具備更好聽(tīng)覺(jué)效果的聲音。

　　2.在制作環(huán)節(jié)構(gòu)建聲源的空間特征

　　如果拾音時(shí)未采取沉浸式拾音制式，或者使用了電子合成類聲源，那么所得到的信號(hào)雖然具有一定的聲源特征，但其空間特征卻不明確，尤其是前述的通過(guò)近距離單點(diǎn)拾音拾取的信號(hào)，這一點(diǎn)與之前關(guān)于耳機(jī)重放的相關(guān)論述完全相同。因此，這部分信號(hào)的沉浸聲處理，需要以創(chuàng)作者的視角來(lái)進(jìn)行相關(guān)制作(無(wú)論是錄音制作還是擴(kuò)聲制作)，即給它們?nèi)藶榈?“加載”空間特征并適當(dāng)匹配調(diào)整聲源特征。具體的處理方法依據(jù)沉浸聲處理設(shè)備的不同而不同。不過(guò)，當(dāng)前的各種沉浸聲處理器幾乎全部都可以提供三維聲像電位器或三維空間視圖，用以調(diào)控聲源對(duì)象的空間位置或運(yùn)動(dòng)軌跡，同時(shí)，個(gè)別產(chǎn)品還可以同步伴隨聲源對(duì)象音色的變化及空間混響的變化，當(dāng)然，有的處理器則需要人為調(diào)整空間混響和音色。所有這些，都需要混音師在良好的沉浸式監(jiān)聽(tīng)條件下依據(jù)監(jiān)聽(tīng)效果來(lái)進(jìn)行。處理完畢的成品信號(hào)，如果以聲道方式輸出，則需要之后的重放場(chǎng)地按制作時(shí)的監(jiān)聽(tīng)條件配置同樣數(shù)量、同樣布局的揚(yáng)聲器;而如果以聲源對(duì)象元數(shù)據(jù)(包括空間位置、聲源大小等)的方式輸出，則可以兼容更多的重放揚(yáng)聲器布局方式，這種信號(hào)格式在最終重放時(shí)，會(huì)首先在現(xiàn)場(chǎng)用的沉浸聲處理器中建立重放場(chǎng)地的揚(yáng)聲器布局模型，確定所要用到的揚(yáng)聲器數(shù)量和位置，之后再以此為基礎(chǔ)，結(jié)合聲源對(duì)象的元數(shù)據(jù)進(jìn)行渲染計(jì)算，從而得到現(xiàn)場(chǎng)每一個(gè)揚(yáng)聲器具體需要重放的信號(hào)內(nèi)容。

　　3.揚(yáng)聲器重放沉浸聲的算法理論基礎(chǔ)

　　利用揚(yáng)聲器重放沉浸聲，在實(shí)際執(zhí)行時(shí)，依然需要向三個(gè)空間維度的相關(guān)揚(yáng)聲器各自饋送不同的聲音信號(hào)，使之在整個(gè)聽(tīng)音空間內(nèi)合成為聲源對(duì)象的位置和相關(guān)的聲場(chǎng)環(huán)境。因此，無(wú)論何種沉浸聲處理器，其本質(zhì)就是利用渲染算法，將某一個(gè)聲源對(duì)象的元數(shù)據(jù)，運(yùn)算拆解成為不同的揚(yáng)聲器通道信息并饋送給相關(guān)揚(yáng)聲器。

　　在當(dāng)前的技術(shù)發(fā)展下，利用揚(yáng)聲器重放沉浸聲的基本技術(shù)原理主要分為兩類，即基于感知的虛擬聲音場(chǎng)景重建技術(shù)和聲場(chǎng)物理重建技術(shù)，它們共同構(gòu)成了揚(yáng)聲器重放沉浸聲算法的理論基礎(chǔ)。其中，基于感知的虛擬聲音場(chǎng)景重建技術(shù)主要包括基于矢量的幅度聲像控制技術(shù)(Vector-based amplitude panning，VBAP)和基于距離的幅度聲像控制技術(shù)(Distance-based amplitude panning，DBAP)，該類技術(shù)主要考慮人耳的感知特性，所以實(shí)現(xiàn)起來(lái)相對(duì)簡(jiǎn)單。而聲場(chǎng)物理重建技術(shù)的重要代表則主要基于高階球諧分解和重構(gòu)的聲重建理論(High Order Ambisonic,HOA)和波場(chǎng)合成理論(Wave field synthesis,WFS)，基于這兩種理論的聲場(chǎng)重建技術(shù)主要追求對(duì)原始聲場(chǎng)的精確還原，因此無(wú)論是對(duì)重放設(shè)備還是重放環(huán)境都有較高的要求。

　　基于矢量的幅度平移技術(shù)最早由芬蘭赫爾辛基理工大學(xué)的Viile Pulkki于1997年提出，它的原理是利用2～3個(gè)揚(yáng)聲器方向的單位向量線性組合出虛擬聲源方向的單位向量，即為不同揚(yáng)聲器分配不同幅度的信號(hào)，利用各揚(yáng)聲器到達(dá)人耳的聲級(jí)差來(lái)控制人耳對(duì)聲源(聲像)位置的感知。利用VBAP技術(shù)能較為準(zhǔn)確地恢復(fù)500～600Hz以下的聲音的方向，但前提是各揚(yáng)聲器要布置在同一球面，因此基于VBAP的揚(yáng)聲器重放只能在一定范圍內(nèi)恢復(fù)聲源的方位。

　　基于距離的幅度平移技術(shù)由Lossius和Pascal Baltazar、Kostadinov和Reiss這兩對(duì)科學(xué)家提出，與VBAP不同的是該技術(shù)支持在非球面環(huán)境布置揚(yáng)聲器陣列。雖然DBAP的精確度沒(méi)有VBAP高，但是DBAP應(yīng)用起來(lái)更靈活，應(yīng)用過(guò)程中不再受揚(yáng)聲器和聽(tīng)音者布局的限制。

　　聲場(chǎng)物理重建技術(shù)來(lái)源于1934年Steinberg和William Snow提出的“聲音幕簾(Acoustic Curtain)”概念。它指出我們可以用大量的傳聲器在一個(gè)面上組成一個(gè)緊密的傳聲器網(wǎng)格陣列，并用此陣列采集原始聲源的方位信息和聲場(chǎng)形狀，再依據(jù)惠更斯原理，利用同樣結(jié)構(gòu)的揚(yáng)聲器網(wǎng)格陣列重放對(duì)應(yīng)位置傳聲器所拾取的信號(hào)，即可還原出聲源的方位和聲場(chǎng)輻射信息。據(jù)此，1988年，Gus Berkhout受地震研究及原油開(kāi)采勘探的啟發(fā)提出了波場(chǎng)合成理論。在理想狀態(tài)下，利用該理論可以完全還原出原始聲場(chǎng)，聽(tīng)音者可在由二次聲源合成的聲場(chǎng)區(qū)域中任意走動(dòng)，且聲像不會(huì)隨聽(tīng)音者的位置的變化而變化。

　　此外，另外一種聲場(chǎng)物理重建技術(shù)則為基于高階球諧函數(shù)分解和重構(gòu)理論的聲場(chǎng)重建技術(shù)，有關(guān)該技術(shù)的研究最早從二十世紀(jì)70年代開(kāi)始，它利用球諧函數(shù)作為編碼和解碼的基矢量，通過(guò)逐級(jí)增加重放階數(shù)來(lái)逼近原始聲場(chǎng)信息。階數(shù)越高，用于表現(xiàn)聲源對(duì)象特征的基矢量越多，解析度也越細(xì)致，其共同作用后的呈現(xiàn)效果也越接近于實(shí)際。不過(guò)，此時(shí)也帶來(lái)了運(yùn)算量和揚(yáng)聲器數(shù)量幾何增加、揚(yáng)聲器布局困難等諸多難題。

　　關(guān)于上述技術(shù)原理的具體細(xì)節(jié)，目前已有很多文獻(xiàn)進(jìn)行了探討，本文將不再贅述。但筆者個(gè)人認(rèn)為，波場(chǎng)合成技術(shù)最具原理合理性，因而應(yīng)該能夠獲得更佳的聲音情景重構(gòu)聽(tīng)感效果。不過(guò)，利用波場(chǎng)合成技術(shù)的重放還有很多亟待解決的問(wèn)題，比如揚(yáng)聲器間距的控制與頻率混疊的問(wèn)題、重放所需揚(yáng)聲器數(shù)量過(guò)多、長(zhǎng)陣列的時(shí)域效應(yīng)等，同時(shí)，還要考慮緊密排列的揚(yáng)聲器陣列如何可以安裝實(shí)現(xiàn)以及其造價(jià)問(wèn)題。

　　理論上講，在采用其理想狀態(tài)揚(yáng)聲器重放時(shí)，上述技術(shù)原理都能夠在某一聽(tīng)音區(qū)域?qū)崿F(xiàn)聲源對(duì)象的較好重構(gòu)，但從實(shí)際應(yīng)用的角度來(lái)講，基于以上每種原理的的揚(yáng)聲器渲染算法都還存在一定的問(wèn)題，且各自的理想運(yùn)算也較為復(fù)雜，所以目前絕大多數(shù)沉浸聲處理器大都采用上述兩到四項(xiàng)技術(shù)綜合后的算法，并分別進(jìn)行了適當(dāng)?shù)暮?jiǎn)化，從而在重構(gòu)聲場(chǎng)的準(zhǔn)確性和可實(shí)現(xiàn)性中予以折中。

免責(zé)聲明：本文來(lái)源于中國(guó)傳媒大學(xué)，本文僅代表作者個(gè)人觀點(diǎn)，本站不作任何保證和承諾，若有任何疑問(wèn)，請(qǐng)與本文作者聯(lián)系或有侵權(quán)行為聯(lián)系本站刪除。

海南茄撑信息科技有限公司

我的位置：

沉浸聲專題討論一：《沉浸聲—聲音情景的重構(gòu)與創(chuàng)造（上）》

評(píng)論comment

AOPEN DEV2715 專為AI智慧應(yīng)用而生

創(chuàng)意商顯墻&觸感沉浸自然空間，索尼商顯新方案——索尼商顯及商用投影機(jī)亮相2024中國(guó)國(guó)際進(jìn)口博覽會(huì)

新品將至全新D5000Z系列蓄勢(shì)待發(fā)！

QSC被 Acuity Brands 收購(gòu)

我的位置：

share

相關(guān)閱讀related

評(píng)論comment