定向拾音概念、實(shí)現(xiàn)原理和應(yīng)用

2022-04-27 來(lái)源:原創(chuàng) 瀏覽量:8096

分享到：

定向拾音概念、實(shí)現(xiàn)原理和應(yīng)用

1.基本概念
愛人的氣息是從不失職的溫柔路標(biāo)，我們總能夠在一群人中一眼看到自己的愛人；同樣，愛人的聲音也總是那么獨(dú)特，在鼎沸的人聲中那么清晰。聽到TA的聲音后，其他一切聲音都已經(jīng)被屏蔽了，一聲入耳，再無(wú)其他。
這就是人所謂的定向拾音的能力，當(dāng)然這個(gè)比方不那么恰當(dāng)。實(shí)際上這是經(jīng)常聽說(shuō)的“雞尾酒會(huì)效應(yīng)”，指的是人能夠在復(fù)雜的升學(xué)環(huán)境中將注意力集中到某個(gè)人身上，并且忽略掉背景噪聲和其他人的聲音。這是人的聽覺(jué)選擇能力，涉及到雙耳結(jié)構(gòu)以及復(fù)雜的大腦處理機(jī)制。
2.實(shí)現(xiàn)原理和方式
目前，利用麥克風(fēng)模擬這種定向拾音能力，已經(jīng)有了一定的成果。從實(shí)現(xiàn)方式上來(lái)看，可以分為單通道麥克風(fēng)和多通道麥克風(fēng)（麥克風(fēng)陣列）兩種方式。
2.1 單通道麥克風(fēng)
利用單通道麥克風(fēng)實(shí)現(xiàn)定向拾音，指的是采用單指向性麥克風(fēng)拾取單一方向聲音。麥克風(fēng)的指向性指的是麥克風(fēng)從指定方向拾取聲音，包括心型、超心型、全向星和8字型等拾音模式。
2.1.1 心型模式
拾音模式一個(gè)心型的圖案，通常被用在工作室錄制人聲中，是歌手較喜歡的麥克風(fēng)。適用于不想拾取觀眾的聲音或者從監(jiān)控器中傳出的聲音。在工作室中，使用心型麥克風(fēng)可以有效的降低環(huán)繞聲和麥克風(fēng)反射回來(lái)的聲音。拾音模式如圖1所示。理論上說(shuō)，這種心型模式的拾音前后比可達(dá)到20dB以上，實(shí)際測(cè)試結(jié)果顯示，常見的信心模式麥克風(fēng)能達(dá)到10dB已經(jīng)是很好的表現(xiàn)了。

圖1 心型拾音模式

2.1.2 超心型模式

這種指向性的麥克風(fēng)的拾音模式如圖2所示，在舞臺(tái)上它們能夠更好的收錄主唱的聲音，并且阻擋周圍樂(lè)隊(duì)的聲音，其缺點(diǎn)是也會(huì)收錄一些麥克風(fēng)后面的聲音。這就意味不應(yīng)該將你的監(jiān)聽音箱放在面前（一般情況下120或者240度的位置較好）。超心型話筒的指向性比心型更窄，特別適合近距離拾音。

圖2 超心型模式

2.1.3 全向型模式
這就是常見的無(wú)指向性麥克風(fēng)，對(duì)所有角度都有相同的靈敏度，這意味著它可以從所有方向均衡地拾取聲音。這種麥克風(fēng)完全沒(méi)有指向性，不能用于定向拾音的場(chǎng)合。

圖3 全向型模式

2.1.4 8字型模式
顧名思義，8字型麥克風(fēng)的拾音形狀類似數(shù)字8，也叫雙心型麥克風(fēng)或也被叫做是雙指向形，它們通常被用在工作室而不是現(xiàn)場(chǎng)，而且大部分此類麥克風(fēng)都是鋁帶式麥克風(fēng)。它們從前方和后發(fā)拾取聲音，而不是從兩側(cè)。這種是在正面和背面較靈敏左右測(cè)不夠靈敏，因?yàn)檫@種指向類型的話筒對(duì)來(lái)自話筒正前方和正后方的音頻信號(hào)具有同樣高的靈敏度，但是對(duì)來(lái)自話筒側(cè)面的信號(hào)不太敏感。

圖4 8字型拾音模式

采用單通道麥克風(fēng)實(shí)現(xiàn)定向拾音，可以實(shí)現(xiàn)一定程度上的定向效果，但對(duì)其他方向上的干擾抑制能力是遠(yuǎn)遠(yuǎn)不夠的。我們只想聽到TA的聲音，但這種單指向性的麥克風(fēng)做不到這一點(diǎn)，第三者、第四者乃至更多的聲音都會(huì)不可避免地泄漏進(jìn)來(lái)。因此，需要采用更好的設(shè)計(jì)方案，即多通道麥克風(fēng)（麥克風(fēng)陣列）方案，實(shí)現(xiàn)更好的定向拾音效果。

2.2 麥克風(fēng)陣列方案
麥克風(fēng)陣列是由按照特定的拓?fù)浣Y(jié)構(gòu)分布在空間的多個(gè)麥克風(fēng)組合而成。與單個(gè)麥克風(fēng)相同，麥克風(fēng)陣列為一個(gè)整體，仍然可以看作一個(gè)復(fù)雜的傳感器，作為聲音與拾音系統(tǒng)的接口模塊；但不同的是，麥克風(fēng)陣列不但可以獲得聲音信號(hào)的時(shí)域信息還可以獲得空域信息。麥克風(fēng)陣列信號(hào)處理的主要目標(biāo)是盡可能地利用空時(shí)信息來(lái)提高接收端信號(hào)的質(zhì)量。
在使用麥克風(fēng)陣列對(duì)語(yǔ)音信號(hào)進(jìn)行處理的發(fā)展歷程中，產(chǎn)生了許多陣列結(jié)構(gòu)，包括結(jié)構(gòu)相對(duì)簡(jiǎn)單的直線陣列、平面陣列以及復(fù)雜的三維球陣列。圖5給出了N個(gè)麥克風(fēng)等間距直線陣列的模型，θ為聲源的方位角。

圖5 直線陣列模型

在定向拾音中，直線陣列是較常見的結(jié)構(gòu)。對(duì)應(yīng)兩種拾音模式：端射和寬邊模式。簡(jiǎn)單地說(shuō)，端射模式的拾取方向是陣列軸線方向，而寬邊模式拾取的方式是與陣列軸線垂直的方向。
2.2.1 端射模式
較常見的端射模式實(shí)現(xiàn)方式為微分麥克風(fēng)陣列，有時(shí)候也稱為差分麥克風(fēng)陣列。差分陣列表現(xiàn)的是空間聲壓的差異性，聲壓的一階差分可以由兩個(gè)相近放置的全向麥克風(fēng)輸出相減得到，同理，N個(gè)麥克風(fēng)可以獲得聲壓的N-1階差分。
下面以圖6所示的兩麥克風(fēng)組成的差分陣列為例，介紹差分陣列的定向拾音模式的設(shè)計(jì)思路。兩麥克風(fēng)組成的差分陣列，對(duì)應(yīng)的是階次為1，有兩個(gè)設(shè)計(jì)約束條件：
1.在目標(biāo)方向無(wú)失真（θ=0°時(shí)，拾音增益為1）；
2.在0°＜θ≤180°的范圍內(nèi)存在一個(gè)零陷。

圖6 一階差分陣列

令表示麥克風(fēng)陣列的導(dǎo)向矢量，以圖6所示的陣列為例，導(dǎo)向矢量為

其中，ω表示角頻率（rad/s），δ表示麥克風(fēng)之間的間距（m），c表示聲速（一般為343m/s），τ0（s）表示聲音在兩個(gè)麥克風(fēng)之間的傳播時(shí)間差。

設(shè)計(jì)目標(biāo)就是為兩個(gè)麥克風(fēng)選擇合適的權(quán)重，滿足上面的兩個(gè)約束條件，即

θ1表示零陷所在的角度，決定了拾音模式。θ1=90°時(shí)，對(duì)應(yīng)8字型模式；θ1=180°時(shí)，對(duì)應(yīng)心型模式；θ1在（90°,180°）范圍時(shí)，對(duì)應(yīng)超心型模式。

以心型模式為例，可求解得到權(quán)重h(ω)：

對(duì)取泰勒近似，可將上式近似改寫為

觀察上述公式可以看出，實(shí)際上是將麥克風(fēng)2的信號(hào)滯后

并與麥克風(fēng)1的信號(hào)相減之后，再進(jìn)行一個(gè)低通濾波的結(jié)果。顯然，差分麥克風(fēng)陣列體現(xiàn)的是一種“延遲相減”的思路，將不希望拾取的信號(hào)通過(guò)相減的方式抵消掉。
這種方式能夠很好的抑制零陷角度上的聲音，但存在白噪聲增益過(guò)小等方面的問(wèn)題。
2.2.2 寬邊模式
與端射模式不同，寬邊模式采用是“延遲相加”的思路，通過(guò)延遲對(duì)齊將拾音方向上的聲音相加增強(qiáng)，抑制其他方向上的聲音。波束形成是一種常見的實(shí)現(xiàn)思路，具體包括延遲求和法（Delay and Sum Beamforming,DSB）、廣義旁瓣抵消法（Generalized Side-lobe Canceler，GSC）等。DSB算法需要較多的麥克風(fēng)才能夠有比較明顯的效果，在麥克風(fēng)數(shù)量較少的情況，通常使用GSC方法。下面仍然以圖6所示的兩麥克風(fēng)組成的陣列為例，討論GSC方法。

GSC方法由兩條支路組成，如圖7所示，上面的支路固定波束形成器（Fixed Beamformer，F(xiàn)BF）支路，一般由DSB算法實(shí)現(xiàn)，用以增強(qiáng)目標(biāo)方向信號(hào)，抑制其他方向的干擾；下面一條支路由阻塞矩陣（Blocking Matrix，BM）和自適應(yīng)干擾抵消器（Adaptive Interference Canceler，AIC）兩部分組成，阻塞矩陣用以獲得目標(biāo)信號(hào)零陷位置的參考噪音信號(hào)，該信號(hào)與DSB輸出中的噪音信號(hào)相關(guān)，自適應(yīng)干擾抵消器利用該參考噪音信號(hào)估計(jì)DSB輸出中的噪音信號(hào)，并從DSB輸出信號(hào)中減去該估計(jì)信號(hào)，得到波束形成輸出信號(hào)。

圖7 GSC算法結(jié)構(gòu)

在二元麥克風(fēng)小陣列中，由于兩個(gè)陣元間距較小，它們的脈沖響應(yīng)函數(shù)可以近似的認(rèn)為是相等的或者其差別可以忽略不計(jì)。由圖6可知，第二個(gè)麥克風(fēng)相對(duì)于第一個(gè)麥克風(fēng)的目標(biāo)信號(hào)相位差為，DSB方法就是對(duì)兩路麥克風(fēng)信號(hào)進(jìn)行時(shí)間上的對(duì)齊（即頻域的相位補(bǔ)償），對(duì)應(yīng)DSB輸出為：

其中，Y1和Y2分別表示兩路信號(hào)頻域轉(zhuǎn)換后的結(jié)果。

阻塞矩陣BM按照如下方式定義：

由此可見，理論上說(shuō)，F(xiàn)BF支路的輸出是指定方向上的信號(hào)；而BM支路輸出的是抵消了指定方向信號(hào)之后的純?cè)肼曅盘?hào)。從指定方向上的信號(hào)減去噪聲信號(hào)，就是加強(qiáng)了的指定方向上的信號(hào)，從而實(shí)現(xiàn)定向拾音。
GSC方法定向拾音能力取決于麥克風(fēng)數(shù)量，對(duì)于二元麥克風(fēng)陣列，單純依賴GSC方法無(wú)法獲取良好的定向拾音效果。我們?cè)O(shè)計(jì)了新的方法，結(jié)合了GSC方法和后濾波方法，可以實(shí)現(xiàn)良好的定向拾音效果，實(shí)現(xiàn)類似于8字型的拾音模式，但拾音角度更窄，音質(zhì)比差分陣列更好。
（1）計(jì)算拾音角度范圍內(nèi)的語(yǔ)音存在先驗(yàn)概率
對(duì)兩路信號(hào)進(jìn)行離散傅里葉變換（DFT），得到頻域后的信號(hào)為Y1(k)和Y2(k),k=1,2,...,L，其中，k表示頻點(diǎn)序號(hào)，L表示DFT長(zhǎng)度。

計(jì)算語(yǔ)音存在先驗(yàn)概率：

其中，表示頻點(diǎn)k所對(duì)應(yīng)的相位差，即

符號(hào)

表示取相位。需要注意的，相位差

需要解卷繞到(-π,π]的區(qū)間中。

表示相位差閾值，fs表示采樣頻率（Hz）。

考慮到相鄰頻點(diǎn)之間存在高度的相關(guān)性，因此，可以對(duì)相鄰頻點(diǎn)的語(yǔ)音存在概率進(jìn)行平滑，提高頻率計(jì)算結(jié)果的準(zhǔn)確性和相鄰幀之間結(jié)果的連續(xù)性。平滑后的各頻點(diǎn)語(yǔ)音存在先驗(yàn)概率如下所示：

其中，w(i)，i=0,1,...,I-1表示Gammatone濾波器系數(shù)，I為Gammatone通道的數(shù)量，典型值為I=20或40等，根據(jù)具體需求而定。按照下式進(jìn)行計(jì)算：

其中，

表示兩路通道的信號(hào)均值。Hi(k),i=0,1,...,I-1表示Gammatone濾波器曲線的采樣值。
（2）計(jì)算噪聲功率譜
以

作為單通道語(yǔ)音信號(hào)，按照常見的噪聲譜估計(jì)方法，如最小值追蹤方法等，計(jì)算

對(duì)應(yīng)的噪聲功率譜，用λ(k)表示。
（3）計(jì)算拾音角度范圍內(nèi)語(yǔ)音存在概率

計(jì)算后驗(yàn)信噪比：

求語(yǔ)音存在的先驗(yàn)概率的均值，以此作為判斷單幀信號(hào)是否存在語(yǔ)音的一個(gè)標(biāo)識(shí)：

其中，kmax和kmin分別表示最大頻點(diǎn)和最小頻點(diǎn)對(duì)應(yīng)的序號(hào)?？紤]到語(yǔ)音信號(hào)在低頻范圍內(nèi)方向性不夠明顯，kmin的取值應(yīng)該保證對(duì)應(yīng)的頻率在1kHz左右；kmax的取值與兩個(gè)麥克風(fēng)的間距d有關(guān)，通常需要保證對(duì)應(yīng)的頻率最高不超過(guò)4kHz。

求語(yǔ)音不存在后驗(yàn)概率q(k)：

其中，

表示先驗(yàn)概率均值的閾值，與拾音范圍角度的大小有關(guān)系，當(dāng)確定了拾音范圍角度之后，方可確定這個(gè)閾值。

表示后驗(yàn)信噪比的最大值，取4~5之間的值，可取得較好的調(diào)試結(jié)果。
計(jì)算先驗(yàn)信噪比：
計(jì)算語(yǔ)音存在的后驗(yàn)概率：
其中，
計(jì)算增益系數(shù)：
其中，
表示增益的最小值，取值越小，對(duì)噪聲和非拾音范圍內(nèi)的語(yǔ)音壓制就越強(qiáng)，但拾音范圍內(nèi)的語(yǔ)音失真度會(huì)越大。因此，應(yīng)該兼顧這兩個(gè)因素進(jìn)行取值，通常至少取值為0.1，以避免處理后的語(yǔ)音信號(hào)過(guò)度失真。

計(jì)算處理后的語(yǔ)音：

進(jìn)行傅里葉反變換，可得處理后的時(shí)域信號(hào)z(n)，即定向拾音的結(jié)果：

3.應(yīng)用
定向拾音技術(shù)的應(yīng)用比較廣泛，較常見的應(yīng)用場(chǎng)合是本地?cái)U(kuò)聲。在本地?cái)U(kuò)聲中，由于定向拾音技術(shù)可以壓制某個(gè)方向上的聲音，因此可以將播音設(shè)備放置在這個(gè)方向，能夠很大程度上抑制可能發(fā)生的嘯叫，從而解決困擾本地?cái)U(kuò)聲的較大問(wèn)題之一，在教室、會(huì)場(chǎng)等擴(kuò)聲場(chǎng)景中都有很大的應(yīng)用潛力。此外，該技術(shù)在存在角色分離錄音要求的場(chǎng)合也都有潛在的應(yīng)用空間。

核心技術(shù)

定向拾音概念、實(shí)現(xiàn)原理和應(yīng)用

定向拾音概念、實(shí)現(xiàn)原理和應(yīng)用

去混響技術(shù)總結(jié)

暫無(wú)數(shù)據(jù)

400-823-2588

電話咨詢

微信公眾號(hào)

在線咨詢

返回頂部

核心技術(shù)

定向拾音概念、實(shí)現(xiàn)原理和應(yīng)用

定向拾音概念、實(shí)現(xiàn)原理和應(yīng)用

去混響技術(shù)總結(jié)

暫無(wú)數(shù)據(jù)

400-823-2588

電話咨詢

微信公眾號(hào)

在線咨詢

返回頂部

定向拾音概念、實(shí)現(xiàn)原理和應(yīng)用