用于音頻編碼中的DTX拖尾的方法和裝置與流程

文檔序號:18171785發布日期:2019-07-13 09:52
用于音頻編碼中的DTX拖尾的方法和裝置與流程

本申請是申請日為2013年12月12日、申請號為201380073608.0、發明名稱為“用于音頻編碼中的DTX拖尾的方法和裝置”的發明專利申請的分案申請。

技術領域

本文所述的解決方案大體上涉及音頻編碼,具體地,涉及與音頻編碼中的不連續傳輸(DTX)相關聯的拖尾幀。



背景技術:

諸如3GPP AMR(3GPP TS 26.071)和AMR-WB(3GPP TS 26.171)等的當前音頻或話音編碼標準以及各種ITU-T話音編碼標準(例如,ITU-T推薦G.729、ITU-T推薦G.718)包括不連續傳輸方案(DTX),該不連續傳輸方案(DTX)在話音非活動期間暫停話音傳輸,并且取而代之地以與用于編碼的活動話音的比特率和幀傳輸率相比明顯降低的比特率和幀傳輸率來發送靜音插入描述符(SID)幀。DTX的目的是提高傳輸效率,這進而減少了話音通信的成本和/或增加了給定通信系統中同時可能的電話連接的數量。

當前最先進的利用DTX的通信系統在活動話音段期間發送常規話音編碼幀。在諸如話音暫停等的非活動段期間,這些系統更確切地發送SID幀,接收機根據SID幀生成所謂的舒適噪聲作為非活動信號的替代信號。為了實現最佳可能的DTX效率,可能期望僅在活動話音期間而非在非活動段期間(例如,在話音暫停期間)發送話音編碼幀。

為了對話音和非活動進行區分,在編碼側或發送側使用語音活動檢測器(VAD)。在與活動話音段相對應的幀期間,提升(raise)了VAD標記。該構思實際上并且特別是在話音存在于背景噪聲中的情形中,遭受VAD分類錯誤。也即是說,非活動時段被分類為活動話音時段,反之亦然。VAD的主要問題之一是話音結束點的檢測,即,信號從活動話音改變為非活動的精確時間點。該問題的主要原因在于,在話音實際停止之前,很多話音偏移緩慢地衰減,使得聊天進發(talk spurt)結束可能非常好地被背景噪聲覆蓋。該問題的結果可能是這種話音偏移被分類為非活動,這可能導致未將相應的信號幀作為活動話音而是作為靜音信號來編碼、發送和重構,其中,針對該靜音信號生成舒適噪聲。這意味著話音偏移(話音時段的結束)可能被感知為截斷的,這導致重構的話音的質量甚至可理解性顯著下降。換言之,這可能導致較差的用戶體驗。

諸如AMR和AMR-WB等的當前最先進的編解碼器通過將利用舒適噪聲合成的DTX操作的開始延遲到VAD檢測偏移之后多個幀來解決該問題。這是使用編碼器處的DTX控制邏輯來完成的,DTX控制邏輯延長或添加將輸入信號作為活動話音編碼(即使VAD標記指示非活動也是如此)的時間段。該時段被稱作拖尾時段,并且在AMR和AMR-WB的情況下,拖尾時段的長度為7個幀。

拖尾時段不僅用作用于避免話音后段(或偏移)截斷的方式,而且還用作用于SID幀參數分析的方式。在AMR和AMR-WB的情況下,未發送(充分長的)聊天進發之后的第一SID幀參數,而是由解碼器根據在拖尾時段期間接收和存儲的話音幀參數來計算該第一SID幀參數(3GPP TS 26.092;3GPP TS 26.192)?;谠谕衔矔r段期間接收的話音幀參數進行SID幀參數的計算的目的是節省傳輸資源(如果不這樣的話,傳輸資源將花費在SID幀傳輸上)并且最小化潛在的傳輸錯誤對第一SID幀參數的影響。

在所述的最先進解決方案中描述的拖尾時段的主要問題是它折衷了DTX方案的效率。將拖尾幀作為活動話音進行編碼,而不論它們是否可能是非活動幀。如果話音在非活動時段之間包括頻繁的單獨聊天進發,則以高比特率將相當大量的幀作為話音幀而不是舒適噪聲幀進行編碼。

如果縮短拖尾時段以提高DTX方案的效率,則可能出現相關問題。拖尾時段越短,它未正確地表示非活動噪聲信號的可能性越大。這進而可能導致在聊天進發結束之后立即進行的舒適噪聲合成的可聽下降。

在AMR和AMR WB中,編碼器和解碼器使用狀態機來跟蹤DTX拖尾幀,其中,狀態機需要在編碼器和解碼器中是同步的。



技術實現要素:

將期望在音頻解碼器側生成代表音頻編碼器側的背景噪聲的舒適噪聲。此外,期望僅使用最少的資源以高效的方式進行該操作。因此,本文所提出的解決方案的目的是使得能夠生成代表編碼器側的背景噪聲的舒適噪聲并且使用有限數量的資源來進行該操作。

本文所提出的解決方案提高了利用DTX進行話音傳輸的效率,而不會折衷聊天進發結束時的舒適噪聲合成的質量。

根據第一方面,提供了一種由發送節點或編碼節點執行的方法。所述發送節點能夠操作以對諸如話音等的音頻進行編碼并且與例如通信網絡中的其他節點或實體進行通信。所述發送節點還能夠操作以在話音非活動期間應用DTX方案,所述DTX方案包括發送SID幀。所述方法包括:從多個(N個)拖尾幀中確定代表背景噪聲的幀集合Y。所述方法還包括:向接收節點發送所述N個拖尾幀,所述N個拖尾幀包括所述幀集合Y。所述方法還包括:與發送所述N個拖尾幀相關聯地向所述接收節點發送第一SID幀,其中所述SID幀包括向所述接收節點指示所確定的拖尾幀集合Y的信息。上述方法還包括:使所述接收節點能夠基于所述拖尾幀集合Y來生成舒適噪聲。

根據第二方面,提供了一種由接收節點或解碼節點執行的方法。所述解碼節點能夠操作以對諸如話音等的音頻進行解碼并且與例如通信網絡中的其他節點或實體進行通信。所述解碼節點還能夠操作以在話音非活動期間應用DTX方案,所述DTX方案包括接收SID幀并且生成舒適噪聲。所述方法包括:從發送節點接收N個拖尾幀。此外,與所述N個拖尾幀相關聯地接收第一SID幀?;谒邮盏腟ID幀中的信息從所接收的多個(N個)拖尾幀中確定拖尾幀集合Y。此外,基于所述拖尾幀集合Y來生成舒適噪聲。

根據第三方面,提供了一種發送或編碼節點。所述發送節點能夠操作以對諸如話音等的音頻進行編碼并且能夠操作以與例如通信網絡中的其他節點或實體進行通信。所述發送節點還能夠操作以在話音非活動期間應用DTX方案,所述DTX方案包括發送SID幀。所述發送節點包括處理裝置(例如,采取處理器和存儲器的形式),所述存儲器包含能夠由所述處理器執行的指令。所述處理裝置能夠操作以從多個(N個)拖尾幀中確定代表背景噪聲的幀集合Y。所述處理裝置還能夠操作以向接收節點發送所述N個拖尾幀,所述N個拖尾幀包括所述幀集合Y;以及還與發送所述N個拖尾幀相關聯地向所述接收節點發送第一SID幀,其中所述SID幀包括向所述接收節點指示所確定的拖尾幀集合Y的信息。

根據第四方面,提供了一種接收節點或解碼節點。所述接收節點能夠操作以對諸如話音等的音頻進行解碼并且能夠操作以與其他節點或實體進行通信。所述接收節點還能夠操作以在話音非活動期間應用DTX方案,所述DTX方案包括接收SID幀。所述接收節點包括處理裝置(例如,采取處理器和存儲器的形式),所述存儲器包含能夠由所述處理器執行的指令。所述處理裝置能夠操作以:從發送節點接收N個拖尾幀;以及還與所述N個拖尾幀相關聯地接收第一SID幀。所述處理裝置還能夠操作以:基于所接收的SID幀中的信息從所述多個(N個)拖尾幀中確定拖尾幀集合Y;以及基于所述拖尾幀集合Y來生成舒適噪聲。

根據第五方面,提供了一種計算機程序,包括計算機程序代碼,當所述計算機程序代碼在發送節點中運行時,所述計算機程序代碼使所述發送節點執行根據第一方面所述的方法。

根據第六方面,提供了一種計算機程序,包括計算機程序代碼,當所述計算機程序代碼在接收節點中運行時,所述計算機程序代碼使所述接收節點執行根據第二方面所述的方法。

根據第七方面,提供了一種計算機程序產品,包括根據第五方面所述的計算機程序。

根據第八方面,提供了一種計算機程序產品,包括根據第六方面所述的計算機程序。

附圖說明

根據附圖中示出的實施例的以下更具體的描述,本文所公開的解決方案的前述和其他目的、特征和優點將顯而易見。附圖不必按比例繪制,而是重點說明本文公開的解決方案的原理。

圖1示出了編碼器的框圖。編碼器包括VAD和拖尾編碼器。

圖2是操作于DTX的解碼器的框圖。

圖3是VAD和拖尾確定邏輯的框圖。

圖4是拖尾編碼器的框圖。

圖5是拖尾編碼器的流程圖。

圖6a和圖6b是拖尾解碼器的流程圖。

圖7a和圖7b是示出了根據本文提出的解決方案由發送節點或編碼節點執行的方法的示例性實施例的流程圖。

圖8是示出了根據本文提出的解決方案由接收節點或解碼節點執行的方法的示例性實施例的流程圖。

圖9至圖10是示出了根據本文提出的解決方案的發送節點的示例性實施例的框圖。

圖11至圖12是示出了根據本文提出的解決方案的接收節點的示例性實施例的框圖。

具體實施方式

如前所述,在利用不連續傳輸(DTX)的通信系統中,當使用拖尾技術來避免由于不正確的語音活動檢測器(VAD)決策而引起的質量下降時,傳輸效率下降。

在諸如話音暫停等的所謂的非活動信號段,在解碼器側使用在靜音插入描述符(SID)幀中傳輸的信息來生成舒適噪聲。如果拖尾時段也用于SID參數分析,則其長度優選地并不是剛好與覆蓋不正確VAD決策所需的長度一樣長,而是略微更長以獲取背景信號特性。通常,適合的舒適噪聲生成的可能性將隨著拖尾時段的變長而增大。另一方面,較長的拖尾時段降低了利用DTX的通信系統的效率,這是因為非活動信號幀將作為話音信號幀以較高的比特率和幀傳輸率被發送。在利用這些技術的通信系統中,因此在傳輸效率與代表性舒適噪聲的可能性之間存在折衷。

話音偏移之后的拖尾時段可以是自適應的。對于編碼器,這意味著在從1(=活動話音)向0(=非活動)切換的VAD決策之后,添加自適應拖尾時段??梢栽谕衔矔r段之后將指明屬于拖尾時段的幀的信息與第一SID幀一起發送。在圖1中,示出了這種編碼器的示意性框圖。

解碼器可以例如與第一SID幀一起接收關于先前接收的活動話音幀中的哪一些屬于拖尾時段的指示。關于屬于拖尾時段的幀的經編碼的話音信息可以接下來用于解碼器側的SID參數計算。在圖2中,示出了解碼器的示意性框圖。

在下文中,為了解釋而非限制的目的,闡述了具體的細節,例如,特定的架構、接口、技術等,以提供對本文所述的構思的全面理解。然而,對于本領域技術人員而言顯而易見的是,可以在與這些具體細節發生偏離的其他實施例中實踐所述的構思。也即是說,本領域技術人員將能夠設想各種布置,雖然在本文中沒有具體描述或示出這些布置,但是這些布置具體實現了所述構思的原理并且包括在其精神和范圍內。在一些實例中,省略了公知設備、電路和方法的詳細描述,以免不必要的細節使根據本構思的描述模糊。本文記載了所述構思的原理、方面和實施例及其具體示例的所有陳述旨在涵蓋其結構和功能等同物。此外,這些等同物旨在包括當前已知的等同物和將來開發的等同物,例如,所開發的執行相同功能的任何要素(而不論結構如何)。

因此,例如,本領域技術人員將理解的是,本文的框圖可以表示示例性電路或者具體實現解決方案的原理的其他功能單元的構思圖示。類似地,將理解的是,任何流程圖、狀態轉換圖、偽代碼等表示可以實質上在計算機可讀介質中表示并且因此由計算機或處理器執行的各種過程,而不論是否顯式地示出了這種計算機或處理器。

可以通過使用硬件(例如,電路硬件和/或能夠執行存儲在計算機可讀介質上的編碼指令形式的軟件的硬件)來提供包括功能框的各種元件(包括但不限于標記或描述為例如“計算機”、“處理器”或“控制器”的元件)的功能。因此,這些功能和所示的功能框將被理解為是硬件實現的和/或計算機實現的,從而是機器實現的。

就硬件實現而言,功能框可以非限制性地包括或涵蓋數字信號處理器(DSP)硬件、精簡指令集處理器、硬件(例如,數字的或模擬的)電路(包括但不限于專用集成電路(ASIC))、以及能夠執行這些功能的狀態機(在適合的情況下)。

在本文所建議的解決方案的示例性實施例中,拖尾時段的長度(即,拖尾幀的數量)可以是可變的且自適應的。例如,可以響應于VAD決策和另一指示符來生成自適應拖尾時段。在圖3中,示出了VAD的示意性框圖。即時VAD決策可以是與VAD的即時話音/非活動分類相對應的標記。每當VAD將信號幀分類為活動話音時,可以提升該標記,否則,可以降低(lower)該標記??梢砸胪衔矘擞浺钥刂圃谝呀浗档图磿rVAD標記之后添加的拖尾時段的長度。優選地完成這一點,使得確保拖尾幀的信號主要包括背景噪聲的代表性部分并且潛在剩余的話音部分是可忽略的。這樣做的目的是允許解碼側的可靠SID參數估計,該估計代表非活動噪聲信號并且不受潛在剩余話音部分的影響。拖尾標記所基于的有用度量是估計的信噪比(SNR),其將估計的剩余話音電平與估計的非活動噪聲電平進行比較。例如,當該SNR估計高于特定閾值時,可以提升拖尾標記,并且當該SNR估計落入所述閾值之下時,可以結束拖尾時段。將注意的是,拖尾確定邏輯可以生成最終VAD標記,該最終VAD標記可以與其輸入端的即時VAD標記不同。

例如,可以響應于估計的SNR來調整拖尾時段的長度。這假定SNR在聊天進發結束時減小。該調整考慮了SNR減小的程度可以隨著聊天進發而改變。結果是拖尾時段的以幀為單位的長度是可變參數。根據示例性實施例,對該拖尾長度(即,拖尾指示符)進行編碼并且將其發送到解碼器。在圖4中呈現了拖尾編碼器的示意性框圖。除了VAD和拖尾標記之外,示例性拖尾編碼器還使用了第一SID標記。第一SID標記指示當前幀是否是活動信號編碼之后的第一SID。應當注意的是,標記不必顯式地信號通知具體變量,而是可以是隱式的,例如,可以根據其他編碼器狀態變量導出??梢栽诨顒釉捯魩瑐鬏斀Y束之后,將拖尾時段的編碼長度作為第一發送的SID幀中包含的信息的一部分來發送。圖5示出了用于拖尾指示符編碼器的一般性流程圖。

根據本文所建議的解決方案的示例性實施例,對在降低即時VAD標記之后的拖尾時段的長度進行調整,使得要被認為用于SID參數估計的幀集合是變量。也即是說,拖尾幀的數量可以是固定的或可變的,但是要被認為用于確定用于生成舒適噪聲的SID參數的幀集合不一定等于拖尾幀的數量。在該方法中,假設存在指示在降低即時VAD標記之后的拖尾時段中的每一個幀與SID參數估計的適合性的度量。例如,該度量高于特定閾值的幀可以被認為代表背景噪聲,并且因而適合于SID參數估計。該度量可以——同上——基于SNR估計。然后,根據本實施例,在活動話音幀傳輸結束之后的第一SID幀可以包含與要用于SID參數估計的具體幀集合有關的信息。

舉例說明,集合可以包括第一SID幀之前的n個幀。然后,可以使用最大N比特的碼字完成對要用于SID參數估計的幀的編碼,其中,每一個比特表示第一SID幀之前的相應幀。如果碼字中的比特被設置(為1),則由該比特表示的幀將用于SID參數估計,否則,由該比特表示的幀不用于SID參數估計。

在上面的實施例中使用的SNR度量僅是示例。此外,更高級的度量是可能的。通常,適合的度量必須是關于相應幀是否包含很好地代表非活動噪聲信號的噪聲的良好指示符。一種此類更高級的度量可以例如將當前幀的功率或頻譜特性與最近幀或已經被識別為包含噪聲的其他最近幀的相應屬性進行比較。

看起來有可能在編碼幀的正常比特流中包括用于信號通知編碼幀是否是拖尾幀的比特。然而,這被認為是不太有利的,其原因在于這將意味著每一個話音幀中的一個比特將必須被預留用于僅在話音突發結束之后使用的信息。

雖然上述各段討論了DTX特定拖尾,但是VAD已經添加了某一拖尾以避免話音偏移的截斷也是常見的。然后,將可以允許VAD特定拖尾和DTX拖尾重疊。例如,信號分析可以有助于在存在足以生成穩定的舒適噪聲的數量的幀的情況下提早進行拖尾終止,而不論最近的幀是來自VAD拖尾還是DTX拖尾。

在圖6a中,示意性流程圖示出了示例性的解碼器側拖尾指示符解碼器。在圖6a中的示例中,可以在每一個幀中指示它是否是拖尾幀,并且然后存儲拖尾幀??梢愿鶕獯a的拖尾指示符來確定存儲的拖尾幀中的哪一些應當用作舒適噪聲的基礎。備選地,直到在602a中對拖尾指示符進行解碼,才做出601a中關于幀是否是拖尾幀的決策。對于在解碼602a之后做出的決策,最近接收的幀集合(例如,長度為N_max(拖尾幀的最大數量)的幀)需要存儲在緩存中。在后一種情況下,可以基于解碼的拖尾指示符在緩存中當前存儲的幀集合中識別拖尾幀,并且因而可以存儲拖尾幀的至少一部分的參數。根據圖6b可以更清楚這一點,圖6b示出了存儲601b最近N_max個幀。當在602b中對拖尾指示符進行解碼時,拖尾幀存在于存儲的幀中,并且可以基于由拖尾指示符指示的拖尾幀來確定603b舒適噪聲參數。然后,可以基于參數來生成604b舒適噪聲。與在編碼器中一樣,第一SID標記可以指示當前幀是否是活動信號編碼之后的第一SID。第一SID標記不一定存儲在變量中,而是可以根據其他解碼器狀態變量導出。

典型的SID參數是增益參數和線性預測頻譜參數,例如,線譜頻率(LSF)參數。在示例性實施例中,解碼器可以根據五個先前幀得到這些參數,并且計算其平均值。接下來可以在DTX系統的舒適噪聲合成中使用這些經平均的參數。備選地,可以根據所指示的拖尾幀的特定集合來確定用于舒適噪聲合成的SID參數??梢栽诮獯a器側使用例如接收的拖尾長度參數和根據已經存儲在存儲器中的先前接收幀得到的參數來導出特定集合。

即使在本文中主要將根據拖尾幀集合導出的參數稱作SID參數,但是將也可以使用不同標記但是用于相同目的(即,作為用于生成舒適噪聲的基礎)的其他參數。

解碼器可以例如根據活動話音幀序列之后的第一SID幀中的拖尾指示符來獲得關于要用于SID參數計算的先前幀的特定集合的信息。然后,可以通過使用由接收的代碼所標識的幀的增益和頻譜參數來計算SID參數。假設n=8個比特的碼字用作拖尾指示符并且該碼字包含比特序列“01011111”,則使用五個緊鄰的先前幀和第七個先前幀。這些幀的增益和頻譜參數可以被平均,并且接下來在DTX系統的舒適噪聲合成中被使用。

在下面的段落中,將參照特定實施例和附圖更詳細地描述本文所公開的解決方案的不同方面。為了解釋而非限制的目的,闡述了具體細節(例如,特定場景和技術),以提供對不同實施例的全面理解。然而,其他實施例可以與這些具體細節偏離。

由發送/編碼節點執行的示例性方法,圖7a和圖7b

下面將參照圖7a描述由發送節點或編碼節點執行的示例性方法。發送節點可操作以對諸如話音等的音頻進行編碼,并且與例如通信網絡中的其他節點或實體進行通信。發送節點還可操作以在話音非活動期間應用DTX方案,該DTX方案包括發送SID幀。發送節點可以是例如蜂窩電話、平板電腦、計算機或能夠進行有線和/或無線通信以及音頻編碼的任何其他設備。

圖7a示出了包括以下步驟的方法:從多個(N個)拖尾幀中確定代表背景噪聲的幀集合Y。該方法還包括:向接收節點發送704aN個拖尾幀,該N個拖尾幀包括所述幀集合Y。該方法還包括:與發送N個拖尾幀相關聯地向接收節點發送705a第一SID幀,其中,SID幀包括向接收節點指示所確定的拖尾幀集合Y的信息。上述方法使接收節點能夠基于拖尾幀集合Y生成舒適噪聲。

圖7a和圖7b中的動作的順序僅是示例性的。例如,可以在已經發送了N個拖尾幀之后確定集合Y。

拖尾幀集合Y中包含的幀應當代表背景噪聲。因此,應當識別多個(N個)拖尾幀中最適合于確定或計算用于生成舒適噪聲的參數(例如,所謂的SID參數)的拖尾幀??梢岳缁诿恳粋€幀中包含的信號的SNR電平來確定或識別集合Y中的幀,并且當該SNR電平滿足特定準則時,將幀確定為適合于用作計算例如SID參數的基礎。N個拖尾幀中的一些拖尾幀可能不太能代表背景噪聲。例如,拖尾幀中的一些拖尾幀可能至少部分地包括話音或瞬時噪聲,這使得它們不適合用作用于導出與舒適噪聲生成有關的參數的基礎。例如,話音幀通常具有共振峰結構,這在背景噪聲中是看不見的;并且瞬時噪聲幀可以具有比平均背景噪聲更高的能量。不應當在集合Y中包括不代表背景噪聲的這種拖尾幀。

可以用不同的方式在第一SID幀中指示幀集合Y,下面將對此進行進一步描述?!暗谝籗ID幀”意味著DTX時段中的第一SID幀,其通常指示DTX時段的開始。DTX時段在這里意味著話音非活動時段,在該話音非活動時段期間,以比在非DTX時段期間更低的比特率和/或幀速率從發送節點向接收節點發送經編碼的幀。DTX時段在這里意味著活動話音突發之間的時段,該時段由舒適噪聲替換。這些時段從用于對向舒適噪聲的過渡進行標記的第一SID開始。然后,其通常后接具有多個“NO_DATA”幀(如其名字一樣暗指不包含任何數據)和SID(或SID_UPDATE)幀的時段。SID幀大多數情況下是每隔一定間隔(標記為“SID間隔”)發送的,直到下一個發聲觸發返回活動話音編碼的過渡為止。也即是說,在SID間隔為8的情況下,DTX時段將被編碼為:第一SID、后接7個NO_DATA幀、后接SID_UPDATE。具有7個NO_DATA幀后接SID更新的該序列然后被重復,直到向活動話音的過渡發生為止。

如上所述,上述方法的優點是它使接收節點能夠根據被確定為適合于該目的的幀導出針對舒適噪聲的參數。這提高了生成的舒適噪聲的質量,從而提高了用戶體驗。進一步通過利用用于該目的的第一SID幀以非常資源有效的方式向接收節點指示集合Y。有利的是在發送節點中確定適合的拖尾幀,這是因為在該節點中,實際的音頻信號數據是可訪問的,而在接收節點中,僅數據的量化版本是可利用的。

指示集合Y的信息可以包括暗指序列中的拖尾幀的數量的數;指示N個拖尾幀中屬于集合Y的幀的位置的碼字或位圖;指示N個拖尾幀中包含在集合Y中的一些拖尾幀的碼字或位圖、和/或指示N個拖尾幀中未包含在集合Y中的拖尾幀的碼字或位圖。

例如,SID幀可以包括諸如5等的數,接收節點應當將其解釋為例如最后五個拖尾幀應當用于確定用于生產舒適噪聲的參數。備選地,該數應當被解釋為N個拖尾幀中的另一個具有五個幀的組(例如,倒數第二個至倒數第六個)。拖尾幀的數量(N)可以是例如6、7、8或9。在特殊情況下,拖尾幀的數量(N)可以等于SID幀中指示的數量,即,然后應當基于所有拖尾幀來確定參數。

備選地或此外,SID幀可以包括指示屬于集合Y的幀的位置的碼字或位圖/位掩碼??梢砸圆煌姆绞絹砼渲眠@種碼字??梢允褂么a系統,其中,發射機節點和接收機節點均知道代碼的意義,例如,兩側都有權訪問規定例如碼字“01”映射到N個拖尾幀中在幀k、k-1、k-2、k-4和k-6處的拖尾幀的碼本。備選地,可以使用位圖/位掩碼。這種位圖可以覆蓋N個拖尾幀的所有N個位置或者N個位置的子集。應當已經在先前某個時刻向接收節點通知位圖/位掩碼的字符。例如,如果N=8,則諸如“11011000”等的示例性位圖/位掩碼可以包含在SID幀中,其指示第4個、第5個、第7個和第8個先前幀應當用于確定針對舒適噪聲的參數。備選地,位圖/位掩碼“11011”可以包含在第一SID幀中,其具有與先前示例一樣的意義。備選地,可以指示未包含在集合Y中的拖尾幀的位置。與先前示例類似,相應的位圖/位掩碼然后可以是“00100111”或“00100”或“100111”。

這些是可以包含在第一SID幀以指示應當使用拖尾幀中的哪一些拖尾幀的信息的所有不同的實現。通常,用于指示集合Y所需的比特越少越好。

上面所討論的在第一SID幀中發送舒適噪聲生成所基于的拖尾幀集合的標識的構思可以與將SID參數作為第一SID幀的一部分發送相結合。也即是說,第一SID幀還可以包括SID參數。這些SID參數將給出關于信號在當前幀中如何表現的指示。與來自早前的拖尾幀的信息相比,可以例如對該信息施加更大的權重。當然,在不考慮SID幀的信號參數的情況下可以區分地對拖尾幀進行加權,但是無論如何,先前幀中不去往DTX的指示應當指示我們不是非常確定該幀表示非活動/僅背景噪聲。

如前所述,拖尾幀的數量(N)可以是動態可變的??梢曰谳斎胍纛l信號的屬性來確定數量N。例如,數量N可以取決于停止DTX時段的話音聲音和/或背景噪聲的特性。通過使用動態數量的拖尾幀,需要向接收節點發送的拖尾幀的數量可以保持最小,因而與具有靜態數量的拖尾幀相比,可以節省資源。

在圖7b中示出了可以在圖7a中所示的方法之前的一些動作。在圖7b中,在動作701b中確定音頻流的幀(例如,音頻信號的一段,該信號至少部分地包括話音)是否包括活動話音。這通常被稱作語音活動檢測VAD。當確定一個或多個幀不包括活動話音時,將發送多個拖尾幀,例如以減小切斷話音聲音的可能性,如前所述。當應用動態數量的拖尾幀時,可以對被確定為不包括活動話音的前幾個幀中包含的信號進行分析,并且可以在動作702b中確定拖尾幀的適合數量。當確定拖尾幀的適合數量N時,還可以考慮被確定為包括活動話音的最后幾個幀的屬性,例如以確定SNR或相鄰幀之間的幀能量減小。

也即是說,可以在話音非活動的決策之前和/或之后基于幀中包括的信號的屬性來確定拖尾幀的數量N。此外或備選地,當確定N時,可以考慮被確定為僅包括背景噪聲的先前信號幀的屬性。

如前所述,確定拖尾幀的數量可以基于信號幀內和/或之間的SNR或能量的下降的特性。拖尾幀的數量N可以是靜態的、半靜態的或動態的,并且可以針對不同的話音偏移而不同。

例如,在動作704b,如前所述,可以根據包括活動話音的幀的編碼來對向接收節點發送的拖尾幀進行編碼。當拖尾幀的數量N是動態的時,也可以例如在第一SID幀中向接收節點指示數量N。

由解碼節點執行的示例性方法、圖8

下面將參照圖8描述由接收節點或解碼節點執行的示例性方法。解碼節點可操作以對諸如話音等的音頻進行解碼,并且與例如通信網絡中的其他節點或實體進行通信。解碼節點還可操作以在話音非活動期間應用DTX方案,該DTX方案包括接收SID幀并且生成舒適噪聲。解碼節點可以是例如蜂窩電話、平板電腦、計算機、或能夠進行有線和/或無線通信以及音頻解碼的任何其他設備。

圖8中所示的示例性方法包括:從發送節點接收801N個拖尾幀。此外,與N個拖尾幀相關聯地接收802第一SID幀?;谒邮盏腟ID幀中的信息來從多個(N個)拖尾幀中確定803拖尾幀集合Y。此外,至少部分地基于拖尾幀集合Y來生成805舒適噪聲。

可以在已經接收到N個拖尾幀中的最后一個拖尾幀之后接收SID幀,該SID幀指示DTX時段的開始。然而,也可以在拖尾幀之前或者在兩個拖尾幀之間接收SID幀(如果這被允許并且在DTX方案的傳輸協議中被規定的話)。

可以在第一SID幀中指示拖尾幀的數量N,然而,這是可選的。數量N可以備選地被設置為默認值,例如,7,這暗指DTX時段之前的最后7個接收幀(不計入SID幀)將是拖尾幀。此外,當應用動態數量的拖尾幀時,存在信號通知拖尾幀的數量N的其他方式。例如,可以通過音頻信號的屬性(例如,長期SNR度量)來隱式地信號通知數量??梢曰诮獯a的音頻信號來生成這種度量,并且因此可以在解碼器處利用該度量。

如前所述,SID幀包括指示N個拖尾幀中由發送節點選擇為代表背景噪聲的幀集合Y的信息。因此,接收節點可以基于第一SID幀來確定幀集合Y。也即是說,基于第一SID幀中包含的指示集合Y的信息。該信息可以是顯式的或隱式的,并且在上文中當描述由發送節點執行的方法時已經舉例說明。

接收節點要在靜默DTX時段期間(即,在未從發送節點接收到話音幀的時段期間)生成舒適噪聲。舒適噪聲優選地應當模仿發送節點處的背景噪聲。為了盡可能生成可靠的舒適噪聲,接收節點應當基于最能代表舒適噪聲的拖尾幀來估計背景噪聲。備選地或此外,接收節點可以從發送節點接收例如SID參數形式的背景噪聲的估計。以與活動信號幀相比明顯更低的比特率來對SID幀進行編碼。因此,與在SID中相比,在拖尾期間在編碼器側(從拖尾幀)更好地獲取背景噪聲。然而,在第一SID幀中包括SID參數可能是有利的,以便具有從拖尾幀到舒適噪聲生成的平滑過渡。

接收節點基于幀集合Y來估計或導出用于生成舒適噪聲的參數。該參數可以與發送節點側的背景噪聲相關聯。通過這樣做,基于所述參數生成的舒適噪聲將以良好的方式反映發射機節點側的背景噪聲,從而實現良好/期望的用戶體驗。在發射機側選擇集合Y是有利的,這是因為在該側,可以訪問整個音頻信息而不是可以在接收機節點側利用的減少的量化版本。

如前所述,指示集合Y的信息可以包括以下各項中的一項或多項:暗指序列中的拖尾幀的數量的數;指示N個拖尾幀中屬于集合Y的幀的位置的碼字或位圖;指示N個拖尾幀中至少包含在集合Y中的拖尾幀的碼字或位圖、和/或指示N個拖尾幀中未包含在集合Y中的拖尾幀的碼字或位圖。

此外,第一SID幀還可以包括SID參數。如前所述,拖尾幀的數量N可以基于輸入音頻信號的屬性而動態地改變。

示例性發送節點、圖9

本文所述的實施例還涉及發送節點或編碼節點。發送節點與和上文所述并且例如在圖7a和圖7b中所示的方法相同的技術特征、目的和優點相關聯。將簡要描述發送節點以避免不必要的重復。發送節點可以例如是設備或UE,例如,智能電話、平板電腦、計算機、或能夠進行有線和/或無線通信以及話音編碼的任何其他設備。

下面將參照圖9描述適于實現對上述方法的執行的示例性發送節點900,所述方法適于執行上述發送節點中的方法的至少一個實施例。

發送節點可操作以對諸如話音等的音頻進行編碼,并且可操作以與例如通信網絡中的其他節點或實體進行通信。發送節點還可操作以在話音非活動期間應用DTX方案,該DTX方案包括發送SID幀。發送節點可操作以例如在無線通信系統(例如,GSM、UMTS、E-UTRAN或CDMA2000)和/或有線通信系統中進行通信。

在由點線/虛線圍繞的布置901中示出了發送節點中與本文所建議的解決方案最相關的部分。發送節點的該布置和可能的其他部分適于實現上文所述并且在例如圖7a和圖7b中所示的方法或過程中的一個或多個的執行。

圖9中所示的發送節點包括處理裝置(在本示例中,采取處理器903以及存儲器904的形式),其中,所述存儲器包含可以由所述處理器執行的指令905。處理裝置可操作以從多個(N個)拖尾幀中確定代表背景噪聲的幀集合Y。處理裝置還可操作以向接收節點發送N個拖尾幀,該N個拖尾幀至少包括所述幀集合Y;以及

與發送N個拖尾幀相關聯地向接收節點發送第一SID幀,其中SID幀包括向接收節點指示所確定的拖尾幀集合Y的信息。

發送節點使接收節點能夠基于拖尾幀集合Y來生成舒適噪聲,從而實現對高質量舒適噪聲的生成。

可以以不同的方式來配置指示集合Y的信息,并且第一SID幀還可以包括SID參數;并且拖尾幀的數量N可以是可變的或固定的,如前所述。

發送節點900被示出為經由通信單元902與其他實體進行通信,通信單元902可以被認為包括用于根據發送節點可操作的通信標準進行無線和/或有線通信的傳統裝置。該布置和/或發送節點還可以包括其他功能單元909,其他功能單元909用于與話音編碼相關聯地提供例如常規發送節點功能(例如,信號處理)。

可以備選地實現和/或示意性地描述布置901,如圖10中所示。布置1001包括確定單元1004,確定單元1004用于確定多個(N個)拖尾幀中的代表背景噪聲的幀集合Y。布置1001還包括發送單元,該發送單元用于向接收節點發送N個拖尾幀(至少包括所述幀集合Y)的;并且還用于與發送N個拖尾幀相關聯地向接收節點發送第一SID幀,其中,SID幀包括向接收節點指示所確定的拖尾幀集合Y的信息。

布置1001可以包括VAD單元,VAD單元用于確定信號幀是否包括活動話音。備選地,這種VAD單元可以是其他功能單元1008的一部分。

可以通過以下各項中的一項或多項來實現布置1001和發送節點的其他部分:處理器或微處理器以及適當的軟件和存儲設備、因而被配置為執行上述動作的可編程邏輯器件(PLD)或其他電子組件/處理電路。

示例性接收/解碼節點、圖11

本文所述的實施例還涉及接收節點或解碼節點。接收節點與和上文所述并且例如在圖8中所示的方法相同的技術特征、目的和優點相關聯。將簡要描述接收節點以避免不必要的重復。接收節點可以例如是設備或UE,例如,智能電話、平板電腦、計算機、或能夠進行有線和/或無線通信以及音頻編碼的任何其他設備。

下面將參照圖11描述適于實現對上述方法的執行的示例性接收節點1100,所述方法適于執行上述接收節點中的方法的至少一個實施例。

接收節點可操作以對諸如話音等的音頻進行解碼,并且可操作以與例如通信網絡中的其他節點或實體進行通信。接收節點還可操作以在話音非活動期間應用DTX方案,該DTX方案包括接收SID幀。接收節點可操作以例如在無線通信系統(例如,GSM、UMTS、E-UTRAN或CDMA2000)和/或有線通信系統中進行通信。

在由點線/虛線圍繞的布置1101中示出了接收節點中與本文所建議的解決方案最相關的部分。接收節點的該布置和可能的其他部分適于實現上文所述并且在例如圖8中所示的方法或過程中的一個或多個的執行。

圖11中所示的接收節點包括處理裝置(在本示例中,采取處理器1103以及存儲器1104的形式),并且其中所述存儲器包含可以由所述處理器執行的指令1105。處理裝置可操作以從發送節點接收N個拖尾幀;并且還可操作以與N個拖尾幀相關聯地接收第一SID幀。處理裝置還可操作以基于接收的SID幀中的信息來從多個(N個)拖尾幀中確定拖尾幀集合Y;并且至少部分地基于拖尾幀集合Y來生成舒適噪聲。

因而使接收節點能夠基于拖尾幀集合Y來生成舒適噪聲,從而使接收節點能夠生成高質量舒適噪聲。

可以以不同的方式來配置指示集合Y的信息,并且第一SID幀還可以包括SID參數;并且拖尾幀的數量N可以是可變的或固定的,如前所述。

接收節點1100被示出為經由通信單元1102與其他實體進行通信,通信單元1102可以被認為包括用于根據接收節點可操作的通信標準進行無線和/或有線通信的傳統裝置。該布置和/或接收節點還可以包括一個或多個存儲單元1106。該布置和/或接收單元還可以包括其他功能單元1107,其他功能單元1107用于與話音解碼相關聯地提供例如常規接收節點功能(例如,信號處理)。

可以通過以下各項中的一項或多項來實現布置1101和接收或解碼節點的其他部分:處理器或微處理器以及適當的軟件和存儲設備、因而被配置為執行上述動作的可編程邏輯器件(PLD)或其他電子組件/處理電路。

可以備選地實現和/或示意性地描述布置1101,如圖12中所示。布置1201包括接收單元1203,接收單元1203用于從發送節點接收N個拖尾幀;并且還用于與N個拖尾幀相關聯地接收第一SID幀。該布置還包括確定單元1204,確定單元1204用于基于接收的第一SID幀中的信息從多個(N個)拖尾幀中確定拖尾幀集合Y;并且還包括噪聲發生器1205,噪聲發生器1205用于基于拖尾幀集合Y來生成舒適噪聲。

布置1201還可以包括估計單元,估計單元用于估計用于生成舒適噪聲的參數(例如,SID參數)。噪聲發生器然后可以基于所估計的噪聲生成參數來生成舒適噪聲。

布置1201和/或解碼節點1200的某一其他部分被假設為包括適于執行音頻解碼的功能單元或電路。

可以通過以下各項中的一項或多項來實現布置1201和接收/解碼節點的其他部分:處理器或微處理器以及適當的軟件和存儲設備、因而被配置為執行上述動作的可編程邏輯器件(PLD)或其他電子組件/處理電路。

將理解的是,交互單元或模塊的選擇以及單元的命名僅用于舉例說明的目的,并且可以以多種備選方式來配置適于執行上述方法中的任意一個的客戶端節點和服務器節點,以便能夠執行所建議的處理動作。

還應當注意的是,在本公開中所述的單元或模塊應當被視為邏輯實體而不必視為單獨的物理實體。

通過使用本文所建議的解決方案,可以在不折衷聊天進發結束時的舒適噪聲合成的質量的情況下增加利用DTX的話音傳輸的效率。

雖然上文的描述包含多個特殊性,但是它們不應當被理解為限制本文所述的構思的范圍,而是僅提供所述構思的一些示例性實施例的說明。將理解的是,當前所述的構思的范圍完全涵蓋對于本領域技術人員可以變得顯而易見的其他實施例,并且當前所述的構思的范圍因此不受限制。除非明確聲明,否則以單數形式提及元素并不旨在意味著“一個且僅一個”,而是“一個或多個”。本領域普通技術人員已知的上述實施例的元素的所有結構和功能等同物通過引用的方式明確地并入本文,并且旨在由此被涵蓋。此外,設備或方法不必解決當前所述的構思試圖解決的每一個問題,這是因為它將由此被涵蓋。

縮略語

AMR 自適應多速率

DTX 不連續傳輸

ITU-T 國際電信聯盟電信標準化部

LSF 線譜頻率

VAD 語音活動檢測器

3GPP 第三代合作伙伴計劃

SID 靜音插入描述符

SNR 信噪比

WB 寬帶。

再多了解一些
當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
做爱视频