語音信號增強方法及裝置與流程

文檔序號:18171793發布日期:2019-07-13 09:52
語音信號增強方法及裝置與流程
本申請涉及語音信號處理
技術領域
,尤其涉及一種語音信號增強方法及裝置。
背景技術
:語音信號增強是為了提升語音的可懂性,和提升那些被加性噪聲所污染的語音,其主要應用于主要應用于通信設備,同樣也有應用在聽力輔助,人工耳蝸等植入設備?,F有的語音信號增強方法,通常采用“譜減法”、“維納濾波”、“統計模型方法”、“子空間法”等。但在采用現有技術進行語音信號增強時發現,由于這些語音信號增強方法在原理上屬于人工預設方法,因此效果和應用場景均受限于預設方法及方法設計者,且現實中語音場景多種多樣,采用現有技術進行語音增強的過程中不可避免地會出現信號失真以及出現額外雜音的情況,因此,在面對復雜的語音場景時,現有的語音增強技術的魯棒性較差。技術實現要素:本申請實施例所要解決的技術問題在于,提供一種語音信號增強方法及裝置,實現對不同場景的語音信號的增強。為解決上述問題,本申請實施例提供一種語音信號增強方法,至少包括:采集當前場景的語音信號;基于預設的時長間隔,對所述語音信號進行分幀,生成多個幀信號;基于預設步長,將多個所述幀信號輸入訓練好的神經網絡,通過跳轉連接的卷積層對多個所述幀信號進行卷積操作,獲取多個增強后的幀信號;根據每個增強后的幀信號的時域,對每個增強后的幀信號進行疊加,獲得增強后的所述語音信號。進一步的,所述基于預設的時長間隔,對所述語音信號進行分幀,生成多個幀信號,具體為:基于預設的時長間隔,對所述語音信號進行分幀,并將分幀后的所述語音信號加以漢寧窗后進行DFT,生成多個幀信號。進一步的,所述神經網絡的訓練方法為:采集多個噪聲信號及不帶噪聲的多個清晰信號;基于隨機生成的混合系數,將多個所述噪聲信號與多個所述清晰信號一一進行混合,獲得多個所述帶噪信號;其中,一個所述噪聲信號與一個所述清晰信號混合成一個所述帶噪信號;將多個所述帶噪信號依次輸入所述神經網絡進行信號增強,產生一一對應的多個降噪信號,并根據各所述降噪信號與各降噪信號一一對應的各所述清晰信號的最小平方誤差,調整所述神經網絡。進一步的,所述將多個所述帶噪信號依次輸入所述神經網絡進行信號增強,產生一一對應的多個降噪信號,并根據各所述降噪信號與各降噪信號一一對應的各所述清晰信號的最小平方誤差,調整所述神經網絡,具體為:將所述帶噪信號輸入所述神經網絡,根據所述帶噪信號通過所述神經網絡進行信號增強后產生的降噪信號,與對應的清晰信號的最小平方誤差,調整所述神經網絡,并根據下一所述帶噪信號通過調整后的神經網絡產生的降噪信號,與對應的清晰信號的最小平方誤差,繼續調整所述神經網絡,直至利用不同的帶噪信號獲得的最小平方誤差不再產生變化時,完成所述神經網絡的訓練。進一步的,所述神經網絡包括N個依次排序的卷積層;以第N/2層卷積層為對稱軸,兩兩對稱的卷積層之間跳轉連接;其中,N為偶數。進一步的,還提供一種語音信號增強裝置,包括:信號采集模塊,用于采集當前場景的語音信號;信號分幀模塊,用于基于預設的時長間隔,對所述語音信號進行分幀,生成多個幀信號;信號增強模塊,用于基于預設步長,將多個所述幀信號輸入訓練好的神經網絡,通過跳轉連接的卷積層對多個所述幀信號進行卷積操作,獲取多個增強后的幀信號;信號輸出模塊,用于根據每個增強后的幀信號的時域,對每個增強后的幀信號進行疊加,獲得增強后的所述語音信號。進一步的,所述信號分幀模塊具體用于:基于預設的時長間隔,對所述語音信號進行分幀,并將分幀后的所述語音信號加以漢寧窗后進行DFT,生成多個幀信號。進一步的,所述神經網絡的訓練方法為:采集多個噪聲信號及不帶噪聲的多個清晰信號;基于隨機生成的混合系數,將多個所述噪聲信號與多個所述清晰信號一一進行混合,獲得多個所述帶噪信號;其中,一個所述噪聲信號與一個所述清晰信號混合成一個所述帶噪信號;將多個所述帶噪信號依次輸入所述神經網絡進行信號增強,產生一一對應的多個降噪信號,并根據各所述降噪信號與各降噪信號一一對應的各所述清晰信號的最小平方誤差,調整所述神經網絡。進一步的,所述將多個所述帶噪信號依次輸入所述神經網絡進行信號增強,產生一一對應的多個降噪信號,并根據各所述降噪信號與各降噪信號一一對應的各所述清晰信號的最小平方誤差,調整所述神經網絡,具體為:將所述帶噪信號輸入所述神經網絡,根據所述帶噪信號通過所述神經網絡進行信號增強后產生的降噪信號,與對應的清晰信號的最小平方誤差,調整所述神經網絡,并根據下一所述帶噪信號通過調整后的神經網絡產生的降噪信號,與對應的清晰信號的最小平方誤差,繼續調整所述神經網絡,直至利用不同的帶噪信號獲得的最小平方誤差不再產生變化時,完成所述神經網絡的訓練。進一步的,所述神經網絡包括N個依次排序的卷積層;以第N/2層卷積層為對稱軸,兩兩對稱的卷積層之間跳轉連接。實施本申請實施例,具有如下有益效果:本申請實施例提供的一種語音信號增強方法及裝置,通過將當前場景的語音信號基于預設的時長間隔分割成多個幀信號;基于預設步長,將多個幀信號輸入訓練好的神經網絡,通過跳轉連接的卷積層對多個幀信號進行卷積操作,獲取多個增強后的幀信號;根據每個增強后的幀信號的時域,對每個增強后的幀信號進行疊加,獲得增強后的語音信號。與現有技術相比,本申請通過神經網絡對語音信號進行自動增強,無需人工干預,使得語音增強的效果和應用場景無需受限于預設方法及方法設計者,從而降低信號失真和額外雜音的出現頻率,進而提高語音信號增強效果。附圖說明圖1是本申請的一個實施例提供的語音信號增強方法的流程示意圖;圖2是本申請的一個實施例提供的神經網絡訓練方法的流程示意圖;圖3是本申請的一個實施例提供的語音信號增強裝置的結構示意圖。具體實施方式下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。請參見圖1。參見圖1,是本申請的一個實施例提供的語音信號增強方法的流程示意圖,如圖1所示,該語音信號增強方法包括:步驟S11、采集當前場景的語音信號。由于采樣頻率為22.05KHz的音源已經達到了FM廣播的聲音品質,能夠被清楚識別,若采集22.05KHz以上的音源進行語音信號增強,效果也并不顯著,因此在本實施例中,采集當前場景中采樣頻率為16KHz的音源作為語音信號。步驟S12、基于預設的時長間隔,對語音信號進行分幀,生成多個幀信號。具體的,基于預設的時長間隔,對語音信號進行分幀,并將分幀后的語音信號加以漢寧窗后進行DFT,生成多個幀信號。在本實施例中,預設的時長間隔為16ms。步驟S13,基于預設步長,將多個幀信號輸入訓練好的神經網絡,通過跳轉連接的卷積層對多個幀信號進行卷積操作,獲取多個增強后的幀信號。由于多個幀信號中存在信號重疊,因此在本實施例中,以50%的幀長為步長,將多個幀信號按生成順序,每10幀輸入訓練好的神經網絡。步驟S14,根據每個增強后的幀信號的時域,對每個增強后的幀信號進行疊加,獲得增強后的語音信號??紤]到增強后的多個幀信號之間存在信號重疊,因此在本實施例中,通過重疊疊加法,將每個增強后的幀信號重構成時域信號,該時域信號即為增強后的語音信號。請參見圖2。進一步的,參見圖2,是本申請的一個實施例提供的神經網絡訓練方法的流程示意圖。包括:S21,采集多個噪聲信號及不帶噪聲的多個清晰信號。在本實施例中,將采集的多個噪聲信號及不帶噪聲的多個清晰信號整理歸入數據池后,對數據池中的多個噪聲信號分別標以噪聲1、噪聲2……噪聲N1,對數據池中的多個清晰信號分別標以語音1、語音2……語音N2。S22,基于隨機生成的混合系數,將多個噪聲信號與多個清晰信號一一進行混合,獲得多個帶噪信號。其中,一個噪聲信號與一個清晰信號混合成一個帶噪信號。在本實施例中,隨機生成一個范圍在1到N1的隨機整數RND1,根據該隨機整數,從數據池中獲取對應數字編號的噪聲信號并標記為噪聲RND1,再隨機生成一個范圍在1到N2的隨機整數RND2,根據該隨機整數,從數據池中獲取對應數字編號的清晰信號并標記為語音RND2,并生成范圍在0到1間的隨機數RND3,將噪聲RND1及語音RND2按RND3的系數進行混合,生成帶噪信號后,重復上述過程,從而獲得多個帶噪信號。S23,將多個帶噪信號依次輸入神經網絡進行信號增強,產生一一對應的多個降噪信號,并根據各降噪信號與各降噪信號一一對應的各清晰信號的最小平方誤差,調整神經網絡。具體的,將帶噪信號輸入神經網絡,根據帶噪信號通過神經網絡進行信號增強后產生的降噪信號,與對應的清晰信號的最小平方誤差,調整神經網絡,并根據下一帶噪信號通過調整后的神經網絡產生的降噪信號,與對應的清晰信號的最小平方誤差,繼續調整神經網絡,直至利用不同的帶噪信號獲得的最小平方誤差不再產生變化時,完成神經網絡的訓練。在本實施例中,將帶噪信號輸入神經網絡,獲得降噪信號后,計算降噪信號與對應的清晰信號之間的最小平方誤差,并根據該最小平方誤差,利用Adam優化器優化神經網絡的網絡參數,從而調整神經網絡。在本實施例中,神經網絡的網絡架構包括N個依次排序的卷積層,且以第N/2層卷積層為對稱軸,兩兩對稱的卷積層之間跳轉連接。其中,N為偶數。具體的,神經網絡由12個卷積層組成,每個卷積層后跟以一個批量標準化(BN)層,最后以線性整流單元(ReLU)激活函數進行激活。每層卷積層通道數以第六層為中心,向兩側對稱排布,所對稱的卷積對,2層與10層、3層與9層、4層與8層、5層與7層分別跳轉連接,輸入神經網絡的數據通過前11層卷積后,進行最后一次卷積操作,最終獲得輸出與輸入相同形狀的數據。具體通道數及卷積核大小如下表所示:LayernameInputfeatureOutputfeatureKernalsizeConvolution1189Convolution28129Convolution312167Convolution416207Convolution520245Convolution624285Convolution728245Convolution824207Convolution920167Convolution1016129Convolution111289FinalConvolution81129請參見圖3。進一步的,參見圖3,是本申請的一個實施例提供的語音信號增強裝置的結構示意圖。包括:信號采集模塊101,用于采集當前場景的語音信號。由于采樣頻率為22.05KHz的音源已經達到了FM廣播的聲音品質,能夠被清楚識別,若采集22.05KHz以上的音源進行語音信號增強,效果也并不顯著,因此在本實施例中,信號采集模塊101用于采集當前場景中采樣頻率為16KHz的音源作為語音信號。信號分幀模塊102,用于基于預設的時長間隔,對語音信號進行分幀,生成多個幀信號。在本實施例中,信號分幀模塊102具體用于,基于預設的時長間隔,對語音信號進行分幀,并將分幀后的語音信號加以漢寧窗后進行DFT,生成多個幀信號。在本實施例中,預設的時長間隔為16ms。信號增強模塊103,用于基于預設步長,將多個幀信號輸入訓練好的神經網絡,通過跳轉連接的卷積層對多個幀信號進行卷積操作,獲取多個增強后的幀信號。由于多個幀信號中存在信號重疊,因此在本實施例中,信號增強模塊103用于以50%的幀長為步長,將多個幀信號按生成順序,每10幀輸入訓練好的神經網絡。信號輸出模塊104,用于根據每個增強后的幀信號的時域,對每個增強后的幀信號進行疊加,獲得增強后的語音信號??紤]到增強后的多個幀信號之間存在信號重疊,因此在本實施例中,信號輸出模塊104用于通過重疊疊加法,將每個增強后的幀信號重構成時域信號,該時域信號即為增強后的語音信號。本申請實施例提供一種語音信號增強方法及裝置,通過將當前場景的語音信號基于預設的時長間隔分割成多個幀信號;基于預設步長,將多個幀信號輸入訓練好的神經網絡,通過跳轉連接的卷積層對多個幀信號進行卷積操作,獲取多個增強后的幀信號;根據每個增強后的幀信號的時域,對每個增強后的幀信號進行疊加,獲得增強后的語音信號。與現有技術相比,本申請通過神經網絡對語音信號進行自動增強,無需人工干預,使得語音增強的效果和應用場景無需受限于預設方法及方法設計者,從而降低信號失真和額外雜音的出現頻率,進而提高語音信號增強效果。本申請的又一的實施例還提供了一種語音信號增強終端設備,包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執行的計算機程序,所述處理器執行所述計算機程序時實現如上述實施例所述的語音信號增強方法。以上所述是本申請的優選實施方式,應當指出,對于本
技術領域
的普通技術人員來說,在不脫離本申請原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也視為本申請的保護范圍。本領域普通技術人員可以理解實現上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質中,該程序在執行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質可為磁碟、光盤、只讀存儲記憶體(Read-OnlyMemory,ROM)或隨機存儲記憶體(RandomAccessMemory,RAM)等。當前第1頁1 2 3 
再多了解一些
當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
做爱视频