• 易迪拓培训,专注于微波、射频、天线设计工程师的培养
首页 > 微波/射频 > RF技术文章 > 语音增强用于坦克驾驶舱内无线语音通信

语音增强用于坦克驾驶舱内无线语音通信

录入:edatop.com    点击:

引言

语音通信过程中不可避免地会受到来自周围环境的干扰,接收方接收到的语音不再是原始的纯净语音,而是受噪声干扰的带噪语音信号。比如,坦克、飞机或舰船上的电台常常受到很强的背景噪声干扰,严重影响了通话质量。据测量,坦克装甲车辆的发动机噪声能量在50 hz-300 hz范围比较集中,这种低频噪声对语音的掩蔽性强,对人身危害大,使听者产生不舒适的感觉。同时,环境噪声的污染使得许多语音处理系统的性能恶化。因此,需要对带噪语音进行语音增强,其主要作用是改进语音质量,消除背景噪声,提高语音的清晰度和自然度,使人乐于接受。

基于stsa(短时谱幅度)的增强方法尤其是谱减法因方法简单、易于实现,所以应用最为广泛。本文将谱减法的改进算法和基于先验幅度比估计噪声谱的方法相结合,在理论分析的基础上进行了仿真实验研究,并给出了仿真结果。

1 基本谱减算法

一般语音信号是按帧处理的,带噪语音的模型可表示为:

ym(n)=sm(n)+dm(n)  (1)

式中:ym(n)、sm(n)和dm(n)分别为带噪语音、纯净语音和干扰噪声,只有带噪语音可以利用,没有其他参考信号,并假设噪声和语音统计独立或不相关;m=0,1,…,m-1;n=0,l,…,n-1;m为帧的编号;n为每帧时域上点的序号,m,n分别是一段语音包含的帧数和每帧的点数。

若ydm(m(ω)、sm(ω)和ω)分别表示ym(n)、sm(n)和dm(n)的傅里叶变换,则存在以下关系:

ym(ω)=sm(ω)+dm(ω)  (2)

求功率谱后有:

|ym(ω)|2=|sm(ω)|2+|dm(ω)|2+sm(ω)dm*(ω)+sm*(ω)dm(ω)  (3)

由于s(n)和d(n)独立,它们的互谱统计独立,故原始语音的估计值为:

|sm(ω)|2=|ym(ω)|2-|dm(ω)|2  (4)

式中:|sm(ω)|和|dm(ω)|分别是对|sm(ω)|和|dm(ω)|的估计。

式(3)和式(4)都是按帧计算的。如果上式出现负的情况,最简单的处理是直接令其为0。为避免分帧时的截断效应,应对y(n)加窗,可用汉明窗或矩形窗,为了保证帧间的平滑性和语音的连续性,帧与帧之间应有部分重叠。

噪声的能量往往分布于整个频域,而语音的能量则较集中于某些频率段,因此可在幅度较高的时帧内减去a|dm(ω)|(a>1),可以更好地相对突出语音功率谱;同时引入指数参数y1、y2。因此常用的谱减修正形式为:

式中:a为谱减阈值系数,它越大,背景噪声减得越多,信噪比越高,同时也会加大语音信号的失真;β为谱减噪声系数,其作用是人为地给增强后的语音加上一些背景噪声,起到掩蔽残留噪声的作用,其值越大,残留背景噪声越不明显,但同时也会使信噪比有所下降;γ1=1/γ2,可通过主观试听决定其大小,当为2时就是功率谱的谱减。

由于人耳对语音信号的相位不敏感,可用原始带噪语音相位谱代替估计之后的语音信号的相位谱来恢复增强后的语音时域信号:

sm(n)=ifft{|sm(ω)|exp[jarg(ym(ω))])  (6)

式中:arg(ym(ω))为带噪语音的相位谱。

2 改进的谱减方法

式(5)表明,噪声谱的估计对整个算法效果的优劣至关重要。一般的做法是|dm(ω)|2在带噪语音的无声段用多帧统计平均值作为噪声谱的估计,同时引入有声/无声检测,在被判为噪声帧时对估计的噪声谱进行更新,如果被判为语音帧则不作更改,保持原来估计的噪声谱。本文在文献[1]的基础上,采用直接判决法对先验幅度比进行估计。为此,令g(m,ω)=|sm(ω)|/|ym(ω)|为每个频谱分量的增益函数,把式(5)写成增益函数形式。为了简便,令γ1=1,并定义后验幅度比为rpost(m,ω)=|ym(ω)|/|dm(ω)|,和先验幅度比rprior(m,ω)=|sm(ω)|/|dm(ω)|,代入式(5),有

而式(7)中先验幅度比一般由直接判决法确定,它是一个递推公式[2]:

式中:η为经验权重。

由式(7)、式(8)可看出,由于引入了基于先验幅度比估计噪声谱的方法,相当于起到了动态调整α、β的作用。

3 噪声估计

噪声谱的估计可以采用滤波法,实际是对噪声谱进行平滑处理,逐次更新。以幅度谱相减为例,考虑谱减阈值系数α后的公式是:

dm(ω)=ρdm-1(ω)+(1一ρ)|ym(ω)-αsm-l(ω)| (9)

式中:ρ为平滑系数。

由于坦克噪声特性的变化慢于语音特性的变化,因此可以用这里的递推公式估计噪声谱,避免了语音有声/无声检测的环节,实验证明这种噪声谱的估计是可行的。

实际上并不是每一帧都需要对噪声谱进行更新,只有在本帧噪声谱小于前一帧噪声谱估计值的b倍时才进行更新[3],否则认为本帧是语音帧,即

|ym(ω)-αsm-1(ω)|

式中:b为经验系数。

只有满足式(10)才按式(9)对噪声谱进行更新。

4 音乐噪声及采取的措施

众所周知,谱减法一个最大的弊端是容易产生音乐噪声。产生音乐噪声的主要原因是在噪声谱的估计过程中信息估计不准确导致的。如果某帧某频率的噪声分量较大,就会有一部分被保留下来,在频谱上呈现出随机出现的尖峰,听觉上则形成有节奏的起伏性类似音乐的残留噪声[4],俗称“音乐噪声”,有时甚至比原始语音中的噪声还要明显。

本文力图从以下几方面来减小音乐噪声:

a)在对语音信号分帧时,发现帧长与帧之间的重叠程度不同,产生的消噪效果不同,背景残留的音乐噪声强弱也不同。帧长越短,相对的听觉失真越大,原因是如果帧的长度取得较短时,信号的频域分量变化就会较快。此外,加大帧之间的重叠,减小相邻两帧的差别,对减小音乐噪声也能起到一定作用。因此,取较长的256点作为一帧长度,帧间的重叠为192点。

b)在语音谱减去噪声谱的过程中会遇到负值的时候,一般做法是直接取零。但如果使用一个下限值,而不是取零,比如可以取带噪语音谱的l/10,则得到的语音频谱在低幅值附近的变化要缓和一些,有利于减轻人耳所感觉到的“音乐噪声”。

c)根据boll[5]的思想,对谱减后的每个频谱值,用其相邻几帧对应频谱值的最小值来代替,可以有效去除突变点,这种平滑的方法可以大幅度去除音乐噪声。假设无声段残留噪声谱的最大值为|wr(ω)|,则平滑的原则是[6]:

式中:j=m-1,m,m+1。

经主观试听,音乐噪声由强度与话音相当的好似流水的声音变成偶尔发出的细小的嗡嗡声。

d)音乐噪声在无声段由于没有语音的掩蔽相对明显,在有声段却并不显著。因此,可以在由频域变换为时域信号后对语音信号做不重叠的分帧,并做粗略的有声/无声检测,先计算出语音开头无声段背景噪声能量均值q和最大值emax,取门限为2(emax-q)。经过增强后的语音信噪比已经有相当大的提高,这时的端点检测不需要十分精确,只要不把语音帧判为噪声帧就可做到对语音没有损伤。因此,可求某帧的前3帧、后3帧和本帧能量的均值,大于上述门限者判为语音帧,否则判为噪声帧。被判为噪声帧的用舒适白噪声填充,噪声的方差可根据主观试听决定。

5 仿真实验

本实验采用真实的录制于坦克驾驶舱的带噪语音,8 khz/16 bit单声道采样。首先经过一个一阶高通滤波器1—0.9375z-1,其作用是提高高频频谱的权重,也称预加重,还可以起到消除直流漂移、抑制随机噪声和提升清音部分能量的作用。帧的长度n=256,采用汉明窗对信号加窗,帧间重叠192点。谱减式(7)中参数α=2.5,β=0.085;式(8)中η=0.85;式(9)中ρ=0.95;式(10)中b=4.5。图l和图2分别显示了原始带噪语音和增强后的语音的时域波形图和语谱图的比较。

从图1和图2的比较可看出本算法对信噪比的提升是相当明显的。非正式主观听觉测试也表明,增强后的语音背景噪声几乎全部消除,残留的音乐噪声不太明显,语音质量大大改善。

6 结束语

本文基于先验幅度比估计的谱减算法在增强语音信号的同时,抑制了大部分音乐噪声,并保持了较好的语音可懂度。与一般谱相减增强算法相比,提高了带噪语音的信噪比,尤其适合类似发动机的低频有色噪声的处理。但在低信噪比时,增强后的语音仍有失真,背景音乐噪声不能完全消除,需探索更有效的算法或将谱减法结合其他措施,例如结合掩蔽效应或利用双多通道、多传声器基于信号阵列的语音增强方法等,都是有效、可行的,还可考虑引入心理声学模型等。

如何成为一名优秀的射频工程师,敬请关注: 射频工程师养成培训

上一篇:RFID技术助美国安全部精简文件处理流程
下一篇:电子封条(e-seals)——贸易速度与安全

射频和天线工程师培训课程详情>>

  网站地图