Developer's Guide--Part I
预加重
分帧与加窗
预加重
由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz以上按6dB/倍频程跌落,即6dB/oct(2倍频)或20dB/dec(10倍频),所以求语音信号频谱时,频率越高相应的成分越小,高频部分的频谱比低频部分的难求,为此要在预处理中进行预加重(Pre-emphasis)处理.预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析.预加重可在语音信号数字化时在反混叠滤波器之前进行,这样不仅可以进行预加重,而且可以压缩信号的动态范围,有效地提高信噪比.但预加重一般是在语音信号数字化之后,在参数分析之前在计算机里用6dB/倍频程的提升高频特性的预加重数字滤波器来实现,它一般是一阶的数字滤波器:,其中u的值接近于1.
back to top 分帧与加窗
进行过预加重数字滤波处理后,接下来就要进行加窗分帧处理.由于人自身的发音器官的运动,语音信号是一种典型的非平稳信号.但是相比于声波振动的速度,发音器官的运动就显得非常缓慢了.因此,工程技术人员通常认为10ms~30ms这样长度的时间段中,语音信号是平稳信号.几乎所有的语音信号处理方法都是基于这个假设.这样每秒的帧数大约为33~100.分帧虽然可以采用连续分段的方法,但一般要采用交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性.前一帧和后一帧的交叠部分称为帧移.帧移帧长的比值一般取为0~1/2.分帧是用可移动的有限长度窗口进行加权的方法来实现的,这就是用一定的窗函数w(n)来乘s(n),从而形成加窗语音信号.
在语音信号数字处理中常用的窗函数是矩形窗(Rectangular Window)和汉明窗(Hamming Window)等,它们的表达式如下(其中N为帧长):
矩形窗:
汉明窗:
窗函数w(n)的选择(形状和长度),对于短时分析参数的特性影响很大.为此应选择合适的窗口,使其短时参数更好地反映语音信号的特性变化.下面从窗口形状和窗口长度两方面来讨论这个问题.
1.窗口形状
虽然,不同的短时分析方法(时域、频域、倒频域分析)以及求取不同的语音特征参数可能对窗函数的要求不一样,但一般来讲,一个好的窗函数的标准是:在时域因为是语音波形乘以窗函数,所以要减小时间窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以是截取出的语音波形缓慢降为零,减小语音帧的截断效应;在频域要有较宽的3dB带宽以及较小的边带最小值。这里以典型的矩形窗和汉明窗为例进行比较。
矩形窗时: 对应于该单位函数响应的数字滤波器的频率响应为:
它具有线性的相位--频率特性,其频率响应为第一个零值时做对应的频率为:.这里,为采用频率,为采样周期。
汉明窗时:
则发现其频率响应的第一个零值频率(即带宽)以及通带外的衰减都比举行窗要大许多。
2.窗口长度
采样周期
、窗口长度N和频率分辨率f之间存在下列关系:
可见,采样周期一定时,f随窗口宽度N的增加而减小,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。应该根据不同的需要选择合适的窗口长度。
语音信号的数字化和预处理是一个很重要的环节,在对一个语音信号处理系统进行性能评价时,作为语音参数分析条件,采样频率和精度、采用了什么预处理、窗函数、帧长和帧移各是多少等都必须解释清楚以供参考。
back to top
|