Dev-pre




主页
简介
5分钟入门指南


语音分析效果
语音合成效果
语音识别效果


预处理
分析
合成
识别
GUI


预处理
时域分析
频域分析
倒谱分析
WRLS-VFF分析
语音合成
语音识别


关于我们
未来工作
bugs
鸣谢
FAQ

Developer's Guide--Part I

预加重

分帧与加窗

预加重

　由于语音信号的平均功率谱受声门激励和口鼻辐射的影响，高频端大约在800Hz以上按6dB/倍频程跌落,即6dB/oct(2倍频)或20dB/dec(10倍频)，所以求语音信号频谱时，频率越高相应的成分越小，高频部分的频谱比低频部分的难求，为此要在预处理中进行预加重(Pre-emphasis)处理．预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析．预加重可在语音信号数字化时在反混叠滤波器之前进行，这样不仅可以进行预加重，而且可以压缩信号的动态范围，有效地提高信噪比．但预加重一般是在语音信号数字化之后，在参数分析之前在计算机里用6dB/倍频程的提升高频特性的预加重数字滤波器来实现，它一般是一阶的数字滤波器：，其中u的值接近于1.

分帧与加窗

　进行过预加重数字滤波处理后，接下来就要进行加窗分帧处理．由于人自身的发音器官的运动，语音信号是一种典型的非平稳信号．但是相比于声波振动的速度，发音器官的运动就显得非常缓慢了．因此，工程技术人员通常认为10ms~30ms这样长度的时间段中，语音信号是平稳信号．几乎所有的语音信号处理方法都是基于这个假设．这样每秒的帧数大约为33~100．分帧虽然可以采用连续分段的方法，但一般要采用交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持其连续性．前一帧和后一帧的交叠部分称为帧移．帧移帧长的比值一般取为0~1/2．分帧是用可移动的有限长度窗口进行加权的方法来实现的，这就是用一定的窗函数w(n)来乘s(n)，从而形成加窗语音信号.

　在语音信号数字处理中常用的窗函数是矩形窗(Rectangular Window)和汉明窗(Hamming Window)等，它们的表达式如下(其中N为帧长)：
矩形窗：
汉明窗：

窗函数w(n)的选择(形状和长度)，对于短时分析参数的特性影响很大．为此应选择合适的窗口，使其短时参数更好地反映语音信号的特性变化．下面从窗口形状和窗口长度两方面来讨论这个问题．

１．窗口形状
　虽然，不同的短时分析方法(时域、频域、倒频域分析)以及求取不同的语音特征参数可能对窗函数的要求不一样，但一般来讲，一个好的窗函数的标准是：在时域因为是语音波形乘以窗函数，所以要减小时间窗两端的坡度，使窗口边缘两端不引起急剧变化而平滑过渡到零，这样可以是截取出的语音波形缓慢降为零，减小语音帧的截断效应；在频域要有较宽的3dB带宽以及较小的边带最小值。这里以典型的矩形窗和汉明窗为例进行比较。

矩形窗时：

对应于该单位函数响应的数字滤波器的频率响应为：

它具有线性的相位－－频率特性，其频率响应为第一个零值时做对应的频率为：．这里，为采用频率，为采样周期。

汉明窗时：

则发现其频率响应的第一个零值频率(即带宽)以及通带外的衰减都比举行窗要大许多。

２．窗口长度
　采样周期、窗口长度Ｎ和频率分辨率f之间存在下列关系：
　　　　　　　　　　　　　　　
可见，采样周期一定时，f随窗口宽度Ｎ的增加而减小，即频率分辨率相应得到提高，但同时时间分辨率降低；如果窗口取短，频率分辨率下降，而时间分辨率提高，因而二者是矛盾的。应该根据不同的需要选择合适的窗口长度。

语音信号的数字化和预处理是一个很重要的环节，在对一个语音信号处理系统进行性能评价时，作为语音参数分析条件，采样频率和精度、采用了什么预处理、窗函数、帧长和帧移各是多少等都必须解释清楚以供参考。

关于|联系我们|厦门大学|新闻组