Five_min




主页
简介
5分钟入门指南


语音分析效果
语音合成效果
语音识别效果


预处理
分析
合成
识别
GUI


预处理
时域分析
频域分析
倒谱分析
WRLS-VFF分析
语音合成
语音识别


关于我们
未来工作
bugs
鸣谢
FAQ

欢迎使用Scilab Speech

1.系统要求:

Scilab Speech可以在任何安装了Scilab-4.0的计算机上运行．它的界面是由tcl/tk编写的．
Scilab Speech有windows版本和linux版本，可以在两个平台下独立运行．(因为某些原因，linux版本稍欠完善，建议运行windows版本)．

2.安装:

1) windows版本

我们已经为您考虑周全了。您只需将Scilab Speech安装在Scilab的安装目录下就行了，我们的安装程序将产生两个快捷方式：一个用与执行我们的GUI，另一个则用与打开Scilab命令行。(在打开时就已为您加载了所有需要调用到的函数，所以您可以直接调用我们Scilab Speech里的函数)。提供两种方式来执行Scilab Speech。

请务必把SciSpeech安装在scilab-4.0的目录下以保证软件的正常运行。

安装完毕将在桌面产生两个快捷方式：

：以GUI方式启动SciSpeech

：以命令行方式启动ScSpeech

2) linux版本

linux下安装并且运行SciSpeech的步骤如下：
1.先安装Scilab-4.0
2.将SciSpeech文件夹和start.sci文件拷贝到Scilab-4.0的安装目录(/usr/lib/scilab-4.0/)下

请务必把SciSpeech的所有文件都拷贝到scilab-4.0的目录下以保证软件的正常运行。

3.运行Scilab,加载start.sci

3.界面预览：

GUI 模式--主窗口:

下面介绍了Scilab Speech 主窗口的一些主要按纽的功能．

分析部分：

Pre-Processing:

Pre-Emphasis----预加重：

Enframe----分帧:

windowing----加窗:

Time:

energy----能量:

zcr----过零率:

LP Analysis----线性分析:

spctra----语谱分析:

cepstral----倒谱分析:

WRLS-VFF分析:

合成部分：

我们提供了从 0 到 9 共 10 个数字的发音，您可以通过拖动 number 下的滚动条来选择数字。选定数字后，我们提供了两个参数来调整发音的韵律，一个是基音频率，对应着语音的音调，您可以通过拖动 pitch_scale_ratio 下的滚动条来调整基音频率的大小（范围为 0.1 到 5.0 ，这些值表示的相对值，例如 1 表示跟原发音的基音频率一样）。另一个是时长，对应的是语音的语速或节奏，您可以通过修改 time_scale_ratio 下的滚动条来调整时长的大小（范围为 0.1 到 5.0 ，这些值表示的相对值，例如 1 表示跟原发音的语速一样）。

识别部分:

您想实现让电脑识别您语音录入的电话号码，以及语音命令电脑关机，重启等功能么？请按以下步骤：
第一步：点击 Init, 初始化数据。

第二步：由于我们做的是特定人语音识别，请务必建立自己模版，以让计算机能够相应您的命令。点击 Create Single Model ，在文本框中输入 0 ，然后点击 Record, 对着麦克风读“ zero”．
然后点击 stop. 再点击 ok 。

第三步：在文本框中输入 1 ，重复第二步，直到建立了 0 到 9 个数字的模版。
第四步：点击 Input command

点击 Record 录入语音命令，如读入“ 1359647802 ”。由于我们所做的是孤立词识别，请在读每个数字中间空大概 0.5 秒的时间。命令录入完毕后点击 Stop.
点击 OK 键，稍后就出现结果。

第五步：点击 Save model into file, 将建立好的模版存入 .mdl 文件中。下次您可以使用 Load model from file 直接读出模版，而不用再次通过录制语音文件来创建模板。

如果您想语音命令电脑关机，重启等功能，请在第二步 Create Single Model 中训练以下文本的命令，能实现对电脑的控制。
　　　　　　　命令文本　　控制功能
　　　　　　　 shutdown　　　关机
　　　　　　　 logoff　　　　注销
　　　　　　　 restart　　　　重启
　　　　　　　 help 　　　运行scilab帮助
　　　　　　　 demo 　　打开SciSpeech 范例
例：在 Create Single Model 中，训练一个文本为 demo 的命令：
　　　　　　　　　　　
之后在 Input Command 中，如果输入有语音为 demo 的命令，则自动弹出 SciSpeech 的 demo 窗口：
　　　　　　　　　　　

语音识别范例：
我们为您提供了一系列录制好的样本和语音命令，方便为您演示语音识别的效果。

范例一：
1. 点击 Init 初始化。
2. 点击 Load model from file 选中 "Scispeech\function\a\wucong\wucong.mdl" 这是 wucong 建立的模版。请注意本系统为特定人识别系统， wucong 建立的模版只能响应 wucong 发出的命令。
3. 点击 Input command 。然后点击 Load 键选中 "Scispeech\function\a\wucong\1359647802.wav".这是 wucong 预先录入的语音命令。稍后就会出现结果。

范例二：
1. 点击 Init 初始化。
2. 点击 Creat model from file ，这将会把 "Scispeech\function\a\" 目录下的起名为 0a .wav, 1a .wav…… 9a .wav 九个音频文件建立成模版。
3. 点击 Input command. 。然后点击 Load 键选中 "Scispeech\function\a\1374589602.wav" 。稍后就会出现结果。

范例三：
直接点击 demo 中的 Recognition ，将会将预存的一段命令识别，并且按命令弹出 help 窗口。

关于|联系我们|厦门大学|新闻组