1. 语音识别的现状
语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。语音识别技术主要包括特征提取、模式匹配以及模型训练三个方面。此外,还涉及到语音识别单元的选取。目前针对研究,相对比较成熟的语音识别SDK有:微软的Speech、IBM的ViaVioce以及国内科大讯飞的语音识别产品等。这些SDK开发出来产品的共同点是在TTS(文本转语音)功能方面表现比较出众,而在语音转文本方面则显得有些牵强。当下,语音识别领域比较红火的产品是Android系统下的Voice Actions和iPhone4S上的Siri. Voice Actions是一项伟大的语音技术,并已经被许多Android用户所熟知和使用,它提供了非常坚实可靠的声音识别引擎,它的高识别度令人称奇。不过,和上面所说微软以及IBM等语音识别引擎一样,它要求我们说的话要具备严格的语法结构和格式,否则语音识别系统将无法识别。Siri是市面上最好的语音识别系统之一,Siri技术来源于美国国防部高级研究规划局,可以抛弃繁琐的语法结构,甚至思维模式也可以混乱,Siri会结合上下文结构去理解,它还会从人类语言史的角度出发,利用人工智能系统去分析,并在绝大多数情况下领会我们的意思,注意是多数情况下会识别正确。
2. 语音识别的原理
Kinect设备上配有音频阵列,相当于4个麦克风。Kinect语音识别与普通麦克风的语音识别基本一致。都遵循图1流程:
特征提取阶段对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。模式匹配则是根据一定准则,使未知模式与引擎库中的某一个模型获得最佳匹配从而得出最佳识别结果。在实际应用中我们还需要对引擎库进行模型训练,它是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,从而让语音引擎能够对特定人的语音识别准确率大幅提升。所以,在进行声音转文本的语音识别之前,最好能够先进行语音训练。
3. 语言识别实验
在本次语音识别研究中,语音识别引擎使用微软的Speech5.1。语音输入可以用普通麦克风,也可以使用Kincet设备作为声音的输入源。并且制作出了可执行程序对语音识别效果进行测试。
可执行程序对应FTP101目录:
/_部门文案/1_程序部门工作/10_研究院/1_语音识别/Speech.exe
运行此程序需要安装Speech SDK 5.1以及中文语言包,对应FTP101目录为:
/_部门文案/1_程序部门工作/10_研究院/1_语音识别/1_开发工具/*.*
在运行Speech.exe时,请注意以下几点:
1) 在执行Speech.exe前请确定已经插入麦克风。
2) 如果操作系统为XP,在语音识别前请先进行语音训练(会增大识别率)。 3) 尽最大努力用正常语速去讲普通话,吐字清晰。
4. 研究结论
在经过多次中文语言识别测试后,我们得出了以下结论:
1) 文本转语音模块没有发现发音错误,对词组的发音支持的很好,但是在连贯性很强
的整句话的发音方面显得有些生涩。
2) 语音转文本功能,经常有错字。正确率完全取决于发声者的语速快慢和普通话发音
准确度。
3) 在语音识别之前,先进行语音训练,会提升特定人语音识别的正确率。
4) 综上所述,我们认为语音识别应用到游戏中的聊天模块,还需要等待语音识别领域
成熟一些后,更为妥善。
因篇幅问题不能全部显示,请点此查看更多更全内容