首页 > 文章中心 > 语音识别系统

语音识别系统

语音识别系统

语音识别系统范文第1篇

[关键词]语音识别系统;差异性;指标需求

一、引言

语音作为语言的声学体现,也是人类进行信息交流最自然、和谐的手段。与机械设各进行语音的沟通,让机器可以明白人类在说什么,并理解这是人类长期的梦想。语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

二、语音信号分析与特征提取

1.基于发音模型的语音特征。(1)发音系统及其模型表征。其发声过程就是由肺部进行收缩,并进行压缩气流由支气管通过声道和声门引起的音频振荡所发生的。气流通过声门时使得声带的张力刚好使声带发生比较低的频率的振荡,从而形成准周期性的空气脉冲,空气脉冲激励声道便会产生一些浊音;声道的某处面积比较小,气流冲过时便会产生湍流,会得到一种相似噪声的激励,对应的则是摩擦音;声道完全闭合并建立起相应的气压,突然进行释放就是爆破音。(2)语音信号线性预测倒谱系数。被广泛应用的特征参数提取技术的就是线性预测分析技术,很多成功的应用系统都是选用基于线性预测技术进而提取的LPC倒谱系数作为应用系统的特征。LPC倒谱就是复倒谱。复倒谱就是信号通过z进行变换以后再取其对数,求反z变换所得到的谱。线性预测分析方法其实就是一种谱的估计方法,所以其声道模型系统函数H(z)反映的就是声道频率激励和信号的谱包络,对IHg(z)作反z变换就可以得出其复倒谱系数。改复倒谱系数是依据线性预测模型直接获得的,而又被称为LPC倒谱系数(LPCC)。

2.基于听觉模型的语音特征。(1)听觉系统模型。一是人类的听觉系统对于声音频率高低和声波实际的频率高低不是线性的关系,它对不同声音频率信号的敏感度是不一样的,也可看成是对数关系。二是关于掩蔽效应指的就是声音A感知的闭值因为另外的身影的出现出现增大的现象。其生理依据主要是频率群,对频率群进行划分会出现许多的很小的部分,每一个部分都会对应一个频率群,掩蔽效应就发生在这些部分过程中。所以在进行相应的声学测量时,频率刻度一般取非线性刻度。语音识别方面,主要的非线性频率刻度有Mel刻度、对数刻度和Kon~nig刻度。其中Mel刻度被广泛的应用,其是最合理的频率刻度。(2)语音信号Mcl频率倒谱系数。Mel频率倒谱系数利用人们耳朵的听觉特性,在频域将频率轴变换为Mcl频率刻度,再变换到倒谱域得到倒谱系数。MFCC参数的计算过程:

一是对语音信号进行相应的预加重,从而确定了每一帧的语音采样的长度,语音信号通过离散FFT变换得到其频谱。二是求频谱幅度的平方,得到能量谱,并选用一组三角滤波器在频谱域对能量进行带通滤波。带通滤波器中心频率一般是按照Mcl频率刻度排列的(间隔为150Mel,带宽为300Mel),其每个三角形滤波器的两个底点频率和相邻的两个滤波器的中心频率相等,频率响应之和为l。滤波器的个数一般和临界带数比较相近,设滤波器数是M,滤波后得到的输出为:X(k),k=1,2,…,M。

语音识别系统范文第2篇

为了解决语音信号中帧与帧之间的重叠,提高语音信号的自适应能力,本文提出基于隐马尔可夫(HMM)与遗传算法神经网络改进的语音识别系统.该改进方法主要利用小波神经网络对Mel频率倒谱系数(MFCC)进行训练,然后利用HMM对语音信号进行时序建模,计算出语音对HMM的输出概率的评分,结果作为遗传神经网络的输入,即得语音的分类识别信息.实验结果表明,改进的语音识别系统比单纯的HMM有更好的噪声鲁棒性,提高了语音识别系统的性能.

关键词:

隐马尔可夫模型;神经网络;语音识别;遗传算法

随着语音识别技术的发展,人们对语音识别的技术要求越来越高,隐形马可夫模型(HiddenMarkovModel,简称HMM),在语音识别中已经广泛得到应用.但是,其自适应能力差,抗噪性也不是十分理想,仅靠单一的HMM进行语音识别存在诸多困难[1,2].而现在广泛应用的人工神经网络(ArtificalNeuralNet-work,简称ANN)[3,4],在自适应、抗噪性方面具有良好的特性,克服了HMM中存在的不足.反向传播神经网络(BP)虽然已经是神经网络中前向神经网络的核心部分,并且得到了广泛的应用[5].然而,BP神经网络也存在诸多缺点,比如学习收敛速度太慢,使其只能解决小规模的问题,也不能保证收敛到全局最小点,使得训练结果达不到全局最优性.遗传算法优化后的反向传播神经网络(GA-BP)[6-9]的混合模型语音识别方法,有效地保证训练结果的全局最优性,在语音识别的速度方面也有大幅度的提高,但在噪声环境下,遗传算法优化后的反响传播神经网络噪声鲁棒性并不是十分理想,因此也对语音识别系统的性能带来了影响[10].本文运用小波神经网络结构简单、收敛速度快的优点,对MFCC系数进行训练,从而得到新的MFCC系数,再进行特征提取后作为遗传算法优化后的输入.然后利用优化后的遗传神经网络获得语音的分类识别信息进行语音识别.实验结果表明,基于HMM与遗传神经网络改进的语音识别系统进一步提高了语音识别系统的自适应性和噪声鲁棒性.

1隐马尔可夫模型语音识别原理

隐马尔可夫模型是一种利用相关参数来表示,并用于描述随机过程中统计特性的概率模型[11].它的本质是一种基于统计分布一致性的聚类分析,每个隐含的状态就是一个聚类,对HMM进行训练的过程就是寻找每个聚类之间的相关联的过程.它由两部分组成:一个是隐含的马尔可夫链,即为隐含层;另一个是实际的观测量,即为观测层.HMM基于参数统计理论,利用概率密度函数计算出语音参数对模型的输出概率,找到最佳状态序列以后,用最大后验概率为准则进行识别.语音参数和隐马尔可夫模型关系如下图图1所示.

2基于遗传算法的神经网络优化算法

BP神经网络是人工神经网络中应用最为广泛的算法,但在广泛运用的同时,也逐渐出现一些不足之处,比如收敛速度慢、不能保证收敛到全局最小点等等.另外,网络结构,初始连接权值与阈值的选取对网络训练带来的影响也非常大,但是又无法准确获得.针对这些特点可以采用遗传算法对神经网络进行优化.

2.1传统遗传算法传统遗传算法实现步骤如下:1)随机产生一定数量的初始个体,这些随机产生的初始个体总体数目组成一个种群.2)用评价函数来评价每个个体的优劣,每个个体的适应程度(称为适应度)作为遗传操作的依据.3)从现有的种群中选取一定的个体作为新一代的个体,个体适应程度越高,被选择的机会越大.4)对于新生成的种群进行交叉、交异操作.

2.2用遗传算法优化神经网络权值的学习过程遗传算法(GeneticAlgorithm,GA)是模拟著名天文学家达尔文的遗传选择和生物进化的计算模型,具有很强的宏观搜索能力和良好的全局优化性能[12,13].因此采取遗传算法与BP神经网路相结合,训练时先用遗传算法对神经网络的权值进行寻找,将搜索范围缩小后,再利用BP网络来进行精确求解,可以达到全局寻找和快速高效的目的,并且避免局部最小问题.算法结束后,由群体中最优个体解码即可得到优化后的网络连接权值系数.

3基于HMM与遗传神经网络改进的语音识别系统设计

现有的语音识别系统只能处理平稳信号,而人说话的语言频率不一样使得语音信号是一个准稳态信号,这时就要把语音划分成若干帧以达到信号稳定的要求.但这存在的不足之处就是并没有考虑到语音信号的动态特性,根据神经网络在非线性映射方面有比较好的效果,同时神经网络也具有小波多分辨分析的性能,从而可以从样本中提取出来新的特征信息.本文采用基于HMM与遗传神经网络改进的语音识别系统,对输入语音信号进行预处理后,利用小波神经网络训练MFCC系数,然后根据HMM参数库进行Viterbi译码,归一化处理以后作为优化后遗传神经网络的输入,即将HMM中全部状态累计概率作为优化后的遗传神经网络特征输入,再根据神经网络的非线性映射能力对语音信号识别出所需要的结果.改进后的语音识别系统流程图如图3所示.

4仿真实验及结果分析

实验语音文件从十个人中采集,一个文件有中文数字1-9组成.每个人录了四次,其中三个用于培训和一个用于测试.记录格式的采样频率8kHz,单通道16位采样点,采取的帧长为256点.记录后,点检测去除无声段,其次是预加重.然后,语音段划分为20个帧,从每一帧中提取的特征参数.一个帧有10个特征.因此,每一个数字都会有200特点.实验训练集采取100个不同人员的净语音样本;在不同的信噪比下取50个不同人员的语音信息;在不同的环境下,采用的语音数据的信噪比分别为40、35、30、25、20、15、5和0dB.实验时,为了验证改进的语音识别系统的有效性,在Matlab7.0上分别对HMM,HMM与优化后的遗传神经网络和本文改进后的混合语音识别模型算法做对比.实验分为两次实验过程,第一次在加性高斯噪声下;第二次在学校餐厅学生就餐时人声为噪声背景.实验分别得出语音在加性高斯噪声下识别率如表1和图4;在学校餐厅时实验结果如表2和图5所示.由表1和表2中的实验数据可以看出,改进以后的混合算法相比单一的HMM和优化的遗传神经网络相比具有更好的识别效果,尤其对那些容易混淆的词语识别率也有所提高.对于识别系统的信噪鲁棒性方面也有了明显的改变,提高了语音识别系统的自适应能力.神经网络的收敛速度是衡量语音识别的一个重要标准,因此遗传神经优化算法与BP算法收敛速度作了如图6、图7的比较,实验结果表明,优化算法收敛速度得到明显改善.

5结论

本文提出了基于隐马尔可夫HMM与遗传算法的神经网络改进的语音识别系统,在隐马尔可夫模型与遗传网络算法优化的基础上,引入小波神经网络训练MFCC系数,充分利用了隐马尔可夫模型强大的时间建模能力与遗传算法优化后的收敛速度快、分类识别能力强的优点.小波神经网络训练出的MFCC新系数应用到优化后的神经网络具有更高的识别率,提高了识别系统的自适应能力.

参考文献

1吕军,曹效英,徐宝国.基于语音识别的汉语发音自动评分系统的设计与实现.计算机工程与设计,2007,28(5):1232–1235.

2郭超,张雪英,刘晓峰.支持向量机在低信噪比语音识别中的应用.计算机工程与应用,2013,49(5):213–215.

3SemanN,BakarZA,BakarNA.TheoptimizationofArtificialNeuralNetworksconnectionweightsusinggeneticalgorithmsforisolatedspokenMalayparliamentaryspeeches.2010InternationalConferenceonComputerandInformationApplication(ICCIA).IEEE.2010.162–166.

4LanML,PanST,LaiCC.Usinggeneticalgorithmtoimprovetheperformanceofspeechrecognitionbasedonartificialneuralnetwork.FirstInternationalConferenceonInnovativeComputing,InformationandControl(ICICIC’06).IEEE.2006,2.527–530.

5王晓东,薛宏智,马盈仓.基于自适应遗传算法的神经网络字符识别.西安工程大学学报,2008,22(2):210–213.

6钟林,刘润生.新神经网络结构及其在数码语音识别中的应用.清华大学学报(自然科学版),2000,40(3):104–108.

7包亚萍,郑骏,武晓光.基于HMM和遗传神经网络的语音识别系统.计算机工程与科学,2011,33(4):139–144.

8冯宏伟,薛蕾.基于HMM和新型前馈型神经网络的语音识别研究.计算机工程与设计,2010,(24):5324–5327.

9肖勇,覃爱娜.改进的HMM和小波神经网络的抗噪语音识别.计算机工程与应用,2010,(22):162–164.

10PanST,WuCH,LaiCC.Theapplicationofimprovedgeneticalgorithmonthetrainingofneuralnetworkforspeechrecognition.SecondInternationalConferenceonInnovativeComputing,InformationandControl(ICICIC’07).IEEE,2007.168–168.

11AggarwalRK,DaveM.ApplicationofgeneticallyoptimizedneuralnetworksforHindispeechrecognitionsystem.2011WorldCongressonInformationandCommunicationTechnologies(WICT).IEEE.2011.512–517.

12AnM,YuZ,GuoJ,etal.TheteachingexperimentofspeechrecognitionbasedonHMM.The26thChineseControlandDecisionConference(2014CCDC).IEEE.2014.2416–2420.

语音识别系统范文第3篇

关键词:语音识别;孤立词;动态时间规整;朝鲜语

中图分类号:TP319文献标识码:A文章编号文章编号:16727800(2013)0010010304

作者简介:王晓丹(1981-),女,硕士,延边大学工学院讲师,研究方向为语音识别、模式识别;金国哲(1983-),男,硕士,延边大学工学院讲师,研究方向为游戏软件。

0引言

语音识别是让机器自动识别和理解语音信号,并把语音信号转化为相应的文本或命令的技术[1]。语音识别技术的解决将不仅使计算机成为普通百姓得心应手的工具,而且对于许多机器的操作、生产过程的控制,还有通信、口语机器翻译等领域来说,语音识别都大有用武之地[2]。目前,信息产业发展迅速,方便、快捷、高效的电子产品越来越受到用户的青睐。语音识别作为人机交互的一项关键技术,具备了这样的特点,特别在一些特定的环境或是对于一些特定的人,语音识别可以带来很大的方便。语音识别系统实际上属于一种模式识别系统,它包括特征提取、模式匹配、参考模式库等基本单元,其原理如图1所示。

输入的模拟语音信号首先进行预处理,包括预加重、分帧处理、数模转换、自动增益控制等过程。为了从每一个词条中提取出随时间变化的语音特征序列,作为一个模型保存为参考模板,就要对预处理后的语音信号进行特征参数提取。待识别的语音信号同样经过特征参数提取后生成测试模板。对语音的识别过程即是将测试模板与参考模板进行匹配的过程,识别结果即是相似率最高的一个参考模板。对于输入信号计算测定,再根据若干准则和专家知识,来判决选出最终结果并由识别系统输出。语音识别系统设计要考虑服务对象、词表大小、工作环境、发音方式、任务性质等许多因素,不同的应用需要采用不同的方法实现,才能达到理想的效果[3]。本文所采用的朝鲜语紧急呼叫号码的语音识别系统采用后文所述的几个步骤和方法。

1预处理

本设计中对语音信号的预处理过程包括预加重、分帧处理及窗化处理。

1.1语音信号的预加重

采用预加重方法处理语音信号能补偿语音信号的固有衰落,而且能有效地消除唇辐射的影响[4]。该方法的传递函数为:H(z)=1-0.94z-1(1)

设S(n)为输入的语音信号,经过预加重后得到的信号为:

中找出语音的开始和终止点。确定语音信号的起止点能更好地对语音信号进行识别,从而提高系统识别率和获取到更好的语音特征参数。端点检测的常用方法有短时过零率、短时平均能量、基于熵的特征、短时频域处理等几种[6]。本文中端点检测部分选择短时平均能量和短时过零率相结合的方法。清音的过零率要高于浊音和静音部分,因此短时过零率可用于确定清音。而浊音和清音的时域能量要高于静音部分,所以短时时域平均能量可用于确定浊音。在进行语音检测时,首先找出哪一帧语音的能量超过能量门限,然后往前根据过零率确定语音的起点,同样方法可确定语音的终点。

2特征提取如何选择语音特征直接关系到最终的识别效果。每段语音经过特征提取后具有了各自的特征值,特征间的距离量度反映出语音间的相似度。因此特征选择的标准应使得异音字特征间的距离尽量大,同音字间的距离尽量小。同时,在保持高识别率的情况下,还应尽量减少特征维数,以减小特征参数的计算量。人耳对200Hz到5kHz之间的语音信号最为敏感,高音不容易掩蔽低音,反之则较容易,高频处的声音掩蔽的临界带宽较低频端小。因此本文的朝鲜语孤立词语音识别系统首先采用在Mel频率轴上均匀分布的三角形滤波器,设

图3语音识别仿真过程

Step3:对分帧处理后的每帧信号求MFCC系数。Step4:通过DTW算法求出测试模板与参考模板的特征参数,选择差值最小的作为输出结果。语音控制器选用“Cool Edit Pro V2.1”进行录音采样。Cool Edit Pro 是美国 Adobe Systems 公司开发的一款功能强大、效果出色的多轨录音和音频处理软件。该软件可提供多种特效为作品增色,如压缩、扩展、延迟、降噪、回声、失真等。并且可同时在几个文件中进行剪切、粘贴、合并、重叠声音的操作,还可以生成静音、噪音、低音、电话信号等。本文采样率为8 000Hz,声道为单声道,采样精度为16位。语音库需要对朝鲜语的“”、“”、“”、“”、“”这几个词进行录音采样。采集到的音频信号,经过Matlab提供的wav文件读写函数,以及声卡的录音和放音函数,可以实现某些语音信号处理工作。语音工具箱voicebox为实现语音识别提供了许多实用函数。本语音识别系统的文件包含15个模板语音文件,25个语音库文件和5个处理函数。

以下分别就5种韩国紧急电话号码进行了识别实验,并对结果进行了部分截图,实验结果包含模板波形图和测试结果。第一组是天气预报电话号码131;第二组是报警电话号码112;第三组是火警电话号码119;第四组是电话咨询号码114;第五组是海洋咨询电话号码。如图4和图5是分别对韩国火警电话119的采样后的语音波形图和识别结果。

通过对特定人朝鲜语呼叫号码的语音识别结果的分析,可以得出以下结论:①在语音库样本数量足够,相关被测人数适当的情况下,DTW算法能够有效地识别语音控制指令;②识别效果与测试内容紧密相关,对于、这类数字,该算法完全可以准确识别出结果;③对

于有连读发音的号码、、等,由于个人发音特点的差异,该算法会偶尔出现识别错误的现象,但错误率在6%以下。

5结语

本文实现了朝鲜语紧急呼叫号码语音识别系统的软件算法部分。其过程主要包括:语音预加重处理、短时能量和过零率两级端点检测算法进行端点检测、MFCC算法进行语音特征参数提取等。综合考虑环境、算法复杂度等因素,DTW算法能够既简单又有效地识别朝鲜语紧急呼叫号码。通过MATLAB仿真实验,验证了该算法识别朝鲜语词汇的准确率较高。出错的主要原因有:①静音部分过长和无静音时的差别;②朝鲜语发音规则决定个人发音特点的差异较大。这些问题都有待进一步研究。

参考文献:

[1]MOKBEL, CHAFIC E,CHOLLET,et al.Automatic word recognition in cars[J].IEEE Transactions on Speech and Audio Processing,2005:346356.

[2]陈尚勤.近代语音识别[M].成都:电子科技大学出版社,1991.

[3]高宏涛,张德贤.语音识别技术研究及实现[J].光盘技术,2007,(3):2428.

语音识别系统范文第4篇

关键词:语音识别;Sphinx;隐马尔科夫模型;声学模型;语言模型

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)07-0154-02

目前主流的语音识别算法田有隐马尔科夫模型12’和深度神经网络 。对于建模单元统计概率模型描述,主要采用混合高斯模型(GMM),HMM-GMM模型在很长一段时间是语音识别声学建模的主流模型。2011年微软在深度神经网络领域取得突破并成功应用于语音识别,深度神经网络因具有更加优异的特征学习和特征表达能力成为研究的前沿。深度学习在语音识别中取得了较好的效果,但其需要的海量数据训练以及大规模并行运算无法在嵌入式平台上实现。

本文在嵌入式平台上搭建一个机器人的控制命令小词汇量汉语语音识别系统,通过收集录制控制命令的训练和测试语音数据,设计训练过程需要用到的脚本,本文完成了控制命令的声学模型和语言模型训练,最终使用训练好的模型文件构建了一个以Sphinx为识别引擎的机器人语音识别系统。

1基于HMM的语音识别算法

一个典型的语音识别系统结构如图1所示,包括预处理单元、特征提取单元、模式匹配单元、模型库建立单元四个部分。

HMM模型可表示为λ=(A,B,π),A为状态转移矩阵,B为观察值概率矩阵,π为初始状态概率分布,N表示马尔可夫链状态数目,M表示观察值个数。在本文应用中,主要运用HMM模型解决控制命令的识别问题和声学模型训练问题。

1.1语音识别算法识别问题

识别问题:给定观测序列o={o1,o2,…,oT)和模型λ=(A,B,π),确定产生最优O的状态序列。识别问题主要用于识别过程中解码,识别问题的基本算法为Viterbi算法,具体过程由以下公式迭代计算:

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

1.2语音识别算法训练问题

训练问题;给定观测序列O={o1,o2,…,oT)和模型λ=(A,B,π),如何得到一个最优的HMM模型,即通过训练模型中各个参数使得P{O|λ)取最大值。语音识别中用于声学模型的训练基本算法有Baum-Welch算法,实现过程如下:

(9)

(10)

将ξ(i,j)对#从1到T求和可求得状态Si到Sj的转移期望值,将γt(i)对t求和可求得从其他状态访问状态Si的期望值,这两个过程就是Baum-Welch算法基本思想。

2基于sphinx的机器人语音识别系统构建

2.1实验系统与设置

机器人语音识别系统设计如图2所示:

嵌入式主控平台主要负责语音识别,识别麦克风传人的语音控制命令,再通过无线模块与机器人通信,最终实现了语音命令控制机器人的效果。选择的命令包括“前进”、“后退”、“左转”、“右转”、“停止”、“启动”、“开灯”、“关灯”、“开电源”、“关电源”。

2.2数据准备

数据准备主要分为语言模型数据和声学模型数据两大部分,下面分别介绍。

2.2.1语言模型数据准备

本文使用CMUClmtk工具进行语言模型训练,CMUClmtk将统计控制命令文本数据产生以单个词建立的N_Gram模型。N-Gram模型的基本思想是,当前词的出现只与该词前面出现的所有词有关,各个词出现概率的乘积就是整个句子出现的概率。从语料中统计每个词同时出现的次数可得到各个词的概率,准备好用于语言模型训练的语言数据之后,CMUClmtk将统计文本文件中每个词出现的次数和词的总数,然后列举文本中出现的每一个词的n元语法,最终转换为Sphinx需要的二进制格式(DMP)语言模型。

2.2.2声学模型数据准备

声学模型数据准备首先需要录制用于训练和测试的原始语音文件,然后准备字典文件,字典文件包括主字典文件和补充字典文件,主字典文件中包含了需要进行训练的控制命令以及与控制命令相对应的音素集,补充字典主要列举了非语音单词,它包括静音,背景噪声等。下一步将字典文件通过命令脚本生成音素文件,音素文件包含所有训练的音素集。

2.3模型训练

首先对训练的语音信号提取特征向量,Sphinxtrain采用提取梅尔频率倒谱系数(MFCC)作为特征向量。下面分别为字典中每个音素建立上下文无关模型(CI-modds),并为音素关联状态建立上下文有关模型(CD-unfied models)以及建立决策树,可以通过决策树聚类的方法来减少参数数量。下一步将为音素训练最终聚类后的CD模型(CD-tied models),删除插值是一个为了减少过度拟合的一个迭代过程,最终得到由均值文件、方差文件、混合权重文件和转移矩阵文件组成的控制命令声学模型。

2.4语音识别

在完成以上声学模型训练过程之后,系统会使用测试语音对训练好的声学模型进行解码。使用Viterbi算法计算概率最大路径的输出概率得到识别结果,系统会统计解码器对测试语音的错词率作为识别结果。

3结果及分析

本实验系统环境为Ubuntul2.04系统,在实验室环境录制了20名同学的语音,其中男10名,女10名,在无噪声环境下采用近距离麦克风录制,数据采样率为16kHz,16位量化编码,每位同学将以正常说话语速将10个命令录制10次,将10位男生和10位女生前5次录音作为训练数据,后5次录音作为测试数据,对训练好的声学模型进行测试,采用错词率(WER)作为标准来统计结果,假设有一个N个单词长度的原始文本和识别出来的文本。I代表入的单词个数,D代表被删除的单词个数,S代表被替换的单词个数,那么错词率就定义为:

WER=(I+D+S)/N (11)

系统的识别结果如表1所示:

测试语音的识别结果表明系统对十个单词都达到了较高的识别率,其中单词摞の缭的错词率最高为9%,单词搏V错词率最低为5%,整体来说十个控制的命令能平均错词率为7.1%。本系统识e结果表明训练所得声学模型良好,在Sphinx上构建语音识别控制平台取得较好的效果。

语音识别系统范文第5篇

关键词:语音识别;智能家居;HR7P194单片机

前言

随着科技的发展,语音交互逐步走了进人们的生活中。例如苹果手机中Siri和Win10系统中小娜都已被人们所熟悉,小米语音识别遥控器也给智能家居带来新体验。考虑到智能语音识别技术在未来科技和生活中的普及是必然,我国在上世纪末期已开展对其的研究。因此,将非特定性语音识别技术运用到智能家居中,并以语音控制方式进行控制家具电器设备,为人们的生活带来了很大的便捷[1]。

1 语音识别系统简介

语音识别技术其任务是将人类的声音转换成计算机可识别的信息。语音识别技术过程为:语音信号采集、预处理、特征信号提取、根据库模板测度估计、语音识别、语音输出[1]。

语音识别技术有两方面的应用[2]:一是连续语音大词汇语音识别系统,应用于听写机及语言信息查询服务系统;二是体积小、方便携带的语音设备,如智能手机、玩具、家电遥控器等。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术[3]。语音识别技术过程为:语音信号采集、预处理、特征信号提取、根据库模板测度估计、语音识别、语音输出。

2 系统主要硬件组成

2.1 语音识别系统的硬件总体设计

本系统包括语音信号采集模块、语音信号调理模块、单片机控制模块、语音识别模块、液晶显示模块、控制执行模块等[1]。

语音信号调理模块包括自动调整增益电路和带通滤波电路。语音信号强度会随传播距离的增加成指数下降,为了防止近距离出现饱和限幅现象,因此采用自动调整增益电路[1]。人类的语音信号主要分布在300Hz-3.4KHz,带通滤波电路可以有效地防止造成干扰,提高识别效率[1]。

2.2 单片机控制模块电路设计

市面上可用于语音识别的单片机多种多样,文章所用的是HR7P194单片机。HR7P194单片机具有单时钟周期短、运行速度快、性能稳定的特性,采用哈弗型RISC,66条精简指令集,工作频率最高16MHz,支持硬件除法器,支持17个中断处理,具有8KB Flash程序储存器、496字节的SRAM、1路8位定时器T8N、3路8位PWM时基定时器T8P1/T8P2/T8P3、1路16位门控定时器T16G、10位模拟数字转换器ADC、液晶显示控制器LCDC、41根I/O口线以及1个全双工异步串行口和1路IIC总线主控器IICM等。

HR7P194单片机控制模块最小工作系统电路如图1所示。

2.3 语音识别模块

以LD3320为核心的语音识别技术有语音识别和声音控制方面的优势,其优点是在不需要存储器及模数转换器的情况下,由HR7P194进行独立控制;此外LD3320是一款自定义关键词进行识别的芯片,用户语音操作便捷。

2.4 液晶显示系统

相较于其他显示方式液晶显示具有显示便捷、功耗小、使用寿命长的优势[4],基于液晶显示的优点文章采用LCD128*64液晶显示屏。LCD128*64这种通用模块其优点主要在能够显示文字、数字、字母及图形。利用该模块主要显示语音识别出的命令、处理器发出的控制指令及系统状态,同时利用其可以显示图形的特点,可以模拟显示人的声音动态波形,科技感更强。

3 系统软件设计

主程序开始先对包括单片机在内的所有元件进行初始化[4],包括单片机控制模块初始化、语音识别模块初始化、液晶显示模块初始化、控制执行模块初始化。初始化之后进行语音识别,通过对LD3320读写芯片的控制,获取语音命令,根据识别情况判断是否调用相应的子程序并进行数据处理,最后控制继电器和液晶显示。

4 系统测试

系统硬件实验平台设计、组装调试好后,通过东软载波单片机开发工具HR10M将程序下载到HR7P194单片机中。然后分别在一个没有噪音室内环境中和具有一定噪音的室外环境中进行语音训练。通过训练后分别在两种环境中进行测试:通过5人分别说出“开灯”“关灯”等命令来进行验证。实验结果为:语音识别系统对5种不同的声音均可良好的识别并做出相应的动作,在外界环境良好的状况下(无噪音的情况下),识别效率在92%以上;在具有一定噪音的室外环境中,识别效率有所降低,在85%以上。

经过长期、多次测试结果表明:本系统能够识别语音信息,识别效率高、性能稳定,适合智能家居环境的语音交互系统。

5 结束语

文章所构建基于HR7P194单片机和LD3320芯片的智能家居语音识别系统,能够有效地识别人的声音,实现语音控制电灯开关、风扇转速、电视及热水器等家用电器,同时东软载波单片机具有非常良好的稳定性,在后期产品稳定性测试中发挥重要作用。

参考文献

[1]陈涛,高必梵,艾菊梅.语音识别技术在智能家居控制系统中的应用研究[J].电子质量,2015(3):1-3.

[2]语音识别技术新热点――语音识别专用芯片[J].世界电子元器件,2002(2):26-27.