教学工作的资源分享

基于DTW改进算法的孤立词识别系统仿真与分析

教育教务系统

教育教务系统

中图分类编号: ' #$% $文献识别码:’文章编号: % () () ) ) ) )、(-) )、) )、) )-)

基于! /改进算法的孤立词识别系统仿真与分析

林波、吕明

((电子科技大学电子工程学院,成都,() () ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 65 )

摘要:传统的. 算法在进行孤立词语音识别时,侧重于时间规则和语音测度的计算,没有

分析数据的可靠性和有效性。 本文提出了一种改进的端点检测算法,并对其进行了改进

. 算法是在电脑上模拟的。 实验结果表明,采用改进的! 如果算法有效地降低了识别

减少数据量,提高系统性能。

关键词:孤立词; 端点检测; //; 语音识别

! ' #$% ' () ) )、(-)、() )、)、) ).*/(0*0.1(2) ) ) ) )

、’. # 3, * () ) ) ) 40 )5.*678%2(0) ) ) ) ) ) ) )。

01234,056789

()! 19 () ) (-1 :%.1 )0) )1) : ) )0) ); (5.0,) ) (-:%.1 )0) ) ) 1! 1 '.)1. ) * 7.19 ) (%(2(-9 ),9.) $,% ) (-,9 ) )

=3,’01’:=? 7748@ ./@94=7:A B4CDE; E 48 7A; F=G789 8? C4AGD748 4B EG; C: A; ED=; h

a; 8、ID 7? 4; E 84 AJ; G 8@KE7E 4B : ’87ag=4l; 8? G478? C748 @94=7:A 7E G=4G4E;

78 :7E GG;=!=; ED@748 4B 7E4@; F4=?=; C4987748 EKE; A 48 C4AGD;=E:4F :

7AG=4L;/@94=7:A C8=; 直流;=; C4987M789 7A; BB; C7L; @K 8? G=4L7? I;=G;=B4=A8C;

//(0*, 7E4@; F4=? 8? G478? C748; //; EG; C:=; C4987748

(引言

. 日程调整和距离测量计算相结合

非线性归一化技术[%]

利用动态时间伸缩计算

法有效地解决了孤立词识别时说话速度的不均匀性

问题是语音识别中比较经典的算法。 为了算法

由于容易实现,对硬件的要求也不高,所以被广泛用于小说语言中

孤立词语音识别与小词汇连接词语音识别系统

我猜对了。 但是, /算法对端点检测的精度依赖性高

很大,而且运算量很大。 笔者就是这样. 算法加深了

研究提出并同时采用了一种改进的端点检测算法

得到了改善! 算法被模拟了。 根据模拟数据,

改进的算法能有效地减少和提高识别时间和存储量

系统性能。

%识别系统设计

基于! /算法的孤立词语音识别系统主要是

语音输入、预处理、端点检测、

6; @倒谱特征参数提取、模板匹配、识别结果输出。

系统框图如图%所示。

图%孤立词语音识别系统的构成

收到稿件的日期: * (() ($ ) ) )

简介:林波(($n$ ) ),男,电子科技大学信号与信息处理专业研

研究生。 研究定向低信噪比下的语音识别技术。

! '! 语音预处理

语音信号的预处理部分主要包括预加重、分帧

打开窗户的三个步骤[#]。

预加重通过滤波提高高频分量,消除工频干燥

加扰通常通过一阶$%数字滤波器实现,系统函数为:

! () )! () ) )。

()! (接近! () )! )

语音信号具有短时间内平稳的特性,所以可以对话

音调信号进行分帧处理。 采用可逐帧移动的有限窗口

进行加权方法可以通过在帧间有部分重叠来实现

使帧之间的过渡平滑,并保持音频流的连续性。 果实

在检查中,帧长度为# ) *点,帧移动为*点,窗函数为

./01窗。

! ' #一种改进的端点检测算法

传统的端点检测算法采用短时域分析方法,

用短时间能量及短时间过零率判断端点,区分头发

音区和静音区。 短时间能量的计算基于框架进行,

如(# )所示。 短时间过零率是指1帧信号中波形横穿

零点的次数、该公式的定义如(2)所示。

$ () )!

’’!

(# )

() ) ) ) )

() ) )!

()!

’’!

3 () ) ) ) ) ) ) ) )4)! (三)二)。

清音信号有较高的过零率,浊音信号有

因为是高的短时间能量,所以在实用上通常被利用

零率检测清音,短时能量检测浊音,两者结合

实现端点检测。 上述传统的端点检测算法明显被忽略

受清音段短时能量的影响和浊音段的过零率的影响。

基于以上思想,笔者提出了一种新的加权方法

实现语音端点的可靠检测。 具体方法是对能量

量大的浊音信号对短时能量采用大加权系统

对#进行计数,短时间的过零率乘以小的权重系数*; 关于

短时间过零率高的清音段的信号相反,对短时间的能量采取

用小权重系数

#,而对短时过零率采用较大的加权系数 *。最后形成加权后的公式如())所示:+ ’ #$( %)4 *)( %) ())上式中,加权系数 #,* 的确定是非常关键的。它随着发音人性别、年龄、环境等因素的变化而变化,经过多次仿真实验验证,当 # ’ * "+5,* ’ * "#2时端点检测效果较好。

! "2 678 倒谱分析

语音特征参数提取是语音识别的关键问题,特征参数的好坏对于语音识别精度和识别时间有很大影响。研究表明,倒谱特征参数所含的信息量比其它参数多,能较好的表现语音信号,因此选用倒谱系数作为特征参数具有一定的优势。近年来,一种能够比较充分利用人耳特殊感知特性的参数得到了广泛应用,这就是 678 尺度倒谱参数(6$99)[2]。6$:99 的计算流程如下:!根据式 678

( ,)’ #;<;8(1 ! 4 ,=>**),将实际频率尺度转换为 678 频率尺度。

"在 678 频率轴上配置 - 个三角形的滤波器组,? 的个数由信号的截止频率决定。#根据语音信号幅度谱求每一个三角形滤波器的输出。$对所有滤波器输出做对数运算,再进行离散余弦变换即得到 6$99。

! ") 改进的 @AB 算法

在对每一帧语音信号提取 6$99 特 征 参 数 以后,就转化成了一组 6$99 特征向量。语音识别就是要将测试语音的这个特征向量同模板库中已存在的语音特征向量进行模式匹配,寻找距离最短的模式作为识别结果。在用 @AB 算法进行识别判决时,由于测试语音与参考模式语音长短不同,因此需要通过 @AB 动态计算两个长度不同的模式之间的相似程度,或者叫做失真距离。假设待测语音共有 & 帧矢量,参考模板共有 .帧矢量,且 & 一般不等于.,则动态时间规整就是寻找一个时间规整函数 / ’ 0( %),它将测试矢量的时间轴 % 非线性地映射到模板的时间轴 / 上,并使该函数 0 满足,

+ ’ ./0!&’ ’ !

1[ 2( %),3( 0( %))] (;)

式中,1[ 2( %),3( 0( %))]是第 % 帧测试矢量2( %)和第 / 帧模板矢量 3( /)之间的距离测度,+ 则是处于最优时间规整情况下两矢量之间的匹配路径。通常,规整函数 / ’ 0( %)被限制在一个平行四边形的网格内,如图 # 所示。它的一条边斜率为 #,另一条边斜率为 !=#。规整函数的起点是(!,!),终点为(C,6)。@AB 的目的是在此平行四边形内由起点到终点寻找一个规整函数,使其具有最小的代价函数,这样就保证了它们之间具有最大的声学相似特性。下面介绍一种改进的 @AB 算法:由于 @AB 算法在模板匹配过程中限定了弯折的斜率,因此许多格点实际上是到达不了的,即平行四边形之外的格点对应的帧匹配距离是不需要计算的。另外也没有必要保存所有的帧匹配距离矩阵和累积距离矩阵,— ;> —图 ! 匹配路径约束示意图

因为每一列各格点上的匹配计算只用到了前一列的三个网格。充分利用以上两个特点就可以对算法进行改进,实现减少计算量和存储空间的目的。

职业院校

职业院校

如图 ! 所 示,把 实 际 的 动 态 弯 折 分 为(",!"),( !" # ",!#),( !# # ",$),其 中 !",!# 为 满 足 式($)和(%)的最相近的整数。!" & "’

(!% ( $) ($)!# & !’

(!$ ( %) (%)

由此可以 得 出 对 % 和 $ 长 度 的 限 制 条 件,如())和(*)所示,当不满足这两个条件时,认为这两者差别实在太大,无法进行动态弯折匹配。!% ( $ ! ’ ())!$ ( % ! ! (*)在 ! 轴上的每一帧不需要与 & 轴上的每一帧进行比较,而只与 & 轴上相邻的部分帧进行比较。对于! 轴上每前进一帧,虽然所要比较的 & 轴上的帧数不同,但弯折特性是一样的,累积距离是由下式实现的:’( (,))& *( (,))# +,-[ ’( ( ( "),’( ( ( ",) ( "),

’( ( ( ",) ( !)]

由于 ! 轴上每前进一帧,只需要用到前一列的累积距离,所以只需要两个列矢量 ’ 和 * 分别保存前一列的累积距离和计算当前列的累积距离,而不用保存整个距离矩阵。这样就可以实现减少存储量和存储空间的目的。! ./01/2 仿真实验

本系统语音数据利用 34 机录制,采用 ""567 采样频率、"$2,0 量化、单声道的 34. 录音格式。帧长8 为 !9: 个语音点 ,帧移 . 为 ): 点。! ; " 改进的端点检测算法采用前面提到的改进的端点检测算法,首先为短时能量和短时过零率设置两个门限。一个是比较低的门限,对信号的变化比较敏感。另一个是比较高的门限,信号必须达到一定的强度,该门限才被超

过。整个端 点 检 测 过 程 可 以 分 为 四 段:静 音、过 渡段、语音段、结束。图 ’ 为语音信号“<”的采用传统算法的端点检测结果,图 9 为语音信号“<”的采用改进算法后的端点检测结果。对比两图可以看出,采用该改进算法后的端点检测结果比较准确,效果更加良好。图 ’ 传统端点检测算法的检测结果图 9 改进端点检测算法的检测结果! ; ! 改进的 =>? 算法

与普通实 际 频 率 倒 谱 分 析 不 同,.@44 分 析 着眼于人耳的听觉特性,因为人耳所听到声音的高低

与声音的频率并不成线性正比关系,而 用 .A1 频 率尺度则更符合人耳的听觉特性。经过 .@44 特征参数提取后,各帧信号就形成了一个个特征矢量。识别时,将待测语音与模板库中的每一个模板进行模式匹配,找到距离最小的作为输出结果。表" 为测试语 音 与 标 准 模 板 库 之 间 的 失 真 测 度,采 用的算法是传统 =>? 算法。表 " 中行 表 示 数 字“" B$”的标 准 模 板 库,列 表 示 数 字“" B $”的 测 试 语 音。表 ! 为采用改进的 =>? 算法计算得到的测试语音— )< —

与标准模板库之间的失真测度。

表 ! 传统 "#$ 算法的测试语音与模板库距离! % & ’ ( )

! !&* + ,’ ’’) + ! %)! + &* %-) + &% %%( + %* !)( + -*% &() + %* )! + ’,- %.’ + ’( ’,% + -* %-% + ’! &,) + .-& &%% + *% &(% + && .% + -&& !’, + )! %%’ + !. %’) + &’’ &., + !) ’)% + (. !’) + (. -’ + .’ %’. + % %)! + -!( &(% + -’ &,) + %’ %(, + %’ &!- + !. !!’ + -% %%% + -() !.( + %- &.- + (& %,( + % %(’ + !% !(* + *’ !!& + -!表 % 改进 "#$ 算法的测试语音与模板库距离! % & ’ ( )

! .% + ’-( %&! + (’ !). + ’. %,- + ,* !() + % .- + (-&% %.’ + ’ (* + )&’ %&- + -& &!) + )% %’* + ,% !)- + -%& !*- + !& !*( + ,! )! + ,&! !(- + % !%, + ,( !%’ + &(’ !.! + (! %,- + ’ *% + ’&& (* + &-( !&* + !’ !%- + &.( !-( + ’! !-& + -* !)) + )) %’( + )) *! + )%’ !!) + ’)) !)& + ,. &,’ + )- !.( + *! %’* + )’ !&! + )! .- + *&*对比两表中数据可以看出,在完全相同的条件下,采用传统 "#$ 算法和改进的 "#$ 算法,语音样本“! / )”均和模板库中的模板“! / )”有最小的距离,因此具有较好的相似性,即都取得了较好的识别效果。

但是,采用改进后的 "#$ 算法计算得到的距离明显小于传统的 "#$ 算法。同时在仿真过程中,笔

者对仿 真 时 间 做 了 粗 略 的 记 录,发 现 采 用 传 统 的"#$ 算法对测试语音“! / !,”进行 012314 仿真总耗时大约 !( + -5,而采用改进后的 "#$ 算法用了大约!! +*5。通过上述仿真结果比较,可以看出:采用改进的 "#$ 算法优化了匹配后的距离,有效的降低了系统识别时间和数据存储量,因此在一定程度上提高了系统性能。& 结论

"#$ 算法较 600 算法运算量小,在基于孤立词小词汇量的语音识别系统有着较为广泛的应用。采用改进的 "#$ 算法与传统 "#$ 算法相比较,前者有效的降低了系统识别时间,改善了系统性能。但是,由于 "#$ 算法对端点检测的精度过分依赖,同时计算量较 78 算法大,因此 "#$ 算法还有许多需要改进和提高的地方。参 考 文 献:

[!] 胡航 9 语音信号处理[0]+ 哈尔滨:哈尔滨工业大学出版社,%,,,:!)- : !)* +[%] 赵力 9 语音信号处理[0]+北京:机械工业出版社,%,,&:&! : ’(+

[&] #;<=15 >+ 8?13@AB@,"@5CBA2A : #@=A DEAAC; D@FG13 HB江苏教育信息化

江苏教育信息化

5A (上接第 (( 页)人工神经网络、循环统计量等新理论新方法用于均衡技术[!% / !&],不断设计出新的具有更好性能的均衡器。

参 考 文 献:

[!] 8@? #,#1GF 6,P;1 "+ Q1E2?BA EB152 1GN 3[’] IA3K@[(] D12< \+ S =A2;[*] D;OGV Z+ >BAY?AGCO : N<=1@G 1GN =?32@B12A 1N1E2@TA K@32AB@GF[Z]+MLLL 5@FG13 EBM‘ 2B1G5TAB513 K@32AB@G[F Z]+ MLLL #B1G5 + aG Q<==+,!*.,,C<= : %.:!.)- : !.-(+[!%] H1B@5@ ‘,Q31?N@< L ",aB31GN@ ],A2 13+ >152 1N1E2@TA N@F@213 AY?1[3@R12@[!&] 612R@G1V<5 "+ ^基于DTW改进算法的孤立词识别系统的仿真与分析作者: 林波, 吕明, LIN Bo, LV Ming作者单位: 电子科技大学电子工程学院,成都,610054刊名: 信息技术英文刊名: INFORMATION TECHNOLOGY年,卷(期): 2006,""(4)

被引用次数: 4次参考文献(3条)

1.胡航 语音信号处理 20002.赵力 语音信号处理 2003

3.Thomas F Qualieri,Discrete-Time Speech Signal Processing 2004相似文献(10条)1.学位论文 沈怡 特定人孤立词汉语识别系统的研究 2004

随着语音识别技术的深入研究,特定人中小字表孤立词语音识别技术己基本成熟并逐渐开始应用于家电产品、智能玩具等领域.该文以实用化为目的,对中小字表孤立词语音识别算法进行探索,为声控智能电子产品的识别内核开发奠定基础.该文循着一个特定人孤立词语音识别系统的处理过程,从信号前端处理(数字采样、预加重滤波、加窗分帧)开始,分别介绍了语音信号的端点检测、特征参数提取以及孤立词识别方法,并对每个步骤可用的几种方法在实验基础上进行了分析对比.其中识别算法部分该文对经典的DTW进行了改进,成功地提高了识别率.最终,根据所选参数和识别算法编制了一个特定人、小词汇量、孤立词语音识别软件.具体的研究工作为:1.研究语音信号的预处理和特征参数提取.内容涉及语音信号的数字化、加窗处理、预加重滤波、端点检测,及时域特征向量和变换域特征向量.其中端点检测采用双门限法.2.研究特定人孤立词识别算法,包括DTW识别法、VQ识别法、HMM识别法以及神经网络识别法.3.分析比较了LPCC倒谱系数和美尔倒谱系数,最大距离和平均距离失真度的识别效果,最终选定含有差分MFCC的MFCC参数作为识别参数,同时对传统的DTW算法提出了改进措施,放宽端点位置后取得了不错的效果.4.设计并实现了一个特定人孤立词识别系统.进行了相关实验,对实验结果进行了讨论.2.学位论文 胡钢 汉语孤立词语音识别算法分析与研究 2003

本文首先分析了语音识别研究的历史和现状.在分析了各种语音识别基本方法的基础上,根据汉语语音的特点,选择了汉语孤立词语音识别算法分析与研究这一课题.作者给出了基于VQ/HMM汉语孤立词语音识别系统的构成.本文详尽分析了语音识别的相关基础理论,并将它们应用到本文中.在分析现有各种理论的基础上,对原有一些识别方法进行了改进以达到提高语音识别率的目的.在研究了语音端点检测各种方法基础上,作者根据汉语的结构特点,提出一种基于背景噪音动态估计的语音端点检测方法,较一些常规的端点检测方法如基于能量的端点检测方法,具有更高的精度和鲁棒性.3.期刊论文 张岳.韩子丹.戴志强.ZHANG Yue.HAN Zi-dan.DAI Zhi-qiang 普通话孤立词语音端点检测的分形维方法研究 -中国传媒大学学报(自然科学版)2006,13(1) 本文通过对语音信号产生机制的分析,将分形维方法用于普通话孤立词语音信号起止端点的检测.实验中将分形维方法的结果与两种传统的语音端点检测方法进行了比较.实验结果表明,使用分形维方法对在实际的普通实验室环境下录制的孤立词语音进行端点检测不仅切实可行,而且还可以取得比传统方法更高的正确率.

语音识别以语音信号为研究对象,是语音信号处理的一个重要研究方向,是模式识别的一个重要分支。随着现代计算机技术的发展,计算机的使用越来越深入到人们的日常生活中。人类与计算机进行交流时,最直接和方便的方式就是语言交流,所以语音识别已成为现代计算机技术研究和发展的重要领域之一。

本文对语音识别系统进行了概要的阐述,并提出了一种小词汇量孤立词语音识别系统的实现方法。论文首先对语音识别系统中涉及到的基本概念及原理进行了简单的分析,之后分别针对语音识别系统中预处理阶段的端点检测算法、语音信号的特征提取算法以及模式匹配和模型训练算法进行了深入的理论研究。采用“双门限”法实现语音端点检测,在实验室环境下取得了较为理想的检测效果;系统地研究了语音识别系统各种主要特征参数的提取方法,特别分析和研究了线性预测分析系数(LPC)和美尔频率倒谱系数(MFCC)的提取方法;针对模式匹配和模型训练问题,本文采用了基于连续概率密度隐马尔可夫模型(CDHMM)的语音识别模型。实验证明,在信噪比较低的实验室环境下,该模型取得了良好的识别结果。5.学位论文 曾靓 小语音库的语音识别及实现 2009 随着语音识别技术的深入研究和广泛应用,语音识别技术已基本成熟并逐渐应用于人们生活中的各个领域。本文对中小字表孤立词和连续词语音识别系统进行仿真,从而对提高正确分割率和识别率的算法进行探索。

本文按照一个特定人语音识别系统的处理过程,从信号预处理(数字采样、预加重滤波、加窗分帧)开始,分别介绍了语音信号的基础知识、实用化模型、端点检测、特征参数提取、语音训练和识别方法,并对每个步骤可用的几种方法进行了对比分析。其中本文对传统的连续词端点检测分割算法,进行了改进,成功地提高了分割正确率。最终,根据所选参数和语音分割识别算法编制了一个特定人小词汇量语音识别软件。论文具体的研究工作为: 第一,研究语音信号的预处理和特征参数提取。内容涉及了语音信号的数字化、加窗处理、预加重滤波、端点检测,及时域特征向量和变换域特征向量。

第二,研究特定人孤立词和连续词分割识别算法,包括基于能量和过零率的端点检测以及分割算法,DTW识别法,HMM识别法以及神经网络识别法。 第三,分析比较端点检测和分割结果,对传统的端点检测和分割算法进行了改进,并提出了一种利用短时能量的图像特征,根据图像的波峰波谷而进行语音分割的新算法。经实验证明在特定的背景要求下,该算法取得了比较好的正确分割率。 第四,设计并实现了一个特定人孤立词和连续词识别系统。进行了相关实验,对实验结果进行了讨论和分析。6.期刊论文 一种基于DTW的孤立词语音识别算法 -计算机仿真2009,26(10)

针对动态时间规整(DTW)对孤立词端点检测准确性过度依赖的问题,针对上述问题,采用放宽端点和限定动态规整计算范围结合的算法,不仅更准确的放松前后端点降低端点检测的敏感度,而且结合对动态规整计算范围的限定,减少计算量,提高执行效率.分别测试了基于传统DTW算法的识别率和改进后DTW算法的识别率.实验结果表明,改进后的算法.能有效提高孤立词识别率.7.学位论文 时晓东 孤立词语音识别系统设计研究 2006

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。随着大规模集成电路技术的发展,语音识别技术的研究方向开始步入后PC时代,以嵌入式语音识别芯片为主。 本文对语音识别系统进行了概要的阐述,并提出了一种基于小码本孤立词语音识别系统的硬件实现方法。并根据预处理单元、特征提取单元的特点,提出了一种更适合硬件实现的算法改进。并给出了硬件实现的框架结构。在预处理单元,为了简化硬件设计难度及提高识别的精度,从两个方面做了工作,一是对预加重模块采取了近似法,并在计算能量的除法中利用左移而成功避免了除法器的设计;二是在端点检测上进行了算法改进,分别采用了动态窗长及零能积差的阈值判决法。从实验结果来看效果比较理想。在特征提取上,摒弃了在软件设计中常用的杜宾法求解自相关方程的方法,而采用更适于硬件设计的舒尔法。进一步优化了硬件设计。 本文的重点内容是模式匹配单元的实现。根据系统要求,设计了一种基于DTW算法的模式匹配算法,由于是基于孤立词并且是小码本的,所以采用DTW算法是比较理想的选择,但DTW算法有两个最大的缺陷:一是对端点的敏感性;三是运算量较大。在这个问题上我们采取了折中,在传统的加速算法上进行了改进,采用了半宽松式的端点对准。这样做有两个好处:一是使得DTW算法对端点的敏感性得以大大改善;二是改进后的半宽松式的端点对准更适于硬件的实现。从实验结果来看取得了较好的效果。

8.学位论文 罗俊光 基于DSP的嵌入式非特定人孤立词语音识别系统的研究与设计 2007

语音识别是一种最为理想的人机通信方式,随着计算机技术的进步,语音识别技术已经逐渐应用于控制、通信、消费等行业。语音识别既是理论问题,也是一个工程化问题。它综合多学科的理论成果,如声学、语音学、语言学、生理学、数字信号处理、信息工程、计算机科学、模式识别、人工智能等。怎样让语音识别推向更广泛的实用领域是目前语音识别技术研究的热点。 论文主要从嵌入式系统平台的角度出发,对非特定人的孤立词语音识别算法进行研究。考虑到语音识别技术在嵌入式系统处理能力较弱、存储空间有限的问题上进行算法的选择和优化,以提高系统的鲁棒性,减少系统的响应时间,改善系统的占用的资源。

论文研究了语音识别的基本原理和各种语音识别算法的特点,比较并选取了有效的非特定人孤立词语音识别算法,对其在嵌入式系统平台下的实现问题进行了探讨,最后利用MATLAB对本非特定人孤立词语音识别的算法进行了分析与仿真。

语音识别的主要流程包括:语音信号的预处理、端点检测、特征提取、建立语音模板库、模式匹配。论文对语音波形的特征进行线性预测分析(LPC),利用动态时间规整技术(DTW)对模板进行匹配和聚类的方法建立模板库。对于孤立词的语音识别,端点检测是关键,论文在双门限检测法的基础上加入了可变门限端点检测法,对语音端点检测的准确度有一定的改善。通过MATLAB仿真对算法的可行性进行了验证,本语音识别系统具有较高的识别率。9.学位论文 江官星 非特定人孤立词语音识别系统的研究 2006

语音识别作为一个交叉学科,具有深远的研究价值。语音识别和语音合成技术已经成为现代技术发展的一个标志,也是现代计算机技术研究和发展的一个重要领域。虽然语音识别技术已经取得了一些成就,也有部分产品面世,但是,大多数语音识别系统仍局限于实验室,远没有达到实用化要求。制约实用化的根本原因可以归为两类,识别精度和系统复杂度。 本文针对汉语语音识别面临的理论和技术问题,研究了汉语语音识别技术及其实现方法。

论文首先分析了语音信号预处理问题。对端点检测算法进行了部分改进,提出了一种动态双门限端点检测算法。对MFCC倒谱系数在语音识别中的运用做了详细介绍。 其次研究了基于DTW的语音识别系统,针对DTW算法中系统识别性能过分依赖于端点检测、动态规划的计算量太大等缺陷,分别提出了快速DTW算法和端点松动的DTW算法,仿真结果比较理想。

继而研究了基于HMM的语音识别系统。针对HMM在实际应用中的优化计算问题,包括初始模型选取,定标等进行了深入的分析与探讨。针对传统定标仍能溢出的问题,给出了无溢出的参数重估公式。研究了基于“矫正训练算法”的非特定人DHMM识别系统,并进一步把该算法推广到非特定人CHMM识别系统中。仿真结果显示识别率有一定的提高。 论文建立了一个由11人组成的语音数据库,包括数字0~9,“西”、“南”、“交”、“通”、“大”、“学”共16个样本元素,528个发音。本文所有的仿真试验数据均来自该数据库。论文最后探讨了C++与MATLAB的混合编程问题,并用之于HMM模型训练。既提高了程序的运行效率,同时也为全部用C++编程提供了参考。10.期刊论文 冯国友.戴扬.沈海斌.时晓东.FENG Guo-you.DAI Yang.SHEN Hai-bin.SHI Xiao-dong 孤立词语音识别中端点检测加速器的设计与实现 -电子器件2007,30(3)

传统的语音端点检测方法以信号的短时能量、过零率等简单特征作为判决特征参数.这些方法在实际应用中,尤其当信号信噪比比较低时,无法满足系统的需要.文中利用零能积差作为判决采样信号帧是否为语音信号的依据,并通过了硬件来实现.结果表明,该模块较传统方法在保证高识别率的同时,提高了模块的速率,减小了面积,具有一定的实用价值.引证文献(4条)

1.刘其洪.李仲阳.徐孟龙 基于语音识别的智能家居系统研究[期刊论文]-信息化纵横 2009(14)2.姚徐.李永宏.单广荣.于洪志 藏语孤立词语音识别系统研究[期刊论文]-西北民族大学学报(自然科学版)2009(1)

3.张震宇 基于Matlab的语音端点检测实验研究[期刊论文]-浙江科技学院学报 2007(3)4.马莉.党幼云 特定人孤立词语音识别系统的仿真与分析[期刊论文]-西安工程科技学院学报 2007(3)本文链接:http://d.wanfangdata.com.cn/Periodical_xxjs200604018.aspx授权使用:中国科学院声学研究所(中国科学院声学研究所),授权号:02e6d86f-7efa-4958-bd6c-9e06011327e0下载时间:2010年10月5日

随机看看

NEW ARTICLE

标签

Tag