《人工智能—语音识别.ppt》由会员分享,可在线阅读,更多相关《人工智能—语音识别.ppt(12页珍藏版)》请在第壹文秘上搜索。
1、人工智能人工智能语音识别语音识别简介 语音识别技术就是让机器通过识别语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应和理解过程把语音信号转变为相应的文本或命令的高技术的文本或命令的高技术 通俗的说:也就是与机器进行语音通俗的说:也就是与机器进行语音交流,让机器明白你说什么交流,让机器明白你说什么语音识别的应用 语音识别的应用广泛,常见的应用系统有:语音语音识别的应用广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,语音控制系统输入系统,相对于键盘输入方法,语音控制系统,即用语音来控制设备的运行,相对于手动控制,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以
2、用在诸如工业控制、来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务订票系统、医疗服务、银行服务、股票查询服务等等等等。实现的方法 模式匹配法:模式匹配法: 在训练阶段,用户将词汇表中的每一词依在训练阶段,用户将词汇表中的每一词依
3、次说一遍,并且将其特征矢量作为模板存次说一遍,并且将其特征矢量作为模板存入模板库。入模板库。 在识别阶段,将输入语音的特征矢量依次在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。将相似度最高者作为识别结果输出。面临的主要问题 1.对自然语言的识别和理解。首先必须将连对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则。建立一个理解语义的规则。 2.语音信息量大。语音模式不仅对不同的说语音信息量大。语音模式不仅对不同的说话人不同
4、,对同一说话人也是不同的,例话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时如,一个说话人在随意说话和认真说话时的语音信息时不同的。一个人的语音信息时不同的。一个人 的说话方式随着时间变化的说话方式随着时间变化。 3.语音的模糊性。说话者在讲话时,不同语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉的词可能听起来是相似的。这在英语和汉语中常见。语中常见。 4.单个字母或词、字的语音特性受上下文单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和的影响,以致改变了重音、音调、音量和发音速度等。发音速度等。 5.环境噪声和干扰对语音识
5、别有严重影响环境噪声和干扰对语音识别有严重影响,致使识别率低。,致使识别率低。前端处理 前端处理是指在特征提取之前,先对原始前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映人带来的影响,使处理后的信号更能反映语音的本质特征。语音的本质特征。 最常用的前端处理有端点检测和语音增强最常用的前端处理有端点检测和语音增强 端点检测是指在语音信号中将语音和非语端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处信号的起
6、始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。型的精确度和识别正确率有重要作用。 语音增强的主要任务就是消除环境噪声对语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好滤波,该方法在噪声较大的情况下效果好于其它滤波器。于其它滤波器。系统实现 语音识别系统选择识别基元的要求是,有语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相
7、关的具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。能力,会使得性能急剧下降。 听写机:大词汇量、非特定人、连续语音听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的立在前述声学模型和语言模型基础上的HMM
8、拓扑结构。训练时对每个基元用前向拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,模型作为词间转移概率,形成循环结构,用用Viterbi算法进行解码。针对汉语易于分算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法码,是用以提高效率的一个简化方法。 对话系统:用于实现人机口语对话的系统对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话
9、系称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,库检索等等。其前端是一个语音识别器,识别产生的识别产生的N-best候选或词候选网格,由候选或词候选网格,由语法分析器进行分析获取语义信息,再由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信也可以用提取关键词的方法来获取语义信息息。前景 语音识别已经有五十多年的发展,已经有相对完善的分析过程和技术,但是设计过程还是有相当的难度 目前英语的语音识别使用工具相对较多,已经延伸到生活的各方面:像大家知道的很多手机的语音功能例如iphone4s的siri功能就相当的强大。所以现在的市场还是很大。