您的当前位置: 首页 > 新闻中心 > 行业知识 > 什么是语音交互技术?优势、系统架构与发展现状分析

什么是语音交互技术?优势、系统架构与发展现状分析

什么是语音交互技术?

语言是人际交流的最习惯、最自然的方式。语音交互技术是一种综合技术,以语音为基础信息载体,使得机器具有像人一样“能听会说、自然交互、又问必答”的交互能力。语音交互涵盖语义分析和理解、知识构建和自我学习能力、大数据处理和挖掘等一系列新兴技术领域。

语音交互过程包括四部分:语音采集、语音识别(ASR)、自然语言处理(NLP)和语音合成(TTS)。语音采集这个过程是完成音频的录入、采样及编码;语音识别完成语音信息到机器可识别的文本信息的转化;自然语言处理根据语音识别转换后的文本字符或命令完成相应的操作;语音合成则完成文本信息到声音信息的转换。

语音交互系统架构

用户界面连接用户和系统,用户和系统的特征都决定着用户界面的设计。语音交互系统包含以下三个主要部分,这三部分依次进行完成一轮人机交互。

(1)语音识别(Automatic Speech Recognition,ASR):系统通过麦克风阵列采集用户的语音,并转化成文本;

(2)自然语言处理(NLP)对语义进行解读,并生成回复,有些研究中也将这一环节分为自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generation,NLG)。

(3)语音合成(Text to Speech,TTS):系统将回复的信息转化成语音,并反馈给用户。

什么是语音交互技术?优势、系统架构与发展现状分析

全球语音交互技术发展现状

自从1952年IBM开始研究机器对人类语音的识别检测开始,对机器接收并理解语言的研究便从未停止。近20年来,语音交互界面取得了长足的发展,并将情感化的理解和表达引入了认知科学领域,以增强人工智能的类人化交流属性。

在2000年日本研究者提出了一种基于声学特征的语音情感识别方法,能够在一定范围内理解人类常见的8种情绪状态:平静、愤怒、伤感、快乐、憎恶、惊叹、烦恼和恐惧。并且该方法适用于任何语言使用地区和任意性别、年龄的检测,并基于该研究,开发了能够感知用户情绪信息的语音交互系统(VIS)。系统VIS可以与用户进行互动,同时可以根据用户的话语更改其响应状态。

微软研究院于2011年,提出 DNN—HMM(深度神经网络和隐马尔可夫模型)算法,经过海量数据的训练,显著提升在大量词汇连续语音识别任务上的性能,DNN算法的出现使语音识别错误率首次实现大幅度降低。中国科大讯飞首个深度神经网络中文语音识别系统上线基于DNN的声纹识别率提升了30%。

2016年,Tacotron、WaveNet上线,实现远场语音识别和唤醒,也在一定程度上提升了语音识别的准确率,此时的语音识别准确率在理论上可以达到98%,这也意味着智能语音技术市场化适用期的到来"。

得益于人工智能技术的快速发展,语音交互的核心环节(语音识别、语义理解和自然语言生成)取得了一系列突破性进展。在我国,截至目前约有超过250家企业参与智能语音语义市场,根据国家工业信息安全发展研究中心数据显示,2018年底我国语音识别与自然语言处理技术合计申请专利6.1万件,在总计申请专利44.4万件的人工智能领域占比13.6%。

语音交互的优势

由于真正意义上的信息内容交流和传播是从语言产生开始的,语言能力是人类天生具备的交流能力,而文字和图形符号信息交流则需要后天的学习和扩展理解,因此语音交互方式本身便具有极广的用户基础。现阶段,语音交互作为人工智能领发展的重要方向之一,承用于具有一定开放性的使用场景,与传统的命令行界面(CLI)以及图形用户界面(GUI)的交互方式相比,主要具备以下优势:

1、操作方式便捷简单

无需其他外设或身体接触,语音操作贴近本能。

2、基本不消耗学习成本

语言是人天生具备的能力,无需过多后天特定学习,对于基本使用功能,无需指导用户如何进行产品操作,并且没有使用熟练度要求。

3、场景开放

可以在一定距离空间内完成交互行为,并且可以在亲子等家庭场景下多人使用。

4、人性化

当声音的表达语气、语速、音色特征及语调态度不同的时候,其表达的信息情感指向也不同,可以更加亲切直观表现情绪,文字符号等反馈方式相对缺乏鲜活体验。

5、无界面流程限制

传统GUI交互方式需要预设逻辑路径,用户跟随引导路径进行操作和延申,并且需要根据数据信息量进行分层级显示,语音对答可以直达用户需求,无需多层级界面操作。

推荐阅读:

《【精选】2021年全球车载语音交互龙头Cerence竞争优势及盈利能力分析报告(18页).pdf》

《【研报】汽车行业智能驾驶系列专题:全球车载语音交互龙头Cerence(CRNC)-210118(20页).pdf》

本文由作者云闲发布,版权归原作者所有,禁止转载。本文仅代表作者个人观点,与本网无关。本文文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

相关报告

【益普索Ipsos疫情之下系列调研】益普索-疫情下的年轻一代(41页).pdf
【益普索Ipsos疫情之下系列调研】益普索-疫情下的年轻一代(41页).pdf

填充颜色 疫情下的年轻一代 武汉加油! 一切都会好起来! 抗疫防疫,我们在一 起! 2020.02 益普索(中国)咨询有限公司 呈 2 2018 Ipsos. 版权说明 本资料内容为益普索(中国)咨询有限公司(简称“益普索”)排他所有。未经益普索公司预先书面同意,不 得以任何形式使用。益普索公司在准备本资料

益普索Ipsos:2020健康快餐研究报告(35页).pdf
益普索Ipsos:2020健康快餐研究报告(35页).pdf

1 2020 Ipsos. 益普索2020健康快餐研究 陈诚陈诚 CharlesCharles ChenChen 研究副总监研究副总监 益普索益普索 IpsosIpsos 2 2020 Ipsos. 引言 3 2020 Ipsos. 资料来源:2019年11月今日头条算术健康大会 2019:健康自媒体如雨后

益普索:2020全球幸福指数(英文版)(49页).pdf
益普索:2020全球幸福指数(英文版)(49页).pdf

2020 Ipsos. All rights reserved. Contains Ipsos Confidential and Proprietary information and may not be disclosed or reproduced without the prior written

益普索:肠道健康之益生菌品类洞察报告(27页).pdf
益普索:肠道健康之益生菌品类洞察报告(27页).pdf

Ipsos 2020 2020年9月 肠道健康之益生菌品类洞察 Ipsos 20202 调研背景 研究话题/品类肠道健康 / 益生菌类保健品 调研方法 男性 53% 女性 47% 18-24岁 19 25-35岁 42 36-45岁 26 46-65岁 12 31 69 一线城市二线城市 1 23 76

益普索(Ipsos):2020年媒体信任未来报告(英文版)(32页).pdf
益普索(Ipsos):2020年媒体信任未来报告(英文版)(32页).pdf

TRUST MISPLACED? A report on the future of trust in media October 2020 IPSOS VIEWS THANKS With thanks to everyone at Ipsos and The Trust Project who has c

益普索:2020海外留学趋势报告(40页).pdf
益普索:2020海外留学趋势报告(40页).pdf

23 July, 2020 Ipsos in China Ipsos | 2020海外留学趋势报告2 2 nMtOmNoOtOnMpQsQrMmMrOaQ9RbRsQoOoMpPjMqRnNiNpNoQ7NnNxOwMmRsNuOmNwP Ipsos | 2020海外留学趋势报告3 3 35 17 48 4

益普索:2020食品饮料趋势报告(29页).pdf
益普索:2020食品饮料趋势报告(29页).pdf

1 1 Ipsos | 益普索2020食品饮料趋势分享 2020年10月 把握趋势引领增长 王晶 益普索(中国)资深总监 -益普索2020食品饮料趋势分享 Ipsos | 益普索2020食品饮料趋势分享 益普索,世界领先、中国最大的个案研究公司 法国上市公司, 业务遍布全球90个市场 中国大陆 6 个办公室

客服
商务合作
小程序
服务号
折叠