2016年是语音识别高速发展的一年,得益于深度学习与人工神经网络的发展,语音识别取得了一系列突破性的进展,在产品应用上也越来越成熟。那么语音识别发展趋势会是怎么样的呢?请听笔者给您娓娓道来~
这其中几个最具有代表性的例子是,百度、IBM 和微软等公司在语音识别准确率上取得的突破。在今年年初,百度 Deep Speech 2 的短语识别的词错率降到了 3.7%。到了5月,IBM Watson 团队再次宣布在在非常流行的评测基准 Switchboard 数据库中,他们的系统创造了 6.9% 的词错率新纪录。而在今年10月,微软人工智能与研究部门的团队报告出他们的语音识别系统实现了和专业速录员相当甚至更低的词错率(WER),达到了 5.9%。5.9% 的词错率已经等同于人速记同样一段对话的水平,而且这是目前行业标准 Switchboard 语音识别任务中的最低记录。这个里程碑意味着,一台计算机在识别对话中的词上第一次能和人类做得一样好。
语言是人类思想最重要的载体,是人们交流最有效、最方便、最自然的方式。语音识别技术就是让机器接收,识别和理解语音信号,并将其转换成相应数字信号的技术[1]。语音识别是涉及很多学科的一门交叉学科,涉及到声学、语音语言学、数理统计、信息理论、机器学习以及人工智能等学科。语音识别系统可以把操作人员的大量重复劳动交给机器来处理,节约了人力,提高了效益。例如:专家咨询系统、信息服务系统、自然语音识别系统、寻呼服务、故障服务、智能对话查询系统、语音订票系统等。在某些恶劣环境和对人身有伤害的特殊环境下,例如地下、深水、辐射或高温等地方,就可以通过语音识别系统发布指令,让机器完成各种工作。
现在几乎所有成功应用到实际中的语音识别方法都采用概率统计的方法或信息论的方法。其中最主要的,大量被使用的方法有动态时间规整技术、隐马尔可夫模型、人工神经网络、支持向量机等方法,这些方法的出现极大地推动了语音识别从实验室走向实际应用。
现在,环境噪音和杂音对语音识别的效果影响最大。在嘈杂环境中必须有特殊的抗噪技术处理才能正常的使用语音识别,否则识别率很低,效果很差。目前针对中文的语音识别方面还存在着明显的不足,语言模型方面需要进一步完善。由于声学模型和语言模型在语音识别技术中起到基础性作用,所以必须在这方面有所突破,否则其它的都不可能实现。现在所使用的语言模型都是概率模型,文法模型没能得到运用,只有这一方面取得突破,计算机才能真正理解人类语言,这是一个难度非常大的工作。另外,随着硬件技术的不断发展,搜索算法、特征提取和自适应算法等这些核心算法将会得到不断改进。我们相信,半导体和软件技术的共同进步必将给语音识别技术打下坚实的基础。
现在使用的语音模型和声学模型有很多的局限性,如果突然从英语转为法语、俄语或者汉语,计算机就不会处理了,得到的东西完全不是我们想要的结果;如果人们偶尔使用了某些不太常见的专业术语,如"信息熵"等,计算机可能也会得到奇怪的结果。这不仅仅是因为模型具有局限性,同时也有硬件跟不上的原因。将来伴随这两方面技术的进步,声学模型和语音模型可能会理解各语言之间自然的切换。另外,因为声学模型的逐步改善,以及以语义学为基础的语言模型的改进,或许将能够帮助人们尽量少或完全不受词汇的影响,从而可实现无限词汇识别。
最近的几年里大家已经从一开始使用简单的 DNN 发展到了后来相对复杂的 LSTM 和 Deep CNN 这样的模型。但在很多情况下这些模型表现得还不够好。所以一个研究方向是寻找一些特殊的网络结构能够把我们想要 model 的那些东西都放在里面。我们之前做过一些尝试,比如说人在跟另外一个人对话的过程中,他会一直做 prediction,这个 prediction 包括很多东西,不单是包括你下一句想要说什么话,还包括根据你的口音来判断你下面说的话会是怎样等等。我们曾尝试把这些现象建在模型里以期提升识别性能。很多的研究人员也在往这个方向走。
快速自适应的方法就是快速的不需要人工干预的自适应方法(unsupervised adaptation)。现在虽然已经有一些自适应的算法了,但是它们相对来说自适应的速度比较慢,或者需要较多的数据。有没有办法做到更快的自适应?就好像第一次跟一个口音很重的人说话的时候,你可能开始听不懂,但两三句话后你就可以听懂了。大家也在寻找像这种非常快还能够保证良好性能的自适应方法。快速自适应从实用的角度来讲还是蛮重要的。因为自适应确实在很多情况下能够提升识别率。
在语音识别内容的准确率上,各科技企业和团队都有了相应的突破,而在接下来的一年里,如何降低周边环境的干扰以及如何提高对声音的识别准确率将是语音识别所要解决的问题。以上便是笔者对语音识别发展趋势的详细介绍了,相信在不久的将来语音识别发展趋势将会是一片蓝海愈来愈好~