语音识别属于感知智能,而让机器从简单的识别语音到理解语音,则上升到了认知智能层面,机器的自然语言理解能力如何,也成为了其是否有智慧的标志,而自然语言理解正是目前难点。那么,语音识别发展现状如何呢?下面就由笔者给您细细道来。
语音识别是对语音内容进行提取的一把金钥匙,它的研究可以追溯到半个世纪以前。在本世纪初,基于语音识别的一些产品已经开始问世,最有代表性的是在2000年左右,美军用于伊拉克战场的语音翻译机。2011年apple在iphone4s上推出的siri语音助手,之后包括微软、谷歌、亚马逊,以及国内的百度、讯飞、思必驰等等也推出了各自基于语音交互的产品。国内外的研究机构很多,包括国外的微软、谷歌、IBM、亚马逊,以及国内的百度、讯飞、思必驰等等。学术界就更多了,包括老牌的剑桥、MIT、JHU,以及国内的清华大学、中国科大、上海交大等等。
语音识别发展现状
中国
我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。
清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。
语音识别发展现状面临窘境
一、噪声鲁棒性
做声环境下的鲁棒语音识别一直是语音识别大规模应用的主要绊脚石,我们如何在一些噪声场景比较大的情况下,比如说我们的马路、咖啡厅,公共汽车,飞机场,以及会议室,大巴上等等,使得得到很高的识别精度,这是非常具有挑战性的。
针对这个困境,我们上海交大和思必驰推出了一些解决策略,包括环境感知的深度模型以及神经网络的快速自适应方法,它使得我们一般的深度模型可以对环境进行一个实时的感知和自适应调整,来提高实现系统性能,就像人耳一样。另外我们也将极深卷积神经网络用于抗噪的语音识别得到巨大的系统性能的提升。
二、多类复杂性
过去的大部分语音识别系统的设计主要是针对一些单一环境、单一场景下进行设计的,如何做多类别复杂场景下的通用的语音识别是非常困难的,比如说在Youtube或者BBC上的一些数据,可以来自各种各样的语境和场景,有新闻广播、新闻采访、音乐会、访谈、电影等等,如何在多预警下做成一个通用的鲁棒的语音识别性能呢,是比较有挑战性的。
在这个方面我们去年参加了由英国BBC公司和EPSRC主办的MGB挑战赛,其中我们在四个单向上均列世界第一,且每个单向的成绩均大幅领先第二名,包括语音识别、说话人分割聚类、标注对齐和时序渐进语音识别等。
三、低数据资源与多语言
目前大部分语音识别的研究和应用,主要是基于一些大语种,比如说英语、汉语、阿拉伯语和法语等等,我们知道世界上一共有6900多种语言,如何快速的实现一套基于任何语言的语言识别系统是非常困难的,它也具有重大的战略意义。包括美国IARPA这几年的Babel计划,以及之前DARPA的GALE计划,考虑到中国的国情我们有56个民族,所以构建一套多语言低数据资源下的语音识别系统是非常关键和具有实际价值的。
在这个方面我们也在公开相同的数据环境下,搭建了相关系统,下图是我们和美国约翰霍普金斯大学的性能对比,我们在相同数据集合上取得了一个更优的一个策略。
人工智能什么时候会统治世界,这个问题确实不好说。人工智能已经掌握了自然语言的本领,即便相对于人类的语言能力还很初级,但已经可以依据程序给出相应内容,这就具备了拥有智慧的条件,从某种意义上说,人类智慧就是由一项项基础功能集成而来的。但显然这不是我们要担心的问题,期待并享受人工智能带来的便利就好了。以上就是笔者给您分析的语音识别发展现状了。