语音识别仍存瓶颈?
在2017年,科大讯飞就曾表态:现阶段人工智能技术发展不需要“被神化”。 “目前,机器翻译已经取得非常大的进步,在衣食住行等常用生活用语上的中英翻译可以达到大学六级的水平,能够帮助人们在一些场景处理语言交流的问题,但距离会议同传以及高水平翻译所讲究的‘信、达、雅’还存在很大的差距。”
对于人工耦合,江涛告诉21世纪经济报道记者,科大讯飞的人工智能系统会结合听和看的信息,也会针对关键词进行解释,相当于有一个助手在帮助译者进行翻译,降低了同传口译者的工作强度。而科大讯飞已经和上海外国语大学成立了研究院,探讨人机协同模式。在本周的2018世界人工智能大会上,就有三个嘉宾发言采取了人工耦合的模式。
应该说,科大讯飞在语音领域技术领先,但是仍面临着不少瓶颈。
首先从科大讯飞的产品技术方向来看,主要包括语音交互、机器翻译、文本识别。其中,语音交互是科大讯飞的老本行,包括语音识别、语音合成等。另外,采用日趋成熟的自然语言理解,也为语音交互提供了更强的支撑。
尤其是语音合成方面,科大讯飞在业界比赛中屡次夺冠。其通过机器学习提取声音的特征,通过声学波形合成出仿真声音。该技术的难点之一,就是如何能够骗过耳朵达到真人说话的效果。
但是在技术成熟的同时,仍有难题需要攻克。比如,遇到同音字识别、环境比较嘈杂的情况以及中文和英文夹杂的时候,语音的识别率就会下降。
刘庆峰在2018世界人工智能上表示,科大讯飞是全球唯一在语音合成中机器超过人工的公司,在安静的环境下,演讲主题确定的情况下语音准确率高,但是多人说话噪音环境下的识别率是关键。在他看来,通过大规模后台服务集群,语音识别正在走向实用。同时,用户也对方言、多人说话、安全保护等方面提出了新要求。
一位人工智能从业者告诉21世纪经济报道记者,自然语言处理技术需要得到攻克,这就涉及到机器的知识、情感、逻辑等能力。而这三个人类在幼儿时期就能掌握的机能,对于机器来说是难上加难。语音本身不是最难,但是语言背后需要人类的知识系统以及专业领域的能力,这些数据的掌握并非易事。而人工智能公司目前对翻译的野心很大,短时期内系统性地解决还是较为困难。