谷歌和百度在竞相开发语音识别技术,希望能成为这一市场上的领头羊。不过,由于谷歌因不愿意遵守中国法律法规而退出中国市场,因此中国市场将成为其软肋。语音识别技术5年多前就已经问世,不过,早期的语音识别应用——例如语音拨号或桌面词典,不像现在的语音助手或智能家居这么迷人。
百度VS.谷歌
约6年前,包括谷歌、苹果、亚马逊和微软在内的大型科技公司涉足语音识别技术。此后,各大厂商开始不断提升语音识别速度和精度,谷歌最近对外开放了其企业级语音识别API(应用编程接口)。通过最近数年在机器学习领域投入巨资,谷歌目前似乎在语音识别方面获得了优势,不过它在占领语音识别市场方面还有一个潜在软肋——没有进入中国市场。因不愿意遵守中国法律法规,谷歌6年前退出中国市场,在可预期的将来这种情况难以改观。作为全球第一人口大国,中国手机用户也超过其他任何一个国家。
尽管谷歌错过了中国这一大市场,但百度没有。作为中国最大的搜索引擎,百度已经收集了大量中文语音识别数据,并利用其最新的语音识别引擎Deep Speech 2进行处理。利用深度学习算法,Deep Speech 2能实现英-汉互译。
百度开发Deep Speech 2的团队主要位于其森尼韦尔人工智能实验室,研究人员不能流畅地使用中文,甚至对中文知之甚少。阿里巴巴和腾讯是中国另外两家开发语音识别技术的公司,对它们技术的关注和媒体报道不如百度。
尽管具有强大的中文处理能力,Deep Speech 2最初的目标并非是理解中文。百度美国人工智能实验室主任亚当·科茨(Adam Coates)表示,“我们开发系统时使用了英语,但由于采用深度学习技术,系统主要依赖数据,因此我们能迅速利用中文数据取代原来的数据,训练出一个强大的中文引擎。”
Deep Speech 2去年12月发布时,百度首席科学家吴恩达称,在试运行期间,Deep Speech 2识别率比Google Speech API、wit.ai、微软Bing Speech和苹果Dictation高逾10%。
据百度称,截至今年2月份,Deep Speech 2错误率为3.7%,谷歌一年前的数字为8%。科茨称Deep Speech 2翻译某些语言的能力如同“超人”一般,翻译简短提问的准确度超过中国人。
另外,Deep Speech 2还能处理“混合语言”,许多中国人在说中文时会夹杂着英文。科茨说,“由于系统完全是由数据驱动的,因此它能处理混合语言。”这一特性可能使得百度系统非常适合处理多种语言。
自百度获得突破以来,谷歌重构了其语音识别系统。新发布的Cloud Speech API,使得开发者能在任何应用中提供语音-文本转化能力。谷歌称Cloud Speech API适合各种嘈杂的环境,能识别逾80种语言和方言。
图像分析是谷歌系统针对亚马逊和微软相似系统的一个优势。百度今年1月通过GitHub发布了Deep Speech 2系统使用的人工智能软件,但尚未发布相似的API平台。
百度对其开发中的技术“秘而不宣”,目前很难判断Deep Speech 2发布以来它所取得的具体进展。但是,百度在技术方面持续的进展以及对语音识别市场的潜在影响可能通过合作显现出来。
百度最近通过整合Peel智能家居平台涉足智能家居市场。Peel提供一款基于语音的通用遥控应用。
谷歌发布了多款采用新API的产品,其中包括使用户能通过语音命令管理电器和娱乐系统的Google Home。
在最近接受采访时,科茨表达了百度对开发各式各样人工智能助手的兴趣,以及在这一领域的探索,并表示存在发布“百度助手”的可能性。
谷歌拥有世界上最棒的科学家和巨额预算,这使得它能走在技术潮流前列。但百度的成就和天才的技术团队,似乎拥有影响科技发展和在中文语音市场获得一席之地的潜力。
谷歌去年收购了中国移动设备语音识别技术创业公司Mobvoi少量股份。利用正在开发中的语音识别技术,谷歌可能超越美国和中国的其他同类厂商,占领巨大的中国市场。
2016-06-13 09:06 30楼
按情感上 支持 百度 ,不过 百度 光顾着 ...........