datasheet

DeepTech深科技

文章数:725 被阅读:4676294

账号入驻

中国语音识别大战又添明星AI公司:依图联合微软、华为推出两款产品

2018-12-12
    阅读数:

点击图片查看详情↑


2018年已经接近尾声,寒冬之下,中国的AI初创公司仍在扩张边界。


12 月 11 日,中国计算机视觉领域“四小龙”之一的依图正式进军语音识别领域,宣布与微软合作推出依图开放平台,开放平台将提供依图开发的语音识别算法API,以及大量的数据集。


另外,依图也宣布和华为合作发布智能语音联合解决方案该方案基于依图语音开放平台及华为全栈全场景昇腾(Ascend)系列芯片和面向数据中心侧的Atlas 300 AI加速卡,结合双方的技术研发能力与生态服务能力深度,形成软硬件一体化的联合解决方案。


图丨依图首席创新官吕昊博士(来源:依图


伴随着两款产品的发布,依图还在现场展示了其中文语音识别算法的一系列进展:在业内近期公开的 AISHELL-2 的三个测试子集,以及来自第三方的近场口音测试集、近场安静聊天测试集、语音节目测试集、电话测试集、远场测试集中,依图表现突出,且字错率几乎全部在 15% 以下,同样表现突出的还有科大讯飞。其中,在AISHELL2-2018A-EVAL 数据集中,依图的识别准确率高达 96.29%,字错率(CER)仅为 3.71%,同样领先一些业内领军者。


AISHELL-2 是 AISHELL Foundation 和希尔贝壳宣布的开源数据库,数据规模达 1000 小时,是目前全球最大的中文开源数据库。它由 1991 名来自中国不同口音区域的发言人参与录制,经过专业语音校对人员转写标注,通过了严格质量检验,数据库文本正确率在 96% 以上,录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等 12 个领域。




(来源:依图)


特别的是,针对不同的场景,依图采用了同一种语音识别算法,即单个算法模型表现了多场景适用性。这种方法与目前市面上针对限定场景开发不同识别算法的技术路线有很大不同。


依图科技首席创新官吕昊总结了人脸识别领域的从实验室走向落地的发展脉络,他认为,大量的测试和努力能够打破非常多限制的条件,因此技术落地越来越多,“因为大家变得透明,且竞争比较多之后,整个行业也在往前走。我们也希望语音识别这个行业通过这样一些活动,通过我们的努力,通过一些严谨的测试把这些打通整个行业。”


吕昊所提到的测试,具体体现通过自身开放平台面世后让技术经受更大范围的检验,也体现在依图推出的一款特殊的小程序“听写大会”上。据介绍,这款微信能够让用户可以直观感受到语音识别技术的真实表现,旨在让所有人“公开透明地体验各类算法的水平差异”。受检验的算法不乏百度语音开发平台、讯飞等知名语音识别技术厂商。



(来源:DT君)


除了这样的公开测试以外,依图还表示,数据集、算法api 都是能够推动语音识别行业发展的重要推动因素。作为行业的一员,依图呼吁行业公开更多样的数据集,公开可重复的评测结果。依图在这样的测试中也花了很多力气对接各大厂商,因为其中不少是不免费公开的 api,当然,这些测试更多针对的是现有的产品,各个厂商的能力其实可能无法完全展现。


鉴于目前语音识别在用户体验上还远未到达理想的状态,技术上的限制仍未清除,依图希望通过几款产品的发布促进整个行业的竞争合作。


目前,几乎国内所有的语音技术公司都开放了其智能语音平台,包括百度、讯飞、出门问问、Rokid 等,这些公司以期为硬件开发者,应用技能开发者提供了语音交互能力,而对于他们自己来说,这也有利于招徕更多的玩家进入到他们创建的生态系统之中。依图此次的加入,又为这场早已“兵满为患”的语音识别大战增加了新的变数。



(来源:DT君)


实际上,依图自成立以来一直在研究自然语言处理技术,尤其是在其所擅长的医疗领域,在基于电子病历的自然语言处理上,具有一定的积累。但此次进军语音识别,依图透露内部筹划了不到一年的时间,整场发布会的重点也不在商业落地上,更像是依图将智能的触角从计算机视觉延伸至语音识别的一次试水。依图科技首席创新官吕昊博士、依图科学家吴双博士在接受 DT 君采访时并未透露明确的落地方向和野心。


“我们做这个产品也是不断的尝试,不是非常有计划、有目的做的事情。依图是一家研究智能或者说是一家研究学习的公司,我们的好奇一直推动我们在这个领域探索,所以从视觉扩展到语音识别。我觉得是我们对智能的根本理解的这么一个好奇心在驱动”,吴双说。


在谈到今年多家主攻语音识别技术的AI公司纷纷推出专用语音 AI 芯片的浪潮、大有语音识别下阶段竞争转向硬件大比拼之势时,依图则表示,把算法定制化到硬件中,很多时候是商业驱动的,依图不排除未来自研语音AI芯片的可能。但与之并行的是,依图也会继续提升算法的表现。


“目前的语音识别算法还远未到像大白菜一样,号称语音识别算法不再有区分度的,其实都是算法做不好。在这方面没有优势了,才有人会说算法没有区分,但是在算法上还需要很大投入。因为做得好,我们才能看到说当前最好的水平到什么程度,看到边界之外是什么样的风景”,吕昊说。


- End -  


在科技发展越来越超乎普通人想象的年代,我们迫切地需要一场巅峰对话来总结过去,指引未来。2019 年 1 月 19 - 21 日,EmTech China 全球新兴科技峰会,超过 30 位全球科技“掌舵人”将亲临北京,为你展开前沿技术的壮丽蓝图,为你解读技术背后的未来价值!


About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: TI培训

北京市海淀区知春路23号集成电路设计园量子银座1305 电话:(010)82350740 邮编:100191

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2018 EEWORLD.com.cn, Inc. All rights reserved