唇语精准识别 密语传音成真

2017-12-11 20:15:39编辑:鲁迪 关键字:唇语识别  机器视觉

唇语识别通过机器视觉技术,从图像中识别出人脸,并提取此人连续的口型变化特征,将连续变化的口型特征输入到唇语识别模型中识别出对应的发音,再计算出可能性最大的自然语言语句。

 

  只动动嘴巴,即使不出声,光看口型就知道你在说什么,这种存在于武侠剧中的桥段正在加速成为现实。日前,在乌镇第四届世界互联网大会上,基于人工智能与大数据可视分析能力的唇语识别系统能够实现“密语传音”,成为时下最吸睛、最炫酷的黑科技之一。

 

  当你说出“这首歌叫什么名字”时,机器不用收音、进行语音识别,通过识别你的唇部动作,就能准确识别语义的内容。这让不少体验后的网友感叹,“之前只知道有语音识别、面部识别,没想到还能唇语识别,有种武林高手的感觉!”

 

  据研发企业海云数据介绍,唇语识别的原理其实是使用机器视觉技术,从图像中识别出人脸,判断其中正在说话的人,并提取此人连续的口型变化特征。随后,将连续变化的口型特征输入到唇语识别模型中识别出对应的发音。最后,根据识别出的发音再计算出可能性最大的自然语言语句。

 

  那么,唇语识别的精准度如何?海云数据创始人冯一村表示,通过使用1万多小时的新闻素材对唇语识别系统进行训练,目前海云数据对英文的识别准确率在80%左右,中文准确率为71%,而国外所知的最高识别率仅为不到50%。未来,随着“语料”越来越多,唇语识别率还将获得稳步提升。

 

  相比于唇语识别的技术路径,人们更关心它将用于何处。据悉,唇语识别应用技术是目前国际研究的热门课题,可应用的领域包括场景教育、身份识别、公共安全、移动支付、军事情报等。比如,通过唇语识别,可以让无法开口说话的残障人士自由表达、让听力障碍者和不少老年人更清晰地听懂他人;通过口型支付密码,可以进行移动支付;而在军事情报领域,唇语识别则让远距离获取情报成为可能。

 

  “最初的想法是用于公安系统中,因为公安部门的视频数据占到其全部数据的95%以上,基本都是无声数据,激活视频的语义内容价值非常巨大。”冯一村说,可以预想,加入唇语识别技术后,公安人员可通过平台锁定视频中犯罪嫌疑人的语言记录,这将极大助力犯罪缉查工作的开展。

 

  值得一提的是,唇语识别背后并不是一个小众的市场。在噪音太大或只有摄像头等无法捕捉声音的场合中,唇语识别技术具备很强的实用性。比如,在公路、会议室、火车站等噪音嘈杂的场景中,唇语识别可以帮助规避音频噪声对用户说话内容获取的影响,确保交流顺畅进行。而在电梯、公路等监测场景,只有摄像头,没有麦克风,通过唇语识别技术,可以获取重要的用户讲话信息,为公共安全提供有效的支持。

 

  无独有偶,搜狗也在本届互联网大会上演示了其最新的唇语识别系统。该系统可提取人面部的三维图像信息,提取面部的动作序列,识别的效果相比以前更准确。据介绍,未来这项技术有望应用于车载系统,以及帮助听障人士“翻译”正常人语言,通过唇读技术把语音转换成文字,帮助他们更好地了解世界。

 

  业内人士预计,鉴于在公共安全、身份识别、残障教育、军事等领域的竞争力,唇语识别技术或将开启万亿级的大数据市场。但鉴于语言环境的复杂性,唇语识别真正投入实战还尚需时日,仍需进一步加强大数据、可视分析、人工智能技术等领域的融合研究。


关键字:唇语识别  机器视觉

来源: 北京日报 引用地址:http://www.eeworld.com.cn/afdz/article_2017121111417.html
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:智慧医疗备受重视 安防系统满足场景需求
下一篇:以点带面 从三大热点应用市场看安防全局

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

搜狗推出“唇语识别”技术

从键盘打字到触控屏,再到现在的语音交互和手势交互,人工智能技术的发展正在促使人机交互方式向更加多元化方向变革。日前,搜狗又推出一种人机交互新技术——唇语识别,这也是业内首个公开演示的唇语识别系统。通过机器视觉识别,不用听声音,仅靠识别说话人唇部动作,就能解读说话者所说的内容。与语音识别不同,唇语识别是一项基于机器视觉与自然语言处理于一体的技术,因此在研发难度上比语音识别大得多。搜狗首创了复杂端到端深度神经网络技术进行中文唇语序列建模,通过数千小时的真实唇语数据训练而成。在非特定人开放口语测试集上,搜狗唇语识别系统已经达到60%以上的准确率,超过Google发布的英文唇语系统50%以上的准确率。在垂直场景如车载、智能家居等场景下
发表于 2017-12-18 19:35:44

阿丘科技——赋予机器新视觉

工业发展的一个趋势是手工劳动的解放,和自由机器人、工业机器人的诞生。然而在我国的工业场景大部分停留在非自动化和半自动化的阶段,智能性和灵活性的缺乏极大地限制了工业机器人的应用场景,加上工业生产线上下料以及物流仓储领域当中,依靠大量的人力进行物流产品以及工业零部件的分拣和上下料环节。大量的工人重复着无聊甚至危险的工作,肉眼存在各种主观的漏检和误检的问题,这些都对工业化提出了新的挑战。如果能将3D视觉和人工智能融入工业领域,从而改变当前工业化智能缺失的现状,将会极大提高生产效率。 让物流变得更智能,趋于零失误 北京阿丘科技有限公司在Demo Day上,展示了他们如何以分拣和质检为切入点,将人工智能应用于工业自动化
发表于 2018-07-02 14:28:52
阿丘科技——赋予机器新视觉

智能机器视觉才迈出“第一步”,未来是强人工智能

近日,北京大学成功研制仿视网膜超速全时摄像系统,这是一项典型的人工智能和脑科学交叉成果。 仿视网膜超速全时摄像系统研制牵头人、北京大学计算机科学技术系主任黄铁军教授,是我国类脑计算方向的主要推动者。他在接受本报记者专访时表示,中国发展新一代人工智能有自己的内在发展逻辑,相信中国对全球人工智能的原创贡献会越来越多,越来越密集。 智能机器视觉“第一步”自1988年入读计算机专业以来,黄铁军至今与计算机打交道整整30年,读研究生的方向是汉字识别和双目立体视觉,这也是人工智能的一个重要领域。 黄铁军过去四年一直在积极推动我国类脑计算的发展,提出构建类脑智能计算机技术路线:结构层次模仿脑,器件层次逼近脑,智能
发表于 2018-06-27 19:22:34

中星微张亦农:集成SVAC 2.0编码和神经网络的机器视觉处理器

近日,在2018松山湖﹒中国IC创新高峰论坛中,来自北京中星微人工智能芯片技术有限公司首席技术官张亦农,介绍了公司最新一颗VC0718P,集成国标SVAC2.0编码与NPU(神经网络处理器)的机器视觉SoC,这也是业界首颗集成国标与神经网络的机器视觉行业专用处理器,算力达1T OPs,可在1080P@30fps输出实现人脸识别和物体分类,用于包括智能交通、公共安全、能源安全、生态保护、医疗检测、智能家居、无人系统、高铁运维及航天遥感等丰富场景中。张亦农介绍道,中星微的发展伴随着市场发展不断调整,2008年为了更好地服务政府市场,剥离出中星技术,和公安部一所共同推进SVAC国家标准的实现,为此也获得了国家科技进步一等奖。由于AI近期
发表于 2018-06-11 15:05:28
中星微张亦农:集成SVAC 2.0编码和神经网络的机器视觉处理器

机器视觉行业发展趋势分析 2025年全球市场将超192亿美元

 机器视觉就是用机器来代替人眼做测量和判断的系统,它通过光学装置和非接触传感器自动获取目标对象的图像,并由图像处理设备根据所得图像的像素分布、亮度和颜色等信息进行各种运算处理和判别分析,以提取所需的特征信息或根据判别分析结果对某些现场设备进行运动控制。机器视觉系统中的图像处理设备一般都采用计算机,所以机器视觉有时也称为计算机视觉。 机器视觉市场规模预测近年来,为了让机器更像人,能够认知事物,从而进行判定和深度学习,计算机视觉技术方法与应用发展迅速,全球机器视觉市场正处于迅速发展之中。据前瞻产业研究院发布的《机器视觉产业发展前景与投资预测分析报告》数据显示,2002年全球机器视觉系统的市场规模达到11。3亿美元
发表于 2018-06-07 20:00:11
机器视觉行业发展趋势分析 2025年全球市场将超192亿美元

机器视觉行业发展趋势分析 全球市场将超192亿美元

  机器视觉就是用机器来代替人眼做测量和判断的系统,它通过光学装置和非接触传感器自动获取目标对象的图像,并由图像处理设备根据所得图像的像素分布、亮度和颜色等信息进行各种运算处理和判别分析,以提取所需的特征信息或根据判别分析结果对某些现场设备进行运动控制。机器视觉系统中的图像处理设备一般都采用计算机,所以机器视觉有时也称为计算机视觉。下面就随网络通信小编一起来了解一下相关内容吧。  机器视觉市场规模预测  近年来,为了让机器更像人,能够认知事物,从而进行判定和深度学习,计算机视觉技术方法与应用发展迅速,全球机器视觉市场正处于迅速发展之中。据前瞻产业研究院发布的《机器视觉产业发展前景与投资预测分析报告》数据显示,2002年全球
发表于 2018-06-05 15:57:59
机器视觉行业发展趋势分析 全球市场将超192亿美元

小广播

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 视频监控 智能卡 防盗报警 智能管理 处理器 传感器 其他技术 综合资讯 安防论坛

北京市海淀区知春路23号集成电路设计园量子银座1305 电话:(010)82350740 邮编:100191

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2018 EEWORLD.com.cn, Inc. All rights reserved