Siri改变语义识别历史:将启动人机互动新革命

2011-11-05 10:56:35来源: 商业价值
Siri绝不仅仅是一种精确的语音输入方式,它将是一次人机互动新革命的序章。

  葛鑫|文

  在10月2日的苹果产品发布会上,iPhone 4S的技术升级幅度可谓令业界失望。然而,被苹果定义为“私人语音助理”来做压轴功能发布的Siri应用,仍然是抓足了人们的眼球。在很多“果粉”眼中,它被认为是替换掉iPhone 4的唯一理由。

  在发布会上,苹果宣称Siri可以支持自然语言输入与识别,用户可“命令”手机读短信、询问天气、设置闹钟等,并且可以搜寻餐厅、电影院等生活信息,甚至是直接订位、订票;另外其与LBS结合服务的能力也相当强悍,能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。

  Siri目前仍然是beta测试版,并且只支持英语、法语和德语。虽然互联网上一系列折磨Siri的视频端子曾出不穷,但被苹果这样的企业推出进行商用,已经意味着“语音识别”——这一已经不算新鲜的科技,进一步实现了人工智能化进而向“语义识别”又迈出了一大步,同时意味着第一款基于它的改变大众生活的消费级产品已经诞生。

  语义识别是人机交互的再一次里程碑,虽然数十年间它的研究进展仅限于对自然语义识别的精确度的提升,但它一直被视为是人类实现非接触式控制机器的第一步。

  巧合的是,进入信息时代以来,键盘(命令行)到鼠标(快捷键),鼠标到多点触控——这两次人机交互的里程碑式的革命都是由苹果公司所引爆。如果此次Siri真的能够如苹果所说,在精确识别自然语义的基础上,其智能化程度能够达到替用户精确分析、选择而真正成为助手的地步,那么苹果公司将再次激发人机交互的伟大革命。

  语义识别的历史

  使机器识别语言是人类早已有之的科技幻想,并且早有实践足迹。早在1920年,美国一家公司所出品的名为“Radio Rex”玩具狗便可以“听从”主人的话而执行走或者停的任务。

  不过在这之后相当长的时间里。这项科技的进展仅限于如何更多、更精确地识别各种口音,进而执行诸如文字显示等十分简单的任务。

  1952年,贝尔实验室的Davis等人成功研究出了世界上第一个能识别10个英文数字发音的实验系统。大规模的语音识别研究是在进入了上个世纪70年代以后,在孤立词和小词汇量句子的识别方面取得了实质性的进展。

  进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。此时语音识别的研究思路也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路,亦即开始了跨学科的人工智能研究道路。

  进入90年代以后,语音识别的研究并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展,诸如听写机等基于语音的信息输入设备此时大量出现。

  由仅限于定义为输入法功能的语音识别,向包含后台数据分析的语义识别转型的关键推动力量,是美国的DARPA(Defense Advanced Research Projects Agency)计划。

  显然,语义识别技术蕴含着着人机互动的远大前景,也因此拥有各方足够高的评价和期许。但它几十年来却缺乏足够的表现。而正是苹果公司往日给社会带来巨大变革的一系列消费级产品,使得当语义识别技术和苹果公司联系到一块的时候,人们不得不重新给予其重大期盼。

  实际上,苹果公司对类似工作的开展也不可谓不早。早在1987年,苹果就展开了类似的研究工作。如果你曾经读过李开复(微博)的自传《世界因你不同》,就可能会对在《今日美国》节目中,苹果出品的实验性语音识别设备Casper“调戏”女主持的情节记忆犹新。

  Siri是从斯坦福大学的SRI国际人工智能中心(International Artificial Intelligence Center)剥离的一个项目,该研究中心隶属于DARPA 的CALO子项目。实际上,Siri的联合创始人兼工程副总裁Adam Cheyer正是CALO项目的首席架构师,而CTO Tom Gruber也是出身斯坦福大学的人工智能、语义网专家。同样孵化于斯坦福SRI的还有知名的语音识别开发公司Nuance。

  2010年初,苹果收购Siri,收购价据称是2亿美元。

  Siri的无限可能

  当苹果刚刚收购Siri之时,人们评价它只是一个更好的语音识别工具。然而,事实并非如此。

  多年以来,大众所能接触到的语音识别技术,每年都以缓慢的步伐进步着,不过这种进步的含义仅限于识别准确率,换句话说,它们仅是一种不断提高准确率的输入法。

  实际上,在多年以前,IBM 的语音识别软件在 PC 上就有不错的识别率了,而微软(微博)名为Tellme的项目也持续了多年。腾讯最新推出的QQ2011版开始支持语音输入,而中国科大讯飞出品的“讯飞语音输入法”更是Android设备用户所追捧的热门工具应用之一。

  然而,即使达到100%的准确率,仅限于输入法功用的语音识别也无人机互动的意义,它并不是革命性的。

  而Siri所展示出的在准确语音识别的基础之上,进行语义的智能分析判断,并且实现系统功能和后代数据(包括个人偏好和历史记录)的调用,实现所答即所问与服务即所想——真正实现助理的功能,从识别,执行,再到互动之间的飞跃,这些才是Siri的革命性所在。

  与谷歌的Voice Actions等相似应用不同,Siri使用户可以抛弃繁琐的语法结构,甚至思维模式也可以混乱,它会结合上下文结构去分析判断,它甚至能理解许多含义模糊或者引申的语义。

  要做到这一点,搜狗CEO王小川认为需要五个方面的配合:一是对自然语言理解,归纳为“懂”;二是在人机交互的过程中,需要反问确认来降低误差,这个过程称为“问”;三是人机交互还需要根据上下文进行判断和推测,这可以理解为“猜”;除此之外,整个软件系统还需要具备持续的学习能力和良好的扩展能力。

  虽然苹果没有公开Siri更多的技术细节,但是一些实用的例子已经体现出了Siri不仅仅是个语音识别的软件。比如在一段Siri被苹果并购前的演示视频显示,当用户说“ I like a romantic place for Italian food near my office”(我想在办公室附近找一个浪漫的意大利菜餐厅)。

  Siri则回答:“I am looking for a Italian restaurants which reviews say are romantic near your wok in San Jose(从大家评论的结果来看,在你公司附近最浪漫的餐厅在圣何塞)…”

  这个回答说明 Siri 听懂了 romantic 是个形容词,知道 near my office 是个地方。并且,找到了以前存储的用户的工作地点。更关键的是,他知道怎么判断一个餐馆是否 romantic!——通过Yelp.com的食客评论。

  Siri的这种革命将会改变诸多既有格局,并且进一步解放科技力量。首先,从产品的科技属性上说,Siri将肩负起苹果公司引爆第三次人机互动革命的重任。我们完全有理由想象:在键盘、轨迹球相继在移动终端上消失之后,虚拟键盘也即将消失,甚至菜单功能项也一并会消失了。

  其次,从产业格局上说,Siri将会成为使苹果公司继续保持优势的利器。目前,从Android 4.0和Windows Phone 7(WP7)的芒果系统来看,谷歌和微软在移动终端领域正在缩小与苹果的距离,而苹果的iPad 2和iPhone 4S却相继使“果粉”失望。这其实也是不可避免的,毕竟硬件的持续创新是有一定极限存在的。

  此时,Siri被苹果所适时地祭出,有望再次提高Android和WP7设备和iOS设备进行竞争的门槛。谷歌的Voice Actions也是具有后台功能调用的类似应用,然而,当硅谷编辑们打开 Voice Actions时会说 “send a text to Mike”,而拿到 iPhone4S时他们则会用“ I Love You”在测试Siri的强大功能。在这一点上来看,被用户开心“调戏”的Siri,其实已经领先其他的产品进入智能的阶段。

  Siri的威力还将从谷歌的核心业务——搜索中抢夺地盘。比如,你可以通过吩咐Siri来打开 Yelp 的 Reviews 与进行OpenTable 的预定,那还要 Google 搜索干什么?从这个意义上说,Siri 并不是社会化搜索引擎(比如Google收购的aardvark),却胜似社会化搜索引擎。

  更为重要的是,Siri将为苹果带来巨量的用户数据。而这些数据是其他竞争对手所无法得到的。也正是基于此,对于苹果公司来说,Siri有望强化它的三个弱项——云计算、社交、家庭娱乐设备。

  如果苹果的10万名开发人员在Android开发人员之前得到这些数据,Android和iOS竞争的结局便可想而知。可以肯定的是,Siri将不仅仅是一个应用程序,它同时也是一个自然用户界面系统,它使得服务器端可以整合来自大量开放API的数据。甚至,由于占据用户与数字设备和互联网的第一触点,一个“应用导航”甚至“Siri App Store” 也不是不可能出现——当你说:“我要看关于奥巴马的新闻”,Siri调用出的会是谁的新闻网站或者是新闻应用?这将是很有意思的事情。

  在苹果发布Siri之前,Siri的联合创始人Norman Winarsky在接接受媒体采访时如此预言Siri的未来图景:

  “毫无疑问,苹果的虚拟个人助理是开创性的,这是一个改变世界的事件。在技术方面,Siri至少领先竞争对手2年,因为这不是个语音识别软件,而是真正的、可商用的人工智能技术。”

关键字:Siri

编辑:北极风 引用地址:http://www.eeworld.com.cn/xfdz/2011/1105/article_8415.html
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。
论坛活动 E手掌握
微信扫一扫加关注
论坛活动 E手掌握
芯片资讯 锐利解读
微信扫一扫加关注
芯片资讯 锐利解读

小广播

独家专题更多

富士通铁电随机存储器FRAM主题展馆
富士通铁电随机存储器FRAM主题展馆
馆内包含了 纵览FRAM、独立FRAM存储器专区、FRAM内置LSI专区三大部分内容。 
走,跟Molex一起去看《中国电子消费品趋势》!
走,跟Molex一起去看《中国电子消费品趋势》!
 
带你走进LED王国——Microchip LED应用专题
带你走进LED王国——Microchip LED应用专题
 
电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2016 EEWORLD.com.cn, Inc. All rights reserved