首页 > IT业界 > 正文

Siri未来能读心?看看AI语音助手的五大进阶趋势

2019-10-09 11:18
来源:网易科技

  自2011年Siri首次出现在iPhone 4S上以来,语音助手已经从一种华而不实的噱头变成了智能音箱技术的根基。未来的AI语音助手还会进化成什么样的高度呢?

  如今,智能音箱已经渗透到了美国六分之一的家庭。

  尖端人工智能语音技术开发商Nuance Communications的创新主管汤姆?赫伯纳(Tom Hebner)向Digital Trends表示:“在Siri出现之前,当我谈论(我所做的)事情时,人们的眼神都是茫然困惑的。人们会说,‘是你们开发了那些可怕的手机系统吗?我恨你们。’当时人们对于语音技术都是这样的反应。”

  但今天情况已经截然不同了。据市场研究机构eMarketer预测,到2020年,将有近1亿智能手机用户使用语音助手。尽管人工智能助手不再是新鲜事物,但我们仍处于该类技术的进化初期。要完全兑现语音助手作为一个产品类别的潜力,仍然长路漫漫。

  目前,可以从以下五个方面来让AI助手变得更智能、更高效,从而帮助我们过上富有成效的生活。姑且把它们称为“预测”或“愿望清单”,毕竟它们都是些需要解决的挑战

  1)充实专业知识库

  亚马逊的AI语音助手Alexa可以告诉你各种各样的东西,比如:马来西亚吉隆坡的天气状况;总共720南非兰特可以兑换720美元;生僻复杂的单词如何拼写。但从本质上讲,消费级人工智能助手就相当于数字世界中一个拥有一整套最新百科全书的人。你从它们那里得到了正确的信息,但它们并不具备专业级别的专项知识。

  赫伯纳在接受Digital Trends采访时表示:“你家里的智能设备所面临的挑战是,它们尝试给你解决的事情太过宽泛了。”

  这是一个很难解决的问题,但一旦解决了,就能产生颠覆性的影响。Nuance开发了许多针对特定用例的专家级系统,比如帮助航空公司客服回答客户的问题,或者帮助医生做笔记。这样做不仅意味着这些系统可以深度获取更详尽的信息,还意味着它们可以产生更多的智能。“人们对能够理解单词意思的计算机感到非常兴奋,但如果计算机不知道该如何作出回应,那就不一定有意义了。”赫伯纳说道。

  他列举了一个例子:一个Nuance系统不仅能理解医生跟病人说的潜在药物清单,还能指出那些药物之间潜在的冲突。这远远超出了大多数消费级人工智能助手的能力。

  然而,AI助手在不同领域拥有更专业、更详尽的知识——Alexa技能暗示了这一点——可能是革命性的。从表面上看,向你的智能助手寻求法律或医疗方面的专业建议听起来很疯狂。但业界在法律机器人等领域已经取得了非凡的进步,最近发布的一份报告也显示,苹果希望到2021年Siri能够与用户进行以健康为主题的对话。


  人工智能助手的专业知识图谱可谓兑现了科幻小说的情节,最近发布的Voicebot.ai报告也显示,虚拟助手的技能集正在迅速扩大。随着它们进入各个专业领域,我们将会受益不浅!

  2)更强的个性化功能

  今天智能音箱的个性化还处于起步阶段。你可以改变语音助手的口音和性别表现,为其添加或删除技能,给它输入一些信息,比如你的名字和工作地点。在某些情况下,你可以设置多个语音配置文件,以便谷歌的3603.html">Google Home能够识别你家中的各个成员。

  ▲亚马逊Echo Show智能音箱

  但智能助手在个性化上还有很大的提升空间——不过往这方面努力还是很值得的。Mattersight公司开发了一种名为“预测行为路由选择”(Predictive Behavioral Routing)的人工智能呼叫中心技术,该技术可以分析呼叫者的言语模式,并将其与性格相容的人类接线员进行匹配。根据该公司的说法,给呼叫者匹配性格相容的人类接线员有助于沟通顺畅,相比匹配性格相冲突的接线员,通话的时间也能缩减一半。

  使用类似的方法,可能会使得人工智能助手会用你喜欢的方式与你交谈。比如提供像匹配谈话对象的口音和音量这样的简单的功能。或者,智能助手也可以改变其表达方式,对某些用户使用更有感情色彩的词汇来表达感想,而不是像面对其他用户那样更多地使用细节性的信息。也许有的人想要与语音助手进行长时间的交谈,有的人则只是想要语音助手能以最简洁的方式传达必要的信息。人工智能助手应该同时具备这两种能力。

  像谷歌Duplex这样的技术显示出,人工智能生成的合成语音和对话正在变得多么地准确。随着人工智能涉足比回应歌曲播放请求和设定食物定时器更复杂的任务,预计这项技术将会在我们的日常生活中扮演更加重要的角色。

  这有望借助语音识别技术的突破得到实现。赫伯纳指出,Nuance的技术仅凭一秒钟的音频便能识别用户身份。“过去,语音识别技术需要10秒钟的时间才能了解你是谁,才能得到准确的信号。”他说,“如今,这种技术威力非常强大。”这种技术能够通过一小段语音识别用户意味着它能解决密码问题,也意味着你可以选择使用语音助手来获取相对微妙的机密信息。

  3)由被动变主动

  优秀的助手会在你提出要求的时候给你做事,而卓越的助手则不需要你提出要求,而是能够前瞻性地主动帮你解决问题。目前,人工智能助手还处于第一个阶段。用户可以得到他们想要的歌曲,可以得到他们所需要的提醒,但通常只有在他们向语音助手明确提出要求以后才能得到。随着人们越来越习惯于使用语音助手,它们有很大的机会从单纯的被动型设备转变为主动型设备。


  你觉得人工智能助手代表你做决定怎么样?这些建议可以是:当有人说他们觉得冷的时候,把恒温器打开;或者因为你迟到了,重新预约了一次午餐会议;督促你更多地进行运动锻炼,或者节省开支。随着越来越多的智能设备进入家庭,语音助手可以控制的东西将会大大增加。

  这在一定程度上是一个社会问题,即人们对让机器做决策有多放心。人们是否愿意把某些任务交给机器呢?这还存在很大的疑问。不妨将此想象成把你的信用卡和房子钥匙交给你的人类助手。不好的地方在于,你得放弃一定程度的控制权。潜在的好处是你会有更多的空闲时间。当然,这是一个巨大的技术挑战……

  4)反馈机制

  赫伯纳指出了赋予语音助手主动性的一大挑战:我们的机器如何知道自己做对还是做错?说回“优秀的助手”和“卓越的助手”的概念上,卓越的助手会在一个大型会议之前把你所有的文件都拿出来,而不需要你提出要求。但是,如果文件拿的不对呢?让家庭人工智能助手变得更主动的一个大问题在于,目前只有有限的方法来揭示我们获得的信息是不是我们所需要的信息。

cad />

  ▲Pepper人型机器人

  “如果我每天走进家门都要听同一首歌,然后有一天我走进家门,智能助手就开始播放,它怎么知道自己选对歌了呢?”赫伯纳说,“如果我不停止播放,那是否意味着它选对了呢?如果我跟它说“停止播放”,那又是不是意味着它选错了,不应该再播放那首歌了?反馈机制缺失,是你没有得到更积极主动的智能系统的原因之一。”

  对于工程师来说,这是一个具有挑战性的问题。任何有过被实习生就每一项任务征求指导和反馈意见的经历的人都知道,有时候自己亲自做一项工作比委派别人去做来得更容易。人工智能助手要能够让你的生活工作变得更顺畅;而不是每天让你做几十个小调查来确认它的工作有没有做对。这将需要以一种不会损害这些设备的用户友好性的方式来解决,并且在系统了解你的偏好之前不需要进行大量的预先培训

  5)新的交互方式

  科幻电影《2001太空漫游》(2001:a Space Odyssey)有这么一个场景:凶残的HAL 9000——令人不安的是,它仍然是历史上最著名的虚构人工智能助手——揭示出,它不只是利用麦克风来判断别人对它说了什么。当两名机组人员试图选择一个他们知道HAL 9000听不见的地方说话时,HAL 9000透露,透过阅读两人的嘴唇运动,它仍然能够知道他们说了些什么。

  很可怕吧?未来人工智能助手或许也能这么干。

  语音助手应该局限于语音互动的想法,减少了它们与我们有效互动的潜在方式。随着面部识别和情绪跟踪技术日益兴起,人们越来越多的生物特征识别数据被不断收集,读心技术甚至也有可能出现,人工智能助手可以使用大量不同的信号来得出结论。

  10年后,我们将只能使用语音来控制这些人工智能助手的想法,就像在上世纪80年代初看到个人电脑时,会想,我们永远不会再有别的带有键盘的计算设备。

举报
关注公众号“多特资源号”
内容来源于网络,不代表本站观点,侵删
热搜资讯