未来AI语音助手会发展到什么程度？可能你我都无法想象

2019-09-16 17:14:36

来源：智汇工业

点击：2450

A⁺ A^-

关键词：语音助手创新

自从2011年Siri语音助手首次出现在苹果iPhone 4s上以来，这种技术已经从一种噱头大于实用的创新，变成了智能音箱的基础技术。而现在智能音箱已经出现在了美国六分之一的家庭中，普及率相当高。

顶尖的人工智能语音技术开发公司、Nuance Communications创新主管汤姆·赫伯纳(Tom Hebner)在接受采访时表示：“在Siri出现之前，当我们在介绍自己所做的事情时，对方的目光都是充满了困惑，很多人都会问这究竟是一种什么技术，为什么会有人的声音傻乎乎的说话。而当时这是用户与语音技术唯一的互动方式。”

但今天的局面已经完全不同了，根据eMarketer机构的预测，到2020年，全球将有近1亿智能手机用户使用智能语音助手。尽管人工智能助手已经不再是新鲜事物，但目前来看这项技术依然还处于发展的触及阶段。想要完全实现智能语音助手作为一个普及的产品类别的承诺，其实我们还有很长的路要走。

而以下就是语音助手技术进步的五种方式，可以让科技变得更智能、更高效，从而帮助我们过上更有效率、更方便的生活。不过今天我们进行的只是 “预测”或所谓的“愿望清单”，想要实现这些目标，依然还有很大的困难需要克服。

没有知识，就没有问题

亚马逊Alexa现在可以告诉你马来西亚吉隆坡的天气，还可以帮助查阅货币转换，甚至如何拼写一个生僻的单词。但从本质上来说，用户如果拥有了一位人工智能助理，就相当于拥有了一整套最新百科全书。虽然我们可以得到想要的正确信息，但目前来看，并没有按不同级别的专业划分知识水平。

Hebner在接受采访时表示：“我们家中的智能音箱所面临的挑战是，它们能做的事情太多，但让人无从下手。”

这是一个很难解决的问题，但如果解决之后将改变游戏规则。Nuance公司开发了许多针对特定场景的专家系统，比如帮助航空公司回答旅客咨询问题或帮助医生做医疗笔记等。而这样做不仅意味着这些系统可以向下获取更详细的信息，还意味着可以包含更多的智能特性。“人们对能够理解更多的单词含义感到非常兴奋，但如果你不知道如何处理这些单词，那么就不显得重要了。”Hebner说。

他举的一个例子是一个具有细微差别的系统，该系统不仅能理解医生为病人开出的潜在药品清单，而且还能强调潜在的重点，而这一功能就远远超出了大多数用户级人工智能助理的能力。

然而，对不同领域拥有更专业的详细知识，Alexa的其它技能也暗示了这一点，而且很有可能是具有革命性的变化。从表面上看，向更加智能的音箱寻求法律或医疗建议，这听起来很不靠谱，但其实在法律机器人等领域我们已经取得了非常显著的进步。而根据最近发布的一份报告显示，苹果希望未来Siri能够在2021年前与用户进行以意料健康为重点的对话。

人工智能助手的专业知识图谱现在虽然看起来还比较虚幻，但通过最近不断出现的语音机器人新技术来看以及人工智能报告显示，虚拟助理的技能肌群正在迅速扩张。然而当这些技能有一天能够进入真正的专业领域时，我们的生活会因此而受益。

更多更好的个性化服务

其实现在的智能音箱的个性化领域，还处于非常初级的阶段，我们可以改变语音助手的口音和声音性别的方式，或者添加或删除一部分技能，并向语音助手输入一些信息，比如用户的名字和工作地点等信息。而在某些情况下，我们可以设置多个语音配置文件，以便让谷歌Home之类的产品能够识别家中的不同成员。

但这一功能，其实还有很长的一段路要走，尽管目前来看进步依然很明显。比如Mattersight公司就开发了一种名为预测行为路线的人工智能呼叫中心技术，该技术可以分析使用者的语音模式，并将其与性格相似的人类接线员进行匹配。根据该公司的说法，与性格相匹配的人进行成功的通话，时间通常是性格不适合的人的一半。

使用类似的方法，可以让人工智能助手以我们喜欢的方式彼此交谈。这既可以是一些简单的事情，比如匹配对方的口音和语调，或者也可以通过对某些用户使用更有感情色彩的词汇，而不是像对其他用户那样使用更密集的平淡信息，来改变或表达想法的方式。也许有些人想要一个语音助手来进行长时间的交谈，而另一些人只是想要一个能以最简洁的方式传达必要信息的助手，而人工智能助理应该具备这两种能力。

像谷歌Duplex这样的技术则可以显示出人工智能技术现在是多么的令人信服和准确的生成合成语音，并且让对话越来越自然。作为人工智能技术来说，我们可以完成比如送歌曲请求和烹饪定时等更复杂的领域，我们期待看到这项技术发挥主要作用。

而通过语音识别用户能力的突破可以帮助我们实现这一点。Hebner指出，Nuance公司的技术可以在一秒钟之内通过音频完成用户识别。他表示：“过去语音助手需要10秒钟的时间来了解自己是谁，才能得到准确的信息，而这种能力其实非常重要。通过一小段语音信息来识别用户，不仅解决了密码和身份验证的问题，而且为使用语音助手获取更微妙的个人信息提供了机会。

互动更积极

一个好的智能助手，会在我们提出要求的时候做一些事情，而且不需要我们提问。目前，人工智能助理还处于初级阶段，用户基本上只能在进行明确的要求之后，才能得到自己想要的歌曲或者提醒，而随着用户越来越习惯使用语音助手，未来这种设备的互动方式，将会从现在的被动式变成主动式。

而用户人们是否愿意把某些工作交给机器完成，这也是个大问题。

你觉得人工智能助理会代表你做出怎么样的决定？而这些建议可以是当有用户说自己冷的时候，就可以自动把恒温器打开；或者因为自己迟到了，就帮我们重新预约一次午餐会议；而随着越来越多的智能设备进入家庭，智能语音助手可以控制的内容会大幅增加。

这在一定程度上算是一种社会问题，即人们对智能语音助手做出的决策就行有多放心，并且是否愿意把某些工作交给机器完成，这是个大问题。我们将它想象成可以操作自己信用卡和房子钥匙的真实助手，只是需要网络连接而已。而这么做的缺点就是自己放弃了一定程度的控制权，同时潜在的好处就是让自己的空闲时间更多。当然从技术上来说，这也像是一种巨大的挑战。

反馈更准确

Tom Hebner还指出了智能语音助手主动性的另一大挑战：我们的机器助手如何知道自己什么时候做对了，那么让我们回到“好助手”和“聪明助手”的概念上。一个好的助手可能会在某个大型会议之前把自己所有的文件都拿出来，而不需要我们提问。但是如果它们是错误的文件呢？而让家庭人工智能助理更主动的一个大问题是，目前只有有限的方法来展示我们获得的信息是否正确。

“如果我每天走进家门都听的是同一首歌，然后有一天我走进家门，它就开始播放，他们怎么知道自己选对了呢？”Hebner说。“如果我不停止播放，这是否意味着它的选择是正确的？如果我说停止，是不是意味着它做错了？同时不应该再做了？这种反馈机制是目前我们没有得到更积极主动的系统原因之一。”

对于工程师来说，这是一个具有挑战性的问题。任何曾经有实习经历的人都知道，领导指派给我们的任务，都要给予反馈意见，有时候自己做一项工作比委派给别人一项工作更容易。人工智能助手能让你的生活更顺畅;，不是每天给完成几十个小调查来确认它是否做对了工作。而这需要以一种不会损害这些设备的用户友好性的方式来解决，并且在系统了解您的偏好之前不需要进行大量的预先培训。

那么答案究竟什么？我也不确定。但是，正如前苹果首席执行官史蒂夫·乔布斯(Steve Jobs)曾经说过的，解决问题并不是消费者的任务，而是厂商的工作。

新的交互方法

在《2001太空漫游》的一个场景中，杀人如麻的哈尔9000(HAL 9000)给人留下了深刻的印象，而令人不安的是，目前它仍然是历史上最著名的虚构人工智能助手。它揭示出来人工智能不需要用麦克风就能判断别人对它说了什么。当两名机组人员试图选择一个确定哈尔听不见的地方说话时，哈尔表示自己仍然能听懂他们说的话，而这是通过阅读唇语实现的目标。

虽然上面描述的是电影中的恐怖桥段，但未来的人工智能技术的确可以有更多的互动方式。

语音助手应该不仅限于语音交互的方式，否则这种想法就会减少了自己与人工智能有效互动的可能方式。随着面部识别和情绪跟踪技术的兴起和发展，越来越多的生物识别技术会不断收集用户的信息，甚至有可能出现读心术这样的技术，而人工智能助手可以使用大量不同的信号来得出正确的结论。

相信在10年后，我们看到今天只能用语音命令来控制这些人工智能助手的时候，就像现在看上世纪80年代初的个人电脑。相信总有一天，人工智能和语音助手的交互方式，会变得越来越梦幻。

(审核编辑: 林静)

未来AI语音助手会发展到什么程度？可能你我都无法想象

点击排行