John Brownlee受与3岁女儿沟通的方式所启发,谷歌搜索产品设计主管赫尔托·欧尔赫特正尝试让谷歌的语音搜索更加“人性化”。
不管是Siri,OK Google,Alexa或者Cortana,这些语音助手总有无法听懂用户的要求、令用户失望的时候。
有时是因为用户以一种它们无法理解的方式说出要求,比如“Alexa,我想来点碧昂斯的歌”而不是简单地说“Alexa,播放碧昂斯的歌”;有时则是因为你要求语音助手做一些超出它们能力范围之外的事情。无论哪种原因,最终都会导致用户失望地走开,电脑则学不到什么新东西。对用户和电脑来说,这是一种失败的状态,而非学习体验。
作为谷歌所有搜索产品的设计主管,赫尔托·欧尔赫特(Hector Ouilhet)从3岁的女儿安娜·茱莉亚身上获得了帮谷歌解决这类问题灵感。
赫尔托思考的问题很简单:如何让谷歌更像安娜·茱莉亚?这并不仅指谷歌如何对用户的要求做出反应,还包括如何带动用户将谷歌看作不断学习、不断进化的智能生物体——就像一个3岁孩子一样。
搜索引擎为何“发声”
谷歌与安娜·茱莉亚有什么不同?这个问题有数百万个答案,但归结下来,那就是安娜·茱莉亚是个小女孩,而谷歌是……究竟是什么?
“与一个3岁孩子或90岁老人说话时,你会期望对方有一系列反应,”欧尔赫特说,换句话说,我们会根据一个人(或与这个人相似的人)表现出来的已有的能力来对其能力设定心智模式,因为人的能力是时刻在进化和演变的。
但谷歌是什么?谷歌什么都是,也什么都不是。谷歌是一家公司,是一个操作系统,是包含了诸多算法的黑盒子,它能够在没有指令的情况下做一大堆事情。用户如何对强大又随意如谷歌的东西设定心智模式,以便知道如何与其互动呢?
欧尔赫特很肯定,答案就在于让谷歌表现得更像一个人。这并不是想人格化谷歌或者将谷歌变成人工智能,“而是帮人们改变看法,重新审视与人们对话的这个系统,”欧尔赫特说。
语音助手的通病
谷歌并非唯一一个将语音看作解决人们与电脑互动方式的公司。苹果有Siri,微软有Cortana,亚马逊则有Alexa。不过,虽然从理论上讲,比起点击屏幕或鼠标,语音助手应该是人们与电脑互动更自然的方式,但欧尔赫特说语音助手同时也有许多摩擦,在用户脑中产生诸多认知失调。语音助手听起来像人,但表现却差强人意。
让我们假设你有一个亚马逊的智能家居产品Echo。你可以让Echo做很多事情,包括播放爵士乐、设置闹钟、降低智能灯的亮度、将某件物品加入亚马逊愿望清单或想出一个跟potato押韵的词语。但让Alexa关掉烤箱或打电话给你妈妈时,Alexa就做不到了。如果它听不清你说的话或你说话的方式超出它理解范围之外,它只会重复之前的动作,因为电脑——与人不同——不擅长理解模棱两可的话。
这不是亚马逊Echo独有的问题,而是所有语音助手都有的问题,包括OK Google。所以经过某些初步试验之后,使用语音助手的人们只会让电脑做一些他们知道电脑能够做的事,而不再尝试新的要求。但到最后,所有这些产品都是会进化和演变的。它们是由数据和算法驱动的,一个电脑——比如谷歌——对人们如何使用语音助手的方式知道得越多,它就能越快地进化以满足用户的期望。
为何谷歌现在还不如一个3岁孩子?
对于如何改变人们与语音识别系统的看法,欧尔赫特从与女儿的关系中挖取灵感。
与谷歌的语音助手一样,安娜·茱莉亚并不总是能理解她爸爸的要求,或知道如何完成要求。有时候,当爸爸要求她做什么事时,她正在做白日梦,所以她没有听到爸爸的话。不过,当爸爸要求她做什么事而她做不到时,她的反应与亚马逊 Echo等语音系统全然不同。
假设欧尔赫特正在煮晚饭,这时,他要求安娜·茱莉亚“set the table”(摆好餐具)。她才3岁,不知道如何摆餐具,但她绝不会摇头说我不懂。她迫切地想取悦爸爸。再说了,欧尔赫特的话她也不是什么都不懂,她知道table是什么,她只是不懂“set”在这个语境下是什么意思。所以,她可能会说“爸爸,你是想要我坐下吃晚饭吗?”
这里我们可以从三个方面分析。首先,安娜·茱莉亚能够将爸爸的要求分解成两部分,她懂的部分(“table”)和她不懂的部分(“set”);其次,她能够理解语境,她知道爸爸正在准备晚饭,爸爸经常在这个时候叫她坐在桌子旁;最后,安娜·茱莉亚不确定她是听错了“set”这个词还是不懂这个词,所以她做出如是反应。但同时,她又迫切想取悦爸爸,因此她尽力猜测欧尔赫特想要她做什么。
最终结果是,即使安娜·茱莉亚没法做到她爸爸的要求,她仍会将信息添加到对爸爸的心智模式设定中。所以,未来欧尔赫特要求她摆好餐具时,她有可能可以完成他的要求。 欧尔赫特也会因此更理解安娜·茱莉亚,这会鼓励他去继续尝试——她今天可能还不懂摆放餐具是什么意思,但明天有可能就懂了。 因为这不仅是一个简单要求的问题,而是建立一段长久关系。
让谷歌更像安娜·茱莉亚
随着语音转录技术越发先进,谷歌越来越能够懂得用户的要求。Knowledge Graph正帮谷歌从简单匹配搜索请求和搜索结果进化到真正理解语义,包括事物是什么以及能够做什么。Google Now和Now on Tap则着力于理解语境,包括建立个人用户的心智模式,以定制搜索结果。虽说这正是让倡导隐私的人们头痛的事情,但谷歌确实越来越能记住用户的搜索历史,并根据此推算用户未来的搜索范围。
但语音搜索所面临的挑战并非技术性的。欧尔赫特说更多的是设计一个让用户觉得是跟一个人而非一个电脑对话的语音用户体验——又或者说,表现得像安娜·茱莉亚的语音用户体验:迫切想取悦,迫切想学习,不害怕做猜测,而且在努力了解我们的同时鼓励我们继续了解它。
欧尔赫特承认谷歌还没发展到这一步,不过未来几年就说不定了。“人类擅长从语境中获取含义,就像剥洋葱似的,”他说,“想象一下,若电脑也擅长‘剥洋葱’,它会是多么强大。”
发表评论 评论 (0 个评论)