小时候,街上有一种店铺,专门教人如何用电脑,如何用鼠标键盘操作WINDOWS。会电脑是门手艺,想要学会是要花钱的。而我的外甥还不会说话的时候,就已经会在手机的触摸屏上点点按按,乐此不疲。
计算机在不足百年的发展历史里,交互方式发生了翻天覆地的变化。从最原始的实物开关,打孔带,到千禧年前的键鼠一代,和千禧年后的触控一代。
每一次改变,都为用户提供了更轻松更直观的交互体验。随着简便的操作,计算机的巨大威力耶不断得到释放。
前两年被给予厚望的下一代交互主流,虚拟现实VR/增强现实AR火了一段时间之后,后续发展远没有赶上资本界对它们的期待。
相反,以Alexa,Siri、微软小娜、Google Now等产品为代表的基于对话的交互方式(Conversation User Interface,CUI)势头凶猛。美帝巨头苹果、谷歌、亚马逊都纷纷推出了自己的智能音箱抢夺市场。国内,一年之内,就有淘宝的天猫精灵、京东的叮咚音箱、小米的小爱同学和一大批知名、不知名的音箱,混战其中。
这里梳理基于对话交互的五种产品类型
1. 闲聊模型
这类聊天机器人出现时间非常早,最为国内用户所熟知的就是小黄鸡,现在干脆被用来泛指在论坛或者聊天室里自动跟帖回复的小程序。
小黄鸡们背后是一套基于统计的关联算法。简单来说,你和小黄鸡说了一句话后,他会在自己一个旁的语料库里,找到最合适的那句台词回复给你。
机器学习的发展让闲聊机器人能够达到非常不错的匹配率。但是,就算匹配率能够达到百分之百,它依旧不明白你在说什么,也不明白自己在说什么,仅仅知道,这么表达好像最常见而已。
这里面就埋下了很大的风险,16年微软曾经推出过微软小冰的姐妹版-Tay。上线一天,Tay就被调教成一个热衷纳粹、讥讽女权的种族主义者,随后就被紧急下线。
Tay是个很典型的例子,如果一个系统不能理解他们所做的事情,是非常可怕的。它就好像是家里养的八哥,每天逗一逗,它可以说很多话。但八哥再有趣,你也不能指望它能帮你去菜市场买根葱。
这类聊天机器人也有它的用途,针对儿童和老人的陪伴机器人。唠嗑嘛,又不会干啥坏事,只要有电,能说上一天一夜。
2. 触发模型
Siri等一批语音助手的核心就是关键字响应系统。它们首先通过语音识别(Speech To Text,STT)辨别你说的每一个字,根据特定识别规则,按照漏斗模型去匹配所能提供的服务。它能听懂“打开”音乐,“关闭”台灯、“打电话”给妈妈等,只要使用能被它们理解的话,这种服务还是挺好用的。
但是这种服务的局限性非常的大,它们的记忆仿佛就和金鱼一样。一位腾讯的产品经理曾经和我吐槽他使用天猫精灵冲话费的经历。
用户:“我要充话费”
精灵:“你的电话号码是?”
用户:“176XXXXXXXX”
精灵:“正打给176XXXXXXXX,电话接通中”
用户:“喵喵喵?”
为了能够完成一个业务,它们不仅需要把所有可能的分支进行覆盖,有时候还需要一些技巧,稍有不慎有时候就会非常地啰嗦。
麦兜:麻烦你,鱼丸粗面
校长:没有粗面
麦兜:是吗?来碗鱼丸河粉吧
校长:没有鱼丸
麦兜:是吗?那牛肚粗面把
校长:没有粗面
麦兜:那要鱼丸油面吧
校长:没有鱼丸
麦兜:怎么什么都没有啊?那要墨鱼丸粗面吧
校长:没有粗面
麦兜:又卖完了?麻烦你来碗鱼丸米线
校长:没有鱼丸
旁:麦兜啊,他们的鱼丸跟粗面卖光了,就是所有跟鱼丸和粗面的配搭都没了
麦兜:哦~~!没有内些搭配啊……麻烦你只要鱼丸
校长:没有鱼丸
麦兜:那粗面呢?
校长:没有粗面
3. 搜索模式
Siri在不能响应你的请求的时候,就会返回一个搜索列表。日常中大家习惯使用百度一下自己不知道的内容,所以这种处理方式看上去还算不错。
从另外一个角度考虑,如果对话的程序不能理解我们想要做的事情,通过搜索知识库返还能找到相关内容,也是正常的降级策略。
这一种模式通常会和知识图谱相联系,IBM的沃森系统便是其中翘楚。利用庞大的知识库,它能够成为某个行业的专家,虽然这个专家偶尔会显得刻板没那么有趣。
4. 任务模式
Alexa和微软小娜等现在主流的智能助理,打出来的口号是,它懂你,能够帮你处理复杂的任务。除了按照吩咐去定闹钟、开灯,还能发现你做这些事的规律,找出你的作息习惯,甚至和其他智能设备结合,统计你的身体数据和习惯设定一个完美的作息表。
想要进化到这种程度,首先需要理解它们所提供的服务,其次要记录之前已经聊天中提到的信息,能够根据存储的信息进行新的对话。它们可以用来做旅行助手规划旅行,投资顾问管理你的资产。
以旅行助手为例,它能记住你之前告诉过它,要去什么地方,住什么规格的酒店,之后他就会帮你规划行程,找到最合适的酒店,还提醒你需要带哪些东西。
迄今为止,这种模式非常依赖高度结构化的对话过程,就好像被人指使着一步步填写调查问卷。不过,一些聪明的公司(比如我们),对这种模型进行了改造,根据当前情况下,所需要的信息动态生成对话内容,而不是像剧本一样走到哪步就说哪句。
5. 学习模式
对话本身就是人们用来分传递信息的一种方式。它可以用来反馈他人的请求,也可以向他人表达建议等等。
谈恋爱时通过对话表达爱意和关心,上课时通过对话传递知识,工作中通过对话同步进度。这些有的并没有一个最终需要完成并达到的状态,而是通过对话不断完善我们对一个事情的理解。
这种模式是我们最终期待的,它能想人一样,不断地对周围进行学习,了解我们的工作、业务、健康、家庭甚至整个社会的状态。这些是无穷无尽的。
这些远远超过了搜索的范围,需要结合结构化数据和非结构化的数据,最终用自然语言表达,达到更加拟人化的状态。与前面提到的模式不同,它还能知道你在问什么,它在说什么。
学习模式虽然比任务和搜索模式更具挑战性,但是它们的根基都是结构化的数据基础。随着自然语言生成能力的提高,它们能够将意图和数据映射到真实的对话上,让它们看上去就像一个循循善诱的智者。
不同模型都有各自的优缺点,和实现复杂度,在对话交互系统里面扮演不同的角色。想要在产品中应用,需要多加考虑。除此之外,对话交互的表现形式也值得斟酌,是想亚马逊的echo音箱一样完全使用语音,还是基于聊天软件使用文本对话,亦或是Cortana、Siri等各种个人助理,富文本交互。这个问题在之后的文章会进一步讨论。
作者:言午 来源:知乎
谢谢阅读,欢迎分享给您的朋友:『优雅派』 » 智能音箱语音交互的五种情景模式