赞助商
立即赞助

网易用研:超全面的语音交互知识科普

交互设计3年前 (2021)发布 流光
8.1K 0 0

什么会语音交互?它适于么场景?适于哪些?章为你解读。

一. 什么是语音交互

在没有机器之前,人类最早的交互方式就是语言和作。如今,在自然交互方式的趋势,我们又到了语言这种交互形式上。

原始的交互方式,就人与人用语言、动作、眼神交互,人与用动作交互。机器刚出的时候,并人机交互的理念,机器很难操作,需人去学习应。肖尔斯的「QWERTY」键盘会流传就因这种字母的排列设可以降低打字速度,避免速输入造按键连杆的互相涉。

战期研究促进了工程发展,适应类、提高效率理念到发展。在计算领域,从命令界(CLI)进入到图形用户界(GUI)是大突破,随后发展到目前主流操作触控,使用手指在屏幕上滑动按。语音交互界(Voice User Interface,VUI)、手势、动作、表情交互,甚至脑接口,都属于自然用户界(NUI)。

从载体上,语音交互以机或脑为载体,或以其硬件为载体。除了这些,在服、教育和医疗等行业也都有应用,如服语音质检、语测评等。

网易用研:超全面的语音交互知识科普

△ 语音交互界面的形式

二. 如何评价语音交互

VUI效率高是低?

高效交互是好交互。交互在于提高使用表现,从速度、准确性、注意负荷三个维度衡量。让用户速度越快、越准确,并占用最少注意负荷是好交互。我们来看几情况。

输入文本:效率极高。人说话的速度比字快,且不需要心屏幕,考虑字输入也有错误,语音交互在输入文本表现不错。因此多产品都会在文本输入加上语音入。

置任务:果我们想打快车回家,用语音助手还是图形界面的打车APP更快?由路径短,语音助手的理论速度更快,唤醒Siri并说句,不需要打开APP点选。在现有状况下,输任务容易出错。果命令语言出现偏差,语音助手听不懂你的意思,就导致任务失败。我们需要思考该怎么置任务,是说「我要打车回家」还是「打开XX并打车回家」?果语音助手三次听不懂命令,你还继续尝试吗?放弃语音置任务,只要打开APP,找到熟悉的口点击操就完成。

输:相即时的图形反馈,语音是一种太合格的输方式,它过于缓慢、效率低。由于听觉是线性的,我们只听一句话再听一句,而像视觉一样瞬间成图片工,在本间扫描跳过,电话语音务系统就是这种浪时间的方式。另外,持续听语音还会消耗大量注意和记忆资源。如果客念却没有听到想要的容,重听按0是另一场噩梦。另一方面,我们大分的信息来自于视觉,但语音方式输视觉信息。

适合双手被占的场合

语音交互适合在哪里使?双手被占时,如驾驶、烹饪、游戏等情况。如,开车时眼睛需要看路,双手握着方向盘,而且车环境既静又私密,这种情况就适合使语音交互。另外,在输层面上,如果视觉通道被占,听觉通道更适合接收紧急和重要的通知。

门槛极低

语音交互的支持者认为,语音是最自然的交互方式。人人都会说话,门槛极低,尤对于输困难人群(如视障碍人群),他们全可无障碍的使语音交互的形式。但是另一方面,习惯触控的人群一定愿意转向语音,对技术有畏难情绪的人群可愿意尝试语音交互这种「」的技术。

语音可以传递感,但人还不应机器交谈。

语音由于有声调和节奏,相比文,更能传递情感。问题在于我们不习惯和或者手话。据统计,在公共场合使用Siri有3%。我们默认语言是和交流,或是和猫、狗这我们认为有性动物交流。与物进交流时,更多会采用动作交互。此和手说话时会有很奇怪感觉,尤其于东来说,心理障碍可能会更大。

为了减少用户的压力,拉近心理距离,多智能语音助会定的「人物形象」。例如Siri高冷忠诚,软冰可爱贫嘴。另外,语音助大多是性声音,也是因为性的声音听起来更加和善包容。在操作过程中出现问题,如果响起了男性的声音,容易给使用者产生被责备、被批评的觉。

不,语音助手也不能太像正的人。恐怖谷理论认为,对和人越来越像的东西,我们的感上升,但我们厌恶很像人而不是人的东西,例僵尸。从恐怖谷的理论来看,我们能害怕逼的语音助手。

网易用研:超全面的语音交互知识科普

△ 恐怖谷

不适合在开场合使用

语音互不适合在开场合使用,尤其是图书、办室类安静的场合。

身份识别问题。在汉堡王的一则视频广告里,售货员最后凑屏幕,说“OK google, what’s the whoppers?”。「OK google」是卓手机和Google Home的唤醒词,户会发现在自己没有达命令的情况,设备已经启并搜索了皇堡,这是设备缺身份识别系统成的。为此有产推了声纹识别系统保障支付全问题,至于声纹验证的可靠性则是另外一个问题。

网易用研:超全面的语音交互知识科普

△ 汉堡王的视频广告

隐私方面也如此,相比起屏幕,公共场合的输入输出对话易被听到。敏感的金融、医疗私人信息风险。

场景分析

总体,语音交互至少需满足噪音低私密两条求。众多的场景中,车内家里满足求的,加手机的移动场景,共3场景。Mary Meeker2016的报告也指出,语音使用的主场景家里(43%),车(30%),(19%),作仅占3%。

三. 语音交互发展难点

语音交互系统发展的历史并不短,早1952,尔实验室就发了能够识别阿拉伯数字的系统Audrey。1962,IBM发明了第一台可以用语音行简单数学算的机器Shoebox。

网易用研:超全面的语音交互知识科普

△ IBM的Shoebox系统

在发展了半个多世纪后,语音交互仍没有到成熟应用平,遇到困难贯穿开发到使用流程。

一套完整的语音交互系统有三个典型模块,语音识别(Automatic Speech Recognition,ASR)将声音转化成文字,然语言理过程(Natural Language Processing,NLP)将文字的含义解读出来,并给出反馈,最后通过语音成(Text to Speech,TTS),将输出息转化成声音。

网易用研:超全面的语音交互知识科普

△ 典型的语音交互系统模块

远识别难题

第一个难题是获取语音的问题。语音质量高的前提下,才能有较好的语音识别结果。有些公宣称的语音识别率达了95%甚至99%,但其前提条件往往是声源距离近、环别安静、说话人的普通话别标准,而非日常的应用景。

获取用户语音,根据距离分为近场识别和远场识别两种情况,者难度更大。

手机上的语音交互是典的场,距离声源,语音信号的质量较。另一方面,采集语音的交互相对简单,有触摸屏辅助,户通过点击开始和结束进行信号采集,保证可录到户说的话。

远场语音交互以智能音箱表,声源远,不知道声源具体置,环境中存噪声、混响反射。单麦克风无法满足求,需麦克风阵列支持。用户可能站任意方,被语音唤醒后,需到声源置,向该方向向识音,增强语音并降低其他区域环境的噪声。

网易用研:超全面的语音交互知识科普

△ 远场识别示意图(源:雷锋网)

语音识别确率

实际作中,常用的指标识别词错误率(Word Error Rate)。微软语音对话研究团队负责人黄学东近宣布微软语音识别系统错误率由5.9%一降低到5.1%,可与专业速记员比肩。自于两方面,一技,包括隐马尔可夫模型、机器学习各种信处理方法,另一方面庞的算资源训练数据。

语义识别

如果语音手行过对话,会发其语义理解还停留固模式识别的套,根据用户话中特的词出反应,不一能给出确的回答。

约翰·希尔勒提出过「文房」思想实验,个不懂文,会说英语在个封闭房,房里有本英文手册告知如何处理相应文信息。用文写问题从窗户递进房里,这个照手册进查找,将应文解答写在纸上并递出去。房可能会觉这个很懂文,实他窍不。训练来理解语义类似于这个过程。过训练,我们让反应接近于能够理解,法像类样真正理解语言。

语言是人和人之间交流的工,某种程度上适人的认知系统,如何期待机器更好的理解?

目前来讲,遇到的问题至少有分词、歧义和未语言处理。中文不像英文单词有空分开,而且歧义高,对AI有更高的要求。例「京市长江大桥」就以分成「京市/长江大桥」和「京市长/江大桥」两种,「鸡不」有种含义。和Siri说「打开饱么外卖」,在它没有学「饱么」个单词的情况下,它将何处理?

轮对问题

我们得语音助手很蠢,有时是因为它违反人类对的原则。人类对看似简单,但根据对方的背和自己掌握的信息,整对内容,上下文之间也有呼应关系。但是,现有的很产品,其对缺少关联。语音助手不理上下文背,只能进行单轮对,看似进行的轮对其也只是个单轮对的组合。

「愚蠢」带来的一是自然,二是增任务难。如当你问语音助手「明天的天气是么?」它说雨,再接着问「后天呢?」这时它并明白问的是后天的天气,只再整的问一次「后天的天气是么?」

下面这对话里,小冰一会儿阴师游戏,一会儿电影,并对话的记忆。

网易用研:超全面的语音交互知识科普

△ 小冰对话的记忆

四. 语音交互设计规范

由于语言尤其口语的形式不固,变化很,VUI的交互设GUI截然不同,加细致繁琐。亚马逊已给发者提供了熟的交互设规范。

语音交互设计至少可分为几步,首先立功能目,其撰写脚本,即用户和系统如何话,第三步是制定流程、用户使用路径等,需要定义技能结构,括完成个功能需要哪些参数、用语有哪些变化。例如于个功能,用户可以说「天怎么样」也可以问「下雨吗」。

远场语音交互品冷启动

远场语音交互品存在冷启动期,有积累了定数据才可以更好提升品体验,如何提高销量、积累数据是品启动时需要思考问题。如希望语音交互品可以成为平台,千量级是基本槛,如Echo在今年销量可以到预计两千台,基本上有了足够数据,有成为平台希望。国内些模仿者使用节日促销模,例如双十天猫精灵99元售价,卖出了100台,希望过这进数据初步积累。

缺乏持续使用动力和核心场景

新鲜劲过去后,很多会语音交互失去兴趣,触控仍然是主要交互。Creative Strategies数据发现,97%在两时内会Alexa新功能失去兴趣。Voice Lab数据发现,62%安卓用户很少或者偶尔使用语音助手,这比例在iOS用户上是70%。目前,语音交互缺乏有其才能实现核心功能,即使亚逊Echo,它最多用途仍然是听歌,缺少核心竞争力和不可替代性。

五. 问题讨论

语音交互否会主流交互方式

笔者的意见,就触控取鼠标键盘,语音交互不太可能主流的交互方式。交互界面本就多模态的,语音交互将丰富的交互形式不会取其他。如文所述,语音交互不能解决所问题,只特的场景可以发挥作用。

伴随语音多交互是不选择,例如语音和触控结合可以提高准确度,语音和视觉结合,实现语音输入加视觉反馈,或者加上手势等。

是否需要追求语音交互纯洁性

Echo团队认为,语音是最自然交互,此坚持设计语音交互,语音输入和视觉输出模型已被证明其成功性,我们在手上使用语音交互模型是如此。新品Echo Show也装上了屏幕,可以显示视觉信息了。所以是否有必要坚持纯粹语音交互模型?答案似乎已经很明显。新问题是,如Echo加上了屏幕,用户会认为它是音箱是平板?

网易用研:超全面的语音交互知识科普

△ 加上屏幕Echo Show

六. 语音交互的定位

本质上,语音交互允许过语音完成任务,能过语音完成,触控也可以,Siri可以做到,Echo也可以,做不到大家都做不到。所以语音交互能够完成什么独有任务以体现它价值呢?

VUI vs. CUI

语音设计师Cheryl Platz在她Medium上反复提及个问题,VUI是Conversational UI?

语音交互界面是基于独的任,它的模式是简的「下命令——完成任」,然而这不是然的对话,需要思考如何下命令,距离对话远了。如果要朝着CUI的目标,语音交互必须更加智能和流畅,允许通过真正的对话完成任,像和真人说话一。

隐私问题

如果语音助要更好用、更智能,就需要不断收集用户的息。所以是否需要语音助改变的反应?如果语音助目的就是商业的,那是否任它并提供息,从而让它更了解的喜好?

另一方面,语音助手是否安?通唤醒词唤醒的语音互产品持待机,从境中获取声音,种机能被用。在一则新闻中,Echo被破并成为一个24小时窃听器。还有连接方式,国禁止销售的一款儿语音玩具「My Friend Cayla」,其蓝牙连接就被证明是不安的,儿与玩具对的语音能被三方获取。

网易用研:超全面的语音交互知识科普

△ 儿语音玩具My Friend Cayla

语音互界面的测试方式

和普通产品的研究方法共通,用测试、访谈等方法依适用研究语音互系统。测试VUI时以特别注意一地方,例用户的反应,成功率,停顿或者失败等等。有一特定指标以用评估,例速度准确度、用户付出的认努力、清晰易懂度、系统程度和声音质量等。

面介绍一个有趣的语音交互界面测试方法——Woz法。由于语音交互系统成本较,在系统开发前,通过Woz(Wizard of Oz)的原测试发现问题,成本很低。由一名研究人员扮演Wizard,一名普通研究人员协助,户操作后,由Wizard在暗处手播放反馈。

网易用研:超全面的语音交互知识科普

△ 车Woz测试(来源:《Designing Voice User Interfaces》)

语音交互仍需发展,技熟需时间。但它的出意我们可以用多方式操作设备、传递信息,我们离理的交互界面近了一。以对语音交互了简单的总结,疏漏法不熟之处,欢迎交流指。

七. 参考资料

  • Cathy Pearl. Designing Voice User Interfaces. O’Reilly Media, 2016
  • Clifford Nass, Scott Brave . Wired for Speech. MIT Press
  • Cheryl Platz. The Narrowing Rift: Voice UI and Conversational UI. Medium: Microsoft Design
  • Amazon Alexa:Voice Design Guideline. Amazon
  • 极限,一文读懂智能语音前端理中的关键问题,雷锋网

欢迎关注作者公众号:

网易用研:超全面的语音交互知识科普

© 版权声明
您必须登录才能参与评论!
立即登录
暂无评论...

相关文章

首次揭秘!公布用研同学常用的在线工具,给你包含数据搜集、分析讨论、结果呈现等三大应用场景的全流程解决方案,快点来看看...
信息采集
最近重新梳理《设计调研》读书笔记。秉着啃完书就想做图示消化的习惯,把这本书的脉络和重点划出来了。 一、目的 设计调研,...
可用性测试
设计师必须具备丰富的知识储备,在各个行业中找寻相通的规律和事物的本源。经过多年的沉淀,前辈们留下了大量的通用设计法则...
包容性设计
工作中我们设计师除了要完成产品经理或者业务方的需求,往往还希望在设计产出上能有更多的创新来体现自身的价值。但是我们有...
产品
调查问卷,是一个低成本快速收集资料的定量分析工具。这是个看起来简单,产出的问卷也看似很简单,但是在整体设计的过程却是...
用户研究
为什么一个简单的界面,你做出来后总觉得不够精致,很可能是因为你遗漏了一些容易忽略的设计细节。本文作者通过一个案例,细...
App设计
风筝kk:从聊天界面中常见的文字部分、图片部分来分析,看看聊天界面在设计时需要注意哪些细节。 参考文章:《聊天缩略...
界面设计
卡片分类法可以用于网站或应用的导航、信息架构等项目,也可以用于文档、电子书籍的结构整理或是文件的分类管理等。 卡片分类...
信息架构