设也需每场景中分别出判断,行业通用的部分沉淀,以及行业特性的性化设思考,都需不断的去试打磨的。智能互动设备作为一种趋势,是设计师发挥长的沃土。
一、5号小蜜:智能互动设备的初期准备
在如今智能硬件设备,语音互动的大趋势下,我们针对智能互动的硬件,从想法 – 设备 – 技术 – 设计 – 场,总结沉淀部分探索经验。
首先代一下背:
在阿里小蜜语音助手的形态,延伸了很多智相的研究和探索,中智硬件是我们想要发展的一分。在这种情况,「5号小蜜」为名称的智互硬件设备应势而生。
(称解释:决这产品的初,以落到公司的5行政场景的提下行的设,所以叫「5小蜜」)。
在有了这个想法后,5号小蜜进了1.0版本研究和设计,在项目初期我们承载硬件主要是以55寸,比例为16:9液晶屏幕为主,用虚拟形象进语音互动,其场景设定也是在访客进入到5号楼进互动能力。
二、智能互动设备的框架拆解
了初的展之后,我们以设师的视角总结了智能互动类设备的基础框架,我们之后的升级完善行了整体的方向指导。
首先智能互动设备的核支撑能力一算法的能力,当市面的智能硬件多数以语音理的形态出的,因此对于设师,VUI 重的一环,5小蜜不单单语音的交互,也视觉的交互。因此感知层面的设,「VUI+GUI」也就听觉视觉的互动(但硬件多样发展的今天,触觉类也应该考虑到感知层面的一部分)。
VUI+GUI 比传统语音交互会一些优势体:互动方面,语音可以理解面,单一面传递信息限的,如果语音界面结合起,就从两单一面形了空间,可以承载多的信息。
举个例子:与在交流不止是语言传递互动,可以从部表情传递出喜怒哀乐;肢体语言传递出兴奋度和性格特质。综合起来,我们交流才会更畅。
在物理层面而言,是硬件备的选择:液晶屏幕、玻璃屏幕(透、非透)、全息投等。
在初期,我们的选择是液晶屏幕,个是最基础的承载硬件,也是成最低的硬件。而其它选择的硬件也有优劣之分,透明玻璃屏适合导购的场,背是否有品的出现,是从传统的触互动进行更承载信息的进化。非透明玻璃屏适合更沉浸的助理场,息投影更接近人的感受,也是智能感受最强的一类,每一种硬件方式有适合的场,个是我们需要去权衡的。
在以设计师的身份参与程中,我们更的是以设计的视角和硬件、场、技术等进行搭合,所以在程中,参考方面的因素,影响最落地的结果。
1. 感知层面的设计策略:视觉层
在2.0初期,先整理了最直的官层的一部——视觉受,以此为基础为产品定调,以最直的表现层为段帮助产品建立视觉体系。
首先我们内部脑暴统一同步次升级的目标:让小蜜更智能,更有服务感。一个是身我们在做的情就是智能相关的研究,另外在落地的场访客中心承载的也是服务的属,所以在设计方面就抓取两个心智方向的关键词:智能、服务。
在关键词的引导下,先建立情绪板,整合出表现的特。
抽出智能感受类的关键词,以是抽象或者具象的描述。
接着整理出服务相关的视属。
根据关键词的延展,得了视觉语言的方向,但是在推导中发现智能和服有些画面更像是互补色之间的关系,有一定的对立面,所以要从中调和每个关键词在界面中的占比。同要考虑是不是有减少者冲突的法,所以在多次尝后决定将1.0版本中的机器形象换成真人。
首先在行政楼场中,人带来更的亲切感,与服务场更契合;其次界面关键词的分方面也有考量,在氛围中我们更希望带来智能感受、在对中我们更希望是亲切的服务感,因此人的形象出现是一个比合适的策略。
而且务的视觉概念从我们感知到的二维变成了多维的角,从单一的界面变成了人设、、肢体语言、面表情等多方结合的综合体。因此这两个键词延展来的分就有了各自的分工:智感更多的体现在界面氛围上;务感更多体现在人物上,两者结合的会更润滑。
下图关键词占比的界面试过程灰机稿。
试过程中,画面一清晰了起,智能+服务也能多体出,终通过提炼过程中的视觉语言,形了终的画面。
整体视觉感受设的同时,人的视觉点也同行,我们对人行了性别、装、动作、面部表的设,整体目标以之服务感中总结出的友善、轻松关键词。
终画面(其中一款服装考虑之后场景的拓展性,整以智能感受主)。
2. 感知层面的设计策略:听觉层
在描述视觉设定后,来看一听觉的方面,就是语音的互。
首先,语音互的核心还是在算法上面,因此语音交互是和技术相辅相成,5号小蜜的技术手较丰富,要是几种:ASR、TTS、QA、面跟踪、面重塑面跟踪渲染等 AI 技术模。论上只要获得充足的人物视频+语音数据,技术可模拟任意指定人物。数据越多,面和语音的还原越逼真。
中,为获取原始数据,需要进行数据的采集,要是在采集室里对语音、图像进行收录,大致技术的流程如示:
在这些技术背景,语音的互更多的是考虑如何在与真人的对话中,体验更顺畅。
下图核的 Flow:
小蜜与用户交流的部分了标记,也语音交互的核内区。了方便整流程连贯起,还从初的部分始,讲述一完整的剧本。
用户从楼走进,般会有几意图:开会(查找会议)、来访(了解里文化等)、参观(闲聊)根据这些场景我们进了两个关键节设定:吸引、交流。由于结束话属于弱互动,所以暂不列入。
上为语音互的核心分,余还有户结束对话的声音作反馈——「再见」+挥手等;未知问题的复处——进行多种兜话术的配置;中途离场的户——小蜜15S复初始状态等。
3. 物理层面策略:硬件、场景
在考虑界面语音互动的同时,也要考虑硬件方面带给验的影响,比设备的主要构成,MIC、音响、支架、外观显示器等主要硬件。
MIC 的技术手段是单轨拾音,因此需要证在有效距离内收音(机器前贴最佳距离的脚印贴纸,以证对收音)。显示器整的15°角倾斜,考虑反光、身高视角等情况。机器总高度控在1.8M,用户眼睛与小蜜眼睛持平视,最佳观看高度在1.7M左右的平均值,以覆盖大部分用户的使用感受。
△ 年亮相图
图为整个硬件的构成分及作传输图。
在硬件组毕后,会进行收音的测试,在实际使场景 – 公共环境(嘈杂环境)录音(ASR识别)的方式来收集同位置的收音状况(保证同等条件,如分贝相同)来收集数据,最后判定这个 MIC 的硬件是是最合适的。
经过综合多方位设计后,设备才见到雏形,本身智互领域就是多维的综合体,设计师参与在中会从单一的视觉、交互维向更全面的维思考,使每一个环节串联起来,打更好的 UX体验。
最后的思考
从这次的项目来看,我们在做事情的初期就需要有一个整的目标定义,Lot设备的应场景考量等等,这次综合升级只是考虑了单一的行政场景,解决的是咨询类的问题,因此设计的链路是单一且浅薄的。但是产的发展一定是要向商迈步的,如:热门的导购场景,与淘系零售的战役契合,结合淘宝生态配合多种垂直行,机器人作为智客现在售前、售中、售后的务等等。
设也需每场景中分别出判断,行业通用的部分沉淀,以及行业特性的性化设思考,都需不断的去试打磨的。智能互动设备作一种趋势,也设师去发挥所的沃土。