赞助商
立即赞助

想给用户做推荐?先收下这份「推荐系统」评估指南

产品设计3年前 (2021)发布 流光
1.9K 0 0

序言

对于当下的互联网产品,无论主流或非主流,处处都能看到推荐系统应用场景。比如,你在淘宝下单买了台iPhone 11,买完成页下立刻会你荐诸如「全新AirPods Pro」、「Apple Watch 5」等相关商品;再比如,你在瓣上标记了想看热悬疑网剧《隐秘落》,在厕所刷抖音时候,可能会看到《证罪》、《轮到你了》、《白夜追凶》等等相似剧精片段。荐系统这形「大手」已经把我们安排明明白白了。

想给用户做推荐?先收下这份「推荐系统」评估指南

△ @alienking2000 from unsplash.com

推荐系统的强毋庸置疑,且我们常会把它看作一神秘的黑箱子,会将其与多种复杂的技语相关联,比如「数据」、「人智能」、「机器学习」,认推荐系统的好坏,就对用户偏好预测的精准与否。然,不久完的一研究课题,打破了这认知误区。

推荐系统的本质

面对这课题,首先需回答的就:如何义推荐系统的好坏?其实,这问题一种符合直觉的答案,即越能精准预测用户需求的推荐系统就好的。乍一看,这答案几乎什么问题,然,精准预测只一好的推荐系统的必条件,那究竟什么「好」?回答这问题,我们需先了解推荐系统的本质。

推荐系统(Recommend System)的研究由来已久,这一概念初次被及,是在1990年哥伦亚大研究者Jussi Karlgren的著作中,直到1994年才成为一个相对独立的研究领域,虽然这一领域已经有30年的研究沉淀,但对推荐系统的定义仍未达成一致,过密歇根大的研究者Resnick和Varian在1997年了一个较为公认的定义:「推荐系统是利电子商务向顾客供商信息和建议,帮助户决定应该购么产,模拟销售人员帮助客户成购过程」。

想给用户做推荐?先收下这份「推荐系统」评估指南

△ @linkedinsalesnavigator from unsplash.com

以上段描述反映推荐系统最质的三个问题:一,何精准的预测用户的需求?二,何面细致地描述网站上的信息?三,何给用户推荐最适合的信息?

「预测用户」&「描述息」主要是依赖术队的算法,而且业内在该方面的研究相对比较成熟,目前常用的预测术包括:基于内容的推、协同过滤推、基于知识的推、基于网络结构的推、组推及其推等等,由于术难度较硬核,在此不做展开;在确保预测准及全面描述的基础上,便是「推」最适的息给用户了,但什是最适的?这个评判的标尺就拿捏在用户的上。

推荐系统的评估维度

下来就是关于如何评估推系统的好坏,业内普遍认为,推系统的评估涉及大范畴的维度:准确度(Accuracy)和可用性(Usefulness)。其中,准确度表示推系统预测用户行为的能力,主要根据离线实验的方式来评估;可用性更多反映的是用户的主观体验,常见的评估指标包括多性(Diversity)、新颖性(Novelty)、惊喜度(Serendipity)、任度(Trust)及实性(Utility)等。

1. 多性(Diversity)

多性是指每条推息的不相似程度,如果推结果过于一,势必会让用户失去不断浏览的兴趣,而纯的增加多性并不算难,挑战主要在于如何增加推息多化的同,可以保证结果符用户的「味」;

想给用户做推荐?先收下这份「推荐系统」评估指南

△ @nate_dumlao from unsplash.com

2. 新颖性(Novelty)

新颖性是指推结果中出现的用户以往没的息,提升新颖性最常用的法是根据均流行度来推,把流行度较低的息提供给用户,会增加其新颖性知,但是,一味提升新颖性也未必会增加用户度,同需要在确保准性的前提下进行;

3. 惊喜度(Serendipity)

之所以会把惊喜度作为一个指标,纳入推系统评估的体系中,是为了衡量推系统解决如下问题的能力:用户面对之前已经遇的推结果,变得越来越厌烦,推系统需要提供让用户既新奇有吸引力的息。

「惊喜」与「新颖」在文语境有些相似,在此处并不相,笔者过以下示例来做说明:比如,你平时会用网易云音乐来听歌,比较喜欢杰伦、林俊杰这类R&B歌手,几乎听遍了他们专辑所有歌曲,如系统你荐了《夏天风》这首歌,而你前没听过,是你看了这首歌封,发现是杰伦创作,充其量也会感觉比较新颖,未必会有惊喜感觉;如系统你荐了首从创作、演唱到曲风完全不于以往听过R&B歌曲,你听完后发现很喜欢,那这时候你不觉新颖,更会有惊喜感觉。

想给用户做推荐?先收下这份「推荐系统」评估指南

△ @jmuniz from unsplash.com

4. 信任度(Trust)

信任度也是衡量荐系统好坏要维度,顾名思义,信任度指是用户荐系统信任程度,信任度高荐系统更易引导用户生交互为,影响信任度不括荐内容,也括荐样,目前提升信任度主要括增加荐系统可解释性(Explanation,即荐理由),或者引入社交网络信息(熟荐易提升信任度)。

想给用户做推荐?先收下这份「推荐系统」评估指南

微信「看看」展示部分信息,即露了社交关系相关荐理由

5. 实时性(Utility)

该指标主要指,用户与荐系统发生交互为后,荐信息列表是否及时发生变化,如用户生若干信息检索为后,系统荐信息依然不变,显然该荐系统未能实时学习用户需求偏好,尤其于信息具有较强时效性品,该指标显更为要,比如新闻资讯类、部分生活服务类平台。

推荐系统评估案例

下以笔者近期接到个需求为例,说明荐系统体验评估操作法。

1. 需求背景

58城平台上,提供了括招聘、房、手、本地服务等多生活服务类信息,类信息都有相应个性化荐系统,虽然荐系统在不断优化,更多是针算法层提升,而荐系统在用户主观体验研究尚属空白,此需要过专项调研了解荐系统现状及优化。

2. 评估法选择

在做荐系统评估时,以往多会采用叫做「Case by Case」,即让用户针荐结逐条进「Yes or No」评价,这评估优是:评估是实时性,指明确,颗粒度较细;缺也很明显,样本选择不具有代表性,缺乏统计学意义,而评价过于简单,仅能反应用户主观准确性。此,为了能使评估结有更好代表性,括更全评估维度,我们选择采用定量问卷。

3. 评估业务选择

在正开始实施评估前,需要明确个问题:是针58全业务进评估,是针不业务线分评估?由于58各业务独立性较强,用户多会进入应业务专属频进查找,此,我们与需求沟后,决定针不业务线单独评估,并决定先以租房业务线为试进,跑后再复用至其他业务线。

4. 评估场景选择

即使仅针单业务线来进评估,荐系统落地场景仍不止处,如何选择具体评估场景,可以依据该场景曝量及用户状态来选择,针58租房业务线,荐系统主要会在App首页Feed流、租房频首页Feed流、信息列表页及房详情页底部荐4处呈现用户,首页Feed流会混杂其他业务信息,较难仅针租房进评估,进入信息列表页用户多属目性较强用户,并荐系统目标用户,此,本需要评估页场景确定为租房频首页Feed流(如下图)。

想给用户做推荐?先收下这份「推荐系统」评估指南

58租房荐评估入口,选择了以Banner常驻于租房首页Feed

5. 评估结

过以上评估案,我们可以获取到不时段内,不用户租房荐系统在精准性、多样性、新颖性、惊喜度、信任度以及实时性主观满意度数据,利用这些原始数据,我们立套荐系统体验监测日更报表(如下图),可以在BI看板实时浏览,便于相关及时了解前荐系统短板及异常情况。此,数值出现异常时,可以抽取出低分用户进专项调研,挖掘用户体验不佳原,从而及时反馈荐团队进优化。

想给用户做推荐?先收下这份「推荐系统」评估指南

△ 以上仅列出部分BI看板数据指标

反思

过本调研,虽然迈出了荐系统体验评估第步,依然存在不足处:

1. 评估颗粒度较粗

本评估是针荐系统体条目来进,虽然在评估维度上划分了若干子维度,由于荐信息展示规则复杂性,很难定位出具体哪些条目存在问题,即使量化了用户主观感受,也是笼统性诊断,于较明显缺陷(例如缺乏荐理由)尚可探查,于涉及算法层调优,指导意义则相较弱;

2. 用户回忆槛高

用户在填答评估问卷时,需要回忆荐列表曾经出现过信息条目,不用户浏览习惯异较大,有些用户会逐条仔细浏览,有些用户会跳跃浏览,这干扰素较难在线上进控制,结是用户填答问卷时,可能会出现前浏览过信息法回忆情况,进而会影响到最终评估结。针该问题,可考虑选择实时性更高填答,例如,在用户进入评估页后,为用户实时呈现真实算法展示信息条目,也可以确保用户会逐条阅读荐信息并进评估。

入淘宝首页推荐系统调研页面后,用户会入一估问卷中,但估的条目会根据用户的喜好性化呈,用户直接针对不同条目行估即可,无需回忆

上是笔者期于推荐系统评估的若干实践与反思,希望给对该题感兴趣的友们带来一些启发。

参考献

  • [1] 王国霞,刘贺平.个性化荐系统综述[J]. 计算工程与应用,2012,48(7):66-76.
  • [2] Paul Resnick, Hal R. Varian. Recommender Systems[J]. Communications of the ACM, 1997,40(3): 56-58.
  • [3] 项亮. 推荐系统实践[M]. 京:人民邮电版社, 2012.

欢迎关注「58UXD」的微信公众:

想给用户做推荐?先收下这份「推荐系统」评估指南

© 版权声明
您必须登录才能参与评论!
立即登录
暂无评论...

相关文章

我们的日常生活总是会面临无数的选择,尤其是在职业生涯中,我们必须考虑到很多的反对和挑战,更好的设计解决方案不仅是基于...
UI配色
58UXD:这篇文章原文在用研界堪称是教科书级的,尤其是那20种用研方法全景图也是经常被各种培训、分享所引用。通过这篇文章可...
A/B测试
前阵子在公司的工作中,涉及到了关于「用户心理」的挖掘与分析,所以借此机会将过程中的思考点分享出来,和大家一起交流,希...
心理学
共情图、客户旅程图、体验地图和服务蓝图虽然分别描述了不同的流程,并带有不同的目标,但它们都是一个组织内部建立共识的重...
体验地图
卡片分类法是一种用户体验设计中的调研方法,它可以帮助我们分析用户,构建符合用户预期的信息架构。 一个网站是否好用,判...
信息架构
一直以来,Airbnb 爱彼迎都将用户的声音和诉求放在首要位置。因此,代表用户声音的用户研究团队在 Airbnb 爱彼迎是不可或缺的...
Airbnb
无论是做营销还是做产品,用户洞察都是最核心的一环。但洞察并不容易获得,因为它无法通过用户调研而简单发现。假如用户调研...
用户洞察
Persona,在国内通常被称为「用户画像」,其概念最初由 Alan Cooper 在 1999 年提出[1]。由于用户画像具备帮助人们在设计过程...
产品设计