Janko Roettgers在Protocol发表文章,介绍了网飞最近的“双拇指”真爱图标的设计过程,为了设计这个小小的功能,并且确保这个功能对用户来说是有意义的,网飞与用户进行了大量的沟通,最终选定了拇指款和爱心款,再通过A/B测试来验证用户的喜好,经过近一年的反复试验,最终这个双拇指真爱键才正式推给了所有用户。
近五年来,网飞(Netflix)有简单的拇指向上(喜欢)和拇指向下(不喜欢)的图标来表达观感,帮助算法提供更好的推荐。然而,在调查中,用户经常表示,这种非黑即白的投票方式并不能完全满足他们的需求。
如果他们是一个节目的真爱粉呢?
为了想出一个更好的方法来表达这种程度的崇拜,流媒体服务最近探讨了在网飞应用程序中添加一个心形图标的想法。心形代表的意思很明显,它是爱的普遍标志,在Instagram和推特等应用中被广泛使用。
但是,如果网飞不对功能进行严格的测试,它就不是网飞了。于是,它花了近一年的时间来设计这个图标。在此期间,公司发现,爱心图标不是表现最好的,转而选择了一个竖起两个大拇指的图标,本周,这个图标正式面向全球用户投入使用。
以下是这一改变的原因。
找到一个爱的通用符
周一,网飞在移动和智能电视应用程序以及网站上推出了新的竖起两个大拇指的点赞图标。用户被告知,点击这个图标将直接影响平台未来的推荐。点击拇指朝下图标意味着这个节目不会再被推荐,点击竖起大拇指会促使网飞推荐类似内容。网飞移动应用程序表示,两个大拇指意味着“我们知道你是这档节目的真爱粉”。
大约一年半前,公司根据调查和研究访谈中得到的用户反馈,启动了这项功能的工作。领导公司个性化用户界面产品创新团队的克里斯蒂娜·多伊格·卡德特说:“我们从会员那里得到的反馈是,光有‘喜欢’和‘不喜欢’是不够的,有一些节目,他们真的、真的、真的很喜欢,区分他们喜欢什么和他们爱什么是很重要的。”
一旦决定要解决这个问题,网飞就启动了一系列设计,为想要表达真爱的粉丝们设计视觉效果。一些早期的设计包括爱心、鼓掌图标、流星等。设计师还咨询了公司的全球化团队,以找到一个真正通用的图标。
网飞产品设计总监拉特纳·德赛说:“设计团队和全球化团队归纳出了象征爱情的符号,我们希望它非常精确、简明,因为我们希望这是一个非常快速的互动。”
与此同时,网飞继续询问用户,而他们给出了不同的建议。多伊格·卡德特说:“我们进行了大量的采访和调查,用户觉得他们内心并没有产生真正的共鸣,来自会员的想法是,你为什么不试试竖起两个大拇指?”
于是,出现了两个领先者。爱心似乎是一个明显的选择,但两个大拇指与网飞的现有图标似乎也很契合。此外,任何读过已故罗杰·伊伯特影评的人都知道,两个大拇指长期以来一直代表着对娱乐的崇高敬意。
顺应用户的要求乍一听是个好主意,于是两个大拇指得到了不少的支持,但万一这些用户的想法是错的呢?
多伊格·卡德特说:“有些人的声音被放大了,但是,当你看到整个画面,或者与更多不同的成员交谈、并看到他们如何参与不同的功能时,也许会发现喊得最响亮的那个声音不一定就是事实上最受欢迎的那一个。”
最响亮的声音曾被证明是错误的
长期以来,网飞一直试图弄清楚如何最好地收集会员的内容评级,而处理那些响亮的声音一直是个挑战。在早期,网飞曾经提供过一个五星评级系统,类似于人们对优步司机的评级方式。
当时,网飞在网站上显示这些评级的平均值,用于表达一个节目在用户中的受欢迎程度。一些作品出现了4.5颗星之类的分数,导致人们弄不清楚为什么他们不能以半颗星为单位进行评分。
成千上万的人在调查中告诉网飞,他们希望有这样的细化程度,但网飞员工不确定这些意见是否反映了人们的真实体验。为了确保不被少数人的意见所左右,网飞采用了其多年来产品开发工具箱的一个关键工具:A/B测试。
在半星测试的案例中,结果很明显。当人们被要求以这种细化程度提供反馈时,反馈的数量明显下降。换句话说。A/B测试证明,最响亮的声音是错误的。
2017年,网飞在用大拇指取代了五星评级时,再次使用了这种测试。在推行这一变化之前的A/B测试中,公司看到,使用简单的喜欢和不喜欢图标的评分活动增加了200%。部分原因是这样的操作更简单,但仔细观察数据还会发现,它们还往往更准确。因为人们会给他们认为值得的作品打上五颗星,比如获奖的纪录片,然后这样的影片在他们的收藏夹中徘徊几个月都没有观看。同时,他们会给自己频繁观看的真人秀节目打三颗星。
最终的决定:爱心还是大拇指?
现在,网飞准备再次为评级功能增加一些复杂性。这部分是因为媒体消费习惯和应用程序界面已经全面改变。网飞产品设计总监德赛说:“人们在他们的整个生活中不仅仅使用网飞,他们还在与Instagram,与各种社交网络,与乘车应用程序进行互动。于是,我们的会员现在要求一些他们过去没有要求过的功能,但是,这些应用程序的互动模式不一定适用于网飞,因为网飞主要用来看电视,而不像Instagram这样更注重娱乐性。”
因此,仍有一些未解决的问题,比如,哪种图标的表现会更好:爱心还是拇指?除了在调查和其他形式的定性研究中正确判断那些响亮的声音之外,设计者们还需要思考:哪一种才会真正具有持久的影响力?
德赛说:“我们曾经遇到过这样的情况:我们可能在定性研究中听到非常强烈的观点,但实际上这些观点与我们在A/B测试中发现的情况相悖,这就是有意思的地方。”
去年夏天,网飞开始对新的评级功能进行一系列的A/B测试,试验了爱心和竖起两个大拇指的选项。同时,公司继续查询用户,包括那些参加测试的用户,以了解新功能是否真正提供了价值。
对这项功能的测试延续到了秋天,因为从事这项工作的团队想要确保他们最终的决定是正确的。多伊格·卡德特说:“我们不急于求成,有的时候,我们也会有想要提前发布或者打破常规的冲动,但这不是我们的方法。”在数周甚至数月内进行A/B测试的一个原因是让人们习惯一项功能,看看参与度是否能够保持在高位,人们有可能一时被新功能吸引,之后就厌烦它了。
最后,数字很清楚:提供额外的反馈是有效的。德赛说:“我们看到参与度有了非常大的提升,因为人们有了一种新的方式与我们交谈。竖起两个大拇指的使用率比竖起爱心的使用率大得多,这是一个惊喜,因为网飞内部人士曾预计爱心会获胜。”
多伊格·卡德特说,这些意想不到的结果正是A/B测试的价值所在。她说:“如果不是A/B测试给了我们意外的结果,我们就会做错事。我们将验证自己的假设,而不是让数字来指导什么是更好的体验。”
坚持测试,即使它会提前泄露公司的计划
多年来,网飞广泛使用A/B测试,公司一直在针对用户群体测试各种不同的功能。基本上,只要你是网飞的用户,你很可能正在参与某种测试。
这些测试中,有些是明显的界面调整,有些则是与后台编解码器或基础设施的变化有关。事实上,网飞做的测试数量非常多,甚至有的会员会同时参加了多个测试,这就是为什么公司开发了一个完整的实验平台,帮助数据科学团队避免测试冲突,提高数据收集的有效性(网飞通过账户设置,为会员提供了不参与测试的选择)。
然而,新的“竖起两个大拇指”功能的开发也表明,仅靠A/B测试是不够的。如果不直接与用户交谈,公司会优先考虑开发爱心图标,而不会在A/B测试中给竖起两个大拇指证明自己的机会。
多伊格·卡德特说:“我们采取多管齐下的方法,观察各种不同的投入,我们从客服中、调查中、从我们正在做的访谈中获取结论,并利用这些来决定我们应该投资什么和测试什么。”
调查和A/B测试也都伴随着风险,因为它们把未来的功能暴露在公众面前。订阅者经常公开他们在应用程序中发现的新事物,而记者往往会抓住这些蛛丝马迹来推测公司未来的计划。对网飞来说,这是很难避免的商业成本。多伊格·卡德特说:“我们愿意在这方面做出取舍,因为我们想确保开发出来的新功能对我们的会员有用。”
德赛补充说:“在我以前工作的地方,这种功能测试会带来各种惊人展示,网飞的运作方式则更加公开,数以万计的会员会参与到新的、未官宣的功能测试中。”
德赛说:“这是我们的看家本领,我们创新的秘方。”