2025年04月21日 星期一
首页>青记微评 > 正文

智能流媒体时代的人机关系

2024-01-10 09:29:28

来源:《青年记者》公众号   作者:刁建雄 丁 宁

摘要:  在6月末播出的单元剧《黑镜第六季》(Black Mirror Season 6)首集中,Netflix以自身为蓝本设想了未来流媒体服务的发展方向——高度

  在6月末播出的单元剧《黑镜第六季》(Black Mirror Season 6)首集中,Netflix以自身为蓝本设想了未来流媒体服务的发展方向——高度定制化的内容服务,以用户自身形象和现实经历为基础,用量子计算机为每位用户生成独一无二的个人专属剧集,但代价是牺牲用户的个人数据隐私。现阶段的量子计算机还无法进行内容生成计算,SVOD流媒体服务商也不具备全天监控用户个人行为的技术能力,法律层面也未允许这样的商业实践。但毋庸置疑的是,现阶段Netflix已经初步拥有了打造个人定制内容的能力,以及围绕其内容推荐体系将用户数据从各个维度精确拆分、量化的能力。对于Netflix的技术层面讨论,传媒业界和学界主要集中于其内容推荐算法的效果、微类型的划分等话题,[1]而对于内容推荐系统中某些技术细节本身的运作原理讨论甚少。实际上,在Netflix旗下各个客户端的简约界面背后,隐藏着某些为提高喜好预测和内容推荐系统的准确性而引入的技术设计闭环。在这些设计背后,体现出Netflix对于用户体验与内容推荐算法关系的独特理解,其对于业界厂商改善内容推荐系统的用户体验很有启发意义。本文将着眼于审美视觉分析系统(Aesthetic Visual Analysis)与评分系统之间的闭环设计,一窥Netflix在智能流媒体时代对人机关系、“用户—算法”关系的独特思考。

  审美视觉分析系统:从第一眼就开始定制

  从进入Netflix的那一刻起,内容推荐算法就将定制化的内容呈现在了用户眼前。Netflix的研究人员估算,对大体量SVOD流媒体平台而言,最多只有90秒的时间来抓住用户的眼球,否则用户大概率就会退出平台。用户进入客户端,首先看见的是分布于应用中各个页面的节目、剧集的封面缩略图,这些缩略图很大程度上决定了用户对某一节目和剧集的第一观感,是吸引用户注意力的重要工具。作为视频内容营销的重要环节,为同一节目和剧集打造多种多样的封面缩略图,可以有效地增加其趣味性,推动内容广泛传播,实现内容个性化、精准化触达,最终丰富观众群体并提升播放量。一部标准的10集美剧至少包含900万帧以上的画面,要求编辑人员从中高效筛选出相当数量的备选帧用以制作、分发给不同的用户,其难度显而易见。所以各大流媒体平台对于封面缩略图的处理基本还停留在传统流程之上,即依赖编辑人员手工挑选出很少一部分比较具有视觉冲击力的画面,并将其制作美化为封面缩略图,讨巧一点的会截取剧集中某些吸引眼球的片段制作为动图以吸引观众点击,抑或直接使用片方提供的统一宣传物料。若采用编辑人员手工制作的方式,确实可以保证最终成品的质量,但同时意味着编辑需要对节目和剧集内容细节有较为深入的把控,最后却只能产出很少的内容,耗费了大量人员物力,又达不到个性化和精准触达的目标;若使用截取的动图,对于短视频平台或者综艺节目来说无可厚非,但对于中长视频内容来说则显得不太合适,目前尚无数据能够直接证明动态封面对提升严肃中长视频内容用户点击量、扩大观众群有显著作用,且使用这种方式易引起用户的评价反噬。为了解决这一问题,Netflix开发了一套基于审美视觉分析的影音内容理解自动化系统,用以生成并挑选、分发缩略图至用户。审美视觉分析系统是一套算法工具合集,对Netflix平台的电影、剧集和综艺节目进行筛选,以确定用作缩略图的最佳框架。在审美视觉分析系统的加持下,传统的封面缩略图制作流程被打破,Netflix建立起了一套自动化的封面缩略图制作体系。

  凭借审美视觉分析系统,Netflix技术部门可以做到在单个视频帧上分析并标注多种多样的描述性变量,以推导出该帧画面所包含的基本内容信息。审美视觉分析系统会将一整段视频素材切分为若干块,以便在大规模并行架构下进行高效计算处理。基于这样的底层设计,Netflix得以将越来越多的内容智能算法不断集成到审美视觉分析系统工具集中,实现一轮又一轮的技术迭代。

  审美视觉分析系统工作的第一步被称为帧注释(Frame Annotation),在这个阶段,视频内容的每一帧画面都将被提取、分析,系统会为每一帧画面创建一组元数据,根据构图、人物和画面质量,将画面图像归入不同类型的镜头组。元数据主要包括三类:一是视觉元数据,主要包括像素级别的如画面色彩、明暗对比度等信息。二是上下文元数据,这些元素从画面中的对象的动作和摄像机画面的动作中获取聚合而成,具体包括面部特征点跟踪、姿势预估以及面部情绪分析、运动预估、镜头场景识别、物体识别检测等技术,通过聚合而成的元数据,可以获取画面主体的姿势和情绪、镜头中包含的相对运动量。甚至洞察判断摄影师的画面意图和影片基调。三是构图元数据,主要用来按视觉美学的基本构图规则判断并归类某些画面以方便后续处理,比如三分法、景深法和对称式构图法等。当创意团队准备开始人工处理时,基于标注的元数据,审美视觉分析系统随时能够从海量的图像中自动筛选出高质量的对象供编辑人员使用。

  在筛选出的图像中,以人物为画面主体的内容占了很大一部分。Netflix通过面部聚类和识别技术来评估挑选出各画面中的主要人物,同时降低画面中次要人物或临时演员的优先级。为此,技术团队专门训练了相应的深度学习模型,从所有经过元数据标注的备选帧中按面部相似性追踪特定人物,以便在无需提前获取演员相关信息的前提下,将与其有关的画面从视频帧中快速提取出来并进行优先级排名。此外,Netflix也将人物姿势、面部特征点以及对多个画面主体的整体位置把控等因素纳入综合考量之中。

  然而,观众对于如此众多的封面图像所产生的多样性审美是一个非常主观的话题。不管是创作者还是用户,都在用各自的方式去感知、定义着画面的审美多样性。Netflix审美视觉分析系统的关键之处在于,通过拆分、解构、量化的方式,捕捉在单一影视情节中自然而然产生的多种可能性,用算法涵盖人类视觉审美的多样性。审美视觉分析系统中被人为加入了一些视觉启发式变量,用以生成各种用户都可能喜欢的、多样化的图像集,包括拍摄镜头的类型(长镜头、中镜头等)、视觉构图上的相似性(三分构图法、亮度、对比度等)、色彩分布以及画面中各主体的时空分布等要素。[2]将图像包含的这些变量与人工设置的有效性向量进行结合,可有效地对图像进行聚类,从而最终构建起一个视觉多样性指数判断标准。最终,Netflix实现了在尽可能考虑到所有潜在用户的视觉偏好的前提下,对所有从影片或某一特定情节中抽取出来的图像进行量化评分排名等操作。

  进行上述一系列处理后,基本上可以确定哪部分图像可以作为备选的缩略图画面。经过简单的人工编辑后,需要将最终成品与不同属性的用户相匹配以实现个性化分发。Netflix通过收集用户与其网站等各个平台与客户端互动产生的数据,包括用户观看过的剧集类型、平均观看时长、观看时的地点、偏爱使用的设备等,抽象出用户的人口统计画像,将用户划分至若干不同的用户组中,从而实现封面缩略图与用户的多对多匹配。随后,结合A/B测试体系,最终能够大致测算出整套审美视觉分析系统算法对于提升用户点击量和观看时长的效果。

  笔者在使用Netflix时,发现即便使用同一账号,剧集的封面图也是时而固定时而变化的,很难把握具体的规律。这或许与Netflix引入的上下文老虎机算法(Contextual Bandits)体系有关。在类似技术的加持下,可实现依据用户的实时互动行为,为每个用户动态切换封面缩略图。因为用户的偏好和口味是会发生细微变化的,上下文老虎机算法或许可以精准地捕捉到某些细微的变化,为用户实时反馈其判断为最合适的封面缩略图。除此之外,审美视觉分析系统还可以用来深度剖析节目的内容特色,例如进行特征分类、找出故事线、识别情感、识别视频拍摄手法等,结合时间编码,或许可以让创作团队更加高效地设计出吸引人的预告片和精华短片,结合大数据向不同用户圈层营销。

  重构的评分系统:去繁化简的内容评价体系

  对于用户来说,长期浸润在算法推荐内容中那些下意识的、甚至可视作被动的操作所产生的各种交互数据,对于算法迭代来说固然重要,但用户的主动反馈对于提振内容推荐算法精度更有价值。大部分主流流媒体或与影视内容相关平台的用户评价体系几乎都基于用户评论(短评、长评等)和星级制(十分制)评分系统打造,这对于还没看过某片某剧的观众来说有助于减少遇到烂片的概率。但这种以用户打分为核心的内容评价体系存在一个显而易见的缺陷——用户有时是在利用该体系表达自己的某种态度或意识形态,从而影响评分的客观性。比如很多在影视内容平台上给《流浪地球2》打高分甚至满分的观众单纯就是出于支持中国科幻和中式民族主义叙事的目的;而打低分者中也不乏大量的所谓反宏大叙事主义者以及逆向民族主义者,这部分人群实际上并非全盘否定影片的内容,甚至认可很多制作精良的特效场面。在两方的拉扯之下,其他观众对影片内容的看法必然会受到一定的影响,也会影响用户评论在别人眼中的观感,进而发展成为诸如“表扬=无脑爱国”“批评=不爱国”等荒诞评判,至于其内容本身对于整个中国科幻电影工业的提振却鲜有人细致分析,进而被逐渐忽略。此外,某些电影中的角色由某个身陷争议性话题的演员出演时,也容易招致对该片的评论被大量灌水打极端分数。

  本文不讨论此类打分机制是否在设计之初就是故意向情绪化方向引导以制造话题和吸引流量,事实是——这种以用户打分为核心的评价系统,更易造成理性思考的缺位和情绪、意识形态立场的先行,而产品内容本身是否符合某个细分用户群口味的问题、内容推荐算法的准确度问题则直接被无视和抹杀掉了。对于Netflix这样的以内容而不是话题为核心的流媒体平台来说,从可持续性商业发展角度出发,是无法接受投入了巨量资源打造起来的内容库就这样在用户无尽的话题拉扯中被白白浪费掉一部分的。平台必须减少对立和情绪,专注于内容的本质。Netflix先后于2017年和2018年取消了五星评分系统和用户评论系统,用简单的点赞和点踩系统取而代之,并于2022年在此基础上新增了双拇指向上的点赞按钮——Netflix认为单纯的喜欢还不够,还需要一个能让用户表达更强烈喜爱态度的按钮。

  这一调整的目的相当明显,Netflix毕竟不是社交媒体平台,用户在社交媒体平台表达的“中立”情感在这种纯内容平台上对提振推荐算法的精度基本没有显著作用。[3]传统的五星和10分评分制存在着天然缺陷,分数段中存在一个“模糊区间”,即使不存在前文提到的情绪化影响,若用户给一部作品打出5-7分(满分10分)的分数,仍不好判断其到底是喜欢还是讨厌这部作品。况且人对于事物的喜爱本质上是多维的,并非一个分数能够精确衡量的,用户在进行打分时往往需要一点时间来斟酌,因为希望自己在别人眼中显得“公正又客观”,于是给出一个模棱两可的分数,既可以显示自己不是那种容易随大流被情绪裹挟的人,又可以显示自己是客观的,同时也是具有一定鉴赏能力的人——到头来用户自己都说不清楚究竟喜不喜欢某部作品,这无形中也给用户增加了使用压力,会导致该项功能的使用率降低。可见,这样的设计不管对于平台还是对于用户都不算精巧。而Netflix所做的,就是干脆取消掉具体的分数系统,撤掉分数制中所隐含的那层表面中立、本质模糊的区间,让用户直截了当地进行正负向情感选择——“喜欢还是不喜欢?如果喜欢的话,是不是非常喜欢?”[4]这样的设计无疑为用户减轻了使用压力,让人们得以抛开一些情绪,回归一些本心选择自己真正感兴趣的内容以改善后续体验;对于Netflix来说,这同时又大大提升了该项功能的使用率。早期的一项测试显示,Netflix向全球数十万的新注册用户推出重构的评价系统后,后台数据显示用户的评价数量增加了2倍以上。这大大提升了产品后台迭代效率,以便平台进一步优化推荐算法的精确性和灵活性,在此基础上,审美视觉分析系统等内容生成系统也能够接收到评分系统的反馈数据,从而在算法层面上进一步改进用户喜好模型,优化呈现给用户的内容。

  结  语

  基于先进的审美视觉分析系统,Netflix实现了从进入应用的第一刻开始就将多样化的剧集封面呈现在用户眼前,以丰富其精准化、个性化内容推荐定制体验;通过一套重构的评分系统,Netflix在为用户操作去繁化简的同时,也实现了对内容精准触达功能的进一步优化,这也为审美视觉分析系统提供了更好把握的用户偏好数据,二者相辅相成,实现了算法逻辑和用户体验两个层面的闭环。这在相当程度上体现了Netflix团队对于智能流媒体时代人机关系、“平台—用户”关系等问题的深入思考——如何在实现既定商业目标的同时,最大限度地改善用户体验以实现平台和用户的双赢。从人性的角度来讲,用户对于黑箱中的算法天生有着不信任与恐惧感,而Netflix所秉持的,就是在用算法“量化用户”的大前提不变的情况下,尽可能降低用户在使用产品时对算法的负面感知,用持续进化的优质体验去掩盖用户被算法量化的本质。Netflix的一系列解决方案显示着其真正的实力与底气,只有具备类似规模的巨型平台,才有渠道和算力获取到海量一手的用户交互数据,进而分析打造算法技术底座,用以丰富内容多样性,为用户提供更加多元的定制内容。

  当下各种AIGC(人工智能生产内容)技术如雨后春笋般涌现,未来互联网视频流媒体市场乃至内容市场的竞争将更加激烈。《黑镜》中的设想可能离我们已经不远,至于这样的发展是否要以牺牲用户个人数据隐私为代价,这是另一个层面上的话题。

  【本文为“北京信息科技大学促进高校分类发展-公管传媒学院专业学位点与研究生教育改革”项目(编号:5112311021)阶段性成果】

  参考文献:

  [1]常江.流媒体与未来的电影业:美学、产业、文化[J].当代电影,2020,292(07):4-10.

  [2]Steck H, Baltrunas L, Elahi E, et al. Deep learning for recommender systems: A Netflix case study[J]. AI Magazine, 2021, 42(3): 7-18.

  [3]Agner L, Necyk B, Renzi A. Recommendation systems and machine learning: Mapping the user experience[C]//Design, User Experience, and Usability. Design for Contemporary Interactive Environments: 9th International Conference, DUXU 2020, Held as Part of the 22nd HCI International Conference, HCII 2020, Copenhagen, Denmark, July 19–24, 2020, Proceedings, Part II 22. Springer International Publishing, 2020: 3-17.

  [4]里德·哈斯廷斯,艾琳·迈耶.不拘一格:网飞的自由与责任工作法[M].杨占,译.北京:中信出版社,2021:86-87.

  (刁建雄:北京信息科技大学公共管理与传媒学院硕士研究生;丁宁:北京信息科技大学公共管理与传媒学院教授、硕士生导师)

  【文章刊于《青年记者》2023年第23期】

  本文引用格式参考:

  刁建雄,丁宁.智能流媒体时代的人机关系——Netflix内容推荐系统闭环设计一窥[J].青年记者,2023(23):113-115.

来源:《青年记者》公众号

编辑:小青