2025年07月11日 星期五
首页>前沿报告 > 正文

作为复媒介的大语言模型

2024-05-15 09:36:32

来源:青年记者2024年3月   作者:何康

摘要:——从App Store到GPT Store的技术内核与演进逻辑

  摘  要:从移动网络到智能网络,在不到十年的发展时间里,以应用程序(applications)为中心的搜索选择模型正在转向一个以人工智能、数据学习、用户微调与内容生成为中心的对话交互模型。本文运用复媒介(polymedia)的理论框架深入分析大语言模型的技术内核与演进逻辑,这一理论视角的更新意味着将大语言模型分析为一种复合型(integrated)媒介平台,充分考量人机交互过程中的多模态转换、动态数据接入、实时情感体验和多元社会情境,进而理解成为一种智能文化和社会发展的互型(figuration)。其演进逻辑反映了从相对单一、静态的解决方案向动态、集成、智能的服务转变。同时,大语言模型也为复媒介理论的发展提供了新的探讨空间。

  关键词:智能传播;复媒介;语言模型;内容生成

  引  言

  如果说大语言模型的上半场是“操千曲而后晓声”,通过不断增加参数量级以提升模型的实战性能与涌现能力,那么下半场则是“繁华落尽见真淳”,聚焦于精简化的参数调整与优化,以便让大模型能够在更多细分领域实现更快速和高效的应用落地。2024年1月10日,OpenAI创建的GPT应用商店GPT Store(以下简称“GPTs”)正式上线,意味着大语言模型的下半场正式开幕。GPTs在通用大模型基底上生成的模型集合平台能够让用户制作、使用、分享自定义功能的GPT,并且实现盈利。例如平台上目前最受欢迎的三个模型是:能够提供个性化的徒步、骑行、跑步自然路线推荐的AllTrails、搜索和整合数亿篇学术论文的研究助手Consensus、能够帮助用户编写代码的程序员Code Tutor,分别在户外运动、文献研究、代码编程等垂直应用场景中“八仙过海,各显神通”。

  相较通用大语言模型,GPTs展示了以开发者和用户为中心开源定制的灵巧、便捷、垂直和个性化等优势,使各种小模型在不同使用场景与用户数据精准识别,深度嵌合,实现了专业化程度的加深、加细、加厚与加密。这里的小模型是指基于通用大模型参数“瘦身”后针对特定场景、私域数据、部署边缘而训练的模型[1]。GPTs结合了“分类、趋势、精选”功能,包含八大搜索类别,分别为:1.热门精选;2.多模态预训练模型DALL·E;3.写作;4.生产力;5.研究与分析;6.编程;7.教育;8.生活方式。同时,还有平台推荐的热门模型,这使得GPTs像苹果应用商店App Store那样允许应用程序被搜索和排名。App Store于2008年上线,迄今已有超过200万个应用,而GPTs在上线后2个月内模型数量就达到了300万个,发展势头迅猛。

  目前,大语言模型变小(“Making large models smaller”)正成为大模型技术趋势和研究热点[2][3][4]。研究人员在探索如何将大型模型压缩或简化为更小、更易于部署的模型,同时保持其原有的功能和性能,技术包括模型剪枝、知识蒸馏、模型量化等。OpenAI首席执行官Sam Altman把对LLMs大小的迷恋比作计算机芯片在1990年代和2000年代的千兆赫竞赛,当时行业专注于以牺牲其他可能的有益改进为代价来实现更高的连接速度。同样地,现在人们也过于关注LLMs的大小,而忽视了其他重要的因素[5]。上述比喻意味着模型的效用不应仅仅通过其参数量级来衡量,而应该根据其能力、实用性和安全性来综合评估,由此表明了模型开发的重要思路——更垂直、更灵活的模型。

  对于人文社会学科而言,如何从技术与文化的视角理解与分析大小模型之间的特殊关系,并进一步探究新型人机交互模式对深度媒介化社会的影响显得至关重要。不论是应用程序,还是GPTs,传播学领域的研究已经逐渐意识到单一平台视角的局限与不足,必须从媒介生态的系统维度把握大小模型及其关系,否则就不能充分理解智能技术发展与人机交互使用。因为没有任何媒介有孤立存在的意义,只能在与其他媒介常恒不断的互动中,媒介才有其意义或存在[6]。因此,本文将大语言模型视为一种复媒介(polymedia),其价值在于强调模型之间、模态之间的多元、互动、整合与协同,能够将不同模型视为有机整体,探讨它们之间的调配关系、共同作用和情感体验。基于此,本文关注的研究问题是:如何运用复媒介理论的视角分析大语言模型集合平台GPTs?复媒介视角下的智能技术演进逻辑是什么?以大语言模型为代表的智能技术可能为复媒介理论带来哪些发展?

  复媒介的理论溯源与研究进展

  复媒介理论由英国伦敦大学教授Mirca Madianou和Daniel Miller于2012年提出,在其代表性成果之一《复媒介:面向人际传播的数字媒介新理论》中,他们考察了全球移民浪潮和人力资本流动的社会背景下菲律宾和加勒比跨国家庭的媒介使用情况,展示了用户如何将一系列新媒介视为可供人们交流的复合环境,而不是彼此离散、无关的媒介目录。因此,这一理论关切在现代通信技术日益丰富且广泛可用的环境下,人们如何在多种媒介选项里做出选择,以及这些选择如何影响人际关系和社会结构。

  研究者认为当限制媒体访问、高成本和缺乏媒体素养等因素被消除时,用户的媒介使用呈现出“复合”特征,复媒介的不同使用方式与人们的情感和社会需求密切相关[7]。此间,复媒介不同于多媒体(multi-media),后者偏向于媒体内容格式的多样性,如图文、音频或视频。复媒介是一种“媒介生态”,着重考察各种媒介之间的配置关系及其后果[8]。

  复媒介理论最早的分析对象是处于原生文化与他国文化相互交融和冲突下的移民群体。核心议题是当人们面临从属于不同国家、不同文化的复媒介环境,如何通过选择不同网络媒介来安排与表达自己的人际关系与情感?理论推出至今,与之相关的最多的研究主题是不同国家(区域)的移民家庭、留学生群体在迁移中、迁移后与本国或他国群体的交流互动。如Marín等研究了罗姆人的移民群体通过信息通信技术形成了新的社会网络空间,认为不同的社交媒体促进了这一族群的流动;人们通过一系列复媒介完成各种文化仪式和活动;不同的阶层、性别和世代在网络空间形成了新的社会分化[9]。Waruwu通过对香港30名印尼母亲(移民佣工)的参与式观察和深度访谈,阐释了智能手机如何改变母职实践,以及形成家庭互动的权力结构。这一研究质疑了将移民母亲描绘成通信技术受害者的观点,强调了她们通过智能手机对母亲角色、关系和仪式行使权力[10]。

  除了移民群体之外,留学生人群也是跨文化交流中的一大分支。有学者分析了留学生如何利用多媒体环境维持跨国社会网络和联系[11][12]。研究认为,留学生与本国家人和朋友交流时,媒介使用以情感为导向,强烈而密切,复媒介形成了情感支持和依恋的网络。相比之下,留学生在与东道国(地区)朋友交流中的媒体使用比较有限,以功能性和学习为导向,尽管复媒介成为一种帮助平台,但同时折射出与东道国成员的深层矛盾[13]。

  上述核心文献展示了复媒介理论能够帮助理解用户如何基于社会、情感和道德后果来选择不同的媒介,并通过这些选择来管理人际关系。笔者从中总结了复媒介理论有三大关注面向。

  一是媒介的丰富性和选择性构成复合结构:将新媒介理解为一种复合结构,而不是离散关系中的某个特定媒介;在复媒介环境中,用户不再受限于媒介的技术特性来决定如何沟通,而是根据媒介所带来的社会和情感含义来选择合适的沟通方式。

  二是情感与社交维护:复媒介(的背后)不是一系列技术潜力,而是文化或情感的类型,人们由此完成人际关系中的各种任务,并产生交流中的显著差异。亦即媒介选择是情感表达的一种形式,能够影响和塑造人际关系。

  三是社会结构和权力关系:复媒介环境中的媒介使用受到社会结构和权力关系的影响。不同的社会群体可能会因为经济、文化或社会原因而倾向于使用某些媒介。因此,媒介选择和使用反映了个人的身份和所属群体的文化。这意味着不同媒介的使用是了解文化差异和社会身份的重要窗口。

  复媒介理论通过把媒介技术嵌入人们的日常生活中来反思技术的“社会化过程”,成为“去媒介中心的媒介研究”(non-media-centric media studies)[14]。这一视角的前景是任何媒介技术并不存在一个唯一的、本质化的使用方式和文化内涵,技术的勃兴、迭代与消亡由人与社会赋予。简言之,复媒介理论兼顾了社会与媒介的相互作用。

  需要强调的是,之所以将复媒介理论引入大语言模型的分析中,是因为二者之间存在良好的匹配度,这成为本文立论的关键。一方面,在媒介技术内部,大语言模型本身具备复合属性。如前所述,复媒介的基础是媒介的丰富性在用户安置下形成了复合型结构,而大语言模型是将大规模网页与社交媒体数据、书籍、影像、音视频作为学习语料训练而成,此时,传统的人为组合过程已经被智能技术预置与集成,从而减少或完全替代用户的筛选;另一方面,在媒介技术之间,用户居间于多模态、多模型、多平台、多终端之中,仍然存在用户的选择和情感的体验,只是进一步被智能技术所中介或调节,因此人机关系的位置将被赋予前所未有的价值。当大小模型深度嵌入更多样的社会关系和场景需求时,“大模型-小模型-用户”[15]的人机传播网络便向复媒介理论敞开了亟待探照的广阔空间[16]。

  首先,模型的选择性与匹配关系分析。大语言模型展示了一种能够适应多种沟通需求和风格的媒介形态,增加了用户在特定社会关系和情境中选择媒介的复杂性和灵活性。同时,大语言模型通过各种应用程序和服务的集成使得用户可以通过连贯的端口进行多种类型的沟通,那么用户如何在这种复媒介环境中经由上下游任务完成不同模型的衔接与组合?哪些因素影响了这样的组合?通过用户微调数据与行为数据的编织又将涌现出哪些新的模型网络?

  其次,人工智能的媒介角色分析。大语言模型引入人工智能作为主动参与沟通过程的“非人类行动者”,这些模型能够根据用户预设感兴趣的知识类别以及用户历史行为数据和身份特征的分析挖掘,构建用户的个性化“信息食谱”[17],从而提供更为个性化、更强情感体验的媒介使用经验。这对于理解和分析大语言模型在人际互动和维护中的角色,以及他人的态度、对他人的影响等方面提出新的问题。更进一步,语言模型的翻译和跨语言功能能够促进跨文化交流,这将为复媒介理论中关于全球化和跨文化媒介使用的讨论提供更新的证据。

  再次,模型的社会结构与媒介文化分析。大语言模型的可访问性可能受到社会经济状态、教育水平和技术熟悉度的影响,反映出社会结构的差异。通过分析不同社群如何接入和使用这些模型,可以深入了解智能技术在社会组织中的运用与传播差异。同时,大语言模型的使用习惯、偏好和应用场景可以成为特定文化实践的一部分,反映出用户的身份、价值观和社会归属。例如,某些社群可能倾向于使用大语言模型来创作文学作品或编程,而其他群体可能更多地将其应用于情感沟通或日常生活信息查询。

  从App Store到GPTs的技术演进脉络

  在OpenAI宣布GPTs计划之时,业界就将GPTs对标苹果的App Store,从App Store到GPTs的技术演进过程反映了过去十几年间信息技术领域的重大进展和转变。这一过程不仅涉及软件开发和分发模式的变化,而且包括了人工智能技术特别是机器学习和自然语言处理领域的快速发展。

表1  APP Store与GPT Store的比较


  APP Store GPT Store
主要功能 移动应用分发平台 人工智能驱动的语言模型分发平台
内容类型 移动应用程序和游戏 人工智能服务(例如文本生成、翻译、编码)
发展重点 应用程序开发和管理 人工智能模型训练与更新
盈利模式 应用程序销售、应用程序内购买、订阅 API访问订阅、服务按使用付费
交互方式 直接申请;用户选择并下载应用程序;多应用切换 无需下载安装,通过API间接调用;用户与人工智能输出交互;无缝集成
更新周期 因应用程序而异,定期发布更新 连续、后台定期更新模型
个性化 基于用户选择记录偏好 用户可微调;实时适应用户输入以实现个性化输出
基础设施要求 开发者制作并维护应用 利用数据持续训练人工智能模型

  App Store与GPTs的确具备相似的底层逻辑:各自操作平台的超级入口,推广技术普及,激活市场需求,优化用户体验,创新产品生态。二者分别作为移动互联网与智能互联网的典型应用,其演进脉络凸显了复媒介环境下固态的、单一的应用程序向动态的、协同的、智能的服务模型的转变。下面分别阐述这两个平台的技术内核特点,如表1所示。

  苹果公司推出App Store,标志着移动应用分发方式的革新。这一平台不仅简化了应用的发现、安装和更新流程,而且为开发者提供了庞大的潜在用户基础,促进了移动应用生态的快速发展。随着智能手机的普及,App Store以及随后推出的其他应用商店,如Google Play,催生了一个多样化、竞争激烈的全球应用市场。移动应用开始渗透到人们生活的各个方面,并成为信息社会的基础设施。

  App Store的技术内核依赖于开发者使用编程语言编写的软件应用。应用程序被打包、提交、审核,然后发布到App Store,用户可以下载并安装到个人设备。应用依赖于特定的操作系统和硬件平台。用户交互通过图形用户界面(GUI)进行,用户选择并下载他们需要的应用。商业模式上主要是通过应用的一次性购买、应用内购买、订阅或广告来盈利。

  在移动互联网和社交媒体应用的推动下,各个应用程序在使用过程中产生了大量的用户数据。这些数据不仅对于理解用户行为、优化产品设计至关重要,也为人工智能算法,特别是机器学习模型的训练提供了丰富的资源。人工智能和机器学习领域的显著进步,特别是深度学习技术在图像识别、语音处理和自然语言处理等方面的应用,大大提升了机器对自然语言的理解和生成能力,为开发更加智能化的应用提供了可能。

  以GPT为代表的生成式人工智能应运而生。GPTs的技术内核基于深度学习、自然语言处理和生成等人工智能技术。用户通过与人工智能的实时交流来访问和使用服务,无需下载传统的应用程序。人工智能服务在云端运行,用户可以通过任何设备访问,只要设备可以联网并支持基本的用户界面。用户通过自然语言交互,人工智能理解并响应用户的需求。商业模式基于订阅、按使用量计费或提供增值服务来盈利。

  GPTs开发的背后是大语言模型的低代码和零代码平台的技术支持。通过复合、轻流的内核和直观、易用的界面提供可视化建模工具、智能推荐、语法辅助以及简易的API接口等功能,使用户人人都是程序员,不需要编写复杂代码即可创建和部署GPT,从而大大降低了技术门槛,并且有助于实现不同领域的交叉创新。

  由此可见,移动应用程序及其应用商店为大语言模型的发展奠定了技术与数据基础,培养了用户使用习惯。而大语言模型进一步打通了移动应用单一的、静态的解决方案,用户可以通过一个连贯的端口进行多种模型的调取与沟通,尤其凸显了复媒介环境中沟通的无缝整合特性。例如常见的互联网信息检索场景中,用户通常依赖于不同平台的推荐系统和搜索引擎来寻找信息。信息的筛选主要是由互联网平台的内容和算法决定,用户则需要进一步比对由算法推荐的内容,容易产生决策疲劳。即使当前用户搜索、问答有向视频社交平台转移的趋势,但仍然存在用户信息过载与决策成本的问题。在大语言模型平台,个性化的人机交互模式更加注重用户的主动参与,通过与人工智能的连续对话,逐步细化提示词,从而不断提升和优化系统对用户需求的理解及模型的个性化参数。再如科研场景下,传统的应用程序涉及文献翻译、阅读、管理与写作等多个应用之间的来回切换与配合,而大语言模型环境下可以叠加不同的小模型实现论文总结、复现代码与文字生成,甚至只需要在对话框插入“@”,就能调取相应的应用接口,如@笔记类模型NotionGPT,无需多余切换就能自动总结整个对话并保存。简言之,GPTs标志着从传统的应用分发平台向更为复杂的人工智能服务平台的演进,体现了技术服务平台化和模块化的趋势。

  结  语

  模型之价值不在于技术层面数据、算力、算法的“大小”,而在于能否真正为人创造价值[18]。这意味着大语言模型不仅是人工智能的前沿技术,更与网络文化和社会发展成为互型关系(figuration,相互结构与型塑)[19]。将大语言模型视为一种复媒介,能够充分考量用户的动态数据、情感体验和社会情境,使人文社会科学能够立足并超越技术逻辑,从而深入理解大语言模型以智能中介和代理的信息方式与数字社会之间相因相生的影响。与此同时,大语言模型的出现不仅丰富了复媒介理论的研究内容,也为理论的发展提供了新的实践案例和研究方向。GPTs平台通过集成不同的GPT应用和插件服务,为用户提供了一个丰富而无界的数字媒介选择环境。研究者可以从模型的选择性与匹配关系,智能主体的媒介角色、人机情感,模型使用的社会结构与媒介文化等方面展开细致分析。

  从应用程序到大语言模型的演进脉络凸显了人机深度交互的动态、微调、协同特征。尤其是人工智能技术对任务之间存在相互配合、互补关系的应用模块进行了集成协作,使用户能够在连续对话中完成跨媒介、多模态(例如文字、图形、音频、视频之间的转换)任务流,避免了应用之间的过度跳转与切换,进一步降低认知决策成本,提升任务效率,由此能够洞察大语言模型未来的发展趋势和方向。任何新媒介的兴盛与发展,其本质都是传播权力向人的回归,其核心都是提升和优化使用体验,从而更好地满足人们的需求和期望,成为对于人类实践全领域、全要素整合的推动者、设计者与运维者,成为深度媒介化社会的“操作系统”和基础设施[20]。

  【本文为国家社科基金重点项目“人工智能技术背景下加快国际传播能力建设研究”(批准号:22AZD072)阶段性成果】

  参考文献:

  [1][15]喻国明,金丽萍,卞中明.小有小的用处:大模型传播生态下的小模型——概念定义、技术构造与价值角色[J].新闻记者,2024(01):3-17+58.

  [2]Xia M, Malladi S, Gururangan S, et al. LESS: Selecting Influential Data for Targeted Instruction Tuning[J/OL]. arXiv preprint, 2024, arXiv:2402.04333. Available from: https://arxiv.org/abs/2402.04333.

  [3]Zhang Z, Zhang A, Li M, et al. Multimodal chain-of-thought reasoning in language models[J/OL]. arXiv preprint, 2023, arXiv:2302.00923. Available from: https://arxiv.org/abs/2302.00923.

  [4]Shao Z, Yu Z, Wang M, et al. Prompting large language models with answer heuristics for knowledge-based visual question answering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 14974-14983.

  [5]Sam Altman: Size of LLMs won't matter as much moving forward [EB/OL].[2024-02-06].https://techcrunch.com/2023/04/14/sam-altman-size-of-llms-wont-matter-as-much-moving-forward/

  [6]马歇尔·麦克卢汉,理解媒介:论人的延伸[M].何道宽,译.南京:译林出版社,2019:41.

  [7]Madianou M, Miller D. Polymedia: Towards a new theory of digital media in interpersonal communication[J]. International journal of cultural studies, 2013, 16(2): 169-187.

  [8]Madianou M, Miller D. Migration and new media: Transnational families and polymedia[M]. Routledge,2013.

  [9]Marín F J O, Muntean V, Gamella J F. Redes sociales digitales en la migración trasnacional romá de Rumanía. Una polymedia transnacional[J]. Revista de humanidades,2018 (35):107-136.

  [10]Waruwu B K. Smartphone mothering and mediated family display: Transnational family practices in a polymedia environment among Indonesian mothers in Hong Kong[J]. Mobile Media & Communication, 2022,10(1): 97-114.

  [11]Masud M M H. International Student Migration and Polymedia: The Use of Communication Media by Bangladeshi Students in Germany[J].Research in Social Sciences and Technology, 2020, 5(3): 95-110.

  [12]董晨宇,丁依然,段采薏.作为复媒体环境的社交媒体:中国留学生群体的平台分配与文化适应[J].国际新闻界,2020(07):74-95.

  [13]Peng Y. Student migration and polymedia: mainland Chinese students’ communication media use in Hong Kong[J]. Journal of Ethnic and Migration Studies, 2016, 42(14): 2395-2412.

  [14]Morley D. Media, modernity and technology: The geography of the new[M]. Routledge,2006:200.

  [16]何康,张洪忠.用户媒介使用:“高度集中碎片化”与“动态粘性”——基于手机应用切换的实证研究[J].新闻大学,2023(10):14-30+119-120.

  [17]官璐,何康,斗维红.微调大模型:个性化人机信息交互模式分析[J].新闻界,2023(11):44-51+76.

  [18]胡泳.超越ChatGPT:大型语言模型的力量与人类交流的困境[J].新闻记者,2023(08):13-29.

  [19]刘泱育.从“型构”到“互型”:媒介化理论核心概念“figuration”来龙去脉[J].新闻与传播研究,2022(03):38-53+126-127.

  [20]喻国明.AGI崛起下社会生态的重构[J].人民论坛·学术前沿,2023(14):58-65.

  (作者为宁波大学人文与传媒学院讲师,北京师范大学新媒体传播研究中心研究员)

来源:青年记者2024年3月

编辑:范君