2024年04月24日 星期三

数据新闻的数据隐忧

2016-08-29 16:21:45

来源:青年记者2016年8月下   作者:竺怡冰

摘要:  解决在专业性、客观性和合法性方面的数据隐忧是数据新闻面临的当务之急。

  近年来,互联网、云计算、云储存等新型技术的发展,为大数据的兴起奠定了技术基础。而大数据的兴盛,也对各行各业产生了较大的影响。对于新闻传播界而言,数据新闻成为炙手可热的新型报道模式,并进一步推动新闻教育界的改革。数据新闻与传统新闻无论在生产模式还是新闻叙事中,最大的不同就在于数据。数据新闻凭借挖掘新闻数据、构建数据框架及可视化呈现等特色广受好评。但在一致叫好的氛围中,我们看到数据新闻在最为关键的数据方面存在一些隐忧。本文从数据新闻的数据视角出发进行分析,暂不对新闻编辑、可视化呈现等新闻工作者对数据二次加工的行为进行探讨。

  数据专业性:数据获取受技术和开放程度限制

  数据新闻是一种基于数据的抓取、挖掘、统计、分析和可视化叙事化呈现的新型新闻报道方式。这种报道方式中的大数据被业界普遍认为具有以下4个特点:数量巨大(Volume)、速度极快(Velocity)、形式多样(Variety)、具有价值(Value)。数据新闻将数据与新闻有机结合,貌似加深了报道的专业性,却也同样深受大数据自身局限的制约。事实上,目前数据的获取很大程度上受到技术和开发程度的限制。

  新媒体时代海量数据的持续产出,是数据新闻兴起的背景之一,数据新闻的繁荣与网络社会、电子商务、云计算技术的迅猛发展密不可分。①技术成为直接影响数据获取质量的关键性因素,主要包括数据存储、提取和消化、可视化等。这些技术在运用上却存在较多问题:数据来源阻塞、变形失真、丧失意义、滥用等,对许多非技术领域的数据新闻工作者而言,无从应对这些问题。新闻从业人员并非都是专业的数据技术人员,要像技术人员一样自由方便地获取所有数据存在一定的难度。因此,他们往往会选择第三方专业数据公司所提供的数据。但是,两者在对数据信息进行对接时,就会存在削弱信息专业性的隐患,使所获取的数据无法直接实现新闻的报道价值。

  此外,影响数据资源获取的另一原因,是世界范围内数据开放程度不平衡。全球开放数据运动始于美国。2009年1月,由美国总统奥巴马签署的《开放透明政府备忘录》正式启动,体现出美国政府对开放数据的重视。同年,数据门户网站Data.gov上线,并在2015年发布《全球开放数据深度分析报告》(以下简称“报告”)。《报告》指出,“全球数据开放目前呈现快速发展但发展不均衡的态势。信息化法律的完善程度、数据开放政策的制定、社团组织和专业技术人员对数据开放的需求程度、政府对数据开放创新应用的支持度,以及城市或地区数据开放程度等多个要素共同决定区域数据开放程度。就全球范围来看,美洲地区和欧洲地区处于数据开放第一梯队,亚太地区处于第二梯队,中东、中亚和非洲地区处于第三梯队”。②

  从《报告》排名和得分情况来看,中国位列第61位,整体排名较为靠后。首先,我国政府公共数据开放在政策推动上较为不足,目前并没有明确的政策来规范和引导推动数据的公开。其次,政府自身的数据开放程度不足,政府透明度、决策执行度等方面表现较弱,所开放的数据有效性和价值也有待提高。再次,就机构而言,目前拥有获取或开发技术的数据公司对于数据公开共享的意识都相对较弱,基本对自己后台的数据持私有隐藏态度,这就极大地影响了数据的开发和共通。

  因此,由于数据获取的技术难度,以及数据开放程度的局限,数据新闻的数据来源就显得极其有限。数据新闻缺少了更为专业的数据来源,核心价值就遭到了严重的削弱。若不能提出解决技术问题和数据共享的方法,那么,数据新闻的意义就会遭到质疑。

  数据客观性:原始数据的客观真实性不易考证

  客观性是新闻的第一要义,是每一个新闻从业人员的普遍共识。数据新闻,作为新闻的一类,也应将客观性放于首要位置。数据新闻以全采样分析、数据挖掘与统计的定量研究方法,看似克服了传统新闻在选题、采访方面的随意性与主观性,但是在目前数据采集还未规范之前,数据新闻原始数据的客观真实性存在不易考证的问题。《大数据时代》一书的作者维克托?迈尔‐舍恩伯格曾说过:“在小数据时代,因数据是如此稀少,可以确保自己收集的每一个数据点都是非常准确的。相比较而言,大数据往往是凌乱和质量参差不齐的。”③

  以公开的数据为基础,这是数据新闻存在的前提。数据新闻的来源主要包括两大渠道,网络资源产生的数据以及政府、企业等组织公开的数据。

  首先,网络资源生产原始数据的过程,就存在逻辑漏洞。虽然我国网民已达相当规模,但网络的技术门槛把社会底层及一些老年人排除在外。同时,有不少网民是资深的“潜水党”,只会接受互联网上的信息,而不会主动表达自己的想法。网民的表达行为与民众的表达行为之间存在相当大的差距,数据样本本身就存在一定偏颇,若是含糊地用部分样本来推及整体,可能会影响新闻内容的客观性。此外,互联网匿名性的特点,使网民上传的信息本身就存在虚假不实的隐患,虚假的个人信息、购买的粉丝、雇人刷单的交易等行为都会造成数据的偏差。现实社会与虚拟社会不能简单地画等号,从网络资源产生的数据同样不能简单地进行客观性判断,其本身就可能在全面性和客观性上存在较大的漏洞。

  其次,由政府、企业等组织提供的信息数据,作为人为数据选择的结果,同样不具备绝对的数据真实条件。政府在公开数据时会考虑到社会环境、政策等相关因素,可能造成数据的不完整性,例如我国政府的财政支出数据只有十分粗略的总数。此外,数据公司在大数据时代,因拥有专业技术成为数据的垄断企业。它们在提供数据时,会受到利益、社会关系等因素的干扰而选择性地公开数据,这使得所公开的数据会有一定的偏向和主观性,从而影响数据的客观性。

  例如新华网所推出的数据新闻《名校毕业拿高薪?数据说话》,报道者用图表的形式展现了大学综合排名和毕业薪酬排名的关系,以及毕业薪酬排名前100的学校所对应的大学综合评分。这个报道的数据来源为中国校友会网与爱拼网iPIN.com,是网络资源生产的数据。从这两个来源来看,网站对于所有毕业生的信息收集并不是全面完整的,它所展示的数据的客观性就存在问题。此外,这则报道会给受众一种读名校并不一定能拿高薪、读很多非名校却能拿高薪的信息,这种信息会误导受众,或许会影响学生的选择。

  数据合法性:数据获取与隐私问题缺乏政策监管

  数据新闻的制作是一个基于开放数据和开放工具的分析和过滤大规模数据的过程,原始数据由互联网平台所产生。在此过程中,技术的优越性凸显,但是技术的优越性不等同于技术的合法性。目前,政府并没有出台一项专门针对网络数据的监管政策,网络数据的获取和使用存在较大的风险。这些数据虽然处于互联网的公开平台,但是如若放任这些数据的肆意获取和使用,必然带来一定隐患。数据新闻中的数据也同样如此。新闻从业人员若是用不正当的手段获得相关数据,或者基于某些利益因素而对数据进行选择性使用,都将造成数据新闻的合法性问题。

  在数据新闻合法性问题中,还有一个最为重要的个人隐私问题。媒体或数据采集公司在进行用户数据搜集时,不可避免会涉及用户隐私的问题。由网络资源产生的原始数据和每一个网民都息息相关,个人上网记录随时处于被跟踪、被定位、被记录的状态。那么,与每个人密切相关的个人数据到底归属于谁,成为目前最富争议的隐私问题。新闻机构或其他数据公司,是否有权利使用网友在互联网中的个人数据,并产生经济效益,是值得商榷的。任何公民的个人信息都是“隐私”的一部分,在没有得到个人许可以及司法许可的前提下,从设备中毫无处理地以原始状态提取出来,就应该属于超越边界的范畴了。因此,数据新闻报道中的原始数据,若不是公开透明地进行网络调查,使用其他方式进行的数据获取和使用就会涉嫌侵犯个人隐私权。因此,数据来源的合法性是关乎隐私权和道德的重要问题。

  结  语

  目前,解决在专业性、客观性和合法性方面的数据隐忧是数据新闻面临的当务之急。首先,政府机构应在全面了解涉及数据新闻的各个领域情况后,出台关于数据隐私、获取以及使用等方面的相关政策,进一步科学规范数据新闻的合法性。只有将数据的获取和使用置于完善的法律体系下,以开放和包容的心态允许各国形成基于自身国情的数据开放模式,数据新闻的可持续发展才能得到有力保障。其次,新闻机构作为数据新闻的生产者,为保证新闻客观性,使用数据时应说明数据来源及数据结果的适用范围,避免以偏概全的数据使用误区。数据问题是触及数据新闻本源的问题,其重要性和迫切性应当引起广大新闻从业人员和新闻教育者的重视。

  注释:

  ①张萍:《数据新闻真这么美吗?》,《青年记者》,2016年第6期,第40页

  ②唐斯斯 刘叶婷:《全球政府数据开放“印象”——解读〈全球数据开放晴雨表报告〉》,《中国外资》,2014年第9期,第28~31页

  ③丁柏铨:《数据新闻:价值与局限》,《编辑之友》,2014年第7期,第8页

  (作者单位:中国传媒大学新闻学院)

来源:青年记者2016年8月下

编辑:qnjz