2020年11月29日 星期日
首页>青记微评 > 正文

青记观察丨当我们重度依赖数据时

2020-10-29 09:25:10

来源:青年记者公众号   作者:詹新惠

摘要:当我们冀望于数据向善时,我们其实也在面临着坏数据、伪数据、数据说谎和数据作恶的现实。

  国庆假期,一则堵车新闻引出了“数据依赖”这一新问题。

  10月4日,四川青城山景区遇到了尴尬事。游客使用“高德地图”导航至青城山景区却发生定位错误,将前往青城前山的游客导航至已封闭多年的区域,造成交通严重拥堵。

  有评论说,导航出错是小概率事件,主要是导航坐标点标注错误,数据更新不及时、不准确。出行地图导航总体还是可信并可用的。也有评论认为,不单是高德地图导航数据出错的问题,更重要的是多个行业和领域都存在数据错误。随着数据数量的指数级激增,错误数据出现的概率也会越来越大。

  姑且抛开数据错误、数据更新不及时等问题,其实我们面临的是大数据时代如何“迎接”数据的问题。

  现实中,我们的生活程度不一地依赖着数据,出行依赖地图数据,点外卖依赖点评数据,购物依赖评分数据,观剧依赖影评数据。而因由这些数据,我们的出行有了一定的便利,外卖能减少选择的耗时,购物能快速触达所需的商品,选剧能获得更多的多元判断。数据帮助发现问题、解决问题,数据辅助决策、管理,数据确实能方便生活、精准服务、降低成本、提高效率。

  但是,当我们冀望于数据向善时,我们其实也在面临着坏数据、伪数据、数据说谎和数据作恶的现实。

  高德地图更新不及时、标注不准确、误导驾车人形成交通拥堵,这是坏数据(也称“脏数据”)带来的数据操控;

  2018年蔡徐坤专辑发行,微博转发量超过1亿次,微博用户总量只有3亿多,这意味着每3个微博用户中就有一人转发,这有“伪数据”的嫌疑;

  2020年外卖平台根据投送时长、距离数据来规定外卖小哥的工作绩效,而造成的交通事故不能不说有数据系统的操纵与作恶。

  更致命的在人工智能。AI的深度学习严重依赖大数据。正常的情况是数据投喂量越大,基于模型产生的结果更智能。但是,如果投喂深度学习的大数据出现了问题,AI给出的结果就不敢想象了。

  2016年美国“大选”,众所周知的是剑桥分析公司利用脸书数据左右选民投票的事件,但其实还有另一个我们不知道的AI误导事件。《错觉:AI如何通过数据挖掘误导我们》一书分析了希拉里·克林顿运用软件程序“阿达”以数据为驱动精准计算选举情况,却导致竞选失败的案例。书中指出,竞选团队严重依赖“阿达”的大数据力量,而忽视了数据之外经验丰富的政治家的建议和线下选民交流等非数据问题。

  生活在数据时代,我们很难逃离数据,很难摆脱数据的左右,更难以走出数据的困局。可以说,重度依赖数据是一个社会治理命题。

  尽管目前出台了一些惩处数据造假、数据作恶的法规条例,如《网络直播营销行为规范》明确“禁止刷单、炒信等流量造假以及篡改交易数据、用户评价等行为”,文旅部的《在线旅游经营服务管理暂行规定》,明确要求“在线旅游经营者不得滥用大数据分析等技术手段,基于旅游者消费记录、旅游偏好等设置不公平的交易条件,侵犯旅游者合法权益”。但是,数据依赖的根本状况是难以改变的,甚至会越来越严重。其结果是,越重度依赖数据,就越会被数据绑架、操控。因为我们面对的不仅仅是一个个数据,还有数据背后的一个个“灰产”——开放平台会因为广告数据而人为干预榜单,淘宝小店会因为差评数据而对买家进行威胁……

  具备一定的数据素养可能是走出数据困局的一种选择。关于数据素养,维基百科的定义是“阅读、工作、分析和用数据说话的能力”。具体而言,数据素养包含着数据思维、数据辨识、数据使用、数据管理、数据伦理和数据规范等多方面能力。比如数据辨识上,我们是否会质疑太完美的数据?我们是否意识到数据如果靠不住,那么用数据说话是不是也就有问题了?我们是否会批判话题究竟是不是数据制造出来的?

  在一个处处都用数据量化、数据说话的时代,我们虽然不能摆脱数据依赖,但可以对数据多一分敏感,多一点警惕,多一些思考,多提升自己的数据素养。

  (作者为中国传媒大学新闻学院教授)

  【文章刊于《青年记者》2020年10月下】

来源:青年记者公众号

编辑:小青