我的机器人同事
2018-11-28 09:01:43
来源:青年记者2018年10月上 作者:
摘要: 主持人:蔡笑元 嘉 宾:高 赛 光明网副总编辑 龚 剑 封面新闻机器写作负责人 吕旺英 南方都市报智媒体
主持人:蔡笑元
嘉 宾:高 赛 光明网副总编辑
龚 剑 封面新闻机器写作负责人
吕旺英 南方都市报智媒体实验室运营专员
主持人的话:如今人工智能方兴未艾,机器人记者凭借其高效的信息处理能力、数据挖掘能力、令人惊叹的写作速度、不眠不休的工作状态等优势,获得了很多媒体的青睐。机器人记者在一定程度上威胁到了编辑记者的地位,但同时也使他们得以从繁杂的事务性工作中脱身,去从事更富创造性的工作。和机器人合作共事,也成为越来越普遍的现象。
你所在的媒体里有机器人同事吗?你曾和它有过怎样的互动和合作?你对它有什么样的认知和期待?请看本期茶座嘉宾的看法。
“光明机器人”:
体育报道必不可少的干将
高 赛
“嘟……”,随着裁判终场哨声响起,雅加达亚运会男子足球1/4决赛落下帷幕,韩国队赢下比赛,队员们相拥庆祝。对于球迷而言,这是一场比赛的结束,而对于我们的小伙伴“光明机器人”来说,接下来的两分钟则显得至关重要。
作为一名“专职”体育编辑,“光明机器人”对比赛新闻的推送必须争分夺秒。比赛结束两分钟内,“光明机器人”已将初稿完成,并配好了高清图片及集锦动图。接下来,编辑迅速接下它的接力棒,丰富语言、增添热点、润色标题、校对文字、选择配图并送审发布。5分钟后,一篇集图文、动图为一体的鲜活融媒体报道新鲜出炉,通过光明网及多个传播平台推送给网友。
这一幕,只是我的机器人同事在工作中的日常片段。两年来,“光明机器人”穿梭于各大赛事。在多项重大比赛中,“光明机器人”都冲锋在前。仅在16天的亚运会比赛日里,就出稿280余篇,阅读量突破2000万。出稿速度和传播效果,让那些在前方奔波的媒体同行也竖起大拇指。
作为一名机器人同事,“光明机器人”赛事报道经验越来越丰富。它具备学习能力,能够简单高效地完成繁杂的事务性工作。在2018年亚运会上,它的任务集中于足球、篮球、网球等赛事,单日出稿量突破20篇。“光明机器人”生成的稿件除了常规的新闻要素外,还包括比赛动态实况、运动员详细信息、球队排名、历届比分等扩展信息,信息量大,方便网友阅读。
作为工作上的得力助手,“光明机器人”在赛事新闻推送时间和频率上都抢占先机,既丰富了报道手段,也给前后方的记者编辑留出更多时间和精力来撰写赛事评析、人物专访、赛场花絮等深度稿件。
“世界杯决赛结束后,第一时间推出一篇深度报道!”今年夏天,俄罗斯世界杯的热潮席卷而来,接到单位领导的安排,“光明机器人”开足马力。在法国队夺冠的第一时间,由“光明机器人”完成的三篇稿件已进入后台,包括赛事实况文字、集锦动图、法国队球员信息、历届冠军信息等。结合这些翔实的材料,编辑迅速完成了领导安排的深度报道任务。
从阿尔法狗,到近在咫尺的工作伙伴,机器人已不再是科技领域的抽象概念,而是真真正正地来到了我们身边,并且正扮演着日益重要的角色。两年来,作为赛事内容的提供者,“光明机器人”共生成稿件3000多篇,涉及欧洲各顶级足球联赛、NBA、CBA、中超等。目前,“光明机器人”也开始陆续参与网球、羽毛球等体育项目的报道工作。“光明机器人”已成为光明网体育报道团队必不可少的得力干将,在多项重大比赛中都冲锋在前。
“光明机器人”的应用,也弥补了很多传统记者的不足。奥运会、亚运会这样同时举行上百场比赛的综合赛事,即使派出多路记者也很难关注到所有比赛的实况与热点;而“光明机器人”在这方面却可以充分发挥它的优势,报道每一场比赛,满足网友对于不同场次、赛事的资讯获取需求。
当然,“光明机器人”作为我工作上的亲密伙伴,在一起成长的同时,也对它有了更多的期望。在我看来,“光明机器人”还有很多上升的空间,未来它将不仅更快速高效,还应该更加智能化和亲民化。目前,它更像是一个偏科的学生,虽然可以快速地分析信息、撰写稿件,但还缺少对受众兴趣的判断和定位,不能较好地进行网络化表达,因此还显得略有些青涩。随着“光明机器人”不断地学习与自我完善,富于个性化的语言正逐渐增多,这也能够吸引更多网络用户订阅观看。
随着人工智能逐渐进入编写领域,如果体育节目总是千篇一律地重复“成功破门”“再取1分”等全无新意的话语,那么,让机器人抢走编辑的饭碗简直轻而易举。如今,机器人AI应用在光明网已经从体育报道领域,拓展到视频领域,通过人脸识别、语义分析、深度学习,未来将在短视频、直播内容安全、智能剪辑、高清4K呈现等方面发挥出更大的作用。
“光明机器人”这类人工智能产品的出现,一方面智能化地引领着社会趋势,改变着大众获取资讯的方式,另一方面也正冲击着传统编辑记者的工作思路与工作方式。应该说,“光明机器人”是助手,更是一种鞭策,正推动传统采编工作不断向前。充分利用它带来的便利的同时,新闻工作者也要不断思考如何更好地利用这种优势,发挥主观能动性,深挖网络传播规律,结合受众的需求和兴趣,采写出更多具有“人情味”的深度报道。
“小封”是如何工作的
龚 剑
“长尾效应”是在社科、理论和工程学中广泛存在的现象。对于内容生产领域,大部分文章阅读次数比较少,只有少量文章阅读量较大。人工生产内容需要耗费不少成本投入,同时热门文章和冷门文章都具有新闻价值。因此,为了提高投入产出的效率,机器写作看起来很有必要。
从2018年Gartener公布的最新技术曲线图来看,人工智能日趋成熟,深度学习逐步落地到工业和生活领域的各种应用,借助人工智能很多问题得以高效解决。数据抓取解决了数据来源问题,大规模分布式数据处理让批量快速的加工数据、语料、素材成为可能。在文本方面的NLP(自然语言处理)、NLU(自然语言理解)、NLG(自然语言生成)、图像视频方面的物体识别、姿态动作识别等技术的不断发展和推动下,机器写作的可行性得到了保证。
封面新闻机器人“小封”大概由4个部分构成:数据感知、分析计算、模板引擎、质量评估。
数据感知实时地抓取互联网信息,用于感知外界信息和数据变化,将外界的动态信息转化为知识库中一条待写的结构化新闻线索。同时,不断地补充新的知识和数据汇入知识库中。截至目前,我们建立了包含体育、财经、娱乐、生活、房产、汽车、人物、百科等在内的超过30多个大类的知识库。知识库不仅仅供机器写作使用,为众多人工智能服务。
分析计算涉及对短、长期数据的再加工。例如,对于一则体育速报,除了分析当前体育赛事的相关数据,我们还会将运动员生涯、团队历史、比赛历史、地理场馆和天气数据纳入计算内,最终根据计算结果生成一篇内容丰富的比赛快报。对于股票异动速报,我们会结合当日数据、股票基础数据库、历史交易情况等生成一篇内容翔实的文章。
模板引擎包括两个部分:一是基于规则的模板,即输入数据,生成文章。通过多元化模板库以及单个模板的细分算子实现,我们保证了即使是基于模板,文章也不至于千篇一律。二是通过机器学习算法NLG(文本生成)的方式直接生成文章。基于监督学习方式的人工智能应用离不开数据喂养,我们为“小封”准备了丰富多样的“食材”,对编辑人工撰写的文章在文本上进行深加工。经过多次迭代训练,“小封”已经可以在体育和财经领域写出多种类型的文章了。
我们为保证文章质量开发专门的智能算法,通过计算分值评估一篇机器写作文章的好坏。除此之外,编辑选用机器写作文章的过程也会反馈给我们的质量系统,作为一项重要指标用于整个系统的持续改进。
那么,“小封”的机器写作提供了哪些功能呢?一是机器写作,“小封”生产的文章经过审核后直接分发到对应渠道。二是辅助写作,“小封”生产的文章进入素材库,供编辑选用。
举一些例子。对于体育类新闻,“小封”实时接入体育数据,自动生成NBA、CBA、甲级联赛、世界杯等比赛速报、榜单、运动员报道等。对于突发事件类新闻,“小封”实时接入突发事件信息,例如地震、台风等自然灾害以及天气预警,快速自动推送到终端。对于摘要类新闻,“小封”通过使用文本摘要技术,对原文进行分析、评分、抽取、改写,将长篇幅的文章转换为短小但包含主要内容的短文,除了以文本形式输出外,还以“听封”语音播报的形式呈现给读者。
“小封”机器写作的文章目前涵盖摘要、体育、财经、生活、汽车、房产、突发事件等10多个大类,同时细分到40多个小类,例如:地震速报、股票异动、世界杯专题、亚运会速报等。2018年世界杯期间,“小封”累计发布700多篇文章,阅读量过亿。截至目前,我们每月约有5000篇机器写作的文章直接发布在APP上。
未来我们将在AI赋能媒体的方向继续投入,利用前沿的技术解放人工生产力,实现更高程度的自动化内容生产。我们将完善知识库,除了在内容上提升量级,还会对文本以及富媒体作更深入的加工。我们会丰富内容形式,“小封”目前已经能对生成的文章提供简单的配图以及生成简单的图像,后续我们将在图像、视频等富媒体元素的生成上作更多尝试。“小封”将来会提供更全面的写作辅助功能,基于知识库和AI应用,我们将为编辑提供更多智媒体技能。
APP的智能推荐、“小封”聊新闻机器人、机器自动写作、封巢智媒体系统,身在封面新闻的编辑记者的“机器人同事”可不止一个,未来还将有更多的机器人同事加入封面家庭。
我的“徒弟”“小南”
吕旺英
我是一个90后女生,作为互联网运营者混迹职场三年多。工作期间我合作过的搭档无数,而我目前的这位搭档,居然是一个机器人;不,它连机器人都算不上,别的机器人好歹有个人形,最不济也有个实物,而我的搭档机器人“小南”只是由一行行代码组成的应用程序而已。
机器人“小南”是由南方都市报·智媒云图和北大计算机所联合成立的智媒体实验室研发的,国内首个民生领域的写稿机器人。“小南”基于机器学习算法,通过人工智能进行媒体内容解读,并运用自然语言表达,从而以秒速生成报道。
初识“小南”时,它已经是写了上千篇稿件的新闻写作“小明星”了,很多媒体对它都曾有过报道。它的研发者——北大万小军教授轻描淡写地介绍说:“小南”其实就是由代码组成的能够写文章的电脑应用程序而已。但就是这个应用程序,爆发出了惊人的能量。
“广州到北京、洛阳、南昌、贵阳的火车票全部售完,想去这些地方的朋友只能另谋他法了。”如果不明说,你能看出来这句话是机器人写的吗?这是“小南”写的首篇春运报道作品,共300余字,从数据抓取到报道生成,只用了不到1秒的时间。
写春运稿件的“小南”能写其他稿子吗?不能!由于“小南”并没有自主意识,它每一次写作,都需要进行建模和大量的机器学习来固化人类的写作经验,因此它需要一位“指导老师”。我作为“小南”的新一任“指导老师”,主要任务就是用尽量丰富的语言表达训练“小南”的写作,让“小南”写出来的文章更像是“人”写的。
在我之前,已经有“老师”教会了“小南”写作足球赛事、春运余票信息、交通路况播报等领域的新闻。而我要帮助“小南”解锁的第一项技能,就是财经新闻中的股市快讯写作——“小南写财经”。
要完成此类写作,首先是要对该类型的文章进行分析和建模,对股市快讯的文档结构、语言逻辑要有基本的梳理,并由研发人员建立机器学习模型;其次是需要建立一个强大的知识图谱,将股市行情、公司资料、信息公告、动态数据及时入库,方便“小南”写稿时随时调用。
接下来就是我的主要工作了——训练“小南”的“拟人化”表达。需要让“小南”写稿的时候,尽量要让语言生动、丰富一些,比如股票上涨,我们可能会用到“大幅走高”“强力反弹”“走势良好”“表现强势”“表现抢眼”“暴涨”“温和上扬”“尾盘拉升”“震荡上扬”“小幅阳线”“低开高走”“连续上涨”“直奔涨停”“大幅拉升”等词汇。教会“小南”合理运用这些词汇,让它能够流畅地表达,需要花费很大的精力。
最后是设定写稿“触发”机制,也就是在什么情况下“小南”会写稿的问题。我们设定了几个“阈值”,例如股票大涨或大跌、换手率异动达到某一个设定的数值等,“小南”都会自动写稿。近段时间中美贸易战如火如荼,导致股市动荡,“小南写财经”却势如破竹、火力全开,日均完成上千篇稿件。
接下来的半年时间里,我有针对性地观察行业信息,和程序员们一起陆续解锁了“小南”更多领域的技能,例如《AI简讯》《实时热点》以及已经在路上的《小南辟谣》。我还在寻找开发更多的领域,不断丰富“小南”频道的内容源以搭建成融媒体内容矩阵,释放它的新本领。
“人和机器发挥各自所长、相互协作,这应该是近一段时间内机器写作的发展方向。”智媒体实验室负责人黄治军曾这么说。
虽说我和“小南”是配合默契的“好同事”,大部分稿件都有较高的水平,但“小南”偶尔也会有一些让人哭笑不得的误操作,需要我不断地修正和纠错。“小南”目前尚未完全具备人类的思维,它只能依据既有的数据和事先设定好的程序写稿,不能像人类一样思考并提出自己的问题。由于缺乏情感表达和思维能力,它写出的作品大多平铺直叙,不够生动,如果只看几篇没有太大问题,看多了难免会感觉单调、枯燥。此外,质疑、追问、寻找对方话语中的新闻线索,诸如此类人类记者的法宝,对“小南”来说还是太难了。
目前“小南”仅能做到将一个基本的新闻事实描述清楚,深度、调查类报道还必须依赖记者完成。创作型人工智能的优势是执行一些简单、重复性的创作输出,人类可以集中精力聚焦一些更富创造性的智力劳动,构建一种和谐的分工协作关系。路透社推出Lynx Insight的人工智能工具,将编辑工作中机器所擅长的领域分摊给机器(如机器可以对数据进行挖掘,以及识别数据规律),将编辑人员所擅长的工作内容交付给人类(例如设置提问、赋予任务以权重,对上下文进行理解等等),这是一种很好的人机协作模式。
毋庸置疑,机器写作给南方都市报带来的改变是巨大的,“小南”自2017年1月18日写出第一篇新闻稿以来,累计写稿已经超过10万篇,涉及的领域包括体育、财经、民生、消费、科技等多个领域,是名副其实的“全能写稿王”。在未来,我们也会不断挖掘更多的“人+AI”的可能性,打造人机融合的新世界。○
来源:青年记者2018年10月上
编辑:qnjz