本文授权转载自刺猬公社(ciweigongshe)
作者 | 贾宸琰
从6月14日俄罗斯世界杯开赛至6月20日11时,通过“Magic”平台生产的世界杯短视频达到10296条,占主要视频网站世界杯中文短视频总产量的78%。
在俄罗斯世界杯上,由新华智云自主研发的国内首个媒体人工智能平台“Magic”首次惊艳亮相。
据新华社公布的数据显示,从6月14日俄罗斯世界杯开赛至6月20日11时,通过“Magic”平台生产的世界杯短视频达到10296条,占主要视频网站世界杯中文短视频总产量的78%。其中,最快的一条短视频《进球了!秘鲁VS丹麦》生产仅耗时16秒,在丹麦队进球后16秒内,“Magic”就自动合成了一条视频。
最酷炫的是,“Magic”平台可以利用视频跟踪算法,命名实体识别(NER)和BRF识别等技术,智能识别球员阵型和防线,提取球员骨骼信息并追踪持球球员运动轨迹,定位球员并进行光圈渲染,让球迷们过足球瘾。
除了比赛集锦,“Magic”算法还生成了不少有意思的短视频,其智能程度让人大呼意想不到。比如,由“Magic”平台生成的视频《塞内加尔主教练:原来你是个撒欢儿的表情包》精准抓取了塞内加尔主教练夸张的表情和肢体动作,合成了一条19秒的视频。
《塞内加尔主教练:原来你是个撒欢儿的表情包》
“Magic”平台视频截图
智能识别球员痛哭流涕,“甄别”看台上的美女球迷,自动抓取球员身价信息、极速整理球队射门榜单…… “Magic”已经完全突破了算法在人们想象中模版化、单一化的生产形式,在零人工干预的情况下,在短短一周内生成了上万条主题多样、内容丰富的短视频。
如此海量的视频内容,除了算法技术足够前沿以外,更离不开新华智云的充足准备。据报道,“Magic”智能生产平台早已为今年的俄罗斯世界杯准备了831个主题。配合以2010年和2014年两届世界杯的相关数据,可谓“有备而来”。
MAGIC这一名字是“MGC”(机器生产内容)和“AI”(人工智能)的结合。这一平台以大数据处理技术、智能算法技术以及人机协作技术为核心;包含智能数据工坊、智能媒资平台、智能生产引擎、智能主题集市四大智能系统。
简单而言,智能数据工坊是数据采集中心、数据加工中心和数据产出中心,通过爬虫等算法挖掘各类视频、图片、文本中的数据,随后将数据进行处理从而得到结构化的数据;智能媒资平台是内容资源的“仓储中心”和“算法中心”,包含各类新闻信息、图片、视频等素材,记者可以在智能媒资平台中搜寻需要的素材;智能生产引擎,顾名思义,具体负责自动生成内容,通过分析时间、地点、人物等信息,调度相应的素材,渲染后自动剪辑合成一条视频新闻;智能主题集市则更像是内容产品创意中心, 为内容生产者提供选题和写作思路。
目前, “Magic” 已与相关内容版权方达成合作。在“优酷Magic”“UC世界杯快报”“MAGIC世界杯”等多个频道,用户都可以看到由“Magic”实时生产的世界杯视频新闻。按照目前“Magic”的产量,你所看到的世界杯短视频,很有可能一大半都是AI剪辑的。
由于体育新闻事实性强、较为结构化,国内外不少自动化新闻算法产品都选择率先投放应用于体育领域。比如,2016年里约奥运会期间,今日头条研发的AI写稿机器人张小明通过对接奥组委的数据库信息,实时撰写新闻稿件,平均每天产出30-40篇文字稿件。
美国算法供应商Narrative Science的前身也主要被应用于美国西北大学棒球比赛等体育赛事的报道。但这些自动化新闻报道大都局限于文字领域,像新华智云“Magic”这样,如此大规模将自动化新闻技术应用于体育视频新闻的报道,在国内数一数二。
除了新华智云以外,腾讯Dreamwriter也在开发音频、视频的自动识别和自动剪辑技术。而新华智云此次在俄罗斯世界杯中的表现,在全球发展自动化新闻的诸多机构中,也足以称得上可圈可点。
01:04
实际上,这已经不是这一媒体人工智能平台的第一次亮相了。2017年12月26日,新华社面向全球发布了中国第一个媒体人工智能平台——媒体大脑1.0。而今年6月13日发布的 “Magic”智能生产平台则可以被看作是媒体大脑的2.0版,由新华智云科技有限公司自主研发。
新华智云科技有限公司是新华社和阿里巴巴于2017年6月合资成立的大数据人工智能公司。除了自动生成新闻,新华智云的业务还包括人脸识别、语音转换文字、大数据、新闻分发,等等。
“Magic”智能生产平台此次在俄罗斯世界杯中的精彩表现有着绝非一日之功。刺猬公社(专访了新华智云联席CEO傅丕毅,他提到,早在“Magic”智能生产平台之前,新华智云“媒体大脑”就已经应用了智能分析视频内容并快速生成文字、图片、语音、视频、数据可视化内容的算法技术。
新华智云联席CEO傅丕毅
2017年,“媒体大脑”曾经在15秒内,生成首条两会视频报道。在所有“媒体大脑”自动生成的视频新闻中,一个最经典的案例是:算法发现了历年政府两高报告中一些“消失”的司法名词。新华智云内容团队和技术团队对算法进行了定义。
随后,算法通过文本、视频和图片的识别和比对技术,对历年两会两高报告的数据进行处理、比对和分析,从而得出了一些有意思结论。比如“反革命”“投机倒把”等司法名词在近些年的政府两高报告中消失不见。最后,算法将这些结论自动合成为一个完整的新闻视频。
2015年9月,腾讯发布中国首篇由算法自动生成的新闻报道,标志着中文自动化新闻在中国正式落地。此后,新华社、今日头条、第一财经、南方都市报社等中国媒体及互联网公司相继引入自动化新闻技术。在新华智云之前,国内的自动化新闻技术多应用于文字稿件,而新华智云无疑开启了中文视频内容自动生产的先河。
面对这项极有可能颠覆内容产业格局的全新技术,刺猬公社对几个问题最为好奇。
Q1:为什么专攻视频新闻?
傅丕毅:“视频集合了文字、图片和动画效果,因此如果具备了自动生成视频新闻的技术,自动生成文字和图片基本也没问题。目前,我们主要针对突发事件,从传感器设别职能识别和抓取异常的视频,包括声音、文字等信息,并加入时间、地点、天气、环境等公开的常规数据,从而自动合成一条视频稿件。”
Q2:数据从哪里来?
傅丕毅:“我以前是个新闻记者,我能占有到的新闻资源都是线人提供的新闻资源。我只能占有这些新闻资源。但是有了机器之后,我会让机器帮我去占有更多的新闻资源。比如媒体大脑的‘2410’技术就拥有24小时的摄像头监控资源。再比如,我们现在拥有抓取和处理千万量级中文网站上公开数据的技术能力,我们有足够多的服务器能存储这些数据。我们如果能把公开的这些数据能够抓取到、处理好,我认为就已经是一件很了不起的事情了。另外,新华智云也会购买数据库。”
Q3:算法会出错吗?
傅丕毅:“算法能够帮助人类记者大大提高效率,但机器不可能不出错,正因为机器出错了所以更像人类了。在目前的情况下,让机器的正确率达到百分之一百,那是不可能的。新华智云的人脸识别等功能存在一定的容错率。为了减少算法出错的可能性,新华智云的决策层会对部分重要算法的优先级进行研判。但大多数时候,内容团队和技术团队的合作过程中,内容团队就能对算法的优先级进行预判。这种情况则不需要上升到公司层面进行研判。”
Q4:内容团队和技术团队如何合作?
傅丕毅:“新华智云已经拥有130多位员工,其中技术人员超过百分之五十。内容团队并非生产内容的团队,而是告诉技术什么样的内容是好的内容。而后,技术在开发算法过程中,和内容团队合署办公,无缝衔接。”
Q5:如何看待人类和算法的关系?目前国内人类记者和算法的合作紧密吗?
傅丕毅:“新华智云最大的价值和核心、和方向目标就是在MGC的领域有所突破。新华智云将自己定位为;内容生产者的帮助者’。要看到,媒体大脑的这些功能的本质是机器帮助内容生产者更多地占有新闻资源,所有技术能力的释放都围绕着帮助记者占有更多新闻资源来做。目前,中国媒体记者和媒体单位对数据的使用能力不强。‘不强’主要体现在观念上,很多记者可能还没有意识到,经过处理以后的数据能够对媒体产生什么样的帮助。他们在观念上都没有意识到这一点。”
Q6:新华智云的技术会开放给其他媒体吗?
傅丕毅:“目前,新华智云已经提供了媒体入驻平台的接口,但目前入驻仅是完成了第一步。接下来,如果媒体要用到‘媒体大脑’的几项功能,需要技术系统和技术系统之间重新开发和对接,接口之间要打通链条。”
Q7: 新华智云的未来规划是?
傅丕毅:“就未来的发展合作计划而言,新华智云将会与更多的机构进行合作,为内容生产者提供数据服务,且服务可能会收费。目前,新华智云已经和浙江大学在知识图谱领域进行合作。简单而言,知识图谱可以理解为知识的关系图谱。很多技术,包括连接词都属于知识图谱的技术。简单而言,机器之所以能迅速发现一个词的真正含义,并转换为另一个词汇,其使用的能力之一就是知识图谱的能力。同时,新华智云计划未来用国际化的视野开展合作。”
Q8:未来编辑室的形态是怎么样的?
傅丕毅:“我没有办法勾勒出未来编辑室的全貌。但我可以结合新华智云的方向部分回答你的问题,因为智云的方向就是MGC(机器生产内容)和帮助内容生产者这两个方向。我觉得未来,内容生产者会越来越多借助机器提供的数据生产内容。换而言之,可能由机器贡献的数据比例在内容生产过程中会大大提高,从而帮助内容生产者更快和更好地生产内容。”
举报/反馈

寻找中国创客

33.4万获赞 4.6万粉丝
你寻找成功,我们寻找你!
新京报社官方账号
关注
0
0
收藏
分享