网文审核与推荐如何进行?对话晋江文学城,探讨网文的当下与未来

数美科技

2022-04-11 14:32北京数美时代科技有限公司官方帐号
关注

网文还火吗?

网剧《开端》开年大爆,其原著就是连载在晋江上的热门网络小说。尽管互联网娱乐早已步入视频时代,但网文发端二十余年,积累了一大批优质作品和忠实读者,诞生于2003年的晋江就是其中代表。

一些数据能解释这种变化。CNNIC发布的《第47次中国互联网络发展状况统计报告》显示,截至2020年12月,我国网络文学用户规模达4.6亿,较2020年3月增长475万,占网民整体的46.5%,而网络视频受众占比已经达到93.7%。

相较于更丰富的音视频媒体形式,文本自然是枯燥的,受众也更窄。在视频媒体冲击下,网文有一些新的趋势。就网文本身而言,既要向外看,也就是出海,也要向内看,从用户和内容角度做精细化运营,针对监管痛点降本提质。

本文独家对话晋江文学,探讨网文行业的当下与未来,回答长文本审核、分年龄推荐、个性化推荐和出海等关键问题,以及技术在其中扮演怎样的角色?

关于晋江

晋江文学城创立于2003年,截至2022年1月,拥有在线网络小说超462万部,注册作者数逾199万,平均日更新字数超过3600万,网站累计发布字数超过1114亿。注册用户数已超5172万,日平均在线时间长达80分钟。网站日均PV超4个亿,月活用户超500万

01
网文生态正规化
晋江:妥善处理三大问题

监管与审核——一个老生常谈的话题,也是悬在网文行业头上的达摩克里斯之剑。

野蛮生长而来的网文行业,早期是亚文化爱好者们的乌托邦,诞生不少优秀作品,但其中不乏性与暴力元素。这些虽然也在严肃作品里出现,但网文缺少出版作品的严格审校程序,还有作者将其作为吸睛博流量的手段。每次新发布的监管政策,对网文存量和新作品的管理审核都是极大挑战。

近两年监管政策不完全梳理

数美科技:网文影响力的不断提升,触发监管和政策执行,一定程度上推动行业正规化。晋江如何看待这种变化?

晋江文学城:一个行业的发展受到国家重视并支持,说明这个行业已经开始进入蓬勃发展的阶段,并具有一定的市场潜力和期望。晋江不仅希望本行业可以有章可循、有法可依,更期待上下游市场可以与我们一起推动行业的健康发展。

促进行业健康发展,需要妥善处理以下问题:

(1)内容安全:作为网络文学网站,一方面需要指导作者什么能写什么不能写,严守法律底线,只有合法合规才能谈市场化,另一方面,平台也要做好内容审核,这是保障内容安全的重中之重。网文的全民创作机制,形成了海量生产、低成本试错、海量质检员(读者)的特点。也正因如此,需要借助技术实现大量、及时的内容审核。

(2)版权保护:晋江一直在技术方面和法律层面努力。包括但不限于不断通过技术手段提升盗文的难度、鼓励并协助作者维权、重点宣传维权成果、向作者普及相关法律常识等。

(3)寻找适应行业特质的监管方式;网络文学和传统文学内容本质是一样的,都是作者给大家写故事。依托互联网,网文天然具有更新量大、信息迭代飞速、文本质量较低等特征,不能直接继承传统出版行业的管控措施。部分平台存量巨大,既是财富,也是问题隐患。历史存量绝不应该一剪没,希望在日常监管中,用百分率代替绝对值,更为科学合理。

02
审核——关乎平台生死与用户体验
晋江:五级审核,过程透明化

据数美了解,目前的网文平台多数执行“敏感词审核+三级人工审核”制,人类虽然比机器更可靠,但问题也显而易见,人力成本高、标准不统一、效率低,从内容生产端看,作者或黑灰产也可以通过调整顺序、插入符号等方式,轻松绕过关键词。

基于互联网的创作,决定了网文的表达往往处于实时更新的状态,这意味着人工编辑的不可替代性。但针对动辄几十万字的长篇幅以及长文本,数美希望通过“关键词+语义识别”模型实现第一步预审,避免仅采用关键词审核造成的误杀和低准确率的问题,采用特定策略进行人工复核,基本替代三级人工审核中的初审环节,大幅降低人力成本。

此外,新监管政策的出台会导致大量前期创作的文本积压,对人力审核造成巨大压力,机器模型则能在短期内迅速完成存量审核。

简单做一个对比,一个成熟的审核员,一天8小时能审核10000条文本,而机器可以在2分钟内审核完成(500qps),如8小时运转,可审核1440万条文本,效率差异之大,完全不在同一量级。

数美科技:网文行业的审核痛点是什么?晋江如何处理?

晋江文学城:网文行业的风控包含两方面:

第一是内容安全,这是基础,甚至可以说关乎平台生死、UGC模式在内容审核上普遍存在效率和准确率的问题,长文本审核尤其要面临文字内容拆分、变形、同音同意字代替,隐晦或指代性描写等,审核难度被大大提高,引发误审,出现内容安全风险。

第二网站各类展示机会、账号安全等,这关系到网站能否给用户提供一个安全、公平的平台。网络文学和其他互联网行业一样,也会遇到账号注册攻击、撞库、开小号刷数据、养号等各类问题,不加以遏制,长此以往,势必对网站公平性造成损害。

相对于PGC,UGC因为内容生成主体的不同,在可控性上更难,尤其网文,日产生量庞大,还要同时兼顾用户即发即阅读的需求。

目前晋江采取的是自主研发AI审核系统和采购第三方审核产品,运用于现有的五级审核流程中来保障网站内容安全和业务安全。内容方面,晋江有五级审核制,根据内容风险进行分项归类,同时辅以不同用户不同信任权重,结合AI智能审核+人工重点审核+质检抽查等手段,全方位立体管控。在这个过程中,定期训练、校正审核产品的模型算法,培训审核人员都是至关重要的。

这对每天产生的新增数据,晋江会实时审核,针对存量,我们不定期会对部分风险数据进行重审,采取一些专项审核;对于部分爱写擦边球,相对风险较高的作者,也会不定期重审其文章。在进行部分专项审核时,我们会要求数美方面临时增减拦截策略,达到我们筛查数据的需求。

数美科技:如何让用户理解审核这件事?

晋江文学城:晋江目前已经做到对用户发布的全部内容进行审核。数美作为智能AI审核,能够快速地替我们进行第一道内容审核,大大缩减了接入之前审核消耗的时长。根据风险内容的不同,我们还设置了部分先发后审的策略。这两方面会让用户感到审核耗时短,也就是审核无感化。

但同时,我们认为“审核无感化”也不一定是让用户完全不知道任何信息,反而,在当前互联网时代,让用户了解到我们做了什么,怎么做的,现在正在做什么更为重要,因此我们一直在推进将审核的每个步骤公开给用户,让用户了解自己的内容当前是什么状态,下一步应该怎么做,这样也能从另一层面减少双方因信息不对等产生的误解与分歧。

03
精细化与个性化
晋江:要“猜你喜欢”,也要尊重年龄认知差异

整个网文盘子的扩大,不同用户有不同的阅读需求,精细化与个性化或许可以是一个解决方案。

这意味着对内容和用户分层,通过精细化的内容标签和用户画像描摹,把内容推荐给对应的用户。有人爱武侠,有人爱甜宠,有人要HE(好结局),也有人喜欢BE(悲剧结局),以往的思路更多依靠编辑推荐和用户自发,但算法驱动了新闻资讯、短视频,未来的网文也可以实现“猜你喜欢”。

晋江文学城站长、CEO黄艳明曾在接受”毒眸“采访时表示,“面对网文同质化的困境,平台”除了策划一些针对冷门标签的征文和栏目,尽可能给到曝光,平台最需要做的其实是加强个性化推荐的能力。你能方便地看到你喜欢的东西,而不是被不喜欢的东西挤满了眼睛,这个是更重要的。”

另一种精细化体现在未成年用户保护上。

数美科技:晋江在去年年底尝试上线了分年龄阅读推荐体系,给作品适合阅读的年龄进行分类推荐,如何理解这个做法?难点是什么?

晋江文学城:晋江文学城发展近二十年,虽然没有详细统计过,但相信未成年人有一定比例。我们发现一部分读者在评论作品时表现出极端、过分投入等现象,比如会为角色A还是角色B在作者心目中的地位最高而真情实感地吵架。所以,平台必须要努力解决内容管理问题,营造更好的社区环境。

如果采用“一刀切”,按照“儿童读物”的标准管理所有内容,管理成本最低,但是网络文学将会失去它的活力。

所以,晋江选择根据不同年龄的认知能力差异,为作品进行相应适度年龄的分类推荐。比如说,我们不该推荐在未成年阶段看《百年孤独》《黑太阳731》这样或沉郁或恐怖的内容,但又应该推荐他们在成年后直面这种沉郁与恐怖。尊重人类成长的客观规律,才能既保护未成年人应该“天真稚嫩”、又保护成年人可以“选择坚强”,同时也是对网络文学生态多样性与高效低成本的“成功秘诀”的保护。

这种模式虽然管理成本较高,但更适合网络文学。我们希望对网络文学内容精细化管理,也希望我们的措施能为行业提供一点借鉴。让网络文学既保持网络文学题材的多样性,为更好实现文化走出去提供原料,又能让用户更便捷地看到更合适自己的作品。

数美科技:未成年人分年龄阅读推荐工作的难点是什么呢?晋江有什么初步的经验吗?

晋江文学城:难点在于,开始的时候推荐可能有不准确的地方,需要非常细心地分析和标注,不断积累经验和数据。

我们现在也处于摸索阶段,主要是通过以下几个层面来推进。

首先,我们根据作品的题材、内容等标签对作品进行分类。比如悬疑侦探类型的小说会设置一些包含复杂逻辑的情节或犯罪现场的场景描写,再比如一些小众向审美作品或包含一些复杂的人际关系与情感的作品,这些可能不太适合未成年人阅读,所以我们计划将这类作品定义为推荐18岁以上读者阅读。这种标签性质的数据可通过技术手段提取并进行批量处理,也是我们该推荐体系上线后最先执行的。

其次,我们正在计划对能呈现价值观相关信息的内容做分类,包括作品的立意、传达的价值观、人生观、世界观;作品主题是亲情友情还是爱情,传达的态度是积极向上还是置疑反思等等这类形而上的内容。比如反映小伙伴互相帮助一起实现目标的故事,就适合未成年人阅读,而团队互相背叛,只有一两个人在利益面前还能保持善良的故事,暂时就不适合未成年人阅读。

第三,我们的系统推荐体系也会给予作者一定的调整权利,由作者根据作品的具体故事背景、情节、人设、角色间的关系、场景描写等进行内容研判,比如故事中主角是坏人或做过很坏的事这种内容给未成年人看可能会引发争议,作者可以根据文章的实际情况,在网站系统自动给出的适合阅读的推荐年龄基础之上,进一步提高适读年龄,但不能低于系统给出的适度年龄。

目前,我们是在作品基本信息页等显要位置,根据上述的方式和策略,将当前作品被划定的推荐阅读年龄公开展示出来,供读者及监护人参考。未来,如果解决了未成年人隐私保护与实名制之间的矛盾,我们会进一步加强推荐阅读的功能性。

此推荐体系刚刚上线,我们也还在摸索经验,后续我们还需要结合数据分析人工调整等方式不断完善,希望能给网络文学更好的发展探探路。

04
出海本土化挑战重重
晋江:版权出海+海外站

截至2020年底,网文作品存量已超2800万,与之相对的,是国内市场基本增长见顶,七猫、米读等免费产品开始撬动老牌网站根基,深耕多年,经过读者和市场筛选留下的优质作品亟待寻找新的空间,几乎空白的海外市场,需要优质作品来填补。

一开始的网文大规模出海,是优质作品的海外授权出版,属于平台行为。到2014年开始出现民间的自发翻译,比如我们熟知的WuxiaWorld,主攻武侠、修仙类作品翻译,他们更像是千禧年代国内的字幕组。随后,平台也开始建立海外网站,同步更新国内小说,同时,一大批本土创作者也开始崛起,共同建构外语语境下的东方文化,形成海外网文新市场。

针对内容出海,也就是通过文本翻译向海外传播。挑战来自于两方面,文本的翻译与本土文化的适应性,前者随着AI翻译技术的进步,需要形成“AI翻译+人工审校”的成熟模式,后者则需要平台重新审视和审核文本,针对不同的本土政策和文化,比如欧美更严格的未成年人保护政策、东南亚的宗教禁忌等,对相关内容做出调整。

针对生态出海,也就是本土化搭建“创作-运营-消费”全链条网文生态。由于文本与作者的不可控,要求平台针对本地环境重新搭建一套内容审核机制,除了上文提到的需注意的未成年人相关、宗教禁忌等,色情、暴恐、引流广告等内容也是蓝海领域的高发风险;而更高比例的付费市场环境,要求平台搭建起业务风险体系,识别风险账号和事件,避免平台损失。

数美科技:晋江如何部署海外市场?

晋江文学城:晋江自2011年签署了第一份越南实体书出版合作合同,便正式开启了海外版权输出。至今已与包括泰国、越南、韩国、日本、马来西亚、加拿大、美国、俄罗斯、缅甸、匈牙利、德国等在内的十余个国家或地区的近百个合作方建立了版权合作渠道。

截至目前网站已有3300余部作品签约繁体及海外输出合作合同,输出类型包括纸质书出版、海外电子书授权、海外动漫广播剧等改编形式的授权,以及授权国内改编的影视作品在海外播出等。晋江希望用这种方式为中华文化走出去尽自己的一份力量,让更多的中国思想、中国现状可以以“润物细无声”的方式被海外用户了解到。

为开拓国际市场,晋江独立研发的海外站也进入内测阶段,计划于2022年正式上线。

数美科技:网文出海的痛点是什么?如何解决?

晋江文学城:在海外输出过程中,常见的困难就是出海作品的翻译问题。中国的网络文学之所以可以做到“弯道超车”一部分就是得益于海量的作品库,但是随之而来的就是海量的作品与翻译人才的紧缺造成翻译瓶颈。人工翻译成本高且翻译速度得不到保障,一般的机翻,虽然翻译的快,但翻译水平得不到保障,而且中国网文中还有一些专有名词,即使能翻译出来,已经也大打折扣了,长此以往可能会对中国的网文进行海外传播造成不良的影响,甚至是恶性循环。

第二个问题是其它语种作品的审核问题。以我们网站为例,目前我们网站的作品为中文输出到其他国家,并授权合作方在当地进行翻译的模式。之后我们海外站建立后,除了翻译中文作品外,还会有其他语种作品发表在网站上,这就意味着网站面临其他语种作品的审核问题。

举报/反馈