一、创作工具与创作行为
(一)“创作工具”概念的厘清
(二)人工智能与相机等创作工具的不可类比性
(三)生成内容的可重复性或随机性对创作工具定性的影响
二、“用户输入”与创作行为
(一)“思想与表达两分法”下“用户输入”的定位
(二)“用户输入”的次数与对创作行为的认定
(三)“用户输入”本身含有作品与创作行为的认定
三、“人和人工智能的关系”与创作行为
(一)“提出创作需求方和接受方的关系”与创作行为的认定
(二)“有成果必有作者”之谬误
四、人工智能生成内容的定性与国际保护
五、结 语
本文转载自“ZUEL法商研究”公众号,原文载于《法商研究》2024年第3期,作者王迁,华东政法大学法律学院教授。
【摘 要】
“创作工具”的含义与“劳动者……只是作为会说话的工具”及“人工智能是为人服务的工具”中的“工具”不同,是人根据自由意志将有关表达性要素的决定付诸实施时所借助的消极手段。由于生成式人工智能实质性地决定构成作品的表达性要素,因此其与照相机和常规图像处理软件等创作工具存在本质区别。“创作”是一种基于能直接决定表达性要素的自由意志的行为,“无意识的自动创作”并不是真正的创作。向人工智能进行的“用户输入”本身可能构成文字作品,但相对于人工智能生成的内容则是不受保护的思想,且这与“用户输入”是“单一回合”还是“多回合”并无关系,与接受者有无自己的意志、是否法律主体也没有关系。我国将人工智能生成的内容认定为作品,将导致国际保护的不平衡,即以《伯尔尼公约》其他成员国为起源国的由人工智能生成的内容可以在我国获得保护,而以我国为起源国的由人工智能生成的内容却难以在其他成员国获得保护。
【关键词】
人工智能 著作权 文生图 创作行为 创作工具 思想与表达两分法
近年来生成式人工智能(如无特别所指,下文使用的“人工智能”均指生成式人工智能)不仅在技术上得到突飞猛进的发展,而且也迅速实现了商业化。各种应用程序和应用场景层出不穷,每个人都可以通过输入提示词而生成各种文字、图片甚至声音和视频。特别是人工智能绘图程序可以根据提示词生成各种图片(即所谓“文生图”)且在效果上非常接近于人类创作的美术作品或摄影作品。在2023年“李某某与刘某某侵害作品署名权、信息网络传播权纠纷案”(以下简称“人工智能文生图第一案”)中,人民法院认为原告使用人工智能绘图程序生成的图片系由原告独立完成,体现了其智力投入和个性化表达,是“人利用工具进行创作”的结果,属于受著作权法保护的美术作品。不少学者对此认定表示支持。笔者认为,“人工智能文生图第一案”的判决及相关学术观点不符合著作权法的基本原理,在逻辑上无法成立,且会导致人工智能生成的内容在我国和其他国家保护的不平衡。
“人工智能文生图第一案”的判决以“人工智能是人创作的工具”这一论断(以下简称“创作工具说”)为前提。概念的统一是进行讨论的前提,如果对“创作工具”的认识、使用方式不同,则对“创作工具说”的争鸣也就失去了意义,因而必须确定著作权法意义上“创作工具”的概念。
(一)“创作工具”概念的厘清
1.“创作工具”是将有关表达性要素的决定付诸实施的消极手段
“创作工具”应以该术语的通常含义为基础,从人与作品之间的关系和形成作品的过程来看待某人或者某物是否为他人创作作品的工具。换言之,要形成作品或其他形式上接近作品的其他内容,有时需要借助人自身之外的力量。此种自身之外的力量能否被界定为创作工具,要看作品的内容(即构成该内容的表达性要素)是否由此人的自由意志所决定,此人自身之外的力量是否实质性地参与了对表达性要素的决定。因此,“创作工具”是人根据自由意志将有关表达性要素的决定付诸实施时所借助的消极手段,该手段严格受控于人的意志,不可能实质性地参与确定构成作品的表达性要素的决策。纸、笔、办公软件、常规图像处理软件等当然属于创作工具,特定情形下人也可以成为他人的创作工具。而“创作工具说”的典型表述为“生成式AI是人类创作作品的工具,本质上与纸笔、树枝等工具无异,生成式AI的作品也就是人利用技术工具创作形成的作品。……以ChatGPT生成的作品为代表的生成式AI作品就是人的智力成果”。笔者之所以反对“创作工具说”,是因为人工智能的使用者无法通过输入提示词和参数决定人工智能生成的内容,构成该内容的表达性要素源于人工智能自身的算法和所受的素材训练。
2. “劳动者……只是作为会说话的工具”与创作工具
有学者指出:“将人工智能解释为人的创作工具,与著作权法对雇用作品的作者的规定,逻辑上并没有任何本质区别……这里面的逻辑,就是将雇员视为了雇主的创作手足,或者说创作工具。雇员都可以被人为创设的著作权法规定为雇主的创作工具,为什么将尚无任何自由意志的人工智能解释为人的创作工具,就无法被接受呢?”对于雇员为了完成工作任务而创作的职务作品,称雇员为“雇主的创作工具”,是在“劳动者……只是作为会说话的工具”这一意义上使用的“创作工具”,泛指实现某种利益的途径和手段,是从利益归属的角度去认定“工具”。换言之,只要作品的著作财产权归属于未参与作品创作但对创作者具有支配地位的人,创作者就成了此人的“创作工具”。如果以此含义讨论人工智能是否“创作工具”,则在以“独创性客观说”认定在人工智能生成的形式上具有独创性的内容为作品,且其著作权归属于研发者或使用者的前提下,人工智能当然也就成了此种意义上的“创作工具”。
显然,“劳动者……只是作为会说话的工具”意义上的“工具”并非《中华人民共和国著作权法》(以下简称《著作权法》)规定职务作品著作权归属时所考虑的“工具”。雇员在创作作品时,是以自己的自由意志决定了构成作品的表达性要素,雇员是真正的作者;雇主虽然对雇员的工作具有指挥和监督的权力,也可以决定是否使用雇员创作作品,但是雇主通常没有基于自己的自由意志参与雇员对作品的创作。尽管根据《著作权法》第18条第2款的规定,特殊职务作品的著作财产权由单位(雇主)享有,但是其背后的法理依据并不是“雇员为雇主的创作工具”,而是在承认雇员是创作作品的作者、享有署名权的前提下保护单位(雇主)的投资。“(《著作权法》有关职务作品的规定)在没有将法人或者非法人组织视为作者的情况下,给予其部分著作权,既保障了作者的著作权人地位,有利于鼓励作者创作,也照顾了单位的利益。”
《美国版权法》第201(b)条“视雇主为作者”的规定,也不是建立在“雇员为雇主的创作工具”的基础之上的,而是为了实现“补偿正义”,即雇主因向雇员(自然人作者)提供利益如办公室、带薪假期、失业保险而有资格获得雇员智力创作的回报。换言之,该规定是将雇员所创作作品的版权分配给了雇主,但并不认为雇主以雇员为工具创作了作品。正因为如此,雇主只是法律拟制的作者,而不是真正的作者。在“《通向天堂之近路》登记案”中,当计算机科学家泰勒主张由其设计的人工智能自主生成的绘画《通向天堂之近路》应作为雇佣作品登记在他的名下时,美国版权局和美国联邦法院均予以拒绝。
3. “人工智能是为人服务的工具”与创作工具
还有学者在讨论人工智能是否创作工具时,是从“人工智能是为人服务的工具”或“为人所用的工具”这一含义出发的。例如,有学者认为:“(人工智能生成内容)本质上是创作者借助人工智能这一工具进行创作,而生成物是人意志发动的结果,是人的自由意志的实现,因而是人的意志的产物”,“生成式AI不能独立进行创作,而是依赖于人类创作者的指导和参与”。这些表述使用的“工具”泛指达到某种目的的手段,其认识视角是某种东西能否为人所用、服务于人,以此强调人工智能不可能在缺乏人类指示(如输入提示词和设定参数)的情况下主动生成任何内容。人工智能当然也需要人类进行操作,如果将其生成的内容泛泛地称为一种产品或者成果,则可以说人工智能是人类用于产出这种产品或成果的工具,即人类的生产工具、丰富生活的工具甚至是改造世界的工具。
然而,从这个含义出发讨论人工智能是否创作工具缺乏实际意义,因为著作权法对创作行为的认定从来都与“工具”的这种含义无关。在美国“猴子自拍照案”中,假设摄影师先教猴子如何握着照相机按快门,并且训练猴子在听到口令后就拿起照相机拍照,且猴子随意选择方向、按快门拍出的照片恰巧角度合适且画面清楚,客观上与人拍的照片难以区分,能否因为猴子能为人所用,没有人的调教就不会使用相机,没有人的口令就不会拿起相机拍照,就认为该照片“是人意志发动的结果,是人的自由意志的实现,因而是人的意志的产物”,或其因“依赖于人类创作者的指导和参与”,就认定该照片是训练猴子的人所创作的作品?如果对此问题的回答是肯定的,那么推论起来,“阿尔法围棋”程序是人工智能科学家研发的,虽然“棋艺不是开发者教给它的,而是‘自学成才’”,但它会下围棋无疑“是人意志发动的结果,是人的自由意志的实现,因而是人的意志的产物……依赖于人类创作者的指导和参与”。那么试问,在震撼世界的“阿尔法围棋”程序与世界冠军李世石的“人机对弈”中,能否因为“阿尔法围棋”程序走的每一步棋“归根结底是人的自由意志的运用和实现”,就认定是其研发者在和李世石下棋,是研发者而不是“阿尔法围棋”程序战胜了李世石?那么这场比赛是否也会因为是“研发者的自由意志”对阵“李世石的自由意志”而不应使用《人民日报》所称呼的“人机对弈”,而应改称为“人人对弈”?显然,以“工具”的此种含义出发认定人工智能是创作工具会导致逻辑混乱。
(二)人工智能与相机等创作工具的不可类比性
“人工智能文生图第一案”的判决充分体现了“创作工具说”的影响。根据判决书的记载,该案中用户(即原告)首先下载用于制作中国风少女人像的模型包,将其调入人工智能绘图程序“Stable Diffusion”,再输入“正向提示词”(意为生成的图片应当具备的要素,包含“高度细节对称且迷人的脸”等24个提示词)、“反向提示词”(意为生成的图片应当避免的效果,含“不协调的身体”等129个提示词)及参数(含“高度768”等4个参数),就可以得到一张少女图片。接着变更模型的权重设定,或调整“正向提示词”“反向提示词”和“参数”中的某个提示词或参数,就会得到另一张不同的图。如此重复3次,总计形成了4张图片,其中最后一张是原告诉称被告未经许可利用的涉案图片。对这一过程,判决书指出:“新一代生成式人工智能技术正在被越来越多的人用来进行创作……生成式人工智能技术让人们的创作方式发生了变化……技术的发展过程,就是把人的工作逐渐外包给机器的过程……智能手机的照相功能越来越强大,使用越来越简单,但是只要运用智能手机拍摄的照片体现出了摄影师的独创性智力投入就仍然构成摄影作品,受到著作权法保护。由此可见,技术越发展,工具越智能,人的投入就越少,但是这并不影响我们继续适用著作权制度来鼓励作品的创作”。该案判决书将人工智能“文生图”类比为用智能手机拍照,主审法官也称“人工智能模型如同作者的画笔或照相机,是作者的创作工具”。国外也有学者表达了类似观点:“随着人们越来越习惯使用生成式人工智能技术,我们可以预期他们会编写更加详细的提示词,以定制所需的输出结果。”然而,这样的类比和逻辑并不能成立,判决书完全混淆了智能手机和人工智能在形成内容时完全不同的作用。
1. 创作工具不会参与决定创作内容
用智能手机拍照时,拍摄者的自由意志直接决定了照片的内容。无论智能手机的照相功能多么强大、智能,使用多么简单,以至于拍摄者无须像专业摄影师那样手动调节或设定焦距、明暗和快门,至少也需要拍摄者对拍摄对象、拍摄角度和拍摄时机进行选择和判断。拍摄者在按下快门的时候,已经知道了即将拍出的照片的基本内容,也就是人们常说的“所见即所得”,因为这就是其上述选择和判断的必然结果。手机自拍杆之所以如此受欢迎,以至于能够获得中国专利金奖,就是因为它满足了使用智能手机进行“自拍”时“所见即所得”的需求,即拍摄者通过注视手机屏幕(相当于数码相机的液晶取景器)的实时画面,决定将何种背景、自己身体的哪一部分、自己的何种姿势和表情纳入镜头。正是由于在使用智能手机拍照时,是拍摄者而不是智能手机对拍摄对象、拍摄角度和拍摄时机等因素进行的选择和判断决定了照片的内容,智能手机才被认为是创作工具。如果拍摄者使用不同品牌、型号的智能手机拍摄,对所有可能影响照片影像内容的因素做出完全相同的选择和判断,拍出的照片在构成摄影作品的表达性要素上当然相同。只是在照片分辨率、明暗度和鲜艳度等技术性因素上有细微差异。这正如画家随手拿起一只铅笔画素描,其完成的素描画的黑灰度与铅笔的硬度和灰度有关,但美术作品的表达性要素——艺术造型——是由画家而不是由铅笔决定的,因此铅笔与相机一样,仅是人类创作作品的工具。“人工智能文生图第一案”的判决书把用智能手机拍照称为“把人的工作外包给机器”并不准确。“外包”的对象是呈现拍摄者已确定的影像内容的机械过程,而不是决定影像内容的创作行为。既然摄影作品由拍摄者创作,创作结果由其自由意志支配下的选择和判断来决定,何来“外包给机器(智能手机)”一说?
2. 人工智能自身的算法和所受的素材训练决定了所生成的内容
与智能手机自身不会参与影像内容的决策、用不同品牌的智能手机在做出相同选择时拍出的影像内容一致的情况不同,人工智能自身实质性地决定了其生成内容的表达性要素。使用不同的人工智能绘图程序,向其输入相同的提示词,生成的画面在内容上相去甚远。这是因为人工智能生成的内容固然会受到用户输入的提示词的影响,但无论提示词有多详细,所生成内容的表达性要素也并非由用户决定,而是由人工智能根据其算法和所受的素材训练决定。在不少情况下,用户甚至都无法预测由此生成的图片的基本构图。“人工智能产业的发展过程是把人工智能推出著作权法意义‘工具’范畴的过程。”显然,用户对提示词的选择与拍照时对拍摄对象、拍摄角度和拍摄时机的选择在性质上存在本质区别。希望通过“详细的提示词,以定制所需的输出结果”是不切实际的。尤其值得注意的是,技术人员在试图重现“人工智能文生图第一案”的判决书记载的图片时,发现生成的图片内容与计算机的硬件配置有关。其中在3台配置差异较大的计算机上,使用相同版本的人工智能绘图程序“Stable Diffusion”,严格按照判决书记载的操作过程,调入同一个用于制作中国风少女人像的模型包,输入诸多相同的“正向提示词”“反向提示词”,对各项参数及其他数值进行相同的设置,结果在每台计算机上生成的4张图片都与其他计算机上生成的4张图片构图相距甚远(以下简称“重现测试”)。如果认为该人工智能绘图程序就是“人工智能文生图第一案”的判决书所述的与智能手机同质的“创作工具”,其生成的4张图片就是如国外学者所说的“通过提示词定制”的结果,用户通过输入提示词和参数实施了创作行为,那么试问,为什么同一个“创作”行为,即对模型包、正向与反向提示词、参数及其他数值的相同设定,不仅会在使用不同的人工智能绘图程序时产生差异极大的图片,而且还会在使用同一款人工智能绘图程序时,仅因为计算机硬件配置的不同,就“定制”出了差异极大的图片?试问此时究竟是“原告使用的提示词决定了生成图片的内容”,还是人工智能本身乃至于其与计算机硬件的结合实质性地决定了生成的内容?
在美国版权局版权复审委员会处理的“《SURYAST》登记案”中,申请人萨尼将自己拍摄的一张落日余晖下建筑物的照片输入一款名为“RAGHAV”的人工智能绘图程序,同时输入梵高的著名画作《星空》,并指定按照该画作的风格处理上述照片。萨尼还输入了各种参数,由此生成了将《星空》的风格与照片的影像融为一体的新图片(其命名为《SURYAST》)。萨尼强调其使用的人工智能绘图程序只是与照相机类似的辅助工具,仅仅“机械地按照指令应用颜色,形状和风格,与Adobe Photoshop根据用户指令将红色和蓝色色调应用于照片没有任何区别”。对此,美国版权局版权复审委员会指出:“这一描述淡化了RAGHAV在内容生成中所起的作用,是不准确的……RAGHAV对萨尼的照片根据另一幅画(指《星空》)的风格演绎,是由该大模型的运作方式和用于对其进行训练的图片所决定的,而非由萨尼的贡献或特定指示所决定”。
(三)生成内容的可重复性或随机性对创作工具定性的影响
1. “可重复生成相同内容”与创作工具的认定
有学者认为,只要同一人工智能能够根据相同的提示词和参数设定重复之前的生成内容,就说明人工智能是和智能手机一样的创作工具。该观点以人工智能绘图程序“Stable Diffusion”为例,提出只要运行人工智能绘图程序的计算机的配置完全相同,向其输入相同的提示词会生成相同的图片,就如同“使用同品牌的相机,采用相同的参数,得到的照片是几乎一样的。而这似乎又让‘AI工具说’更进一步了”。该观点的逻辑是:由于使用被公认为创作工具的照相机拍照时,只要做出的各种选择是相同且照相机的品牌是相同的,那么必然得到相同的照片;而使用人工智能绘图程序时,只要输入的提示词和设定的参数是相同的且在相同配置的计算机上运行,那么也必然得到相同的图片。由此得出人工智能就如同照相机一样是创作工具的结论。这一逻辑是不能成立的,因为能否重复生成相同的内容并不是创作工具的认定标准。
试举一例,美术学院的老师向30名学生布置了画一幅少女人像画的作业,伴随一套细致、复杂的要求,如在画像中的必备因素和排除因素以及尺寸、比例、色彩、明暗度的数值设定。30名学生各自独立完成了人像画,且均符合老师的要求。试问30名学生独立绘制的人像画可能相同吗?答案当然是否定的。这是因为每名学生都是根据自己对该要求的理解,运用自己的想象力和艺术才华创作少女人像画。再试问这位美术老师能否主张自己通过提出上述细致、复杂的要求而创作了这30幅人像画,因此是这些画作的作者?答案当然也是否定的,因为老师的各种要求都只能影响而不能决定学生绘画的结果。如果其中有一名学生在交稿10天之后,根据同一要求,凭记忆再一次画出了与第一次人像画完全相同的人像画(类似于在同一台计算机上用相同的人工智能绘图程序根据完全相同的提示词和参数再一次生成了相同的图片)。试问,这能证明这名学生就是美术老师创作美术作品的“工具”吗?由此可见,认定创作工具的标准并不在于其是否能够以相同的方式处理其收到的指令、产生了相同的结果,而在于其是否直接决定或实质性参与决定了结果。如果答案是否定的,相关结果由人提出的特定要求所直接决定,则其是创作的工具。反之,说明提出特定要求的人无法决定甚至在许多情况下无法预见所产生的结果,此时就不能说是人以其为工具进行创作。这一标准最直接的外在表现就是许多同类的不同创作工具处理同一指令所得到的表达性要素是相同的,只可能产生技术意义上的差异。判断人工智能是否属于与照相机同种性质的创作工具,要看不同研发者提供的不同人工智能在接收相同的提示词和参数设定后,能否生成在表达性要素上基本相同的内容。无论是根据前文提及的测试结果还是业界的基本常识,答案都是否定的。至于同一款人工智能可以多次根据相同的提示词和参数设定重复生成相同的内容,只能说明研发者设定的算法或者是用户通过对与随机性有关的参数的设定,刻意要求该人工智能根据再次输入的相同的提示词和参数重复之前的生成结果,从而消除了人工智能在生成结果时可能具有的随机性。
2. “艺术创作的随机性”与创作工具的认定
对“创作应当是凭借自由意志直接决定作品表达性要素的行为”和“人工智能不是创作工具”的观点持反对意见的学者认为,许多艺术创作具有很大的随机性,艺术家的自由意志并不能决定创作的内容,如波洛克等画家采用“无意识的自动”绘画法,包括“在画布上跳舞,将颜料泼洒在画布上,以将自己的内在冲动付诸到画布上……或许绘画者压根无法预见预期的绘画是什么样子的”,就像“一不小心被油漆滑倒说不定表达性要素就又不一样了……著名的法国作家雨果也是一名画家,他也曾出版了许多用‘茶水’泼洒出形成的‘随机的’‘不受意志控制的’画”。既然此类表达性要素并非源于自由意志的直接决定,那么并非源于用户自由意志决定的由人工智能生成的内容当然也就和上述“无意识的自动”绘画一样应当作为作品受到著作权法的保护,而人工智能就是创作工具了。上述反对意见的问题在于混淆了艺术界所承认的“艺术形式”与著作权法意义上的“艺术作品”,事实上在许多情况下这两者并不能画等号。试以一起在艺术史上的著名事件为例进行说明:1917年,艺术家杜尚在商店买了一个男厕小便器,将其命名为《泉》,送到美国独立艺术家展参展,居然还被作为艺术品展览。由此可见,艺术界对“艺术形式”的判断与著作权法对“艺术作品”的认定存在巨大差距,有时充满了戏剧性和历史的偶然。如果今天某个普通人也仿效杜尚,把家中马桶拆下来要求作为艺术品展览,还会有艺术馆收藏吗?
“无意识的自动”绘画法形成的造型(如果真的是“无意识”形成)在严格的著作权法意义上并不属于作品。艺术家在被泼洒了颜料的画布上随机跳舞形成的脚印可以被艺术界接纳为“艺术形式”。如果这些脚印和分布不均的各种颜色的组合基于巧合也形成了某种艺术造型,也就是在形式上具有“独创性”,则在当他人未经许可利用而产生侵权纠纷时,只要该艺术家并不披露该造型的形成过程,仅以这张画布上有自己的姓名而主张自己是该“作品”的作者,人民法院也会用“署名推定”规则推定造型的作者是这名艺术家,且其中存在著作权并归属于该艺术家。然而这种情况与摄影师未披露“猴子自拍照”是猴子自拍的真相,而宣称是自己拍摄了这张照片从而根据证据规则被推定为作者并享有版权的情况又有什么区别呢?这仅仅是客观事实与法律事实有时并不吻合的又一实例而已。
根据“人工智能文生图第一案”判决书和相关学术观点的主张,用户向人工智能输入的各种提示词、对参数和其他数值进行的各种设定、调入的模型包或其他基础模板乃至于直接输入的自己创作的作品(下文统称为“用户输入”)都属于个性化的“智力投入”而具有“独创性”,值得保护。然而,人工智能生成的内容并非由此种“用户输入”所决定,而是由人工智能自身独特的算法和素材训练所决定,“用户输入”并不属于著作权法意义上的“创作”。
(一)“思想与表达两分法”下“用户输入”的定位
1. “思想与表达两分法”与作为“智力投入”的“用户输入”
“人工智能文生图第一案”的判决书反复强调“用户输入”是一种“智力投入”:“这整个过程来看,原告进行了一定的智力投入……涉案图片体现了原告的智力投入……整个创作过程中进行智力投入的是人而非人工智能模型。”应当承认,“用户输入”可能属于一种智力投入,因为用户为了实现让人工智能生成某一内容的目的,需要自行对提示词、参数或其他数值进行设定,以及在特定人工智能的功能允许的情况下,自行决定调入何种模型包或其他基础模板。这其中存在着广泛的选择和判断的空间。这也就是为什么两名用户即使出于巧合都希望获得大致相同的结果,其进行的“用户输入”在细节上也通常会有不小的差异。然而,脱离了“思想与表达两分法”,以“用户输入”体现了用户的智力投入为由论证人工智能生成的内容是用户的作品而应受著作权法的保护,并无意义。因为不受著作权法保护的思想当然也可以体现巨大的智力投入。如现代物理学的两大支柱即相对论和量子力学的内容极为翔实具体,其智力投入之大、价值之高毋庸多言。但其理论本身仍然属于“思想与表达两分法”中的“思想”,不能获得著作权法的保护。有学者认为,“利用人工智能进行创作……此类生产能力值得著作权法保护,此时实际上保护的是用户对此类软件学习使用的投入成本和思考创作成本”。然而,学习使用人工智能软件、思考输入何种新奇的提示词以及由此形成的“生产能力”,又有哪一个是“思想与表达两分法”中的表达呢?
“重现测试”的结果表明,作为人在自由意志支配下进行选择和判断的“用户输入”与构成画面的表达性要素并不存在对应关系,相同的“用户输入”会因人工智能绘图程序的不同(本质在于其算法与所受素材训练的不同)甚至是计算机硬件配置的不同而形成多种不同的表达。
那么,在著作权法体系中,何种智力投入可以产生丰富多彩的不同表达呢?那就是“思想与表达两分法”中的“思想”。对于一种作为思想的智力投入,即使限定了表达形式,如文字、绘图或音乐,也可以形成相互之间差异极大的表达(“思想与表达的混同”属于特例)。例如,相对论催生了大量的科普性质的文字作品和美术作品,即使这些作品都准确无误地反映了极其复杂的相对论思想,也就是都以各自的表达体现了爱因斯坦的智力投入,也不能认为它们就是爱因斯坦创作的作品。这正是因为相对论本身是“思想与表达两分法”中的“思想”,无法决定科普作品的表达性要素,即构成文字作品的文字组合、遣词造句以及构成美术作品的艺术造型。同样道理,承认“用户输入”是“智力投入”,是“机器背后人的贡献”“看到人的贡献之价值”,并不意味人工智能据此生成的内容就是该用户所创作的作品。
有学者虽然承认“如果用户仅仅输入非常简单的指令”则“用户指令充其量只是抽象的思想”,但也认为“如果用户走向另一极端,在脑海中事先构思出一幅十分具体的绘画作品,对于线条的走向、色彩的搭配都有具体的概念,然后通过巨细无遗的语言指令让AI系统将它再现出来……这时候,用户对于最终画面的独创性表达的预见程度可能接近100%”。作为法学研究前提的假设应当以现实可能性为基础。如果“用户对于最终画面的独创性表达的预见度可能接近100%”,那么就意味着是“巨细无遗的语言指令”决定了图片接近100%的表达性要素,试问如何解释“重现测试”的结果呢?须知在使用相同版本的人工智能绘图程序在3台计算机上生成图片的测试中,一次就用了24个“正向提示词”、129个“反向提示词”和4个参数,语言指令不可谓不“巨细无遗”,然而在3台计算机上仍然生成了3套差异极大的图片。用户对哪一套图片“预见度接近100%”?另有人先动手画出了(而不是仅“在脑海中事先构思出”了)“一幅十分具体的绘画作品”,但精通人工智能绘图程序“Stable Diffusion”的使用者无论以何种具体、翔实的提示词和参数予以描述且根据生成的图片不断调整,都难以使“Stable Diffusion”生成的图片与之在构图上接近。这正是因为人工智能生成的内容只能受到“用户输入”(思想)的影响,真正决定该内容(表达)的是人工智能的算法和其所受的素材训练。因此,相对于该内容即人工智能生成的表达,该“用户输入”属于思想。
对于人工智能“文生图”,有学者精辟地指出:人工智能绘图和人类绘画最基本的逻辑区别在于,人工智能绘图是从文字语言出发的;而人类的视觉艺术是从视觉本身出发的。人类在画一幅画的时候首先是想象出某个视觉形象,然后一步步细化,构成画面,其中可以完全没有任何语言的参与;而人工智能绘图则要求用户首先去总结出画面中的元素,形成文字,然后再通过文字反向去描述出画面。而“视觉艺术,从本质上是不可言说的”,这是“因为人类大脑处理视觉图像与处理语言根本上不是同样的区域,我们看到一幅图像所激发起的感情,我们创作一幅图像所投入的感情,本质上都是语言之外的东西”。而目前的人工智能绘图“则是我们要用语言去描述视觉,那么它注定只能传达出我们对于整个视觉世界中能够用语言描述的那一小部分”。这可谓一语中的。既然视觉艺术(画面)不可能由文字描述来决定,相同的文字描述可以产生相互之间差异极大的画面,那么以文字描述为核心的“用户输入”相对于画面而言只能是“思想与表达两分法”中的思想。
2. “思想与表达两分法”与“用户输入”的独创性
“人工智能文生图第一案”的判决书之所以将“用户输入”作为“智力投入”保护,在于认为涉案图片“具备‘独创性’要件”,理由是“应用该模型进行创作,不同的人可以自行输入新的提示词、设置新的参数,生成不同的内容。因此,涉案图片并非‘机械性智力成果’”。判决书显然认为,由于人工智能“文生图”可以做到因人而异,因此具有独创性。有学者在支持该判决且批评美国版权局拒绝登记人工智能生成内容的决定时,认为“美国版权局过度拔高了独创性门槛”,该判决和美国版权局决定中的涉案图片“都满足最低限度的独创性”,并提出“除非抄袭,否则他人很难创作出与之构成实质相似的成果,这正是独创性的证明”。这些观点在讨论独创性问题时脱离了“思想与表达两分法”。首先,“因人而异”只是具备独创性的必要条件而非充分条件。换言之,如果任何人按照既定的规则去做而产生的结果是统一的(如将五线谱转换为简谱),说明工作过程没有给人留下发挥聪明才智的空间,此时当然无独创性可言。然而不能反过来说,只要“因人而异”就必然具备独创性。“独创”的对象必须是“思想与表达两分法”中源于本人的表达。对于思想的提出,完全可能“因人而异”,但“独创”的思想(如相对论)当然不能受保护。“不同的人自行输入新的提示词、设置新的参数”相对于人工智能生成的“不同的内容”而言是思想,其“独创”与否又有何影响呢?其次,既然思想不受保护,那么著作权法要求何种程度的独创性又与之何干呢?表达的独创性程度与思想的独创性程度不具有可比性。之所以“在满足常规独创性标准的照片中,人贡献的信息量从绝对值和相对值来看都未必很突出”,但仍然可能认定该照片是作品,是因为正是拍摄者的自由意志直接决定了照片影像,其创作的表达达到了独创性的要求。之所以“(在)AI用户……已经做出超过常规摄影作品独创性贡献的情况下,仍然否认他的作者身份与AIGC的作品资格”,是因为“用户输入”相对于人工智能生成的内容是思想而非表达。最后,“不抄袭就不能获得实质相似的成果”也不能证明相关成果就是提出要求者作品。前面提到的美术老师对30名学生画少女人像画提出的要求可以足够有创意且具体详细,以至于没有其他人在不抄袭的情况下能够提出实质性相似的要求或者绘制出相似的人像画,但这并不能证明该要求相对于创作完成的30幅绘画而言就不再是不受保护的思想,以及美术老师可以主张这30幅画因“都满足最低限度的独创性”而均是自己创作的作品。
(二)“用户输入”的次数与对创作行为的认定
有学者虽然承认在“用户输入文字或图形指令,然后AI输出内容”这种“单一回合”的“暗箱模式”之下,“即便用户输入很具体的文本指令,也无法预见到AI输出的具体内容……否定其作者身份……是合适的”,但又提出“如果用户在选定AI输出初稿后,继续指引AI对它的表达细节进行修改,并在诸多环节作出个性化的选择,则用户很有可能对AI输出内容作出独创性的贡献,可以对AI生成物主张版权”,而这是因为“在多回合模式下,用户输入提示词后会选定初始的图片,从而有了非常具体的修改对象。用户后续的修正都针对图片中具体位置的具体表达要素……用户在指引AI系统作出修正时,对于图片整体效果的改变有相对具体的预期。……在用户选定AI输出的特定表达要素前,用户已经对于呈现在自己眼前、由AI输出的表达细节有明确的认知”。这种“多回合生成作品说”可概括如下:对于单一回合的“文生图”,由于用户无法预测其输入的提示词或设置的参数将产生何种图片,因此这一次“用户输入”不构成创作;对于多回合的“文生图”,由于从第二次“用户输入”开始,用户针对人工智能此前已生成的第一张图片(该观点承认这张图片不是该用户创作的作品)进行具体调整,因此后续的“用户输入”构成创作,后续生成的新图片就是用户创作的作品。按照该观点,接受第一次“用户输入”时,人工智能的运作是“暗箱模式”,因此“即便用户输入很具体的文本指令,也无法预见到AI输出的具体内容”。第一次“用户输入”与第二次“用户输入”的唯一区别,在于前者针对脑海中的构图,而后者针对第一次“用户输入”形成的并非该用户创作的图片。然而无论是哪种情况,人工智能接收“用户输入”之后,根据自身的算法和所受的素材训练生成内容的机制并不会改变。如果该机制是“暗箱模式”,则它始终都是“暗箱模式”,无论是第几次“用户输入”,用户也无法预见生成的具体内容。只不过第二次“用户输入”时,用户无法预见的是即将生成的第二张图片与第一张图片之间的具体区别而已。既然第一次“用户输入”属于“暗箱模式”,并不是创作行为,其产生的第一张图片不是该用户创作的作品,为什么同样性质的第二次“用户输入”就成了创作行为,其产生的第二张图片就是该用户创作的作品了?
显然,“多回合生成作品说”的本质是,在进行第二次“用户输入”以对第一张图片进行修改时,人工智能的工作机制神奇地从“暗箱模式”变成了“透明模式”,从生成式人工智能变成了常规图像处理软件“Photoshop”,因为只有此类常规图像处理软件才像前文所述的照相机或者纸与笔一样是人类的创作工具,才不会决定所生成的图片内容。然而现实的情况是,使用人工智能修改图片,即使“都针对图片中具体位置的具体表达要素”“对于图片整体效果的改变有相对具体的预期”,这样的预期在现技术阶段人工智能的工作机制下,也不可能准确地落实。因为人工智能会像对待第一次“用户输入”那样对待第二次“用户输入”,从而形成用户无法准确预见的造型。有学者主张“用户在前文所说的每个‘局部屏幕’(或窗口)前作出选择,都是基于已经呈现在自己眼前的具体画面细节而作出的。在用户按下确定键时,用户其实非常清楚自己寻找的即确定的表达究竟是什么”。然而,此时所谓“确定的表达”仅存在于用户的脑海之中,如果希望其准确地再现于屏幕上,只能使用常规绘图程序,也就是真正意义上的创作工具。
“多回合生成作品说”以修改人工智能生成的人物肖像画为例,提出:“在AI根据用户的提示词输出一幅令人满意的人物画初稿后……逐步对画面人物的眼镜、发型、眼睛、嘴唇、肤色、服装、背景等细节进行修改……这一过程可以单纯通过键盘选择和文本指令输入的方式实现,而无需用户亲手绘制线条和色彩。在AI系统修改眼镜局部、输出修改内容后,用户如果不满意,还可以不断替换,直到出现大致符合用户预期的结果”。然而,“多回合生成作品说”的前提就是“单一回合不能生成作品说”,即“AI根据用户的提示词输出一幅令人满意的人物画初稿”根本就不是用户的作品。所以从第二回合开始的操作,就相当于是让人工智能给公有领域的绘画如《蒙娜丽莎》中的人物戴上眼镜,并对“发型、眼睛、嘴唇、肤色、服装、背景等细节进行修改”。但是,将《蒙娜丽莎》输入30款不同的人工智能绘图程序,同时输入戴上眼镜的指令(这属于可以对应许多眼镜造型的思想),即使蒙娜丽莎的原图都保持不变,30款人工智能绘图程序绘制的眼镜在风格、样式和大小等方面也会有不小的差异。再输入其他修改要求,由此生成的30张图片产生的差异就更大。再按照上文引述的方法不断调整,30款人工智能也会各自生成五花八门的图案。如果用户对最终生成的30幅图片都很满意,都“大致符合用户预期的结果”,试问用户从第二回合开始所做的同一“多次输入”创作了30幅演绎作品吗?因此,即使“在用户按下确定键时,用户其实非常清楚自己寻找的即确定的表达究竟是什么”,用户恐怕也无法搞清楚自己获得的“确定的表达究竟是什么”。“多回合生成作品说”似乎格外强调用户的“个性化选择”能够使其从第二次起的“用户输入”被认定为创作行为,即“如果用户在选定AI输出初稿后,继续指引AI对它的表达细节进行修改,并在诸多环节作出个性化的选择”。然而,除了创作汇编作品这一特殊情况,对并非源于本人的表达进行选择,本身难以构成创作行为。至于在修改该表达过程中做出的选择,也只有在该选择能够决定修改的结果,以至于直接产生了有别于原内容、达到独创性要求的新表达时,该项选择才能被称为创作。如果该选择对应的是无数的结果,仍然只是“思想与表达两分法”中的思想。
由此可见,对于生成式人工智能“文生图”所进行的第一次“用户输入”(“单回合模式”)和随后为“图生图”而进行的后续“用户输入”(“多回合模式”),都不可能决定从无到有生成的图片的构图以及在已有图片基础之上生成的新内容。人工智能“文生图”和“图生图”在性质上并没有本质区别,都是所谓“暗箱模式”,均不可能产生由用户创作的作品。
(三)“用户输入”本身含有作品与创作行为的认定
有关“用户输入”不能决定人工智能生成的内容以及其对于该内容而言属于思想的观点,并不否认“用户输入”本身可以构成受著作权法保护的表达。假设诗人杜牧生活在当下,也想尝试利用人工智能“文生图”,于是他即兴创作了诗作《清明》,并将诗作内容作为指示词输入人工智能绘图程序,由此生成了一张图片。作为“用户输入”的《清明》当然是文字作品。然而,“重现测试”已经表明,将《清明》用于“用户输入”,不同的人工智能不知可以生成多少符合该诗作所描述场景的图片。这说明虽然《清明》本身属于作品,即“思想与表达两分法”中的表达,但相对于人工智能据此生成的图片而言,《清明》仍然属于“思想与表达两分法”中的思想。
如果构成表达的“用户输入”能够体现在人工智能生成的内容中,那能否说用户输入决定了该内容呢?有学者提出“在‘图生图’模式下,用户输入的图形更可能包含画面中的表达性细节,很可能体现了用户的独创性,这些细节被AI系统完整吸收后,使得AI输出画面中自然有了用户的独创性贡献”。如果该段文字用于说明作为“用户输入”的美术作品可能被体现于“图生图”的结果之中,这当然是正确的;但如果用于说明此种“用户输入”就是创作行为,则不能成立,因为这会将对侵权行为的认定与对创作行为的认定混为一谈。如果一部作品因被复制或者改编而在另一部作品中被体现出来,则对另一部作品未经许可进行利用也会侵害第一部作品的著作权。但这并不意味着第一部作品的作者实施了对第二部作品的创作行为。例如,在“琼瑶诉于正案”中,人民法院认定于正创作的剧本《宫锁连城》与琼瑶作品《梅花烙》“在整体上的情节排布及推演过程基本一致”;于正未经许可改编琼瑶作品,侵害了琼瑶的著作权,根据该剧本拍摄的电视剧,也侵害了琼瑶的著作权。这是因为无论是《宫锁连城》的剧本还是电视剧,都含有琼瑶创作的独创性情节。然而,能由此就认为琼瑶参与创作了《宫锁连城》的剧本和电视剧吗?答案显然是否定的。再假设某作家创作的一部内容健康的爱情小说被未经许可改写成了一部色情小说或者绘制成了一套反映相似情节的色情漫画后传播,相关行为当然侵害了作家的改编权和保护作品完整权。但是,不仅在法律上不能认定该作家是这部色情小说或者色情漫画的作者之一,这名作家也不可能承认自己是这些违法内容的作者。因此,当“我们讨论原著是否被固定在演绎作品中时,我们关心的不是(原著与演绎作品相比)变化的部分,而是(原著在演绎作品中)不变的部分”;但是,当我们讨论原著的作者有没有参与创作演绎作品时,我们关心的不是(原著在演绎作品中)“不变的部分”,而是(原著作者的自由意志直接决定的)“变化的部分”。人工智能“图生图”也是如此。用户以自己创作且输入人工智能的美术作品为基础,输入提示词和设置参数,要求人工智能对输入的图片进行调整,由此形成的图片当然可能体现用户输入的美术作品。如果他人未经许可利用该图片,有可能侵害用户作为美术作品作者所享有的著作权。然而,用户将自己绘制的同一幅画同时输入两款不同的人工智能绘图程序,向其发出一套相同的细致且复杂的修改提示词,仍然会获得两张在修改的内容上差异极大的图片。这说明人工智能以何种方式处理用户输入的美术作品,并非用户通过输入提示词和设置参数所能够控制。虽然“《SURYAST》登记案”涉及典型的人工智能“图生图”,但是美国版权局版权复审委员会仍然认定:人工智能自身运作方式和所受的图片数据训练决定了如何处理申请人萨尼输入的照片(由其本人拍摄),萨尼所做的“用户输入”不能决定最终生成的图片,因此不能认为该图片是萨尼创作的。
(一)“提出创作需求方和接受方的关系”与创作行为的认定
“人工智能文生图第一案”的判决书将委托创作与向人工智能进行“用户输入”相比较,指出“在委托他人绘画的场景下,委托人会提出一定的需求,受托人根据委托人的需求动笔去画出线条、填充色彩进而完成一幅美术作品”并明确承认“动笔去画画的受托人被认为是创作者”,以及“这种情形与人利用人工智能模型生成图片的情形类似”。然而,判决书又认为“两者(之间)有一个重大的区别”,即“受托人有自己的意志,其在完成委托人委托的绘画工作时,会在绘画中融入自己的取舍和判断”,与之相比,“生成式人工智能模型不具备自由意志,不是法律上的主体。因此,人们利用人工智能模型生成图片时,不存在两个主体之间确定谁为创作者的问题,本质上,仍然是人利用工具进行创作,即整个创作过程中进行智力投入的是人而非人工智能模型”。判决书由此得出“在这种背景和技术现实下,人工智能生成图片,只要能体现出人的独创性智力投入,就应当被认定为作品,受到著作权法保护”这一结论。显然,判决书对“委托他人绘画”和“人利用人工智能模型生成图片”这两个“提出绘画需求”的相似行为区别定性的唯一依据是接受绘画需求方(人类绘画者或人工智能)是否“有自己的意志”、是否法律主体。换言之,提出需求方与接收要求方之间是人与人的关系抑或人与物的关系,决定了提出需求方是否实施了创作行为、能否被认定为作者。
对行为的定性,应当依据该行为自身的特征判断其是否符合某种法律定性所要求的构成要件。在此过程中,任何与该构成要件无关的因素都不应当被纳入考虑范围,否则必然导致逻辑混乱和定性的错误。判断向人类绘画者提出绘画需求和使用人工智能时进行“用户输入”(即向人工智能提出绘画需求)这两种行为在法律定性上是否相同,也应遵循这一标准。需要特别注意的是,此处讨论的并不是接受绘画需求之后形成绘画的过程(人类的绘画过程和人工智能生成图片的过程)是否构成创作,而是提出绘画需求的行为(向人类绘画者告之需求和将需求输入人工智能)是否构成创作。既然如此,就应当针对“提出绘画需求”这一行为本身的特征进行评价,判断其是否符合《中华人民共和国著作权法实施条例》所定义的“创作”,即是否具备创作行为的构成要件。这又与接受绘画需求并实际形成绘画之后,接受需求方的情况有什么关系呢?将接受需求方是否具有自由意志和是否法律主体作为判断提出绘画需求的行为是否构成创作,违反了认定创作行为的法律标准,是典型的本末倒置。
对此可以做一个“思想实验”:首先,找到美术学院的一位老师,告知他可以免费获得一幅新绘制的、不与任何已知的肖像画存在实质性相似的人物肖像画,条件是他必须极其详尽地描述对该肖像画的需求,包括设定肖像画的风格、诸如“高度细节对称且迷人的脸”等至少24个必须在肖像画中出现的因素,“不协调的身体”等至少129个不得在肖像画中出现的因素,以及“高度”等至少4个参数。接着,通过抛硬币随机决定将上述要求交给一名画家还是用于对人工智能进行“用户输入”,如硬币落地时正面朝上交给画家,反面朝上则用于人工智能。再接下来,待画家或者人工智能完成(究竟由谁来完成取决于抛硬币的结果)完全符合美术学院老师所提需求的肖像画之后,根据“人工智能文生图第一案”判决书的逻辑,决定美术学院老师的行为是否构成创作。如果抛硬币的结果是正面朝上,由画家根据上述需求完成肖像画,由于画家“有自己的意志,……会在绘画中融入自己的取舍和判断”,因此认定画家创作了肖像画,画家才是作者。反之,如果抛硬币的结果是反面朝上,人工智能根据上述需求完成肖像画,则由于人工智能“不具备自由意志,不是法律上的主体”,因此认定美术学院的老师进行了智力投入,实施了创作行为,是该画的作者。这就是“人工智能文生图第一案”判决书的逻辑所必然产生的结果。在上述“思想实验”之中,美术学院的老师只实施了一个行为,那就是对人物肖像画提出了详细需求。这一个行为是否构成著作权法意义上的创作行为取决于什么呢?在画家和人工智能均按要求完成肖像画的情况下,决定性因素是幸运之神!这一显而易见的荒谬结果,就是在对提出绘画需求(“用户输入”)是否构成创作行为时,将与构成要件完全不相关的因素(接受绘画需求方的情况)纳入考虑范围所导致的。美国版权局发布的《含人工智能生成内容的作品登记指南》在解释为什么人工智能根据“用户输入”产生的内容“缺乏人类的创作”、不予登记时,同样以委托画家作画为类比,指出“(用户输入的)提示更像是对受托(进行创作的)艺术家的指示,它们说明了提示发出者希望描绘的内容,然而是机器决定了在其输出中如何实现这些指示”。这是正确的观点。
(二)“有成果必有作者”之谬误
以“提出创作需求方和接受需求方的关系”认定创作行为与作者的做法,本质上反映了一种符合直觉但背离法律规定和法理的不当认识,那就是只要存在形式上受著作权法保护的客体,就必然产生受著作权法保护的主体和其受保护的权利。对于画家根据美术学院的老师的具体要求完成的肖像画,当然应认定画家为作者和著作权人;然而对于人工智能根据同一要求生成的肖像画,人民法院似乎认为没有作者和著作权人是不可思议的,因此一定要为该肖像画寻求一位作者和著作权人,那么除了那位老师还能有谁呢?有学者提出,“对比人和人工智能对独创性表达贡献度的做法无异于赋予人工智能法律主体资格”。也就是认为,承认人工智能生成的内容并不由人的自由意志所决定,而是由其算法和所受的素材训练所决定,就必然导致承认人工智能为作者和著作权人(法律主体)。该观点反映的还是“有成果必有(法律上的)作者”的看法。然而这一认识是不能成立的,因为有些表面上看貌似能受著作权法保护的客体并不源于人的创作,自然也不存在作者和著作权人。“猴子自拍照”就是最为典型的形式上具备独创性,但因不是人类的创作成果,并不存在著作权法意义上的作者和著作权人的例证。作者权如此,邻接权也是如此。例如,“自动钢琴”可以在没有钢琴师操作的情况下自动演奏钢琴曲,其效果并不弱于许多人的弹奏。如果餐厅等经营场所利用自动钢琴演奏尚在保护期内的钢琴曲,还需要获得著作权人对表演权的许可,否则该机械表演将侵犯音乐著作权。然而,在自动钢琴演奏的场景中,是否存在受著作权法保护的表演者和表演者权呢?答案是否定的。著作权法保护的表演者必须是实际进行了表演的自然人。同样道理,人工智能根据美术学院老师的要求生成的肖像画并不存在著作权法意义上的作者和著作权人,更不会导致“赋予人工智能法律主体资格”。
如果“人工智能文生图第一案”判决的结果和理由被我国人民法院普遍接受和运用,那么将导致国际保护的不平衡。以下试以美国“《太空歌剧院》登记案”为例进行说明。美国艺术家艾伦使用人工智能绘图程序“输入了至少624次文本提示词和修改指示才得到了最初的图像”。他通过输入前两条提示词“聚焦图形的整体主题”,接着又补充了“整体图像的流派和类别”,使用了“特定艺术专业术语以指示图像的基调”,要求“该图像以何种逼真程度出现”,描述“如何使用颜色”,说明“如何进一步确定构图”,使用了“关于艺术品应该呈现什么风格或何种时代特征的(艺术专业)术语”,运用了“通过大量测试才确定的”使图像“流行”的发出文本指令的技巧,还“在提示词中附加各种参数,进一步指示软件如何发展图像”。最后,经过进一步的处理才生成了一幅精美的图片,艾伦将其命名为《太空歌剧院》。该图获得了2022年科罗拉多州展会艺术奖。对于艾伦对该图提出的作品登记申请,美国版权局版权复审委员会虽然承认艾伦创建提示词的过程可能涉及创造性,但是认为这些提示词并不能“实际形成”绘画,对于认定创作最为关键的因素即对内容的“最终创造性控制”,艾伦并不具备,因此在艾伦拒绝放弃主张人工智能生成内容的权利的情况下,对该图不予登记。从用户输入的提示词的数量、复杂性及迭代的次数看,“《太空歌剧院》登记案”中艾伦“智力投入”的程度至少不会比“人工智能文生图第一案”中原告“智力投入”的程度低。试问艾伦如在我国起诉网络图片卖家未经许可传播和出售《太空歌剧院》,我国人民法院是否应当认定该图片为作品并判决侵权成立?
对此问题,首先需要指出的是,人工智能生成的图片是否构成作品,各国当然可以自行决定。但是只要我国认定其为美术作品,而美术作品又是《伯尔尼公约》第2条第1款明文列举的作品,就会产生我国将人工智能生成的图片解释为《伯尔尼公约》中美术作品的效果,因为“对公约的任何正式解释是公约各成员方的事情”。同时,“人工智能文生图第一案”判决的结果和理由当然可被推广到用户利用人工智能生成的具有“客观独创性”的文字、音乐和视频等内容,又分别对应《伯尔尼公约》保护的文字作品、音乐作品和电影作品等。而《伯尔尼公约》对受其保护的作品规定了国民待遇原则(第5条第1款规定“对于本公约保护的作品而言,作者在作品起源国以外的任一成员国享有该国法律现在给予和今后可能给予其国民的权利,以及本公约特别授予的权利”)和独立保护原则(第5条第2款规定“享有和行使这些权利不需要履行任何手续,也不论作品起源国是否存在保护”)。根据《伯尔尼公约》第5条第4款的规定,“起源国”对于已在成员国首次出版的作品而言,是指该首次出版国,对于尚未出版的作品或未在成员国首次出版的作品而言,是指作者作为其国民的成员国。这就意味着,如果我国承认人工智能生成的内容属于《伯尔尼公约》第2条第1款列举的某一类型的作品,即使包括其起源国在内的所有其他成员国都不认同,我国也必须予以保护。据此,对于上例中以美国(《伯尔尼公约》成员国)为起源国的由人工智能生成的《太空歌剧院》,在我国,人民法院必须承认其与“人工智能文生图第一案”中的涉案图片一样,属于《著作权法》保护的美术作品,以及艾伦享有著作权。然而,由于美国版权局和美国联邦法院均不承认人工智能生成的内容是作品,美国不会对以我国为起源国的由人工智能生成的内容(如“人工智能文生图第一案”中的涉案图片)提供版权保护。换言之,国民待遇并不是对等待遇和互惠待遇。如果我国将人工智能生成的内容认定为作品并提供著作权保护,将导致以《伯尔尼公约》所有其他成员国为起源国的由人工智能生成的内容都可在我国获得保护。即使附加一个条件,即该内容体现的“智力投入”必须与“人工智能文生图第一案”中涉案图片体现的“智力投入”相当,也会导致海量的以外国为起源国的、使用人工智能生成的内容在我国获得保护,因为这个条件实在是很容易得到满足。而以我国为起源国的由人工智能生成的内容则无法在其他成员国获得保护。这将导致在保护方面的巨大不对等。
“人工智能文生图第一案”的判决理由和类似的学术观点反映出在《著作权法》理解与适用方面存在的3个误识:(1)误将人工智能当作纸、笔、照相机和常规图像处理软件之类的创作工具;(2)脱离“创作”的法律定义来认定“用户输入”的行为性质,未能区分作为思想的智力投入与作为表达的智力投入;(3)误将人工智能不具备自由意志和法律人格作为认定使用者是人工智能所生成内容的作者的理由。
在“人工智能文生图第一案”判决生效后,审理该案的人民法院指出:“传统的著作权理论与技术发展现实已经不相匹配,应当进行调适和发展,以适应现实情况的变化,更好地满足权益保护和产业发展的需求。因此,我们不能固守历史的标准,唯有面向未来进行思考,才能选好当下的路径”。人民法院的职责是适用法律并遵循背后的基本法理,在世界各国法院此前都未认定人工智能生成的内容是作品的情况下,又有什么依据断定著作权法的一些基础理论,包括创作的概念和“思想与表达两分法”的理念“与技术发展现实已经不相匹配”了呢?如果这些理论是过时的,为什么该人民法院又强调“继续坚持著作权法只保护‘自然人的创作’的观点”(当然这种坚持是笔者完全赞同的)?该观点难道不是“传统的著作权理论”和“历史的标准”(也是现实的标准)吗?为什么人民法院就不认为它“与技术发展现实已经不相匹配,应当进行调适和发展”并“面向未来进行思考”,由此“选好当下的路径”——承认人工智能可以取得民事主体地位、可以被视为作者并享有著作权?脱离法律规定和背后的基本法理,将丧失最起码的法律标准,法律也就变成了任凭主观臆断揉捏的橡皮泥。
“人工智能文生图第一案”主审法官曾撰文提出:在该案中“如果说利用人工智能大模型生成的内容一概不是作品,对行业将是一种打击。如果权利处于不太稳定的状态,企业投入和研发总有顾虑。只有使用者的权益得到充分保障,才会有更多人愿意使用人工智能软件”。但从世界各国的司法实践与行业发展来看,这一结论不能成立。美国版权局关于“利用人工智能大模型生成的内容一概不是作品”这一认定并没有对美国的人工智能行业造成“打击”,企业投入和研发毫无“顾虑”,美国的人工智能行业仍在繁荣发展。2023年度世界上大多数基础大模型都源于美国,数量高达109个;全世界对生成式人工智能的投资较2022年激增八倍,至252亿美元,人工智能的付费用户继续增长,愿意为ChatGPT付费的人数可达220万人。“人工智能文生图第一案”的判决唯一能激励的,或许就是人工智能的用户向人民法院提起著作权侵权诉讼,包括在其他国家连提起诉讼资格都没有的用户来我国提起著作权侵权诉讼。自1710年英国颁布《安娜女王法》以来,人类有著作权法的历史已经超过三百年;自1886年《伯尔尼公约》缔结以来,各国著作权法以条约为基础,相互借鉴的历史也已超过一百年。虽然著作权法保护的客体不断扩张,权利内容大为丰富,但是对于何为创作的基本理念并未发生根本改变。创作是人把思想感情呈现为文艺表达的心灵之旅,是人凭借自由意志决定如何将内心的构思转换为可感知的具体表达。如果以计算机程序为工具进行符合著作权法要求的创作,在完成最后一个步骤,“用户按下确定键时”,创作出的作品也不会“就像一盒巧克力,你永远不知道你将得到什么”。无论技术如何先进发达,也不能忘记为什么要有著作权法,不能忘记著作权法的基本原则与理念。否则,“面向未来进行的思考”将变成断线的风筝,“选择的当下路径”也将变成通向泥沼的歧路。
来源:ZUEL法商研究
编辑:Sharon