原著论文不该成为训练人工智能的免费工具
日前,知网警告AI搜索初创公司秘塔科技,未经许可在AI搜索结果中呈现学术文献题目、目录及摘要内容,构成严重侵权。对此,秘塔科技表示疑惑和不理解。此外,国际著名期刊《自然》(《Nature》)杂志编辑伊丽莎白•吉普尼最近在一篇文章中指出,当前有越来越多的学术出版商正在将研究论文授权给科技公司,用于训练人工智能模型。有学术出版商借此赚取了2300万美元,而作者却收入为零。
人工智能日渐成为众人所皆知的新鲜事物和先进技术。大语言模型(LLM)通常依赖从互联网上抓取的大量数据进行训练。学术论文因其内容丰富、信息密度高,相比大量普通数据更有价值,是AI训练中的重要数据来源。
这看似比较正常,毕竟,引用前人研究成果能增强论文的说服力和可信度,参考文献也是一篇合格的学术论文必不可少的部分。但这一现象实际涉及到严肃的知识产权问题。根据《著作权法》,著作权人对作品享有发表权、署名权、发行权、保护作品完整权、信息网络传播权、改编权、汇编权等权利。作者授权的出版社也享有相应的权利。
当然,著作权也受到相应的限制。具有相应情形的,使用作品是可以不向作者支付报酬,但应当指明作者姓名或者名称、作品名称。如为个人学习、研究或者欣赏,使用他人已经发表的作品;为介绍、评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品;为报道新闻,在报纸、期刊、广播电台、电视台等媒体中不可避免地再现或者引用已经发表的作品;为学校课堂教学或者科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供教学或者科研人员使用;图书馆、档案馆等为陈列或者保存版本的需要,复制本馆收藏的作品;免费表演已经发表的作品,该表演未向公众收取费用,原著论文不该成为训练人工智能的免费工具也未向表演者支付报酬,且不以营利为目的。
由上可知,合理使用他人的作品,应具有公益性和非营利性。如果基于营利目的而“免费”使用他人的作品,显然构成侵权。就以训练人工智能为例,企业训练人工智能的目的是提高商业价值,以便在激烈的市场竞争中占据优势。当然,如果注明了作者,为网络用户提供搜索服务时也链接了原文,提升了原文的知名度、下载量和引用量,则属于合理使用,不构成侵权。
需要说明的是,虽然一些期刊和出版社已经“买断”了版权,注明出版社有发表权和传播权,但不代表出版社具有完全取代作者的权利。总体上看,训练人工智能有利于科技进步,但相关公司不能因此免费地、毫无限制地使用作品,仍应在《著作权法》框架内运行,不能打着科技创新的旗号侵权。
文|史洪举
评论