原著论文不该成为训练人工智能的免费工具

yezi666 科技前沿 2024-09-16 219 0 原著论文不该成为训练人工智能的免费工具

日前，知网警告AI搜索初创公司秘塔科技，未经许可在AI搜索结果中呈现学术文献题目、目录及摘要内容，构成严重侵权。对此，秘塔科技表示疑惑和不理解。此外，国际著名期刊《自然》(《Nature》)杂志编辑伊丽莎白•吉普尼最近在一篇文章中指出，当前有越来越多的学术出版商正在将研究论文授权给科技公司，用于训练人工智能模型。有学术出版商借此赚取了2300万美元，而作者却收入为零。

人工智能日渐成为众人所皆知的新鲜事物和先进技术。大语言模型(LLM)通常依赖从互联网上抓取的大量数据进行训练。学术论文因其内容丰富、信息密度高，相比大量普通数据更有价值，是AI训练中的重要数据来源。

这看似比较正常，毕竟，引用前人研究成果能增强论文的说服力和可信度，参考文献也是一篇合格的学术论文必不可少的部分。但这一现象实际涉及到严肃的知识产权问题。根据《著作权法》，著作权人对作品享有发表权、署名权、发行权、保护作品完整权、信息网络传播权、改编权、汇编权等权利。作者授权的出版社也享有相应的权利。

当然，著作权也受到相应的限制。具有相应情形的，使用作品是可以不向作者支付报酬，但应当指明作者姓名或者名称、作品名称。如为个人学习、研究或者欣赏，使用他人已经发表的作品；为介绍、评论某一作品或者说明某一问题，在作品中适当引用他人已经发表的作品；为报道新闻，在报纸、期刊、广播电台、电视台等媒体中不可避免地再现或者引用已经发表的作品；为学校课堂教学或者科学研究，翻译、改编、汇编、播放或者少量复制已经发表的作品，供教学或者科研人员使用；图书馆、档案馆等为陈列或者保存版本的需要，复制本馆收藏的作品；免费表演已经发表的作品，该表演未向公众收取费用，原著论文不该成为训练人工智能的免费工具也未向表演者支付报酬，且不以营利为目的。

由上可知，合理使用他人的作品，应具有公益性和非营利性。如果基于营利目的而“免费”使用他人的作品，显然构成侵权。就以训练人工智能为例，企业训练人工智能的目的是提高商业价值，以便在激烈的市场竞争中占据优势。当然，如果注明了作者，为网络用户提供搜索服务时也链接了原文，提升了原文的知名度、下载量和引用量，则属于合理使用，不构成侵权。

需要说明的是，虽然一些期刊和出版社已经“买断”了版权，注明出版社有发表权和传播权，但不代表出版社具有完全取代作者的权利。总体上看，训练人工智能有利于科技进步，但相关公司不能因此免费地、毫无限制地使用作品，仍应在《著作权法》框架内运行，不能打着科技创新的旗号侵权。