跳至主要内容

USCO最新报告之后,AI训练抓取不能再无视退出信号

美国版权局(USCO)于2025年5月9日发布《Copyright and Artificial Intelligence, Part 3: Generative AI Training》预发布版本,把生成式 AI 训练争议往前推了一步。文件并没有把“训练必然侵权”或“训练天然合理使用”写成一句结论;相反,它明确提示,训练用途、获取路径、市场替代效应和可获得许可的现实情况,都要分别进入分析。对 AI 公司来说,最危险的不是没有一句总规则,而是再也不能把大规模抓取包装成一项默认无害的技术动作。

真正有实务含义的变化,在于“退出信号”开始从行业争论走向合规要件。USCO 讨论了 terms of use、robots.txt、metadata、watermarking 等方式,也指出自愿 opt-out 措施有其价值;如果开发者明知存在权利保留或明知数据来自盗版、越过付费墙等非法来源仍继续抓取,合理使用抗辩的位置会明显变窄。对平台、内容方和模型公司来说,接下来的问题已不是“要不要关注 opt-out”,而是“怎样把 opt-out 做成能被识别、留痕和执行的机制”。

登录后继续阅读全文

登录或注册后可阅读完整内容,包括详细分析与实务建议。

这份文件到底改变了什么

先把文件性质说清。USCO这次发布的是 Part 3 的预发布报告,不是国会立法,也不是一份单独生效的行政规章。但它不是普通学术综述。它代表美国版权局在大量公开意见、听证与跨行业争论之后,给法院、国会和市场提供的一套分析框架。文件一方面认为,大型、广泛数据集上的基础模型训练往往具有 transformative 特征;另一方面又明确表示,训练是否属于 fair use,不能脱离具体来源、具体用途和具体市场影响去空谈。过去那种一句“训练是中间复制,所以当然合理使用”的说法,今后会越来越难单独成立。

更值得重视的是,USCO把“合法取得”重新推回到台前。报告明确写到,明知数据集由盗版或非法获取作品构成,应当对 fair use 产生不利影响,但并非机械化的一票否决。这个口径很关键。它没有把所有争议都推给输出相似性,也没有简单地把问题缩成“训练后有没有复现原文”。对模型开发者而言,数据进入训练集之前的获取路径、授权链和访问条件,本身就会进入风险判断。

“退出”还不是法定制度,却已经是合规层

很多团队会误读这一轮变化,以为美国马上要建立一套欧盟式的法定 opt-out 机制。USCO其实没有这么说。报告讨论了法定 opt-out 的可行性,也提到很多权利人反对把美国现行的“许可进入”结构改成“默认可抓、权利人再退出”的结构。最终,版权局并未主张立即以法律强制建立 opt-out 体系,而是倾向让自愿许可市场继续发展。

但这并不等于 opt-out 可以继续被当作软性信号。恰恰相反,报告把它推进到了“实际可操作的合规界面”。它详细列举了 metadata、数据库、watermark、技术标记、网站条款等多种方式,也正面记录了行业关于升级版 robots.txt 的讨论。换句话说,美国制度眼下未必先走到“法定退出”,市场却很可能先走到“行业可识别退出”。只要退出方式开始标准化、机器可读化,并被主要平台和抓取方广泛采用,忽视这些信号的成本就会上升。

为什么无视退出信号会让 fair use 更难站稳

这里最容易被低估的,不是某一项单独技术,而是几个因素开始叠加。报告援引评论意见时提到,如果版权人已经通过 terms of use、robots.txt 或类似机制表达了“不用于 AI 训练”的意思,而开发者仍然无视,这种行为可能会影响 fair use 分析,尤其会落到第四因素,也就是对市场与潜在许可市场的影响判断上。单看这句话,它还不是法院判决;但它已经给未来诉讼提供了清晰的论证路线。

再把“非法来源”因素叠上去,风险就更具体了。USCO明确认为,明知训练数据由盗版或非法访问作品组成,会对 fair use 不利。实践中,这意味着 AI 公司如果既绕开了明确的退出标记,又拿不出数据合法取得和清洗的记录,法庭上面对的就不是一个抽象的技术创新叙事,而是一连串更难解释的行为事实:为什么忽视权利保留,为什么越过付费墙,为什么没有保存来源与筛除记录。到这一步,fair use 不会自动失效,但抗辩空间会明显收窄。

接下来真正会长出来的,是许可、留痕和执行能力

USCO并没有给市场一个“全面禁抓”答案,也没有替权利人写出一套万能退出协议。它给出的现实判断更像是:许可市场已经在一些行业生长,自愿集体许可也可能继续扩展,政府此时不必急着统一介入。这个判断对企业的启示很直接。平台和内容方不能再只停留在版权声明页面,而应把退出意愿做成可识别、可继承、可审计的规则组合;模型公司也不能再只靠供应商承诺,而要建立数据来源、访问权限、机器人策略识别、去除与申诉响应的完整记录。

现在先动手的,通常会更占优势。内容平台要考虑的是:退出信号放在哪里,能否跨页面和跨分发渠道保持一致,元数据被移除后还有没有替代识别层。模型公司要考虑的是:抓取规则是否与 ToS 和 robots 解析保持同步,训练前是否做过高风险来源筛除,采购或第三方数据是否留有授权证明。真正的分水岭不是谁先把“尊重版权”写进政策,而是谁先把它落成机器、合同和审计都看得懂的流程。

通过 Email 接收最新资讯

本栏目内容仅供参考,不构成法律意见或正式服务建议。具体事项请结合个案情况,并以最新法律、政策及主管机关实践为准。