USCO最新报告之后，AI训练抓取不能再无视退出信号

2026年5月30日

美国版权局（USCO）于2025年5月9日发布《Copyright and Artificial Intelligence, Part 3: Generative AI Training》预发布版本，把生成式 AI 训练争议往前推了一步。文件并没有把“训练必然侵权”或“训练天然合理使用”写成一句结论；相反，它明确提示，训练用途、获取路径、市场替代效应和可获得许可的现实情况，都要分别进入分析。对 AI 公司来说，最危险的不是没有一句总规则，而是再也不能把大规模抓取包装成一项默认无害的技术动作。

真正有实务含义的变化，在于“退出信号”开始从行业争论走向合规要件。USCO 讨论了 terms of use、robots.txt、metadata、watermarking 等方式，也指出自愿 opt-out 措施有其价值；如果开发者明知存在权利保留或明知数据来自盗版、越过付费墙等非法来源仍继续抓取，合理使用抗辩的位置会明显变窄。对平台、内容方和模型公司来说，接下来的问题已不是“要不要关注 opt-out”，而是“怎样把 opt-out 做成能被识别、留痕和执行的机制”。

登录后继续阅读全文

登录或注册后可阅读完整内容，包括详细分析与实务建议。

登录注册

这份文件到底改变了什么

先把文件性质说清。USCO这次发布的是 Part 3 的预发布报告，不是国会立法，也不是一份单独生效的行政规章。但它不是普通学术综述。它代表美国版权局在大量公开意见、听证与跨行业争论之后，给法院、国会和市场提供的一套分析框架。文件一方面认为，大型、广泛数据集上的基础模型训练往往具有 transformative 特征；另一方面又明确表示，训练是否属于 fair use，不能脱离具体来源、具体用途和具体市场影响去空谈。过去那种一句“训练是中间复制，所以当然合理使用”的说法，今后会越来越难单独成立。

更值得重视的是，USCO把“合法取得”重新推回到台前。报告明确写到，明知数据集由盗版或非法获取作品构成，应当对 fair use 产生不利影响，但并非机械化的一票否决。这个口径很关键。它没有把所有争议都推给输出相似性，也没有简单地把问题缩成“训练后有没有复现原文”。对模型开发者而言，数据进入训练集之前的获取路径、授权链和访问条件，本身就会进入风险判断。

“退出”还不是法定制度，却已经是合规层

很多团队会误读这一轮变化，以为美国马上要建立一套欧盟式的法定 opt-out 机制。USCO其实没有这么说。报告讨论了法定 opt-out 的可行性，也提到很多权利人反对把美国现行的“许可进入”结构改成“默认可抓、权利人再退出”的结构。最终，版权局并未主张立即以法律强制建立 opt-out 体系，而是倾向让自愿许可市场继续发展。

但这并不等于 opt-out 可以继续被当作软性信号。恰恰相反，报告把它推进到了“实际可操作的合规界面”。它详细列举了 metadata、数据库、watermark、技术标记、网站条款等多种方式，也正面记录了行业关于升级版 robots.txt 的讨论。换句话说，美国制度眼下未必先走到“法定退出”，市场却很可能先走到“行业可识别退出”。只要退出方式开始标准化、机器可读化，并被主要平台和抓取方广泛采用，忽视这些信号的成本就会上升。

为什么无视退出信号会让 fair use 更难站稳

这里最容易被低估的，不是某一项单独技术，而是几个因素开始叠加。报告援引评论意见时提到，如果版权人已经通过 terms of use、robots.txt 或类似机制表达了“不用于 AI 训练”的意思，而开发者仍然无视，这种行为可能会影响 fair use 分析，尤其会落到第四因素，也就是对市场与潜在许可市场的影响判断上。单看这句话，它还不是法院判决；但它已经给未来诉讼提供了清晰的论证路线。

再把“非法来源”因素叠上去，风险就更具体了。USCO明确认为，明知训练数据由盗版或非法访问作品组成，会对 fair use 不利。实践中，这意味着 AI 公司如果既绕开了明确的退出标记，又拿不出数据合法取得和清洗的记录，法庭上面对的就不是一个抽象的技术创新叙事，而是一连串更难解释的行为事实：为什么忽视权利保留，为什么越过付费墙，为什么没有保存来源与筛除记录。到这一步，fair use 不会自动失效，但抗辩空间会明显收窄。

接下来真正会长出来的，是许可、留痕和执行能力

USCO并没有给市场一个“全面禁抓”答案，也没有替权利人写出一套万能退出协议。它给出的现实判断更像是：许可市场已经在一些行业生长，自愿集体许可也可能继续扩展，政府此时不必急着统一介入。这个判断对企业的启示很直接。平台和内容方不能再只停留在版权声明页面，而应把退出意愿做成可识别、可继承、可审计的规则组合；模型公司也不能再只靠供应商承诺，而要建立数据来源、访问权限、机器人策略识别、去除与申诉响应的完整记录。

现在先动手的，通常会更占优势。内容平台要考虑的是：退出信号放在哪里，能否跨页面和跨分发渠道保持一致，元数据被移除后还有没有替代识别层。模型公司要考虑的是：抓取规则是否与 ToS 和 robots 解析保持同步，训练前是否做过高风险来源筛除，采购或第三方数据是否留有授权证明。真正的分水岭不是谁先把“尊重版权”写进政策，而是谁先把它落成机器、合同和审计都看得懂的流程。

USCO最新报告之后，AI训练抓取不能再无视退出信号

登录后继续阅读全文

这份文件到底改变了什么

“退出”还不是法定制度，却已经是合规层

为什么无视退出信号会让 fair use 更难站稳

接下来真正会长出来的，是许可、留痕和执行能力

通过 Email 接收最新资讯

绿色科技中小企业出海，EUIPO与WIPO把IP支持再往前推

墨西哥商标三年使用声明走到风险前台，证据链比表格更重要

USCO最新报告之后，AI训练抓取不能再无视退出信号