Tras el informe de la USCO, ignorar señales de exclusión complica la defensa por fair use
El 9 de mayo de 2025, la Oficina de Copyright de Estados Unidos publicó la versión preliminar de Copyright and Artificial Intelligence, Part 3: Generative AI Training. El documento no respalda ninguno de los dos extremos. No dice que todo entrenamiento de IA sea infracción, pero tampoco concede un refugio general de fair use. Devuelve el análisis a lo que de verdad importa: qué se copió, cómo se obtuvo el material, si existen mercados de licencias y qué efecto real produce el uso sobre los titulares de derechos. Para las empresas de IA, eso cambia bastante el terreno. El scraping masivo ya no se puede presentar tan fácilmente como una operación técnica neutra.
La consecuencia práctica es todavía más clara. La USCO analiza términos de uso, robots.txt, metadatos, marcas de agua y otros mecanismos con los que los titulares pueden indicar que sus contenidos no deben usarse para entrenar IA. También reconoce que las medidas voluntarias de opt-out pueden tener valor. Cuando esas señales se vuelvan más estandarizadas y legibles por máquina, será mucho más difícil defender como fair use una conducta que las ignore o que se apoye en materiales pirateados o accedidos de forma ilícita. La cuestión ya no es si el lenguaje de exclusión importa. La cuestión es si los sistemas de ingesta de datos realmente lo detectan y lo respetan.
Inicia sesión para seguir leyendo
Regístrese gratis para acceder al análisis completo y a recomendaciones prácticas.
Qué hace realmente este informe y qué no hace
Conviene describir bien la naturaleza del texto. Se trata de un informe preliminar, no de una nueva ley ni de un reglamento vinculante. Aun así, no es un simple ensayo de política pública. Refleja el marco analítico actual de la USCO tras comentarios extensos, audiencias y debate sectorial. El informe afirma que entrenar un modelo fundacional de IA generativa con un conjunto amplio y diverso de datos a menudo tendrá un carácter transformativo. Ese punto importa. Pero la Oficina no se queda ahí. También deja claro que el fair use no puede analizarse en abstracto, separado de la fuente del material, de las condiciones de acceso, del posible efecto de sustitución y de la disponibilidad de licencias.
Además, el informe devuelve el acceso lícito al centro de la discusión. A juicio de la USCO, el uso consciente de un conjunto de datos formado por obras pirateadas o accedidas ilegalmente debe pesar en contra del fair use, aunque no sea un factor automáticamente decisivo por sí solo. Es una advertencia seria para los desarrolladores que todavía hablan del riesgo de entrenamiento como si todo empezara y terminara con la similitud de las salidas. La forma en que el material entra en el dataset importa más, no menos.
El opt-out aún no es un régimen legal, pero ya es una capa de cumplimiento
Algunos lectores verán este informe como la antesala de un sistema legal de opt-out al estilo europeo. Esa lectura va demasiado lejos. La USCO estudia la posibilidad de un enfoque estatutario de exclusión, pero también recoge una oposición considerable de los titulares que no quieren que el copyright estadounidense pase de una lógica basada en permiso a otra de uso por defecto con exclusión posterior. Al final, la Oficina no recomienda crear ahora una regla legal de opt-out. Su recomendación general es dejar que los mercados de licencias sigan desarrollándose sin una intervención gubernamental inmediata.
Eso no significa que los mecanismos de exclusión sigan siendo meramente simbólicos. Al contrario. El informe habla de metadatos, bases de datos, indicadores técnicos, términos del sitio web, marcas de agua e incluso de la discusión sobre versiones reforzadas de robots.txt. En la práctica, el mercado puede llegar antes a una capa reconocible de opt-out que la propia legislación. Cuando grandes plataformas, editores y desarrolladores de modelos empiecen a usar señales más consistentes, ignorarlas se parecerá menos a un descuido operativo y más a una decisión consciente.
Por qué ignorar estas señales debilita la defensa por fair use
Aquí el informe resulta especialmente útil para entender la litigación que viene. La USCO recoge comentarios según los cuales, cuando los titulares han expresado su exclusión mediante términos de uso, instrucciones en robots.txt u otros mecanismos similares, la decisión del desarrollador de no respetar esas señales puede influir en el análisis de fair use, sobre todo en el cuarto factor, relacionado con el daño al mercado y a los mercados potenciales de licencia. Eso no equivale a decir que toda señal ignorada derrota automáticamente el fair use. Pero sí abre una vía argumental bastante clara para los demandantes: el desarrollador pasó por alto una reserva visible de derechos.
Si a eso se suma el acceso ilícito, la defensa se complica más. Cuando una empresa no puede demostrar de dónde vino el material, si se eludieron muros de pago o controles de acceso, si se procesaron las señales de exclusión o si se filtraron fuentes de alto riesgo, el caso deja de parecer una discusión abstracta sobre innovación. Pasa a ser una discusión sobre conducta. El fair use puede seguir alegándose, pero se vuelve una posición mucho menos cómoda cuando el expediente muestra indiferencia frente a derechos de acceso y avisos de exclusión.
La ventaja competitiva que viene se llama licencia, procedencia y trazabilidad
La USCO no entrega al mercado una regla universal de “no raspar” y tampoco ofrece a los titulares un protocolo único que resuelva todos los problemas. Su mensaje es más realista: en algunos sectores ya están creciendo licencias voluntarias, pueden ampliarse soluciones colectivas y el gobierno no debería precipitarse con una intervención uniforme. Para las empresas, eso no es una razón para esperar. Es una razón para convertir el cumplimiento en proceso.
Las plataformas de contenido deberían pensar dónde viven sus señales de exclusión, cómo sobreviven a la sindicación y a la redistribución, y qué marcas alternativas quedan cuando se eliminan los metadatos. Los desarrolladores de modelos deberían revisar políticas de rastreo, lectura de términos de uso, procedencia de fuentes, limpieza del dataset, garantías contractuales de proveedores y mecanismos internos de escalado para solicitudes de exclusión. La verdadera línea divisoria no estará entre quienes dicen respetar el copyright y quienes no. Estará entre quienes pueden demostrarlo con sistemas, contratos y rastros de auditoría y quienes no.



