CNIPA把数据合规带进AI专利审查,说明书要补上来源逻辑
自2026年1月1日起生效的《专利审查指南》修订,把人工智能、大数据相关专利申请中的“合法性”问题明确拉进了实审视野。国家知识产权局不仅在相关章节中新增了基于专利法第五条第一款的审查标准,还把原先主要围绕权利要求的审查基准改成“必要时应当针对说明书的内容进行审查”。这不是一句修辞。它意味着,涉及数据采集、标签管理、规则设置、推荐决策等内容的申请,今后不再只看技术效果写得是否漂亮,也要看申请文件是否暴露出明显的法律和伦理硬伤。
目前官方公开示例说得很具体:一类是未表明数据获取、信息采集合规的人脸识别营销方案;另一类是把年龄、性别直接写进无人驾驶应急决策模型的训练逻辑。对大模型训练方法、语料清洗、标注流水线、对齐机制和行业模型部署而言,真正的信号在这里:训练数据和处理路径不再是可以完全藏在背景里的“研发黑箱”。CNIPA并未发布一张单独的“训练数据合法来源清单”,但专利确权与数据治理之间的距离,已经明显缩短了。
官方到底改了什么,边界又在哪里
这轮变化最容易被误读成“以后AI专利要先做全面合规审查”。实际并没有这么简单。官方现在明确写进《指南》的,是两件事:第一,涉及人工智能、大数据的申请,如果其中的数据采集、标签管理、规则设置、推荐决策等内容违反法律、社会公德或者妨害公共利益,不能被授予专利权;第二,审查员在必要时可以结合说明书内容进行审查。换句话说,CNIPA并不是新增了一张统一表格,要求所有申请人机械披露全部训练数据,而是正式给了审查一个更靠前的入口。
这个入口一旦打开,很多过去被当作“实施层面问题”的内容,就可能进入申请文件层面的讨论。尤其是当发明点本身与数据处理路径密切相关时,申请人如果一边主张模型效果来自特定训练、筛选、标注或反馈机制,一边又把数据取得逻辑完全写空,文件就更容易显得失衡。专利审查当然不是一般意义上的行政执法或侵权裁判,但它已经不再愿意把明显的合法性瑕疵视作与授权无关的外围问题。
为什么大模型训练、语料清洗和标注方法会先感到压力
受影响最早的,未必是那些标题里直接写着“生成式人工智能”的申请,而往往是训练链条写得最重的方案。比如:训练语料筛选方法、标签质量控制机制、对齐与偏差修正流程、基于用户反馈的再训练方案、行业模型微调框架、检索增强与知识库清洗机制。这类申请的共同点,是其技术效果往往与数据来源、数据结构、清洗规则或标注约束紧密相连。
过去不少团队喜欢把这部分写得很抽象:说模型“基于历史样本训练”,说系统“根据标注数据优化参数”,再把真正敏感的来源路径、授权关系、个人信息处理边界、行业数据取得条件全部留在申请文件之外。这样的写法以后不一定马上被否掉,但风险显然更高。因为一旦申请人把效果建立在特定数据治理动作之上,审查就会自然追问:这些动作能否在合法框架内稳定实施?如果不能,所谓技术方案就可能不只是公开不充分的问题,还会碰到更前面的合法性门槛。
这不是把专利审查变成版权法庭,但申报负担已经变了
需要说清楚一点:CNIPA目前公开规则并没有把“版权侵权风险”“数据出境安全风险”逐项列成专利法第五条第一款下的专门小清单,也没有要求申请人在每件案件中提交完整的数据权属链。把这一步说成已经成文落地,会比官方文本走得更远。可这并不意味着相关问题可以继续忽略。对于大模型和行业模型项目而言,训练数据的授权状态、个人信息处理方式、跨境流转安排、第三方数据集许可条件,都会影响技术方案能否被解释为可依法实施。
所以,真正的变化不是“审查员替版权局或网信部门办案”,而是申请人很难再假设这些问题与专利文件完全无关。尤其在以下场景里,风险会被放大:一是明显依赖抓取内容却回避来源说明;二是训练流程中混入个人信息或敏感数据,却没有交代处理边界;三是商业化实施路径天然涉及跨主体、跨区域数据流转,却把部署条件写成中性背景。以前这些内容常被留到融资、合规审计或产品上线时再补;现在,它们更早就会反过来影响专利文本如何组织。
申请和答审策略需要怎样调整
对企业和代理团队来说,最现实的动作不是在说明书里堆法规条文,而是把“技术叙述”和“合规叙述”接上。凡是发明点依赖数据采集、清洗、标注、反馈闭环的项目,都值得至少准备一份内部的来源与处理备忘:数据来自哪里,哪些是自有数据,哪些基于授权,哪些经过脱敏或聚合,哪些部署场景只适用于特定地域或特定合规前提。这些内容未必全部进入公开文本,但它们会决定说明书能写到多实,答复审查时又能不能说得圆。
写作上也可以更精细一些。对真正有价值的方案,完全可以把权利要求拆分成更稳的层次:一层保护与具体数据来源弱耦合的模型结构、训练控制或系统调度改进;另一层再覆盖依赖特定数据处理链条的实施方式。这样做的好处很直接。前者更容易保持授权稳定性,后者则能在具备充分合规基础时争取更强的商业覆盖。接下来AI专利文件最吃亏的,往往不是写得不够“聪明”,而是把关键效果建立在一条自己也不愿公开解释的数据路径上。那样的申请,即便能进审,也会越来越难走得轻松。



