
前置性判断:基于人工智能企业的类型(模式),确定尽调基础
知识产权风险识别
训练数据及其出境合规风险识别
作者 |项晨 王渝伟 张嘉豪
前言:人工智能产业进入技术迭代与商业化落地阶段,成为全球资本市场核心赛道。与传统企业不同,AI企业以算法模型为驱动、数据为生产要素,资产结构、商业模式及合规风险具有特殊性。投融资中,法律尽职调查需针对性开展。
市场数据显示,2025年全球AI市场规模7575.8亿美元(同比增长18.7%),预计2026年突破9000亿美元;中国核心产业规模有望达1.2万亿元。截至2025年9月,我国AI企业超5300家,其中国家级专精特新“小巨人”企业超400家。
目前,我国已形成基础法律稳固、监管规则明确、细分领域逐步完善的人工智能法律体系,具体政策与法律法规梳理可参见笔者往期文章《中国人工智能法律法规及政策盘点》。国际层面,欧盟《人工智能法案》及美国47州立法陆续落地(涵盖选举安全、未成年人保护等领域),全球监管趋严且具有域外效力,加剧AI企业跨境合规复杂性。
本文结合现行监管规则,梳理AI企业投融资法律尽调核心要点,为交易方提供合规指引与风险防控思路。
对于不同类型(模式)的人工智能企业,其监管强度、合规风险等方面存在一定差异,法律尽调需摒弃“一刀切”的固化模式,而应该基于企业的具体类型(模式),确立差异化的尽调方向。
人工智能企业类型:
1.自建算力企业
(1)企业模式
企业自主研发大模型底座,自建算力集群完成训练与推理,属于人工智能产业链上游的重技术、重合规模式,是大模型体系的源头供给方。
(2)尽调主要方向
第一,算力合规性是企业业务存续的前提,算力作为大模型训练与推理的载体,其芯片采购与进出口合规、集群部署属地、数据流转是否合规,决定企业核心资产的合法性,算力不合规将导致模型研发全流程存在违法瑕疵,甚至触发业务停摆、行政处罚等风险。
第二,训练数据合法性是模型合规迭代的核心,作为大模型训练的核心生产要素,《生成式人工智能服务管理暂行办法》已明确将训练数据来源合法列为企业的法定义务,数据授权链条是否完整、个人信息是否合规脱敏、不良内容是否有效过滤,既直接关系到企业是否存在著作权侵权、个人信息泄露风险,更是大模型备案的前置条件。
第三,大模型备案是企业商业化落地的准入门槛,是国内面向公众提供生成式人工智能服务的“入场券”,备案覆盖范围与运营主体一致性,决定企业能否合法开展商用服务、实现规模化变现,同时也是投融资交易中确定企业估值、设计交易对价的依据。
此外,对此类企业还需核查其自研大模型是否完全属于独立研发、是否具备持续升级迭代能力,以此确认企业技术壁垒与长期商业价值,防范技术依赖、产权瑕疵等影响核心竞争力的风险。
2.开源模型微调企业
(1)企业模式
不独立研发底层大模型,而是基于第三方开源大模型作为基础底座,通过指令微调、数据标注、参数优化等技术手段,形成更适配特定场景或能力方向的模型或模型服务。其应用方向既包括垂直行业(如法律、医疗),也包括通用能力方向。企业价值体现在模型优化能力、数据处理能力、服务交付能力等,属于人工智能产业链中游的模型二次开发与能力优化型模式。
(2)尽调主要方向
第一,开源许可证合规。开源模型并非无限制免费使用,其附带的许可协议明确约定了商用权限、修改规则、分发要求、传染开源义务等约束,一旦违反,不仅会触发授权方的侵权追责、授权收回,还会导致企业核心业务丧失合法基础,面临赔偿与产品下架风险,因此开源许可的合规性是尽调过程中必须优先核查的问题。
第二,衍生作品权利归属及技术独立性。企业基于开源底座微调形成的模型、解决方案等成果,在法律上属于衍生作品,其权利归属、使用范围受制于上游许可协议。核查此项时,核心是确认企业对其商业化交付的成果是否具备完整处置权、能否申请知识产权保护、能否合法向客户提供商用及私有化部署服务,避免出现核心资产确权瑕疵,从而影响企业估值与商业价值。同时,此类企业易陷入“仅对开源模型简单封装、无自身核心技术”的贴牌化困境,若上游开源协议变更、授权终止,将导致业务停摆。核查技术独立性,就是确认企业是否具备独有的行业数据资产、微调优化技术与场景落地能力,是否能够形成不可替代的行业壁垒。
3.人工智能SaaS企业
(1)企业模式
人工智能SaaS企业属于人工智能产业链下游的应用服务提供商,企业自身一般不研发底层大模型,而是通过调用第三方模型,将AI能力封装成面向终端用户的标准化在线工具与订阅服务,直接面向公众或企业提供如内容生成、智能写作、数据分析等功能。
(2)尽调主要方向
由于此种模式的企业直接向不特定用户提供在线服务,内容生成、用户行为不可控,法律责任易集中于平台,故尽调时需聚焦以下关键点:
第一,内容审核机制。作为防范违法违规内容生成、保障服务合规运营的第一道防线,直接关系到平台是否履行内容安全管理义务,是否存在监管处罚、服务下架等风险。
第二,用户协议条款。用于明确AI生成内容的法律性质、责任归属、使用限制与免责事项,实现平台与用户之间的风险隔离,是界定法律责任、降低合规纠纷的关键法律文件。
知识产权与核心技术是人工智能企业的估值核心,也是法律尽调的重要环节之一。不同于传统企业的有形资产主导,人工智能企业的价值集中于算法模型、软件程序、专利技术等无形资产,其权属的清晰稳定、无侵权瑕疵,与企业的持续经营能力与投资价值息息相关。
1.算法与模型的权属确权
对人工智能企业算法模型相关知识产权的尽职调查,核心在于穿透核查权利来源与归属,确保权属清晰、无纠纷、可商业化。
算法模型的核心IP通常体现为专利权、软件著作权及商业秘密,其权利归属因企业研发模式不同而存在差异:
(1)自主研发的成果原则上归企业所有,但需核查核心技术人员是否存在职务发明纠纷,尤其要关注从原单位离职一年内形成的、与原工作内容相关的专利或技术成果,防范来自前雇主的权属追索风险。
(2)委托开发、合作开发及联合训练形成的IP,则依赖合同明确约定,需审查知识产权归属、使用范围、二次开发权限、改进成果分配及商业化限制,避免因 “共同所有”“成果共享”等模糊约定引发后续争议,影响业务落地与资本运作。
(3)对于与高校、科研院所合作研发的项目,应严格核查合作协议中IP归属条款及作为高校教师的核心研发人员的兼职是否履行了高校内部审批与备案程序,避免企业与高校之间的发明权属纠纷风险。
2.训练数据与生成内容的知识产权风险
人工智能企业的知识产权侵权风险贯穿模型训练至内容生成的全业务链条,且呈现“双向传导”的特征——即数据使用的合规瑕疵(如未经授权使用受版权保护的素材)会传导至模型及生成内容,生成内容的侵权问题也会反向追溯至数据来源的合法性。
(1)数据使用的侵权风险核查
若训练数据存在授权瑕疵,不仅数据处理行为本身可能构成侵权,还将导致基于该数据训练的模型及衍生内容失去合法商用基础。因此,在尽调中需核查:训练数据中包含的文字、图片、音视频、软件代码等受著作权法保护的内容,是否获得权利人合法授权,授权链条是否完整可追溯,授权范围是否明确覆盖模型训练用途。
(2)生成内容的侵权风险核查
AI生成内容可能构成的“实质性相似”侵权。司法实践中通常遵循“接触+实质性相似”原则,即便企业无主观侵权故意,若生成内容(文本、图像、代码等)在独创性表达上与在先受保护作品高度相似,仍可能被认定为侵犯著作权、商标权、肖像权等。尽调中需核查企业的侵权防控机制:一是技术过滤措施,是否建立生成内容侵权风险过滤规则,如设置关键词拦截、作品相似度比对等技术手段;二是流程管理体系,是否建立完善的侵权投诉受理与快速响应机制,对法律、医疗等高风险领域的生成内容是否设置人工复核;三是合规义务履行,是否按照《人工智能生成合成内容标识办法》的规定,对AI生成内容进行显著标识,未履行该义务可能面临行政处罚,并加剧侵权认定风险。若企业仅通过用户协议约定 “侵权责任由用户承担”,无法对抗权利人的直接追责,故企业需配套设置合理使用限制、侵权举报通道与责任上限条款,实现风险隔离。
(3)开源协议的“传染性”侵权风险核查
使用开源代码或模型若违反对应许可证约定,还可能引发“传染性”(Copyleft)侵权风险,如GPL等协议要求衍生作品同步开源,若企业闭源商用,将构成侵权并可能导致自身商业秘密泄露。
3.商业秘密保护
人工智能企业的未公开算法参数、训练数据集等均属于商业秘密,在尽调中需核查企业是否建立完善的商业秘密保护体系。例如,企业是否与研发人员、核心管理人员签署合法有效的保密协议、竞业限制协议,保密范围是否覆盖核心商业秘密,竞业限制的期限、地域等是否符合法律规定;是否对核心数据、算法代码采取了分级权限管理、加密存储、访问留痕等技术保密措施;是否存在核心人员离职导致的商业秘密泄露风险,是否存在商业秘密侵权或被侵权的未决诉讼、仲裁案件。
数据是AI模型训练与迭代的生产要素,数据合规与网络安全是人工智能企业不可逾越的监管红线,也是投融资法律尽调的重中之重。训练数据来源不明、数据处理不合规的项目,即便技术领先,也可能在商业化的关键节点被监管叫停,成为投资方需承担的潜在风险。
1.训练数据的合规性核查
(1)数据来源分类核查
区分自采、采购、开源、用户输入四大类数据来源,确定各类数据占比,逐一核查其合规性。
针对自采数据,需核查爬取行为的合规性。需确认是否遵守目标网站robots协议及用户服务协议,采取技术手段绕过验证码等措施高频、大规模抓取数据,可能构成不正当竞争。同时,需核查企业是否对爬取的公开数据进行充分的脱敏、去标识、聚合处理,通过合理的“转换性使用”,降低侵权风险;
针对第三方采购的数据,需要对数据授权链条进行穿透审查。要求企业提供完整的供应商合作合同,核实供应商自身合规资质、数据原始来源,确认授权范围明确包含“AI模型训练、机器学习”等相关商业用途,且合同中需包含数据权利瑕疵担保条款,防范因授权瑕疵导致的侵权风险;
针对开源数据,需确认其遵循的开源协议(如CC、GPL等),按照协议许可条款使用,关注GPL等带“传染性”条款的协议,避免模型因在训练中使用了带传染性条款的开源数据,触发协议约束而被迫开源。
针对用户输入数据,因其与个人信息相关联,具有较高敏感性,将其用于模型训练需遵循个人信息保护等方面的相关规定,核查以下几点的合规性:一是需留存完整用户授权记录,在隐私政策中清晰地告知数据训练用途,避免笼统表述;二是对数据采取去标识化/匿名化处理等安全保护措施;三是需为用户提供便捷关闭方式;四是建立完善的用户数据行权响应机制,保障用户撤回同意、删除数据等权利,且对撤回授权的信息及时停止训练使用并做合理处理。
(2)个人信息处理合规性
处理个人信息应落实“最小必要”原则,杜绝过度收集,对人脸、医疗健康数据等敏感个人信息及生物识别信息必须取得单独同意;隐私政策与用户协议应清晰完整告知处理目的、方式、期限、共享及跨境情形等内容,不应变相强迫用户同意。企业需对训练数据中的个人信息依法开展合规处理,必要时进行符合法定标准的匿名化处理,定期开展个人信息保护影响评估(PIA),并建立便捷渠道与响应机制,保障用户查询、更正、删除、注销个人信息等权利行使。
(3)数据处理全流程管控
在数据全流程管控方面,企业是否建立了完善的数据安全保障体系,在数据存储、传输等关键环节采取加密、权限管理、数据备份恢复等防护措施,并通过防火墙等技术强化网络数据安全,防范数据泄露、篡改与丢失;数据传输是否采用加密协议。此外,企业是否建立了规范的训练数据清洗机制,对数据开展去重、脱敏,并建立数据安全风险监测体系与应急预案,确保能够及时处置数据安全事件,保障训练数据全生命周期安全可控。
2.数据出境的合规性核查
当前大量人工智能企业存在跨境研发、海外融资、海外业务布局的需求,故数据出境合规也同样是尽调的核心环节之一。需核查目标公司是否存在向境外提供数据的情形,不仅包括主动的跨境数据传输,还包括企业收集和产生的数据存储在境内,但境外的机构、组织或者个人可以访问或者调用的场景。
针对数据出境行为,需要核查的内容包括:
第一,前置合规义务履行情况,核查企业是否对出境的训练数据完成分类识别,界定其中的个人信息、敏感个人信息及重要数据;针对含个人信息的出境数据,是否依法履行跨境传输告知义务、取得个人单独同意,不存在捆绑服务、默认勾选等变相强迫同意的情形,且事前已完成个人信息保护影响评估(PIA)。
第二,法定合规路径落地情况,核查数据出境是否严格遵循法定路径:属于应当申报数据出境安全评估情形的(包括但不限于关键信息基础设施运营者出境个人信息、一年内向境外提供100万人以上个人信息及自上年1月1日起累计向境外提供10万人以上个人信息或1万人以上敏感个人信息),是否已完成国家网信部门的安全评估;未达到安全评估申报标准的,是否通过标准合同备案、个人信息保护认证等法定合规路径完成出境手续。
第三,违规行为排查情况,核查是否存在未经合规审批擅自向境外传输训练数据、以拆分数据的方式规避监管等行为。
同时,针对有海外业务的人工智能企业,还需核查其是否符合业务所在国的数据合规与专项监管要求(如欧盟GDPR、美国加州相关法案等),避免跨境合规冲突风险。

项晨,观韬上海办公室合伙人,复旦大学法学学士、法律硕士,主要执业领域为人工智能、公司治理与合规、收并购、投融资、民商事争议解决等,为多家知名央企、地方国企和民企提供常年法律顾问服务,具有丰富的诉讼与非诉办案经验。项晨律师是上海市律师协会信息化工作、法律科技委员会委员、上海市律师协会公共服务法律研究委员会委员、上海市律师协会专业水平评定认证公司专业律师、观韬公司并购与商事业务委员会委员、观韬上海办公室法律科技委副主任。
Email:xiangc@guantao.com

王渝伟,观韬上海办公室合伙人,数字法律与网络合规业委会主任,长期专注于网络安全数据合规业务领域。王渝伟律师在网络安全数据合规领域为金融、医疗、汽车、航空、互联网、房地产、物流、能源、生命健康、智能制造等行业的众多国内外企业提供该领域的法律合规服务。在上百个数据合规项目中,王律师带领团队为行业头部企业及研究机构提供专业服务,完成了一系列具有指导意义的数据合规项目。2020年以来,王律师在TMT和数据保护领域先后获得钱伯斯、Legal500、ALB、商法、亚洲法律商务、LEGALBAND等多家法律专业评级机构的推荐。
Email:wangyw@guantao.com

张嘉豪,观韬上海办公室实习律师,上海对外经贸大学法律硕士,擅长AI政策研究以及法律AI工具的具体应用。
点击“阅读原文”链接到观韬官方网站。
