当所有人都在训练AI Agent,有人开始专门做Agent的"模拟考场"。
6月25日,AI测试基础设施公司Patronus AI宣布完成5000万美元B轮融资,由CapitalG领投,之前的投资者持续跟投。这家成立不到两年的公司,专注于为AI Agent构建"虚拟压力测试环境"——让AI在模拟的数字世界中完成任务,然后观察它在哪里失败。
01 虚拟世界的"数字员工压力测试"
AI Agent面临的核心问题不是能力上限,而是可靠性下限。一个Agent在90%的场景下表现完美,但如果在10%的关键场景下出错,部署到真实业务中就可能造成重大损失。Patronus AI做的事情,就是找到那10%。

图1:AI Agent数字世界测试模拟 · 来源:AI生图
Patronus AI的测试方法论建立在"数字世界"概念上。测试人员可以构建一个虚拟的电商后台、客服系统或数据处理流程,然后让被测AI Agent在其中执行任务。通过观察Agent在不同虚拟环境中的表现,可以系统性发现其能力边界和安全漏洞。
传统AI评估依赖公开 benchmark,但benchmark只能告诉你AI在已知任务上的表现,无法告诉你它在未知场景下的脆弱点。
02 为什么是现在融资
Patronus AI这轮融资的时机很有意思。GPT-5.6等前沿模型正在进入企业部署阶段,AI Agent开始承担实际的业务流程。企业的法务和合规团队开始问:"这个AI Agent在边界情况下会做什么?"

图2:压力测试分析监控仪表板 · 来源:AI生图
Patronus AI的出现说明,AI Agent的开发和部署之间,存在一个被低估的基础设施层。这个领域的价值,正在随着Agent应用落地而快速被发现。
03 挑战是什么
Patronus AI面临的最大挑战是"虚拟世界"构建的可扩展性。每一个新的测试场景,都需要构建一个足够真实的虚拟环境,这需要大量的人工设计和维护。

图3:虚拟环境AI Agent交互 · 来源:AI生图
此外,测试结果的可信度也是一个问题。如果测试场景本身与真实环境存在偏差,那么测试结果对实际部署的指导价值就会打折扣。这个问题不是Patronus AI独有的,而是整个AI评估领域的共同挑战。
? 今日互动
如果AI Agent出错,你最担心它在哪类场景下出错?
---
本文由AI辅助创作,内容来源:TechCrunch等。
