LangChain 在年底发布了《State of Agent Engineering》(AI Agent 现状报告),在文末获取原文链接。
这份对 1300+工程师、产品经理及企业高管的深度调研显示:AI 智能体已经大规模进入生产,真正决定成败的,不再是“有没有模型”,而是能不能把智能体工程化。

一、从“要不要做”到“怎么做好”
57.3% 的团队已经在生产环境中部署了智能体,另有 30.4% 正在开发并有明确上线计划,较去年的 51% 有明显增长。 在 1 万人以上的大型组织中,这个比例更高:67% 已经在生产中,24% 在积极开发,说明大企业正更快从试点走向“耐久系统”。
关键转变:多数组织不再纠结“要不要上智能体”,真正的问题变成了——什么时候上?怎么稳?怎么规模化?
二、智能体都在用来干什么?
1. 两大主战场:客服 + 研究分析
客户服务是当前最主流的智能体用例,占比 26.5%;研究与数据分析紧随其后,占比 24.4%,两者合计超过一半的主部署场景。 客服的强势,意味着越来越多团队把智能体直接“推到用户面前”;同时,18% 的团队用智能体做内部流程自动化,提升员工效率。
在 1 万人以上的大企业里,内部生产力则成为首要用例,占 26.8%,客服与研究分析分列其后(24.7%、22.2%),反映出大企业更倾向先在内部把效率抬上去。
2. 每天真正被“高频使用”的智能体
调研问了一个很有意思的问题:“你日常用得最多的智能体是什么?”
- 编码智能体
压倒性领先:Claude Code、Cursor、GitHub Copilot、Amazon Q、Windsurf、Antigravity 等,被频繁提及,用于写代码、调试、造测试、看大代码库。 - 研究 / 深度研究智能体
紧随其后:基于 ChatGPT、Claude、Gemini、Perplexity 等,被用来探索新领域、总结长文档、跨源综合信息,常常与编码智能体搭配使用。 - 自定义智能体
也迅速兴起:很多团队基于 LangChain / LangGraph 自建内部智能体,用于 QA 测试、知识库搜索、SQL / text-to-SQL、需求规划、客服、工作流自动化等。
也有一部分人坦言,目前只用“聊天”和“写代码”这两类智能体,这说明“智能体无处不在”的广义时代还在早期,但渗透已经非常深入。
三、最大的坑:质量、延迟、安全,而不是成本
1. 质量:唯一不会过时的痛点
质量连续两年被列为生产最大障碍,今年有三分之一的受访者将其视为首要 blocker。 质量涵盖:准确性、相关性、一致性,以及能否维持正确语气、遵守品牌与政策规范。
在 1 万人以上的组织中,大家特别强调两点难题:
幻觉(hallucinations) 输出一致性(同类任务结果前后不一)
再加上大规模场景下的上下文工程与上下文管理,构成了“智能体质量三大难题”。
2. 延迟 & 质量 vs. 速度的取舍
延迟已经成了第二大挑战,20% 的受访者将其列为主要问题。 随着智能体进入客服、代码生成等强交互场景,响应时间直接决定用户体验;多步推理、调用多工具的高级智能体,往往更准,但更慢。
3. 成本关注度反而下降
成本被提及的频率已经低于往年:模型价格下降、效率提升,让团队更愿意为“好用 + 稳定 + 足够快”买单,而不是单纯压预算。
在 2000 人以上的大企业里,第二大顾虑已经从延迟变成了安全:24.9%的受访者将其视为关键问题,超过延迟,反映出合规与数据安全在企业级智能体中越来越核心。
四、工程团队真正需要的新“基建”:可观测 + 评估
1. 可观测性:已经变成“入场券”
89% 的组织已经为智能体实现了某种形式的可观测性,62% 拥有细粒度 tracing,可以看到每一步推理与工具调用。 已经有生产智能体的团队里,这个比例更夸张:94% 有可观测,71.5% 拥有完整 tracing。
这印证了一个智能体工程的基本事实:看不见,就调不了;调不了,就稳不了;稳不了,就谈不上信任与规模化。
2. 评估:还在追赶,但趋势已经很明确
52.4% 的组织会做离线评估,基于测试集去发现回归、在上线前验证行为。 在线评估采用率目前为 37.3%,但在有生产智能体的团队中上升到 44.8%,说明一旦面对真实用户,大家就意识到必须盯着生产数据、实时发现问题。 大部分团队从离线评估起步,再逐渐叠加在线评估;在已经做评估的组织中,近四分之一同时用线上 + 线下两种方式。
在评估手段上,也形成了一个比较稳定的组合:
59.8% 使用人工评审,用于高风险、高复杂度场景。 53.3% 使用 LLM-as-judge,用于规模化评估质量、事实正确性和合规性。 传统的 ROUGE、BLEU 等指标使用极少,因为在开放式智能体交互场景中,“答案不唯一”,这些指标很难真正衡量好坏。
五、多模型常态化,自托管与微调的现实选择
1. 多模型是现实,不是“架构理想”
超过三分之二的组织在用 OpenAI GPT 模型,但超过四分之三的团队在生产或开发中同时使用多个模型。 团队越来越倾向于按任务复杂度、成本、延迟等维度,将不同任务路由给不同模型,而不是被一个平台锁死。
2. 自托管 & 开源模型:战略位阶在提升
约三分之一的组织正在投入基础设施与人才,部署自有模型。 这背后的驱动力包括:高并发场景下的成本优化、数据驻留与主权要求、以及监管严格行业的合规约束。
3. 微调:只属于“高价值少数场景”
57% 的组织并不做微调,而是采用“基础模型 + 提示工程 + RAG”的组合; 微调被保留给少数高价值或高度垂直化的用例,因为它需要在数据采集与标注、训练基础设施、持续维护等方面投入大量资源。
六、给正在搭智能体的团队的三点建议
结合这份报告,对在做或准备做智能体的团队,有三点尤其值得行动:
从“小而刚需”的场景切入,而不是从“超级大脑”开始。
内部知识问答、客服辅助、流程自动化等,都具备高频、可闭环、可度量的特点,是天然的智能体土壤。 把“可观测 + 评估”当作首日工程需求,而不是事后补救。
及早建立 tracing、日志、对话重放、离线+在线评估、用户反馈与 A/B 机制,未来迭代才有“路标”和“仪表盘”。 接受“多模型 + 非确定性”的现实,用工程手段而不是幻想“完美提示”。
用多模型路由、上下文工程、工具调用、回退策略、人工兜底等手段,把不确定性“装进轨道”,而不是指望一次提示写到完美。
如果说 2023 是大模型爆发之年,2024–2025 是应用探索与试点之年,那么 2026,很大概率会被记住为:智能体工程化的成型之年。真正的竞争,不再是谁先接上模型,而是谁先搭起一套能持续“构建–观测–评估–迭代”的智能体工程体系。
最后:
LangChain《State of Agent Engineering》原文链接:
https://www.langchain.com/state-of-agent-engineering#introduction
这里也免费提供给大家一套学习资料(持续更新),《LangChain最新V1.x全家桶LangChain+LangGraph+DeepAgents开发经验分享》:https://github.com/NanGePlus/LangChain_V1_Test
也可以在点击【阅读原文】直接观看视频

