发布信息

当 57% 公司把 AI 智能体推上生产线,我们看到了什么?

作者:本站编辑      2026-01-21 15:24:24     0
当 57% 公司把 AI 智能体推上生产线,我们看到了什么?

LangChain 在年底发布了《State of Agent Engineering》(AI Agent 现状报告),在文末获取原文链接。

这份对 1300+工程师、产品经理及企业高管的深度调研显示:AI 智能体已经大规模进入生产,真正决定成败的,不再是“有没有模型”,而是能不能把智能体工程化


一、从“要不要做”到“怎么做好”

  • 57.3% 的团队已经在生产环境中部署了智能体,另有 30.4% 正在开发并有明确上线计划,较去年的 51% 有明显增长。
  • 在 1 万人以上的大型组织中,这个比例更高:67% 已经在生产中,24% 在积极开发,说明大企业正更快从试点走向“耐久系统”。

关键转变多数组织不再纠结“要不要上智能体”,真正的问题变成了——什么时候上?怎么稳?怎么规模化?


二、智能体都在用来干什么?

1. 两大主战场:客服 + 研究分析

  • 客户服务是当前最主流的智能体用例,占比 26.5%;研究与数据分析紧随其后,占比 24.4%,两者合计超过一半的主部署场景。
  • 客服的强势,意味着越来越多团队把智能体直接“推到用户面前”;同时,18% 的团队用智能体做内部流程自动化,提升员工效率。

在 1 万人以上的大企业里,内部生产力则成为首要用例,占 26.8%,客服与研究分析分列其后(24.7%、22.2%),反映出大企业更倾向先在内部把效率抬上去。

2. 每天真正被“高频使用”的智能体

调研问了一个很有意思的问题:“你日常用得最多的智能体是什么?”

  • 编码智能体
    压倒性领先:Claude Code、Cursor、GitHub Copilot、Amazon Q、Windsurf、Antigravity 等,被频繁提及,用于写代码、调试、造测试、看大代码库。
  • 研究 / 深度研究智能体
    紧随其后:基于 ChatGPT、Claude、Gemini、Perplexity 等,被用来探索新领域、总结长文档、跨源综合信息,常常与编码智能体搭配使用。
  • 自定义智能体
    也迅速兴起:很多团队基于 LangChain / LangGraph 自建内部智能体,用于 QA 测试、知识库搜索、SQL / text-to-SQL、需求规划、客服、工作流自动化等。

也有一部分人坦言,目前只用“聊天”和“写代码”这两类智能体,这说明“智能体无处不在”的广义时代还在早期,但渗透已经非常深入。


三、最大的坑:质量、延迟、安全,而不是成本

1. 质量:唯一不会过时的痛点

  • 质量连续两年被列为生产最大障碍,今年有三分之一的受访者将其视为首要 blocker。
  • 质量涵盖:准确性、相关性、一致性,以及能否维持正确语气、遵守品牌与政策规范。

在 1 万人以上的组织中,大家特别强调两点难题:

  • 幻觉(hallucinations)
  • 输出一致性(同类任务结果前后不一)

再加上大规模场景下的上下文工程与上下文管理,构成了“智能体质量三大难题”。

2. 延迟 & 质量 vs. 速度的取舍

  • 延迟已经成了第二大挑战,20% 的受访者将其列为主要问题。
  • 随着智能体进入客服、代码生成等强交互场景,响应时间直接决定用户体验;多步推理、调用多工具的高级智能体,往往更准,但更慢。

3. 成本关注度反而下降

  • 成本被提及的频率已经低于往年:模型价格下降、效率提升,让团队更愿意为“好用 + 稳定 + 足够快”买单,而不是单纯压预算。

在 2000 人以上的大企业里,第二大顾虑已经从延迟变成了安全:24.9%的受访者将其视为关键问题,超过延迟,反映出合规与数据安全在企业级智能体中越来越核心。


四、工程团队真正需要的新“基建”:可观测 + 评估

1. 可观测性:已经变成“入场券”

  • 89% 的组织已经为智能体实现了某种形式的可观测性,62% 拥有细粒度 tracing,可以看到每一步推理与工具调用。
  • 已经有生产智能体的团队里,这个比例更夸张:94% 有可观测,71.5% 拥有完整 tracing。

这印证了一个智能体工程的基本事实:看不见,就调不了;调不了,就稳不了;稳不了,就谈不上信任与规模化。

2. 评估:还在追赶,但趋势已经很明确

  • 52.4% 的组织会做离线评估,基于测试集去发现回归、在上线前验证行为。
  • 在线评估采用率目前为 37.3%,但在有生产智能体的团队中上升到 44.8%,说明一旦面对真实用户,大家就意识到必须盯着生产数据、实时发现问题。
  • 大部分团队从离线评估起步,再逐渐叠加在线评估;在已经做评估的组织中,近四分之一同时用线上 + 线下两种方式。

在评估手段上,也形成了一个比较稳定的组合:

  • 59.8% 使用人工评审,用于高风险、高复杂度场景。
  • 53.3% 使用 LLM-as-judge,用于规模化评估质量、事实正确性和合规性。
  • 传统的 ROUGE、BLEU 等指标使用极少,因为在开放式智能体交互场景中,“答案不唯一”,这些指标很难真正衡量好坏。

五、多模型常态化,自托管与微调的现实选择

1. 多模型是现实,不是“架构理想”

  • 超过三分之二的组织在用 OpenAI GPT 模型,但超过四分之三的团队在生产或开发中同时使用多个模型
  • 团队越来越倾向于按任务复杂度、成本、延迟等维度,将不同任务路由给不同模型,而不是被一个平台锁死。

2. 自托管 & 开源模型:战略位阶在提升

  • 约三分之一的组织正在投入基础设施与人才,部署自有模型。
  • 这背后的驱动力包括:高并发场景下的成本优化、数据驻留与主权要求、以及监管严格行业的合规约束。

3. 微调:只属于“高价值少数场景”

  • 57% 的组织并不做微调,而是采用“基础模型 + 提示工程 + RAG”的组合;
  • 微调被保留给少数高价值或高度垂直化的用例,因为它需要在数据采集与标注、训练基础设施、持续维护等方面投入大量资源。

六、给正在搭智能体的团队的三点建议

结合这份报告,对在做或准备做智能体的团队,有三点尤其值得行动:

  1. 从“小而刚需”的场景切入,而不是从“超级大脑”开始。

    • 内部知识问答、客服辅助、流程自动化等,都具备高频、可闭环、可度量的特点,是天然的智能体土壤。
  2. 把“可观测 + 评估”当作首日工程需求,而不是事后补救。

    • 及早建立 tracing、日志、对话重放、离线+在线评估、用户反馈与 A/B 机制,未来迭代才有“路标”和“仪表盘”。
  3. 接受“多模型 + 非确定性”的现实,用工程手段而不是幻想“完美提示”。

    • 用多模型路由、上下文工程、工具调用、回退策略、人工兜底等手段,把不确定性“装进轨道”,而不是指望一次提示写到完美。

如果说 2023 是大模型爆发之年,2024–2025 是应用探索与试点之年,那么 2026,很大概率会被记住为:智能体工程化的成型之年真正的竞争,不再是谁先接上模型,而是谁先搭起一套能持续“构建–观测–评估–迭代”的智能体工程体系。

最后:

LangChain《State of Agent Engineering》原文链接:

https://www.langchain.com/state-of-agent-engineering#introduction

这里也免费提供给大家一套学习资料(持续更新),《LangChain最新V1.x全家桶LangChain+LangGraph+DeepAgents开发经验分享》:https://github.com/NanGePlus/LangChain_V1_Test

也可以在点击【阅读原文】直接观看视频

相关内容 查看全部