作者:来自 Elastic Rusty Searle
正在阻碍企业 AI 智能体落地的 5 个数据基础与技术栈缺口
我们已经跨越了企业技术中的一个关键临界点。行业正在从 “仅仅提出建议的 AI 助手” 转向 “能够代表我们自主执行操作的 AI 智能体(AI agents)”。
这种演进带来了巨大的效率提升潜力,但也给技术领导者带来了新的困境。CIO 们一方面承受着董事会推动采用自治系统的压力,另一方面又隐隐担忧:现有的底层基础设施是否完全无法支撑这种转变。
那些能够在智能体 AI 时代取得成功的组织,并不是急于构建智能体本身,而是在构建任何自治系统都必须依赖的基础能力。
作为 Elastic 企业技术与创新高级总监,我亲眼见证了正确的基础架构如何将 AI 项目从昂贵的实验转变为可扩展的解决方案。例如,在我们最近启用笔记本电脑更新自动化时,我们很快发现,在更大范围推广智能体之前,数据需要更高的精度。因此,我们正在构建一个资产管理系统,用以提供支撑规模化所需的结构化基础。解决这些缺口,才能确保你的投入真正产生业务价值。
缺口 1:数据可访问性与数据质量
缺口 2:上下文工程能力
缺口 3:遗留系统集成挑战
缺口 4:AI 性能监控不足
缺口 5:治理与组织结构缺失
缺口 1:数据可访问性与数据质量
高质量数据是有效 AI 的基础。如果缺乏高质量数据,即使是最先进的模型也会产生不准确或无关的结果,从而破坏用户信任。
数据必须是准确的、干净的,并在明确治理机制下进行管理。你可以把所有数据都喂给 AI 工具,但如果质量不达标,输出结果就无法反映真实情况。
自治智能体需要完整、实时的数据来做决策。当数据分散在 50 个不同系统中,并且质量标准不一致时,AI 必然会产生幻觉或失败。
组织需要能够实时摄取、处理和检索数据的系统,同时满足安全与合规要求。数据质量差或数据孤岛最终都会反映在 AI 输出中。
为了解决数据可访问性这一缺口,必须实施以下方案:
构建统一的数据访问层:通过单一平台连接所有关键数据源。
部署实时数据管道:替代批处理模式。
建立自动化数据质量监控:在数据进入模型之前发现错误。
引入语义搜索能力:使智能体能够基于概念而不仅仅是关键词进行检索。
缺口 2:上下文工程能力
大语言模型(LLM)能力很强,但它们存在一个根本性限制。LLM 的性能并不仅仅取决于其静态内部知识(这些知识在训练完成后就被冻结了)。
它在实际应用中的成功,关键取决于推理时刻提供的外部信息与工具。如果模型无法原生访问你实时的专有数据,它就会生成看似合理但实际上错误的信息。
这正是 上下文工程(context engineering)变得至关重要的原因。为了让模型能够获取最相关的上下文,团队需要使用先进的搜索技术,将用户查询意图与源系统中的相关上下文进行匹配。
如果缺乏准确的上下文,智能体就会失败:要么产生幻觉,要么选择错误工具,要么偏离原始目标。当这些错误在多轮交互中不断累积时,就会发生上下文污染(context poisoning)。
要构建完整的上下文工程体系,需要:
实现检索增强生成(RAG):
这是一种让 AI 在推理时从知识库(例如企业内部文档或公开网站)中 “即时检索” 外部数据的方法。RAG 使 AI 能够基于未参与训练的信息回答问题,从而确保输出既及时又准确。策略性管理记忆:
短期记忆:使用检查点(checkpointers)保存当前会话状态。
长期记忆:将跨会话信息持久化到合适的数据存储中。
引入裁剪、摘要与相关性过滤机制。
优化工具可用性:
在保证覆盖能力的前提下尽量减少工具数量。考虑基于 RAG 的工具选择机制,以避免 “工具混乱”(工具过多反而降低准确性)。对输出进行排序以优化内容呈现:
如 Jina Reranker 这类工具会根据查询与内容的真实匹配程度对检索结果重新排序,用更精确的相关性排序替代粗略的相似度匹配,从而确保更可靠的信息优先呈现。
缺口 3:遗留系统集成挑战
企业在长期发展过程中积累了大量架构妥协,这使得构建企业级 AI 变得极其困难。遗留基础设施与过时系统严重限制了现代智能体的能力。
AI 智能体需要既能从系统中检索上下文,又能在系统中执行操作。当遗留系统缺乏标准化接口时,智能体就无法顺畅与企业环境交互。
如果缺乏合理的集成架构,企业将陷入两难:要么从零构建定制 AI 系统,要么依赖碎片化的 SaaS AI 功能,而这些功能与企业上下文仍然割裂。
我们需要一个能够连接所有分布式源系统上下文的稳定企业架构。现代集成层对于自治化运行是不可或缺的。
通过以下方式应对遗留系统集成挑战:
构建稳定的企业架构:确保连接所有分布式源系统与 SaaS 应用的上下文。SaaS 应用仍然有其价值,因为它们提供特定场景知识、工作流引擎以及系统记录能力。
实现上下文检索机制:从 SaaS 应用中提取知识,构建具备上下文感知能力的 AI 应用。
渐进式现代化:不要试图一次性替换所有遗留系统。可以像 Elastic 一样,将 LangChain 等工具作为 AI 编排库使用,从而构建更结构化的框架,并自然继承原生系统的访问控制与上下文能力。
建立 AI / 机器学习集成体系:使用 Elasticsearch 平台等平台化能力,让团队快速接入偏好的 LLM 和 AI 开发框架,加速开发流程。
缺口 4:AI 性能监控不足
组织通常缺乏对其 AI 系统在生产环境中实际表现的可见性。如果没有强大的性能管理能力,IT 团队就无法获得透明度,也无法信任这些自治化体验的输出结果。
AI 智能体前所未有的能力,也带来了前所未有的复杂性。我们正在部署的系统可能在一分钟内撰写出极其出色的商业提案,而下一分钟却可能“幻觉”出一整个法律案例。
大语言模型本质上是黑盒且具有非确定性。这会在可靠性、成本、质量与安全等多个维度带来严重挑战,而传统监控方式无法有效应对这些问题。
模型的延迟与资源消耗会随着输出长度与复杂度不可预测地波动。在输出高度不稳定的情况下,token 消耗和基础设施成本可能在没有预警的情况下失控。
将可观测性引入 AI 架构,需要三个关键组件:
通过应用性能监控(APM)跟踪性能:
确保能够观测支撑 AI 应用的服务与基础设施,从而在影响用户之前快速定位瓶颈。部署 LLM 可观测性:
提供关于 AI 模型性能、上下文准确性与使用模式的关键业务洞察,包括按用例对对话进行分组分析。加入云监控能力:
关联云基础设施的性能与成本,快速诊断与基础设施相关的性能瓶颈。
缺口 5:治理与组织结构缺失
除了技术层面的挑战之外,组织还面临文化与结构性问题,这些问题会阻碍创新。遗留流程、影子 IT 以及不一致的治理模型都会降低效率,并增加 AI 智能体落地的风险。
AI 无法仅作为 IT 部门的项目成功。当业务部门参与需求定义并维护数据质量时,AI 项目才能真正推动组织的战略目标。
如果缺乏适当的治理与组织协同,安全漏洞会在无声中不断累积。这种技术债务来自多年累积的小型安全妥协,以及长期未被替换的遗留系统。
当 AI 被当作 “即插即用” 的新奇工具时,它只会停留在 “新奇” 阶段;当它被作为由强治理支撑的战略能力来建设时,它将成为组织生产力的巨大倍增器。
为确保长期成功,需要建立以下组织结构与流程:
指定 AI 负责人(AI champion):
成功的 AI 实施需要一个单一职责的领导者来推动整体愿景,并配备一个目标明确、可衡量成果的核心团队。建立卓越中心(Center of Excellence):
从核心团队开始逐步扩展。在 Elastic,我们在明确用例负责人后,AI 成果显著加速,随后扩展为一个小型 AI 卓越中心。建立数据治理框架:
通过数据契约建立责任机制,并结合数据网格(data mesh)方法提升数据质量与可访问性。建立安全协议:
使用 AI 驱动工具自动化威胁检测、简化漏洞分析,甚至承担部分日常安全文档工作。
通过稳定的企业架构,将你的 AI 愿景转化为业务价值
要规模化推进 AI 项目,现代化投资、组织变革以及战略性 AI 部署必须同步进行。
当你逐步解决数据可访问性、上下文工程、系统集成、监控以及治理方面的缺口时,你的基础设施就会发生转变:从一个脆弱的环境,升级为面向未来的坚实底座。
向智能体 AI 的转型需要清晰的业务目标、干净可靠的数据基础,以及稳健的人类监督机制。通过今天对架构的准备,你可以确保未来的自治系统能够带来清晰的投资回报。
准备好将这些经验付诸实践并改造你的基础设施了吗?阅读《构建可扩展生成式 AI 应用的 8 个步骤》,确保你的下一个项目能够交付可衡量的成果。
本文中描述的任何功能或发布时间均由 Elastic 全权决定。任何当前不可用的功能或能力,可能无法按时交付,甚至可能不会交付。
本文可能引用或使用了第三方生成式 AI 工具,这些工具由各自所有者拥有并运营。Elastic 对这些第三方工具不具有控制权,也不对其内容、运行或使用承担任何责任或义务,包括因使用这些工具而可能产生的任何损失或损害。请在使用 AI 工具处理个人、敏感或机密信息时保持谨慎。你提交的任何数据都可能被用于 AI 训练或其他用途,无法保证其安全性或保密性。在使用任何生成式 AI 工具之前,请仔细阅读其隐私政策与使用条款。
Elastic、Elasticsearch 以及相关标识均为 elasticsearch B.V. 在美国及其他国家的商标、徽标或注册商标。其他公司及产品名称均为其各自所有者的商标、徽标或注册商标。
原文:5 data foundation and technology stack gaps stalling your AI agents | Elastic Blog