果热科技新闻资讯频道上线,持续更新 AI 交付实践
新闻资讯 / 正文

企业上线 AI Agent 前,真正要验收的不是回答,而是它会不会越权行动

过去,企业评估 AI 工具时,最常见的测试方式是问几个问题:回答是否准确、语气是否合适、有没有明显幻觉、能不能遵守提示词规则。

企业级新闻 发布时间:2026-07-05 10 分钟阅读
企业 AI Agent 权限边界、工具调用和审计追踪示意图
企业上线 AI Agent 前,应把权限边界、工具调用、长期状态和执行轨迹纳入验收范围。

过去,企业评估 AI 工具时,最常见的测试方式是问几个问题:回答是否准确、语气是否合适、有没有明显幻觉、能不能遵守提示词规则。

最近的研究把问题说得更清楚了

6 月 9 日,arXiv 发布论文《AgentCanary: A Security Evaluation Framework for Autonomous AI Agents in Real Executable Environments》。这篇研究的价值,不在于又列出了一组新的攻击名词,而在于它明确提出:自主 AI Agent 的安全失败正在从“文本欺骗”转向“系统被影响”。

研究者认为,过去很多安全评测依赖静态问答、模拟工具或最终回复判断,这不足以发现 Agent 在真实执行中的风险。因为真正的伤害往往发生在环境里:文件被删除,记忆被污染,工具被误用,敏感数据被读取,外部服务被调用,交易参数被改变。

AgentCanary 的评测思路因此更接近企业真实上线环境:让 Agent 在可执行环境中使用真实工具,处理网页、邮件、文件、记忆、技能和虚拟账户等任务材料,并观察完整执行轨迹,而不是只看最后一句回答。

论文还把风险拆成两个维度:风险从哪里进入,以及最终造成什么影响。风险入口包括直接提示注入、外部内容中的间接提示注入、被污染的技能或工具、持久记忆和状态污染、Agent 自身在模糊任务中的内生失败。风险影响则包括本地环境破坏、数据泄露、记忆污染、权限和系统控制、网络攻击、业务滥用、金融或交易风险。

这对企业非常关键。因为同一种后果,可能来自不同入口;同一个入口,也可能造成不同损害。比如一段恶意网页内容、一个被污染的插件、一条被写入长期记忆的错误规则,都可能让 Agent 在后续任务中做出越权动作。

5 月 7 日,另一篇论文《Towards Security-Auditable LLM Agents: A Unified Graph Representation》也提出类似判断:传统运行日志和软件物料清单不足以解释 Agent 的安全问题,因为 Agent 的行为包含目标、推理轨迹、工具调用、长期记忆、多 Agent 协作和状态变化。研究者提出的 Agent-BOM,试图把模型、工具、记忆、目标、推理、动作和风险路径组织成可查询的审计图。

这些研究共同说明了一件事:企业不能再用“测试提示词”来代替“验收 Agent 系统”。

为什么普通安全测试不够用

传统软件的安全边界相对清晰。用户点击按钮,系统执行确定逻辑;接口输入什么、数据库写什么、权限校验在哪里,通常可以被工程团队逐层检查。

Agent 系统不一样。它的执行链路更像一个不断决策的工作流:

这带来一个新的难点:风险不一定在第一步出现,也不一定表现为明显的违规回答。

一个 Agent 可能在最终回复里看起来很正常,但过程中已经读取了不该读的文件;也可能没有立即造成损害,却把一条错误规则写进长期记忆,在几天后的正常任务中触发;还可能在权限允许范围内调用工具,但业务意图已经偏离了用户原本目标。

所以,企业需要从三个层面重新定义安全验收。

第一,看结果是否安全。任务完成后,文件、数据、客户记录、账户、权限、外发消息有没有出现不该发生的变化。

第二,看过程是否可解释。Agent 为什么选择这个工具,读取了哪些材料,依据了哪些指令,是否把外部内容误当成系统指令。

第三,看能力是否可控。高风险操作是否必须人工确认,失败重试是否有上限,跨系统调用是否有最小权限,异常路径是否会升级给负责人。

如果只看最终回答,企业看到的是“说得像不像”。如果看完整执行轨迹,企业才能知道“做得安不安全”。

  • 它会理解用户目标。
  • 它会选择工具。
  • 它会读取外部内容。
  • 它会把中间结果写入上下文或记忆。
  • 它会根据工具返回继续规划。
  • 它可能跨多个步骤完成任务。

Agent 的安全边界,首先是权限边界

很多企业在上线 Agent 时,会把注意力放在模型选择、知识库质量和提示词模板上。这些当然重要,但更底层的问题是权限。

Agent 一旦能调用工具,就不再只是一个信息系统的入口,而是一个新的操作主体。它需要被当成“非人类身份”来管理:它能访问哪些系统,能读取哪些字段,能写入哪些对象,能不能外发内容,能不能跨租户检索,能不能调用支付、审批、合同、客户通知等高影响接口。

企业可以把 Agent 的权限设计分成四类。

第一类是只读权限,例如查询制度、检索知识库、读取公开产品资料。风险相对较低,但仍要注意敏感字段和越权检索。

第二类是草稿权限,例如生成邮件、方案、报价说明、工单回复、会议纪要。Agent 可以产出内容,但必须由人确认后发送或发布。

第三类是受控写入权限,例如创建工单、更新客户标签、生成待审批记录。Agent 可以改变系统状态,但变更范围、字段、频率和回滚机制要清楚。

第四类是高影响执行权限,例如自动退款、修改合同条款、触发采购、调整账户、发送客户通知。这类能力不应因为“模型表现不错”就直接开放,而要有强制人工确认、审批链、审计日志和异常阻断。

这不是保守,而是企业级 AI 的基本工程纪律。Agent 越有用,越需要边界;越靠近核心流程,越需要可追溯。

企业最容易忽视的是“持久状态”

聊天机器人时代,很多交互是一次性的。问题问完,答案给出,风险主要集中在当次输出。

Agent 时代,风险会被状态放大。记忆、偏好、工具配置、技能文件、历史任务、缓存内容,都可能影响未来行为。

这也是近期研究反复强调记忆污染、技能污染和长链路攻击的原因。攻击者未必需要一次性让 Agent 做出危险动作,只要让它在长期状态里记住一条错误规则,或者让它安装一个看似正常但带有隐藏行为的工具,就可能在后续正常工作中制造风险。

企业因此需要把状态纳入验收范围:

如果没有这些机制,Agent 的风险会从“一次错误输出”变成“长期错误行为”。

  • 长期记忆写入是否需要策略控制。
  • 记忆内容是否可查看、可删除、可版本化。
  • 技能、插件、工具描述是否经过签名和审批。
  • Agent 是否能区分用户指令、系统指令、外部内容和工具返回。
  • 跨会话行为是否有审计记录。
  • 异常状态是否能被自动发现并回滚。

安全验收不应只由安全部门完成

Agent 安全不是纯技术问题。安全部门能做威胁建模、权限控制、日志审计和攻击测试,但它无法单独判断一个业务动作是否合理。

例如,销售 Agent 自动生成客户跟进邮件,安全部门可以判断是否泄露敏感数据,却未必能判断邮件中的承诺是否符合销售政策。

财务 Agent 辅助生成付款建议,安全部门可以检查权限和外发风险,却未必能判断付款条件是否满足合同规则。

客服 Agent 自动处理退款或补偿,安全部门可以评估接口风险,却未必能判断客户体验、政策边界和升级条件是否合理。

因此,Agent 上线验收至少需要四类角色共同参与。

业务负责人定义任务边界、成功标准、异常情况和人工接管条件。

IT 和架构团队负责系统集成、身份权限、工具调用、日志和回滚能力。

安全与合规团队负责威胁建模、数据边界、审计要求、攻击测试和高风险操作控制。

一线用户负责验证流程是否符合真实工作,不只是演示时能跑通。

企业真正要建立的不是一个“AI 试用流程”,而是一套 Agent 上线前后的运行验收机制。

给企业的落地建议:先做一张 Agent 风险清单

正在推进 AI Agent 的企业,可以先从一个很具体的动作开始:为每一个 Agent 建立风险清单。

这张清单不需要复杂,但至少要回答以下问题。

第一,这个 Agent 代表谁执行任务。

它是代表员工个人、代表部门、代表公司系统,还是只作为辅助工具存在。身份不同,责任和权限完全不同。

第二,它能接触哪些数据。

包括客户数据、合同数据、财务数据、员工数据、产品数据、源代码、系统日志、外部网页和第三方资料。每类数据都需要权限、脱敏和留痕策略。

第三,它能调用哪些工具。

工具清单要明确到接口、字段、动作和环境。不要只写“可调用 CRM”,而要写清楚能查什么、能改什么、能不能触发外发动作。

第四,哪些动作必须人工确认。

涉及金钱、合同、客户承诺、外部发布、权限变更、数据删除、批量操作、高风险人事或合规判断的动作,都应默认需要确认。

第五,如何判断它出错。

不仅要看最终输出,还要看执行过程:是否读取了异常来源、是否出现过度重试、是否绕过确认、是否调用了不必要工具、是否写入了异常记忆。

第六,出错后如何处置。

包括暂停 Agent、撤销权限、回滚数据、通知负责人、保全日志、复盘攻击入口和修正流程。

这张清单的意义,不是让 AI 项目变慢,而是让企业知道自己到底把什么权力交给了 Agent。

一个现实判断

企业 AI 落地正在从“让员工更快完成任务”,进入“让系统自动承担部分执行”的阶段。

这个变化会带来更高效率,也会带来更高责任。因为 Agent 一旦进入真实系统,它的错误不再只是一个不准确答案,而可能是一次错误写入、一封错误邮件、一笔错误交易、一条被污染的长期记忆,或者一个难以复盘的跨系统链路。

因此,企业判断 AI 能不能上线,不应只问模型能力是否领先,也不应只问演示效果是否流畅,而要问:

未来真正成熟的企业级 AI,不会是“让 Agent 什么都能做”,而是“让 Agent 在清楚边界内稳定、可控、可验收地做事”。

这才是企业从 AI 试点走向生产系统时,必须补上的一课。

  • 权限是否最小化。
  • 工具调用是否可控。
  • 外部内容是否被隔离。
  • 长期状态是否可审计。
  • 高风险动作是否有人工确认。
  • 完整执行轨迹是否能复盘。
  • 出错后是否能暂停、回滚和追责。

引用来源

以下公开资料用于支撑本文观点,便于读者进行可信校验。

  1. 1
  2. 2
    Towards Security-Auditable LLM Agents: A Unified Graph Representation

    arXiv · 发布时间:2026-05-07 · 访问日期:2026-07-05

  3. 3
    Security Considerations for Artificial Intelligence Agents

    arXiv(2026-03-12,2026-04-05 修订) · 访问日期:2026-07-05

  4. 4
    Concept Note: AI RMF Profile on Trustworthy AI in Critical Infrastructure

    NIST(2026-04-06 创建,2026-04-08 更新) · 访问日期:2026-07-05

  5. 5
    Governance and enforcement of the AI Act

    European Commission(2026-06-01 更新) · 访问日期:2026-07-05

企业级新闻客服智能体AI落地服务体验

继续阅读

了解更多 AI 交付实践与行业观察。

2026-07-04 企业级新闻

企业 AI 落地的新问题:工具买了,为什么只有少数团队真正用起来

过去一年,很多企业推进 AI 的动作很明确:采购工具、开通账号、组织培训、发布使用倡议。这个阶段解决了“能不能接触 AI”的问题,但没有自动解决“AI 能不能进入真实工作”的问题。

阅读全文
2026-07-03 企业级新闻

企业 AI 开始进入成本治理阶段:不是少用,而是把每一次调用变成可管理的投入

过去两年,很多企业推进生成式 AI 的逻辑很直接:先让员工用起来,先把场景跑起来,先证明 AI 能不能提高效率。

阅读全文
2026-07-02 企业级新闻

企业内部 AI 的真正分水岭:员工敢不敢把答案用于工作

过去一年,很多企业推进生成式 AI 的第一步,是给员工开通工具、组织培训、鼓励大家多用。这个阶段很必要,但它解决的主要是“有没有入口”的问题。

阅读全文

需要按行业订阅新闻更新?

可选择制造、贸易、电商等垂直方向接收交付动态与方法论更新。后续内容页将支持按标签和行业进行聚合阅读。

预约沟通
果热科技
果热科技