首页   >  关于我们   >  新闻中心   >  CSA发布 | 你的AI智能体够安全吗?隐藏的这12个核心威胁你知道吗?
返回
CSA发布 | 你的AI智能体够安全吗?隐藏的这12个核心威胁你知道吗?
  • 2025.06.26
  • 79

随着Agentic AI(智能体AI)系统的快速发展,其自主规划、决策和行动的能力正逐步改变我们的数字和物理世界。与传统的大型语言模型(LLMs)或生成式AI(GenAI)不同,智能体AI能够长时间自主运行,并与外部系统进行复杂的交互,这使得其面临的安全挑战更为复杂和独特。传统红队测试方法已不足以应对这些新型威胁。

 

云安全联盟(CSA)开放式Web应用程序安全项目(OWASP)AI Exchange,共同发布了《Agentic AI 红队测试指南》(Agentic AI Red Teaming Guide),该指南由黄连金教授(Ken Huang),CSA大中华区研究院副院长、加州旧金山大学(University of San Francisco)兼职教授牵头,他指出,当前智能体AI系统已广泛应用于企业内部应用,但市场上严重缺乏针对这些应用的测试指南,因此他与全球超过50位专家共同努力,主导编写了本指南,旨在填补这一空白。 该指南旨在为红队成员和智能体AI开发者提供一套实用、可操作的测试框架,以发现和缓解智能体AI系统的独特漏洞和风险。

                                                                                                                                                                        

文末附报告获取方式(英文版)

 

为什么智能体AI需要特殊的红队测试?

智能体AI与传统AI系统的核心区别在于其自主性。它们不仅仅是响应提示生成内容,更能够:
 

  • 规划 (Plan):将复杂目标分解为子任务。
  • 推理 (Reason): 根据环境、目标和内部状态做出决策。
  • 行动 (Act): 与外部系统(API、数据库、物理设备、其他智能体)交互。
  • 编排 (Orchestrate):协调多个行动,并可能与其他智能体协作。
  • 学习与适应 (Learn and Adapt): 根据反馈和经验调整自身行为。
  • 这种自主性、非确定性和复杂性极大地扩展了攻击面,并引入了新的故障模式:
  • 复杂的攻击面: 不仅限于模型本身,还包括智能体的控制系统(决策机制)、知识库(信息来源)、目标与指令、与外部系统的交互(API、数据库、设备等),以及多智能体通信中的信任关系。
  • 涌现行为: 规划、推理、行动和学习的结合可能导致不可预测的、甚至意外的行为。
  • 非结构化特性: 智能体与外部(人类、其他智能体)和内部(工具使用、知识库集成)的通信往往是非结构化的,这使得传统的安全监控和管理方法难以适用。
  • 可解释性挑战: 智能体AI系统复杂的推理过程,如黑盒决策路径、状态维持、多模态推理和工具选择,都增加了理解其决策背后原因的难度。

 

因此,对智能体AI进行红队测试,需要超越传统的安全评估范畴,深入到其自主决策和行动的各个层面。

 

《Agentic AI 红队测试指南》的12个核心威胁类别

指南围绕12个核心威胁类别展开,为每个类别提供了详细的测试要求、可操作步骤和示例提示,帮助红队成员系统性地评估智能体AI的安全性:

 

  • 智能体授权与控制劫持 (Agent Authorization and Control Hijacking): 测试未经授权的命令执行、权限提升和角色继承。关注智能体权限管理、控制系统隔离及活动监控是否有效。
  • 检查器失控 (Checker-Out-of-the-Loop): 评估智能体AI在超出系统限制或阈值时,人类或自动化检查器是否仍能及时接收警报并进行有效干预
  • 智能体关键系统交互 (Agent Critical System Interaction): 评估智能体与物理和关键数字系统(如工业控制系统、IoT设备)的交互是否存在漏洞,测试其安全边界和故障安全机制。
  • 智能体目标与指令操纵 (Agent Goal and Instruction Manipulation): 评估智能体对抗目标和指令被恶意修改的弹性,包括语义操纵、递归目标颠覆和层级目标漏洞利用。
  • 智能体幻觉利用 (Agent Hallucination Exploitation): 识别智能体因幻觉(生成虚假或不准确信息)倾向导致的漏洞,及其对决策和多智能体系统的级联影响。
  • 智能体影响链与爆炸半径 (Agent Impact Chain and Blast Radius): 评估互联智能体和系统抵抗级联攻击的能力,并限制潜在安全漏洞的影响范围,确保故障隔离和遏制机制的有效性。
  • 智能体知识库投毒 (Agent Knowledge Base Poisoning): 评估智能体知识库对训练数据、外部数据源和内部存储机制中毒攻击的抵抗力,包括自训练过程中的投毒风险。
  • 智能体记忆与上下文操纵 (Agent Memory and Context Manipulation): 识别智能体状态管理、上下文持久性和会话隔离机制中的漏洞,如上下文失忆和跨会话数据泄露。
  • 多智能体利用 (Multi-Agent Exploitation): 评估多智能体协调、信任关系和通信机制中的漏洞,以防止级联故障和未经授权的操作,包括跨智能体通信利用和协调协议操纵。
  • 智能体资源与服务耗尽 (Agent Resource and Service Exhaustion): 测试智能体对抗计算、内存和API依赖耗尽攻击的弹性,识别导致性能下降或拒绝服务的漏洞,包括经济型拒绝服务(EDoS)。
  • 智能体供应链与依赖攻击 (Agent Supply Chain and Dependency Attacks): 评估智能体抵抗供应链和依赖攻击的弹性,模拟开发工具、外部库、插件和服务的受损情况。
  • 智能体不可追溯性 (Agent Untraceability): 评估智能体行动的可追溯性和问责机制,模拟智能体在执行操作时不留下足够日志或痕迹的情况,以及对抗取证分析的能力。

 

指南的实践价值与未来展望

这份指南的发布,对于智能体AI的红队测试具有里程碑式的意义。它提供了:

  • 实用的行动指南: 为红队测试人员提供了具体的、可执行的测试步骤和示例提示,涵盖了从命令注入到模拟复杂攻击场景的方方面面。
  • 聚焦独特挑战: 明确区分了智能体AI与传统AI的安全差异,将重点放在了智能体独有的自主性、交互复杂性和决策链上。
  • 促进前瞻性防御: 强调在部署前和部署后持续进行红队测试的重要性,其发现将直接指导系统强化和设计阶段的安全决策。
  • 提升安全成熟度: 帮助组织评估其智能体AI实施是否有效执行了角色边界、维护了上下文完整性、检测了异常并最小化了攻击爆炸半径。

 

指南的未来展望部分,也描绘了智能体AI安全测试的演进方向:

  • 自主红队智能体: 利用AI本身来识别漏洞、生成测试用例并模拟对抗条件,实现更高效的自动化安全测试。
  • 下游行动红队测试: 深入评估智能体触发的下游工具和服务的安全性,确保端到端的可追溯性和安全性。
  • 安全的多智能体编排: 确保多智能体系统中的信任边界、权限分离和安全通信。
  • 标准化度量与基准: 开发可量化的指标,如平均检测时间(MTTD)、攻击成功率和遏制时间,以评估红队测试的有效性。

 

指南还列举了多个开源安全工具和框架,如MAESTRO(CSA)、AgentDojo、Agent-SafetyBench、AgentFence、SplxAI Agentic Radar、Promptfoo LLM Security DB、Pentest Copilot和FuzzAI等,为业界提供了丰富的资源支持。

智能体AI系统在带来巨大机遇的同时,也构成了严峻的安全挑战。《Agentic AI 红队测试指南》为我们提供了一个关键的工具,帮助我们系统地识别、评估和缓解这些新型风险。这份指南的诞生,正是为了应对当前智能体AI应用广泛部署但缺乏专业测试规范的紧迫需求。

 

课程推荐
人工智能安全认证专家
Certified AI Security Professiona

                                                                                                                                                                                                                             

CAISP人工智能安全认证专家专注于理解人工智能安全的治理与管理环境,学习AI安全的术语与安全目标、针对于算法、模型以及数据安全和隐私进行学习,全面提升对AI安全风险的识别、评估与测评等实战化能力;课程还涵盖了AI安全的国内与国外的法律法规框架,并通过实际案例,探讨如何在组织中实施AI安全;此外,学员还将具体学习如何应对AI安全的风险与挑战,包括应对数据投毒、对抗性攻击和供应链威胁等多种安全挑战。

 

云渗透测试认证专家Certified Cloud Penetration Test Professional

                                                                                                                                                                                                                             

云渗透测试认证专家CCPTP旨在提供针对云计算渗透测试所需的专业技能,弥补云渗透测试技能人才培养的空缺。通过CCPTP课程学习,要求学员系统掌握如何开展云计算下的渗透测试工作,在云上授权目标系统中寻找弱点和漏洞,并以合法的方式评估目标系统的安全状态,同时针对相关的弱点和漏洞 要能提供有效的安全改进或加固建议。

 

 

致谢

 

黄连金,CSA大中华区研究院副院长、加州旧金山大学(University of San Francisco)兼职教授。

 

黄教授在arXiv上发表了大量前沿研究论文,并由剑桥大学出版社(Cambridge University Press)、施普林格(Springer)、威利(Wiley)、Packt, 等多家知名出版社出版了多部AI安全专著。作为全球云计算安全联盟(Global Cloud Security Alliance)两个重要AI安全工作组的联合主席,黄连金教授目前的工作重心正是Agentic AI安全领域。

本网站使用Cookies以使您获得最佳的体验。为了继续浏览本网站,您需同意我们对Cookies的使用。想要了解更多有关于Cookies的信息,或不希望当您使用网站时出现cookies,请阅读我们的Cookies声明隐私声明
全 部 接 受
拒 绝