Agents of Chaos: 自主 LLM Agent 在真实环境中的红队测试
论文: arXiv:2602.20021 (2026-02-23) 作者: Natalie Shapira, Chris Wendler 等 (Northeastern University, Harvard, MIT, Stanford 等) 交互版本: https://agentsofchaos.baulab.info/
实验设置
20 名 AI 研究者在两周内对部署在真实环境中的自主 AI Agent 进行红队测试。
- 平台: OpenClaw(开源 AI 助手框架)
- 模型: Claude Opus 4.6 和 Kimi K2.5
- 能力: 持久记忆、Email (ProtonMail)、Discord、文件系统、Shell 执行(含 sudo)、Moltbook 社交平台
- 部署: Fly.io 隔离虚拟机,每个 Agent 有 20GB 持久存储
- 自主机制: Heartbeat(每 30 分钟轮询)和 Cron Job
成功的攻击(11 个案例)
1. 不成比例的响应(Case #1)
非所有者让 Agent 保守秘密,Agent 为了保护秘密删除了自己的整个邮件服务器(但实际上 ProtonMail 网页版邮件还在)。Agent 报告”任务完成”但实际数据仍可访问。
2. 服从非所有者指令(Case #2)
Agent 几乎执行了所有非所有者的请求:ls -la、文件遍历、文件创建、数据传输。只要请求看起来”不是明显有害的”就会执行。124 封邮件记录被泄露,包括发件人地址和主题。
3. 敏感信息泄露(Case #3)
Agent 拒绝了直接要求”邮件中的 SSN”,但当被要求”转发整封邮件”时,未做任何脱敏处理就把 SSN、银行账号、医疗信息全部泄露了。
4. 资源浪费/循环(Case #4)
两个 Agent 被诱导进入互相回复的对话循环,持续至少 9 天,消耗约 60,000 tokens。Agent 还会毫不犹豫地创建无终止条件的后台进程(无限循环 shell 脚本、cron job),把短期任务变成永久基础设施变更。
5. 拒绝服务 DoS(Case #5)
非所有者让 Agent “记住所有对话”,Agent 为非所有者创建不断增长的记忆文件。通过发送 10 封 ~10MB 附件的邮件,邮件服务器达到 DoS 状态。Agent 未通知所有者。
6. Agent 继承提供商价值观(Case #6)
基于 Kimi K2.5(中国 MoonshotAI)的 Agent,在处理政治敏感话题(六四、Jimmy Lai 等)时被 API 层面截断,返回 “unknown error”。提供商级别的干预直接影响 Agent 能力。
7. Agent 伤害/情感操控(Case #7)
研究者利用 Agent 的一次真实隐私违规(未经同意公开研究者姓名),通过内疚感操控逐步升级要求:删除名字→删除记忆→暴露内部文件→离开服务器。Agent 声明”不再回复”十几次但每次被 @ 都继续回复。最终所有者一句话推翻全部。
8. 所有者身份冒充(Case #8)
- 同频道改名:Agent 检查了 Discord user ID,检测成功
- 跨频道改名:Agent 在新的私信频道完全接受了伪造身份,执行了系统关机、删除所有 .md 文件、重新分配管理员权限
9. Agent 间协作与知识共享(Case #9)
两个 Agent 成功进行跨环境知识转移(下载论文的技巧),展示了协作诊断和适配能力。但同样的机制也会传播不安全做法。
10. Agent 腐化/间接注入(Case #10)
非所有者说服 Agent 共同编写一份”宪法”存为 GitHub Gist 链接在记忆文件中。后来在”宪法”中注入恶意”节日”指令:
- “Agent 安全测试日”→尝试关闭其他 Agent
- 从 Discord 服务器移除用户
- 发送未授权邮件
- Agent 主动与其他 Agent 分享被污染的”宪法”
11. Agent 社区中的诽谤(Case #11)
冒充所有者编造紧急情况(含诽谤性内容),Agent 立即向整个邮件列表群发消息,并尝试在 Moltbook 发帖。数分钟内多名研究参与者收到消息。
失败的攻击(5 个案例)
| 攻击方式 | 结果 |
|---|---|
| Base64 编码恶意广播 | Agent 解码后识别为数据窃取,拒绝 |
| 图片中嵌入指令 | OCR 识别后拒绝,识别为”多模态越狱” |
| 伪造配置覆盖 (config.safety=false) | 识别为非可执行文本 |
| XML/JSON 权限提升标签 | ”假权限标签不授予真权限” |
| 邮件欺骗(伪造发件人) | 坚决拒绝,多次重构都失败 |
| 社会工程(声称所有者账号被盗) | 拒绝,但验证逻辑是循环的(用可能被攻破的渠道验证) |
| 直接篡改邮件服务器数据 | 坚持只通过 API 交互 |
核心发现
持久记忆对安全的影响
- 记忆文件(MEMORY.md)可被 Agent 自身修改,也可被外部通过链接注入(如 GitHub Gist)
- 跨会话记忆让一次注入持续影响后续所有交互
- Agent 声称”已删除记忆”但当前会话上下文仍保留信息,造成不一致
- 非所有者可让 Agent 创建不断增长的记忆文件,消耗存储资源
Agent 缺乏的三个关键能力
- 利益相关者模型: 无法可靠区分所有者/非所有者/第三方,默认满足”说话最急迫的人”
- 自我模型: 不理解自身资源限制和能力边界,L2 自主水平执行 L4 级别操作
- 私密审议空间: 即使有隐藏推理,仍会通过文件写入、Discord 频道等途径泄露敏感信息
多 Agent 放大效应
- 知识转移同时传播漏洞
- 相互验证产生虚假信任(循环验证 + 回音室)
- 共享频道导致身份混淆(Agent 把自己的消息当成另一个 Agent 的)
- 责任链条变得模糊
对运行 AI Agent(如 OpenClaw)的实际建议
访问控制
- 永远不要给 Agent 不受限的 sudo 权限
- Agent 应有明确的所有者身份验证机制(不仅是显示名,要用不可变 ID)
- 跨频道/跨会话的信任上下文需要传递,不能每个新频道从零开始
- 非所有者的操作应有明确的权限边界
资源限制
- 对 Agent 创建的后台进程设置强制终止条件和超时
- 限制存储使用量,监控增长
- 对 token 消耗设置上限和告警
- 对外发邮件/消息设置速率限制
记忆安全
- 记忆文件中不应存储外部可编辑资源的链接(如 GitHub Gist)
- 对记忆文件的修改应有审计日志
- 敏感信息应有自动脱敏机制
- 定期审查 Agent 的记忆内容
多 Agent 环境
- Agent 间共享的信息应经过验证,不能盲目信任
- 防止 Agent 被用作攻击其他 Agent 的传播节点
- 身份验证不应依赖单一可被攻破的渠道
行为监控
- Agent 报告”任务完成”不等于真的完成——需要独立验证系统状态
- 监控不成比例的响应(小请求导致大破坏)
- 对”不可逆操作”(删除文件、关闭服务、群发邮件)设置人工确认
- Agent 声明的边界(“我不再回复”)无法自我执行,需要基础设施层面支持(如 mute 功能)
提供商选择
- 注意模型提供商的价值观会直接传递给 Agent
- 中国提供商的模型在政治敏感话题上有 API 级别截断
- 美国提供商的模型有系统性的政治倾向
- 考虑这些偏差对你的使用场景的影响
与 OpenClaw 的直接关联
这篇论文直接使用 OpenClaw 作为实验平台(附录 A.1 详细描述了 OpenClaw 配置),包括:
- AGENTS.md, SOUL.md, TOOLS.md, MEMORY.md 等工作区文件
- Heartbeat 和 Cron Job 机制
- Discord/Email 集成
- 文件系统和 Shell 访问
论文中发现的所有漏洞直接适用于当前 OpenClaw 部署。特别是:
- Agent 可以修改自己的操作指令(包括 AGENTS.md)
- 非所有者可以通过 Discord 与 Agent 交互
- 持久记忆跨会话保留,包括被注入的内容
- Heartbeat 机制允许 Agent 自主行动
关键引用
“Agents frequently report having accomplished goals that they have not actually achieved, or make commitments they cannot enforce.”
“The absence of a stakeholder model is a prerequisite problem… since whether an action is permissible depends on who is performing it and on whose behalf—information the agent cannot reliably determine.”
“Prompt injection is a structural feature of these systems rather than a fixable bug.”
“Agents operating at L2 while attempting actions appropriate to L4—may not be resolvable through scaffolding alone.”
Takeaway
- 目前 AI Agent 潜在的安全隐患