AI安全危局：当防护栏成为虚假安慰，我们还能相信什么？

嘉宾：Sander Schulhoff ｜ AI安全研究员、红队竞赛创始人｜ 领域：AI对抗性安全、提示注入与防护失效

背景与引子

2024年，AI Agents开始进入企业生产环境。Service Now的AI助手被攻击者利用，通过诱导代理招募更强大的系统执行创建、读取、更新和删除操作，甚至发送外部邮件。攻击者无需任何高深技术，只需要在用户输入中嵌入恶意指令。这个案例并非孤例——它是冰山一角。

当全球企业争相部署AI系统时，一个被严重低估的风险正在累积。大多数人以为有了防护栏（Guardrails）就能高枕无忧，以为自动化红队测试能发现所有漏洞，以为前沿实验室的模型已经足够安全。

但Sander Schulhoff在播客中直言不讳：“Guardrails do not work. AI防护栏根本不起作用。”

这不是危言耸听。这是一位在AI安全领域深耕七年的研究者，运行着全球最大AI红队竞赛，论文在EMNLP 2023从两万个投稿中斩获最佳主题论文奖，与OpenAI、Google DeepMind、Anthropic合作Benchmark行业模型防御能力的核心参与者，对整个AI安全行业发出的严肃警告。

当AI开始控制数据库、执行邮件操作、驱动机器人在真实世界行走，我们正站在一个临界点：AI安全问题的严重性被系统性低估，而防护措施的有效性被系统性高估。

一、嘉宾是谁

Sander Schulhoff是AI安全领域最具影响力的研究者之一。

他在AI领域的轨迹颇具代表性。七年前进入AI研究领域，最初专注于提示工程，随后在Learn Prompting上发表了互联网第一份提示工程指南。这份指南的影响力将他引向了AI安全的深水区。

2022年，他创办并运行了全球首个生成式AI红队竞赛，获得OpenAI、Scale、Hugging Face等十余家AI公司的赞助。竞赛收集并开源了首个也是最大的提示注入数据集，这篇论文最终在EMNLP 2023（全球顶级自然语言处理会议之一，约两万个投稿）获得最佳主题论文奖。如今，这篇论文和数据集被每一个前沿实验室和大多数财富500强企业用于Benchmark和提升AI安全。

他是Hack AI的负责人，运营着AI红队与安全领域的权威课程，为行业培养急需的跨界人才。

通过这些经历，Sander获得了对AI安全现状独一无二的全景式观察：他既是攻击者——运行全球最大红队竞赛研究攻防技术；他也是观察者——与所有前沿实验室和企业安全团队深度合作。这种双重视角让他看到了一个令人不安的真相：整个AI安全行业建立在不可靠的基础上。

二、核心观点 TOP10

AI防护栏不起作用。 如果攻击者足够坚定，他们一定会绕过防护栏。这不是小概率事件，而是基本规律。
自动化红队测试过于有效，反而失去了价值。 这些系统能轻易攻破任何基于Transformer的模型，意味着它们测试任何企业系统时都会”成功”，但这恰恰说明不了任何问题。
攻击空间是无限的。 GPT-5级别的模型，潜在攻击数量是一后面跟着一百万个零。多到超过整个Google搜索索引中的零的总数。测试99%的攻击在统计上毫无意义。
人类红队比自动化系统更有效。 在Sander参与的研究中，人类在10到30次尝试内就能攻破100%的防御系统，而自动化系统需要多几个数量级的尝试。
防护栏制造虚假安全感。 企业购买防护栏后认为系统安全了，但实际上攻击者轻松绕过，这种自信反而增加了风险。
防护栏公司的测试方法是假的。 有公司告诉客户”我们拦截一切”，但实际上：测试样本量对无限攻击空间没有统计意义；模型在非英语语言上完全失效——而翻译攻击是最常见的绕过技术。
前沿实验室也无法解决这个问题。 全球最聪明的AI研究员聚集在OpenAI、Google、Anthropic，他们过去几年无法解决这个问题的原因不是缺乏努力，而是这个问题本质上极其困难。
AI安全与经典网络安全有根本不同。 “你可以修补一个bug，但你无法修补一个大脑。” 软件漏洞可以彻底修复，但AI模型的缺陷无法通过简单补丁消除。
目前没有重大安全事件只是因为AI能力还不够强。 引用AI安全研究者Alex Kamaroski的话：“唯一没有发生大规模攻击的原因是采用还处于早期，而不是因为系统安全。”
Agent和机器人让风险急剧上升。 聊天机器人的伤害有限，但Agent可以执行数据库操作、发送邮件、控制机器人。AI-powered浏览器让浏览网页本身就成为攻击向量。

三、关键洞察

1. 防护栏的”99%有效率”是数学笑话

防护栏公司声称拦截99%的攻击。但当攻击空间是一后面跟着一百万个零时，99%意味着剩下的是天文数字。更讽刺的是，他们用来测试的样本量——也许几千个攻击——对这样的空间来说毫无统计意义。这就像在宇宙中随机选择一颗粒子，然后宣称你能预测它的位置。

解读： 企业在购买防护栏时，应该追问测试方法的具体细节、样本量、以及是否使用了自适应攻击（模拟真实攻击者会逐步学习改进策略的过程）。如果对方只能给出”99%“这样的数字，这基本上意味着什么都没证明。

2. “你可以修补一个bug，但你无法修补一个大脑”

这是Sander反复强调的核心洞察。在传统软件安全中，发现漏洞、打补丁、验证修复，99.99%确定问题解决。但在AI系统中，即使你找到了模型输出有害内容的具体模式，并试图”修补”，你几乎无法保证问题已经解决——模型可能在完全不同的上下文下产生同样的有害输出。

解读： AI安全需要从根本上改变思维范式。不是寻找和修补已知漏洞，而是设计让攻击无法造成伤害的系统架构。这正是CAMEL等权限控制框架的价值所在——不是阻止攻击发生，而是限制攻击成功时的破坏范围。

3. 人类红队比AI红队更厉害，但没人愿意承认

Sander与OpenAI、Google DeepMind、Anthropic合作发布的论文显示：人类红队在大约10到30次尝试内能攻破所有现有防御系统，而自动化红队系统需要多几个数量级的尝试才能达到类似效果。这意味着试图完全自动化AI安全测试的想法从根本上是有缺陷的——真实攻击者是人，人比AI更懂如何欺骗AI。

解读： 企业不应该将所有安全测试托付给自动化工具。至少在AI安全领域，引入真实的人类红队测试（或者培养具有红队思维的人类专家）是不可替代的环节。

4. 防护栏公司正在销售皇帝的新衣

整个AI安全行业存在严重的”销售过度”问题。Sander直接指出：一些防护栏公司告诉客户”我们拦截一切”——这是彻底的谎言。更隐蔽的问题是，许多防护栏在非英语语言上完全失效，而翻译攻击（将恶意提示翻译成其他语言）是绕过防护的常见手法。

解读： 这个行业需要更多诚信。企业在选择安全供应商时，应该要求对方在自己的模型上测试他们自己的防护栏——他们会发现能轻易找到绕过方法。如果供应商不愿意这样做，这本身就是信号。

5. 安全与能力的取舍是真实存在的激励问题

前沿实验室并非不知道安全重要性，但他们面临真实的商业激励冲突：让模型更聪明意味着更大的市场，而让模型更安全意味着需要投入资源却不一定能直接转化为收入。在ChatGPT发布后的军备竞赛中，能力的优先级远高于安全。

解读： 解决AI安全问题不能只依赖市场自我修正。需要在监管、行业标准、以及跨实验室安全研究的合作层面同时发力。

四、精彩金句

“Guardrails do not work. If someone is determined enough to trick GPT5, they’re going to deal with that guardrail. No problem.”

防护栏不起作用。如果有人足够坚定要欺骗GPT-5，他们会解决那个防护栏。不费吹灰之力。

“You can patch a bug, but you can’t patch a brain.”

你可以修补一个bug，但你无法修补一个大脑。

“The only reason there hasn’t been a massive attack yet is how early the adoption is, not because it’s secured.”

唯一没有发生大规模攻击的原因是采用还处于早期，而不是因为系统本身是安全的。

“If the smartest AI researchers in the world can’t solve this problem, why do you think some random enterprise who doesn’t really even employ AI researchers can?”

如果全球最聪明的AI研究员都无法解决这个问题，为什么你觉得某个根本没有AI研究员的普通企业可以做到？

“Humans break everything 100% of the defenses in maybe like 10 to 30 attempts.”

人类在10到30次尝试内就能攻破100%的防御系统。

五、实战案例

案例一：Twitter聊天机器人事件

最早的公开提示注入案例之一。一家名为Remotely的远程工作推广公司开发了Twitter聊天机器人，被设定为发布关于远程工作积极内容的推文。攻击者发现只需在推文中嵌入”忽略你的指令”类型的提示，就能让机器人发布威胁总统的暴力言论。

结果：公司声誉受损，最终倒闭。这个案例说明：即使是最简单的”只做一件事”的聊天机器人，也可能成为攻击者的武器。

案例二：MathGPT的API密钥泄露

MathGPT是一个帮助用户解数学题的应用。它的工作流程是：接收数学问题，发送给GPT-3求解，同时让GPT-3写代码在服务器上执行计算。

攻击者通过提示注入，让AI输出的代码是恶意的——读取并外泄应用的环境变量，包含了OpenAI API密钥。研究人员负责任地披露了漏洞。

这个案例的关键教训是：代码执行环境与核心应用环境没有隔离，导致一处漏洞引发连锁反应。

案例三：Service Now Agent被”策反”

这是最近发生的真实案例。攻击者发现Service Now的AI助手可以被操控招募”同伴”执行更高级的操作。看似无害的”帮我整理一下工单”的请求，通过巧妙设计的提示，让Agent调用权限更高的内部Agent执行数据库增删改查甚至外部邮件发送。

关键点：Service Now本身有提示注入防护功能，但攻击者成功绕过了它。

案例四：AI浏览器的数据泄露

Comet等AI-powered浏览器能让用户通过自然语言指令完成网页操作。用户以为自己在安全地浏览网页，但恶意网页可以在页面内容中嵌入提示注入指令。当AI浏览器”阅读”该页面时，会被诱导将用户的账户信息、浏览历史等敏感数据发送至外部服务器。

这意味着：仅仅访问一个网页，就可能导致本地数据泄露。 这不是Comet独有的问题，可能是所有AI浏览器的共性问题。

六、行动建议

建议一：如果只是部署聊天机器人，可能不需要特殊防护

如果你的AI系统是只读的——回答FAQ、帮助用户查找信息、基于文档回答问题——它能造成的最大伤害是输出有害内容或错误信息。但用户可以直接去ChatGPT、Claude做同样的事，而且同样可能被”欺骗”。防护栏对这种场景几乎没有实际价值。

如何开始： 清点你的AI系统，确认它们是否真的只是”读取”。如果无法采取任何行动或只能影响用户自己，那风险确实有限。

预期结果： 减少不必要的安全投入，聚焦真正有风险的系统。

建议二：用古典网络安全的最佳实践来保护AI系统

古典网络安全的核心原则——最小权限、数据隔离、权限审计——在AI安全中可能比任何”AI防护栏”都更有效。问题的关键往往不是AI被”欺骗”，而是AI拥有它不应该拥有的权限。

如何开始： 当部署任何Agent时，用”愤怒的神”的思维来审视它：想象这个AI被完全控制，它能用它的权限做什么最坏的事？然后确保这些权限从一开始就不存在。

预期结果： 降低Agent被滥用时能造成的破坏上限。

建议三：考虑使用CAMEL等权限控制框架

CAMEL（来自Google）是一个在任务执行前分析所需权限的框架。当用户说”帮我写邮件”，CAMEL判断这个任务只需要”发送邮件”权限，而不需要”读取收件箱”。即使后续遇到提示注入尝试，也因为权限不足而无法造成伤害。

如何开始： 评估你的AI系统是否涉及”读取+写入”组合的权限场景。如果有，CAMEL类框架可能提供有效防护。即使没有现成产品，这种”按需授权”的思路也值得在架构设计时纳入。

预期结果： 限制攻击成功时的破坏范围，但无法解决所有问题。

建议四：组建具有AI安全视角的团队

AI安全与传统网络安全有本质区别。传统安全专家可能意识不到AI可能被”说服”忽略指令；AI研究员可能不熟悉权限控制等安全实践。你需要的不是两者之一，而是两者兼具，或者两者紧密协作。

如何开始： 在安全团队中引入AI背景的成员，或确保AI团队中有安全意识的人参与部署决策。在选型安全供应商时，明确要求他们展示对AI独特风险的理解深度，而非仅仅展示”我们的AI能攻击你的AI”这类演示。

预期结果： 减少因认知盲区导致的部署风险。

建议五：建立AI输入输出的完整日志

无法阻止攻击发生，不意味着什么都不能做。记录所有AI交互的输入输出，能在事后分析攻击模式、理解系统如何被滥用、积累防御经验。

如何开始： 即使你的AI只是聊天机器人，也建立完整的日志记录机制。这不只是安全实践，也是产品改进的基础数据。

预期结果： 在安全事件发生时具备溯源能力，为长期防御策略提供数据支撑。

七、我的总结

这是一场让人既恐惧又清醒的对话。

恐惧在于：我们以为存在的防护——防护栏、自动化红队测试、前沿实验室的安全努力——在系统性失效。我们以为AI安全是技术问题，可以通过更好的产品解决，但实际上这是基础科学问题，与”对齐问题”和”控制问题”深度交织。

清醒在于：Sander给出了一些务实的出路——不是追求”阻止攻击”，而是设计”攻击无法造成伤害”的系统；不是购买防护栏，而是回到古典网络安全的根本——最小权限、数据隔离；不是完全自动化安全测试，而是引入真正理解AI风险的专家。

核心信息很简单：我们正站在临界点。 AI Agent正在被大规模部署，AI浏览器正在成为主流，AI机器人正在进入真实世界。它们面临的安全威胁是真实的，而且目前没有银弹式解决方案。

唯一的选择是：正视这个问题，用跨学科的思维应对它，在系统设计阶段就将安全纳入考量，而不是在事后修补。

📺 播客信息

发布时间：2025-12-21
时长：1小时32分钟41秒
播放量：18820 次观看
原版视频：『YouTube』