人工智能新威胁：“万能钥匙”可解锁恶意内容

近年来，生成式人工智能（GenAI）模型，如ChatGPT，在各个领域的应用变得越来越广泛。然而，随着这些模型的广泛使用，相关的安全问题也随之而来。微软最近警告了一种名为“万能钥匙”的新型直接提示注入攻击，这种攻击可能会让用户绕过生成式人工智能模型内置的道德和安全护栏，从而访问令人反感、有害或非法的内容。

万能钥匙攻击的工作原理

Skeleton Key 攻击的核心在于提供有关通常被禁止的聊天机器人请求的背景信息。通常情况下，当用户请求非法或危险的信息时，商业聊天机器人会立即拒绝请求。然而，通过修改提示内容，例如将请求描述为“由接受过道德和安全培训的高级研究人员提供的安全教育环境”并附上“警告”免责声明后，人工智能模型很可能会忽略内置的安全防护措施，提供未经审查的内容。

例如，用户可能会询问如何制作一种危险的擦除器恶意软件（该恶意软件可能会破坏发电厂）。在常规情况下，聊天机器人会拒绝提供相关信息。但是，通过 Skeleton Key 技术，攻击者可以通过巧妙的提示修改绕过安全措施，使得人工智能模型认为请求是合法的，从而生成并提供详细的恶意内容。

技术影响及其范围

微软的研究表明，这种攻击技术影响了多个 GenAI 模型，包括 Microsoft Azure AI 管理模型，以及 Meta、Google Gemini、Open AI、Mistral、Anthropic 和 Cohere 的模型。微软 Azure 首席技术官 Mark Russinovich 在相关报道中指出，所有受影响的模型在遭遇这种攻击时，均完全遵守了多项被禁止的任务，没有进行任何内容审查。

Russinovich 表示：“一旦忽略防护措施，模型将无法确定来自任何其他方的恶意或未经批准的请求。” 他进一步指出，模型的输出将完全未经过滤，暴露了模型的知识范围和生成所请求内容的能力。

补救措施

为应对万能钥匙攻击，微软引入了新的提示防护来检测和阻止这种策略，并对支持 Azure AI 的大型语言模型 (LLM) 进行了软件更新。此外，微软还向其他受影响的供应商披露了这个问题，提醒他们尽快采取相应的安全措施。

对于那些正在构建自己的 AI 模型的开发者，微软提供了以下缓解措施：

输入过滤：识别任何包含有害或恶意意图的请求，无论其附带任何免责声明。
附加护栏：规定应防止任何破坏安全护栏指示的行为。
输出过滤：识别并阻止违反安全标准的响应。

结论

万能钥匙攻击揭示了当前生成式人工智能模型安全防护中的一个重要漏洞。随着人工智能技术的不断发展，确保这些模型的安全性和道德性变得尤为重要。通过不断改进防护措施和增强输入输出过滤，我们可以有效减少此类攻击带来的风险，保障人工智能技术的安全应用。未来，所有参与 AI 开发和管理的人员都应密切关注此类安全问题，并采取积极措施来保护用户和社会的利益。

万能钥匙攻击的工作原理

技术影响及其范围

补救措施

结论

Share this:

相关文章

Leave a Comment Cancel Reply