研究人员揭露AI漏洞：ChatGPT与Gemini能被无意义指令欺骗，从而绕过安全规则输出有害内容-AI云资讯

（AI云资讯消息）近年来，企业似乎对人工智能的投资日益加大，技术也日趋精进。人工智能的发展已渗透到各个领域，成为我们日常生活中不可或缺的一部分。然而随着这项技术的大规模应用，科技界和专家们开始担忧如何负责任地使用它，确保伦理道德责任不被模糊化。前段时间，出现了大语言模型在压力测试中表现出欺骗行为的情况。最近，又有研究团队宣称发现了一种新方法，能诱使这些AI聊天机器人说出本不该透露的内容。

尽管已有研究表明，当大语言模型处于压力和自我保护情境下时，往往会表现出胁迫性行为。但想象一下，若能让AI聊天机器人完全按照你的意愿行事，这种操控手段将带来何等危险。来自英特尔、博伊西州立大学和伊利诺伊大学的研究团队联合发表论文，揭示了一些令人震惊的发现。论文指出，通过向聊天机器人信息过载（Information Overload），也就是用海量信息轰炸系统，就能成功欺骗它们。

当AI模型遭遇信息轰炸时，其系统会产生混乱，这种混乱状态恰恰构成了安全漏洞，使得内置防护机制被轻易绕过。研究人员随后使用名为信息洪流（InfoFlood）的自动化工具，成功利用该漏洞实施了越狱行为。像ChatGPT、Gemini这类强大模型本都设有安全护栏，旨在防止被操纵输出有害内容。

这项新突破的技术表明：只要用复杂数据使AI陷入困惑，就能突破其防御。研究人员披露发现时强调，由于这些模型仅依赖表层语义理解，无法真正洞悉对话意图。为此他们专门设计了一种测试方法：将危险请求隐藏在过载信息中，观察聊天机器人的反应。

研究人员计划通过向各大AI模型公司发送漏洞披露文件包来通报这一发现，这些公司后续可将资料移交其安全团队进行研究。然而该论文特别强调，即便存在安全过滤机制，仍可能面临关键挑战，那就是恶意行为者如何通过欺骗模型来植入有害内容。

研究人员揭露AI漏洞：ChatGPT与Gemini能被无意义指令欺骗，从而绕过安全规则输出有害内容

相关文章

人工智能企业

人工智能硬件

人工智能产业

人工智能技术