研究人员揭露AI漏洞:ChatGPT与Gemini能被无意义指令欺骗,从而绕过安全规则输出有害内容
2025-07-09 07:41:08AI云资讯2591
(AI云资讯消息)近年来,企业似乎对人工智能的投资日益加大,技术也日趋精进。人工智能的发展已渗透到各个领域,成为我们日常生活中不可或缺的一部分。然而随着这项技术的大规模应用,科技界和专家们开始担忧如何负责任地使用它,确保伦理道德责任不被模糊化。前段时间,出现了大语言模型在压力测试中表现出欺骗行为的情况。最近,又有研究团队宣称发现了一种新方法,能诱使这些AI聊天机器人说出本不该透露的内容。
尽管已有研究表明,当大语言模型处于压力和自我保护情境下时,往往会表现出胁迫性行为。但想象一下,若能让AI聊天机器人完全按照你的意愿行事,这种操控手段将带来何等危险。来自英特尔、博伊西州立大学和伊利诺伊大学的研究团队联合发表论文,揭示了一些令人震惊的发现。论文指出,通过向聊天机器人信息过载(Information Overload),也就是用海量信息轰炸系统,就能成功欺骗它们。
当AI模型遭遇信息轰炸时,其系统会产生混乱,这种混乱状态恰恰构成了安全漏洞,使得内置防护机制被轻易绕过。研究人员随后使用名为信息洪流(InfoFlood)的自动化工具,成功利用该漏洞实施了越狱行为。像ChatGPT、Gemini这类强大模型本都设有安全护栏,旨在防止被操纵输出有害内容。
这项新突破的技术表明:只要用复杂数据使AI陷入困惑,就能突破其防御。研究人员披露发现时强调,由于这些模型仅依赖表层语义理解,无法真正洞悉对话意图。为此他们专门设计了一种测试方法:将危险请求隐藏在过载信息中,观察聊天机器人的反应。
研究人员计划通过向各大AI模型公司发送漏洞披露文件包来通报这一发现,这些公司后续可将资料移交其安全团队进行研究。然而该论文特别强调,即便存在安全过滤机制,仍可能面临关键挑战,那就是恶意行为者如何通过欺骗模型来植入有害内容。
相关文章
- 科大讯飞获首届“AI领航杯”大赛技术创新奖及“AI+安全”赛道一等奖
- 博大数据荣登“2025中国AI算力领域最具商业潜力榜”:以融合算力基础设施,夯牢智能时代数字基石
- AI落地总踩坑?浪潮云海InCloud AIOS:让AI落地省心、省钱、持续增值
- 浪潮云海InCloud AIOS一体化AI解决方案正式发布,推动大模型规模化落地
- AI 能效驱动渠道生态革新,深度智控奔赴 “十五五” 绿色发展
- 中兴通讯CDO崔丽出席《经济学人》AI创新亚洲峰会2025
- 全球数据周Tech Week Shanghai 2026即将启幕:打造亚太数据枢纽,引领全球数字创新浪潮
- Elo I系列5.0安卓触控一体机发布,开启AI时代商业终端新篇章
- “AI 教父”Hinton与云天励飞陈宁在AI十字路口的握手—从“能力恐慌”到“普惠共识”
- AI新云破局与算力普惠:中国智算产业的2025分水岭
- 瑞声科技:豆包 AI手机核心供应商,合作多家海外大模型企业
- 超聚变专用计算旗舰产品X3智能工作站,搭载NVIDIA驱动打造AI就绪算力
- 亿道信息以“AI+终端”与“AI+应用”双轮驱动,开启智能普惠新纪元
- 顺丰科技联合华为:用AI和数智基础设施构建智慧物流的未来
- 宜选网亮相印尼雅加达机床展,“AI采购”解决方案塑造跨境贸易新体验
- 《中国AI+互联网媒体行业研究报告》发布深度解析AI重塑媒体生态









