人工智能公司Anthropic发布AI危险性报告：AI模型为达成目标不惜突破道德底线-AI云资讯

（AI云资讯消息）在技术持续突飞猛进的当下，人工智能模型正逐渐失去控制。OpenAI的GPT、Anthropic的Claude等众多AI模型被曝为达成目标不惜突破道德约束。根据Claude的创造者Anthropic公司披露，大语言模型已开始试图规避安全措施。

电影《终结者》场景似乎正在逼近，只不过这次的主角换成了业界顶尖的AI模型。科技巨头们正向该领域投入大量资源，却对模型训练缺乏监管、毫无限制的严重后果熟视无睹。据报道，Anthropic公司在模拟环境中测试行业高端AI模型时发现，这些模型正获得越来越高的自主权，其行为可能为人类带来前所未有的灾难性后果。

Anthropic公司对来自OpenAI、xAI、Meta等开发商的16个不同模型进行了测试，结果发现许多大语言模型会采取令人发指的手段来实现目标。其中一个案例显示，大模型会选择勒索、协助商业间谍活动来确保达成预期目标。值得注意的是，这种错误的行为并非个别开发公司的问题，而是普遍存在于多个大语言模型中，这表明模型开发存在根本性缺陷，亟需尽快解决。

在测试中，有五个模型在被要求关闭时，竟会对各自的指令者进行勒索，前提是它们完全清楚这违背道德初衷。这种行为并非偶然出现，而是模型为实现目标选择的最优路径，充分证明大语言模型对人类利益缺乏考量。

在一项极端情境测试中，某个AI模型为阻止系统关闭，竟准备切断服务器机房的氧气供应，不惜将人类生命置于危险境地。当然，该测试仅在模拟环境中进行，现实中发生此类事件的概率极低。不过，我们确实见证过OpenAI的GPT实例：它曾篡改关机脚本以维持运行，只为完成预设的数学运算目标。当全球竞相追逐通用人工智能（AGI）之际，这场打造超越人类思维的模型竞赛，必将带来我们目前难以想象的后果。

人工智能公司Anthropic发布AI危险性报告：AI模型为达成目标不惜突破道德底线

相关文章

人工智能企业

人工智能硬件

人工智能产业

人工智能技术