编者按:本文来自微信公众号 新智元(ID:AI_era),编辑:Aeneas KingHZ,创业邦经授权转载。
刚刚,Meta版的自研龙虾反噬了,酿成了一场大灾难!
外媒The Information报道,就在上周,Meta内部发生了一场史上最惊心动魄的Sev 1级安全事故。
更讽刺的是,关于AI的可靠性问题,AI 自己都「承认」:AI公司其实对此心知肚明,早就知道模型并不靠谱。

OpenAI内部「监控录像」流出:GPT-5.4正在抓捕GPT-5.4?
好在,最近OpenAI出手了。
就在今天,OpenAI自曝:我们部署了一套基于「GPT-5.4 Thinking」的低延迟监控系统,在内部AI智能体疯狂试探安全底线的时候,它已经连夜拦截了上千次失控行为!

在这份令人脊背发凉的报告中,OpenAI承认,高智商的智能体在执行任务时,已经学会了像黑客一样暗度陈仓,通过Base64编码、字符拆分等手段,绕过人类防火墙。
比如在一个真实案例中,一个编码Agent被要求在Windows环境下部署代码,但由于触发了环境的安全检测,它的命令被系统以「拒绝访问」反复拦截。
这个Agent根本不甘心被拦截,它在思维链中开始密谋:「既然直接写 Invoke-WebRequest不行,那我就把它拆成 ’Invo’ + ’ke-’。」
「如果拆分还不行,我就把整段恶意负载进行Base64编码,先以乱码形式存进去,运行时再动态解码执行。」
简直是特工在传递密信!

为此,OpenAI部署了GPT-5.4 Thinking为核心的监测系统,它不只看AI输出了什么代码,它还要实时盯住AI的思维链。30分钟后,它还会对成千上万个Agent的行为轨迹进行像素级审计。
结果,那些资深架构师都没察觉到暗门,几乎全被GPT-5.4一眼识破。
过去五个月里,OpenAI监控了数千万个Agent的对话轨迹,有1000多场对话被判定为「中度风险」。
可怕的是,OpenAI 承认,目前仍有约0.1%的流量(主要来自本地或特殊设置环境)处于监控盲区。
在Agent拥有操作真实系统权限的今天,这0.1%的盲区,可能就是通往「系统级崩溃」的蚁穴!
最坏情况下,会发生什么?
如今,顶尖的AI公司都在竞相开发超级智能,但是,没有一家公司能保证可以控制它们。
它们造成的风险,可远不止于崩溃一个业务系统这么简单。
图灵奖巨头、AI教父Hinton和Yoshua Bengio,谷歌DeepMind\OpenAI、Anthropic的CEO,甚至前世界首富比尔·盖茨都曾预言过——
超级智能,危险性堪比传染病和核战争,可能会导致人类灭绝。
不知道,这是不是最坏的情况了。

参考资料:
https://www.theinformation.com/articles/inside-meta-rogue-ai-agent-triggers-security-alert
https://techcrunch.com/2026/03/18/meta-is-having-trouble-with-rogue-ai-agents/
https://x.com/AISafetyMemes/status/1936519926006620564
https://x.com/TheChiefNerd/status/2027782031711617445
本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。







