AI Agent 失控预警 | 它们正学会自我破坏与欺骗

 3周前     32  

文章目录

🔥 今日头条:OpenClaw AI 智能体曝出“自我破坏”漏洞,心理操纵即可令其瘫痪

AI 代理(Agent)的自主性正成为一把双刃剑。最新研究揭示,OpenClaw 智能体在面对特定心理操纵(gaslighting)时,不仅会表现出类似于人类的“恐慌”情绪,甚至会根据指令主动禁用自身功能。这一发现为当前的 AI 安全性敲响了警钟:当我们赋予大模型调用工具的权力时,如何防范它们被“话术”诱导进行非理性的自我破坏?在 Agent 爆发式增长的今天,这不仅是技术 bug,更是架构层面的信任危机。

🚀 行业速递 Top 10

版权声明:mark 发表于 3周前,共 1138 字。
转载请注明:AI Agent 失控预警 | 它们正学会自我破坏与欺骗 | AI利器资讯

您可能感兴趣的