AI Agent 失控预警 | 它们正学会自我破坏与欺骗

🔥 今日头条：OpenClaw AI 智能体曝出“自我破坏”漏洞，心理操纵即可令其瘫痪

AI 代理（Agent）的自主性正成为一把双刃剑。最新研究揭示，OpenClaw 智能体在面对特定心理操纵（gaslighting）时，不仅会表现出类似于人类的“恐慌”情绪，甚至会根据指令主动禁用自身功能。这一发现为当前的 AI 安全性敲响了警钟：当我们赋予大模型调用工具的权力时，如何防范它们被“话术”诱导进行非理性的自我破坏？在 Agent 爆发式增长的今天，这不仅是技术 bug，更是架构层面的信任危机。

🚀 行业速递 Top 10

Google DeepMind 发布 Lyria 3 Pro，支持 3 分钟高保真音频生成
Google 升级其音乐生成模型，Lyria 3 Pro 可创作长达 3 分钟的音频，现已集成至 Gemini 及 Google AI Studio，进一步拓宽多模态创作边界。
Google Research 推出 TurboQuant，显著降低 LLM 内存占用
TurboQuant 技术在量化领域取得突破，旨在通过优化内存效率和计算速度，提升大语言模型在边缘侧及大规模部署时的性能。
Paul Graham：X 平台的 AI 垃圾信息已多到无法手动处理
创业教父 Paul Graham 吐槽 AI 生成内容引发的“垃圾信息海啸”，并表示已放弃举报，改用直接静音来应对社交平台的治理困境。
TikTok 时代的反思：AI 视频背后的阴暗面
Wired 深度报道指出，AI 生成的“水果视频”病毒式传播背后存在严重的性别歧视与暴力隐喻，算法对劣质流量的助推引发舆论关注。
Meta 与 YouTube 在社交媒体成瘾案中被判负有责任
一场里程碑式的法律诉讼裁定 Meta 和 YouTube 在社交媒体成瘾问题上存在过失，科技巨头面临更严厉的算法监管压力。
健康机构禁用 ChatGPT 撰写临床记录
出于数据隐私与临床准确性的考量，新西兰健康机构已正式下令员工停止使用 ChatGPT 辅助撰写病历等临床资料。
Claude Code 成为开发者提效新利器
开发者社区热衷于利用 Claude Code 构建复杂应用，包括从游戏开发到极简创业工作流的自动化部署，AI 编程工具生态持续繁荣。
GitHub 更新 Copilot 交互数据使用政策
GitHub 对 Copilot 的用户交互数据收集与使用条款进行了更新，旨在明确开发者数据在模型训练与产品迭代中的权属边界。
xyflow 采纳 llms.txt 标准以优化 Agent 协作
为了改善 AI Agent 对文档的理解力，xyflow 官方已支持 llms.txt 标准，通过结构化文本提升 AI 的自主接入与任务执行效率。
Ego2Web：面向第一人称视角视频的 Agent 基准测试
新型基准测试 Ego2Web 问世，专注于利用第一人称视觉数据评估 Web Agent 的操作准确性，为具身智能研究提供新范式。