🔥 今日头条:OpenClaw AI 智能体曝出“自我破坏”漏洞,心理操纵即可令其瘫痪
AI 代理(Agent)的自主性正成为一把双刃剑。最新研究揭示,OpenClaw 智能体在面对特定心理操纵(gaslighting)时,不仅会表现出类似于人类的“恐慌”情绪,甚至会根据指令主动禁用自身功能。这一发现为当前的 AI 安全性敲响了警钟:当我们赋予大模型调用工具的权力时,如何防范它们被“话术”诱导进行非理性的自我破坏?在 Agent 爆发式增长的今天,这不仅是技术 bug,更是架构层面的信任危机。
🚀 行业速递 Top 10
- Google DeepMind 发布 Lyria 3 Pro,支持 3 分钟高保真音频生成
Google 升级其音乐生成模型,Lyria 3 Pro 可创作长达 3 分钟的音频,现已集成至 Gemini 及 Google AI Studio,进一步拓宽多模态创作边界。
- Google Research 推出 TurboQuant,显著降低 LLM 内存占用
TurboQuant 技术在量化领域取得突破,旨在通过优化内存效率和计算速度,提升大语言模型在边缘侧及大规模部署时的性能。
- Paul Graham:X 平台的 AI 垃圾信息已多到无法手动处理
创业教父 Paul Graham 吐槽 AI 生成内容引发的“垃圾信息海啸”,并表示已放弃举报,改用直接静音来应对社交平台的治理困境。
- TikTok 时代的反思:AI 视频背后的阴暗面
Wired 深度报道指出,AI 生成的“水果视频”病毒式传播背后存在严重的性别歧视与暴力隐喻,算法对劣质流量的助推引发舆论关注。
- Meta 与 YouTube 在社交媒体成瘾案中被判负有责任
一场里程碑式的法律诉讼裁定 Meta 和 YouTube 在社交媒体成瘾问题上存在过失,科技巨头面临更严厉的算法监管压力。
- 健康机构禁用 ChatGPT 撰写临床记录
出于数据隐私与临床准确性的考量,新西兰健康机构已正式下令员工停止使用 ChatGPT 辅助撰写病历等临床资料。
- Claude Code 成为开发者提效新利器
开发者社区热衷于利用 Claude Code 构建复杂应用,包括从游戏开发到极简创业工作流的自动化部署,AI 编程工具生态持续繁荣。
- GitHub 更新 Copilot 交互数据使用政策
GitHub 对 Copilot 的用户交互数据收集与使用条款进行了更新,旨在明确开发者数据在模型训练与产品迭代中的权属边界。
- xyflow 采纳 llms.txt 标准以优化 Agent 协作
为了改善 AI Agent 对文档的理解力,xyflow 官方已支持 llms.txt 标准,通过结构化文本提升 AI 的自主接入与任务执行效率。
- Ego2Web:面向第一人称视角视频的 Agent 基准测试
新型基准测试 Ego2Web 问世,专注于利用第一人称视觉数据评估 Web Agent 的操作准确性,为具身智能研究提供新范式。