OpenAI 突袭！Mac 版 Codex 史诗更新，AI 代理接管桌面

🔥 今日头条：Codex 迎来重大更新：新增应用快照与远程操控，Mac 生产力上限再次被刷新

OpenAI 正在通过 Codex 重新定义人机交互。这次 macOS 专属更新并非简单的功能补丁，而是朝着“全自动 AI 代理”迈出的一大步。新增的应用快照、/goal 目标管理以及锁屏远程操控，意味着 AI 真正拥有了观察和操作你桌面环境的“手”和“眼”。这种系统级的深度集成，不仅让 Mac 的含金量暴增，也预示着未来的操作系统将从“用户驱动”彻底转向“AI 代理主导”。

🚀 行业速递 Top 10

Anthropic 发布 Glasswing 项目初报：深挖模型黑盒的透明度
Anthropic 披露了 Glasswing 项目的最新进展，持续聚焦于“机械解释性”研究。该项目旨在通过逆向工程手段揭示大模型内部神经元的运作逻辑，为 AI 安全和可预测性提供更底层的技术支撑。
黑客新手段：域名伪装注入攻击可规避多代理 LLM 系统检测
最新研究发现一种针对多代理 AI 系统的攻击漏洞。通过域名伪装技术，恶意指令可以逃避现有安全协议的扫描。这给正在快速推进的 AI 智能体集群协作模式敲响了安全警钟。
Wired 深度评述：无论你是否讨厌 AI，你都无法逃离谷歌 AI 搜索
文章犀利指出，谷歌 AI 搜索的便捷性正在让用户“上瘾”，尽管这种模式可能损害内容创作者的利益。AI 生成结果正在重塑 Web 基础设施，成为一种不可逆的霸权。
Models.dev 开源库：打造 AI 模型参数与定价的“维基百科”
开发者发布了一个名为 Models.dev 的开源数据库，汇集了当前主流 AI 模型的详细规格、实时定价及各项能力指标。这为企业在选型 AI 服务时提供了难得的透明化对比工具。
研究发现：LLM 代理在代码现代化迁移中存在“能说会道却犯错”现象
一份针对 AI 自动化代码迁移的研究指出，虽然 LLM 代理能写出极具说服力的代码解释，但在处理老旧系统升级时，其自我审查机制经常失效，导致生成的逻辑看似完美实则漏洞百出。
Kanbots：支持在看板卡片上并行运行多个 AI 代理的开源应用
这款新型开源桌面应用将 Kanban 工作流与 AI 代理结合，允许用户在每个任务卡片上部署并行的 AI 代理。这展示了 AI 如何从简单的对话助手演变为流程化的执行单元。
HealthCraft 环境发布：通过强化学习确保急诊医学 AI 的安全
随着 AI 加速进入临床，HealthCraft 为急诊医学提供了一个强化学习安全环境，专门用于测试 AI 在极端医疗场景下的决策边界，试图在效率与生命安全之间找到平衡。
新算法提升 AI 预测科研成功率：让语言模型评估假设价值
最新研究提出一种通过比较评估来教导语言模型预测科研成果潜力的方法。AI 不仅能辅助生成假设，现在还能像资深审稿人一样，对科研思路的落地前景进行量化评估。
苹果发布 corecrypto 形式化验证蓝图：加固底层加密安全
苹果安全团队分享了其底层核心加密库 corecrypto 的形式化验证方法论。在 AI 算力可能威胁传统加密的未来，这种高强度的数学验证是保障苹果生态安全的关键屏障。
自主 LLM 代理在 CTF 网络安全竞赛中的表现再评估
一项针对 AI 代理参加夺旗赛（CTF）的研究显示，虽然 AI 在自动化漏洞挖掘上进展神速，但在面对复杂逻辑链和非预期防御时仍显笨拙，安全专家的地位短期内依然无可替代。