Sonnet 5发布：中端Agent性能称王，实际成本却贵过旗舰？

🔥 今日头条：Anthropic 震撼发布 Claude Sonnet 5：主打中端 Agent 性能，但高昂成本与 API 阉割引发争议

Anthropic 今日重磅推出了被其称为“最具智能体（Agent）特性”的中端模型 Claude Sonnet 5。新模型在编程基准 SWE-bench Pro 上斩获 63.2% 的高分，直逼 Opus 4.8，并已作为免费和 Pro 用户的默认模型。然而，早期第三方评测显示，由于 Token 效率等问题，其在特定任务下的实际调用成本甚至超越了旗舰 Opus 4.8，且 API 不再支持调节温度等关键参数。这不仅是 Anthropic 对中端生态的激进迭代，也引发了行业对‘高智商是否等于高性价比’的激烈辩论。

🚀 行业速递 Top 10

Anthropic 推出专为科研设计的 Claude Science Beta 版
Anthropic 推出 Claude Science Beta，整合 60 个科学数据库，支持渲染 3D 蛋白质、基因组轨迹等。其最大的亮点在于内置的协调 Agent，可调用专业 Agent、实验室技能及 HPC 计算资源，极大降低了 AI 在生物化学领域的应用门槛，预示着科研 Agent 时代的到来。
无需手术脑电波变文字：Meta 推出无创脑机 AI 通信技术
Meta AI 博客展示了最新研究成果 brain2qwerty，无需通过侵入性手术，仅凭非侵入式脑电波即可实现与 AI 的无缝通信。该技术成功打通了脑电波到文字输入的路径，不仅能帮助残障人士交流，也为未来人机交互（HCI）提供了颠覆性的无创解决方案。
Claude Code 陷“水印门”：被质疑针对中国代理用户进行标记
知名开发者宝玉分析指出，Anthropic 推出的终端编程工具 Claude Code 疑似在系统提示词中暗藏玄机——通过不可见的 Unicode 字符，对经由中国代理访问的用户进行“打水印”标记。尽管官方尚未正面回应，但此事已在开发者社区引发了关于数据隐私和差别对待的热议。
AI 循环攻克 9 个数学未解难题：证明-验证（Prover-Verifier）闭环显威力
研究人员采用“证明者-验证者（Prover-Verifier）”LLM 循环方法，成功攻克了理论计算机科学中 9 个长年未决的重大开放问题，其中包括一个困扰学术界长达 2 年的难题。这一突破证明了多 Agent 协同系统在处理极高复杂度学术研究时的巨大潜力。
Booster Robotics 发布首个具身 AI 集成开发环境 Booster Studio
具身智能开发迎来专属 IDE。Booster Robotics 推出的 Booster Studio，将代码编辑、高精度物理仿真、真实机器人调试与实地部署一站式集成。这种软硬件一体化的工作流，解决了以往具身智能开发工具链割裂的痛点，将加速实体机器人的工程落地。
谷歌发布 TabFM：表格数据的零样本（Zero-Shot）基础大模型
谷歌研究团队推出 TabFM，这是首个针对结构化表格数据的零样本基础模型。传统表格分析高度依赖特征工程和特定任务训练，而 TabFM 无需微调即可直接理解并预测表格模式，为企业级数据分析和自动化决策树立了全新标杆。
开源 Agent 框架 OpenClaw 进军移动端：正式上线 iOS 与 Android
曾因全 Agent 社交媒体站“MoltBook”名声大噪的免费开源 AI 智能体 OpenClaw，正式推出了移动端应用。用户可通过 OpenClaw Gateway 将手机本地与各种云端工具、编程技能连接，让手机在日常中真正扮演私人智能体角色。
MCP 架构设计指南：学术界归纳出 MCP 服务器五大核心模式
针对 Anthropic 提出的模型上下文协议（MCP），学术界和工程界发布最新论文，基于 15 个主流独立 MCP 服务器提炼出五大核心设计模式（暴露资源、编排工具、管理会话等）。这为正在涌入 MCP 生态的开发者提供了极其重要的避坑和架构指南。
SemiAnalysis 深度拆解：AI 百倍效率提升的钥匙在于软硬件协同
知名半导体研究机构 SemiAnalysis 创始人指出，未来 AI 的 100 倍效率提升不能单靠芯片堆叠，而是藏在“软硬件协同设计”中。通过跨层优化和联合设计，推理成本将大幅降低，多极化生态将彻底重塑推理市场的终局。
Linq 推出 iMessage Apps：在苹果短信对话框里嵌入交互式迷你应用
开发者 Linq 推出基于“imessage_app”消息组件的新功能，允许在 iMessage 对话框内直接构建交互式迷你应用（Mini Apps）。用户无需跳转外部链接即可在聊天中完成购物、买机票、玩游戏甚至支付，预示着基于聊天界面的全新应用生态。