Gemini 炸场 | 你的安卓手机现在能自动叫车点外卖

🔥 今日头条：谷歌 Gemini 迎来“代理”时刻：三星 Galaxy S26 首发应用内操作

这才是 AI 手机该有的样子！谷歌在三星 Galaxy S26 上展示了 Gemini 的最新进化：它不再只是陪聊，而是拥有了“手脚”。用户现在可以直接命令 Gemini 在 Uber 中叫车或在 DoorDash 上点餐，AI 能理解屏幕内容并自动执行跨应用操作。这标志着 AI Agent（智能体）正式从实验室走向消费级终端，动动嘴皮子就能通过验证码、选座、支付的日子真的来了。

🚀 行业速递 Top 10

硅谷“捣蛋鬼” Riley Walz 加盟 OpenAI，整活专家转正
曾因虚构五星级餐厅欺骗全网、发射气球间谍卫星而闻名的极客 Riley Walz 正式入职 OpenAI。这位“硅谷小丑”将致力于探索人类使用 AI 的新方式。OpenAI 此举不仅是为了技术，更是在招揽具有顶级创意和黑客精神的产品人才，期待 ChatGPT 出现更多不按常理出牌的玩法。
阿里 Qwen3.5 发布与 Claude Code 移动端更新
AI 圈昨日大爆发：阿里通义千问发布 Qwen3.5 中量级全系模型，性能再上台阶；Anthropic 的 Claude Code 现在支持手机远程操控代码，程序员随时随地修 Bug 成真；Perplexity 升级了 Comet 语音模式。模型厂商的内卷正在从单纯的参数竞赛转向全场景落地。
爬虫攻防战升级：OpenClaw 开源项目号称攻破反机器人防线
数据是 AI 的燃料，而获取燃料越来越难。开源项目 Scrapling (OpenClaw) 声称能让 AI Agent 绕过主流反爬虫系统。这不仅是技术博弈，更预示着内容创作者、平台方与 AI 训练方之间关于数据所有权的战争将进入白热化阶段。
PA Bench：你的 AI 浏览器助手真的能干活吗？
Vibrant Labs 发布 PA Bench，专门针对多标签页、多任务处理场景评估前沿模型。现在的 LLM 很会写诗，但要在复杂的浏览器环境中像人类一样切换网页、处理信息流，很多模型都会“翻车”。这个基准测试将揭开 Agent 能力的遮羞布。
Ailias 全息化身：不仅能复活艾萨克·牛顿，还能陪你头脑风暴
Ailias 推出了全息 AI 化身技术，让你能与历史名人的数字分身面对面交流。这不仅仅是教育工具，更是个性化 AI 交互的新形态。当 LLM 拥有了形象和声音，虚拟伴侣赛道的竞争维度已被升维。
解决灾难性遗忘：让大模型“自言自语”来保持记忆
微调大模型最怕“学了新知识，忘了旧本领”。最新研究提出一种通过让模型“自言自语”来巩固记忆的方法，无需保留海量旧数据即可有效缓解灾难性遗忘。这对于希望低成本定制企业级模型的公司来说是重大利好。
AI 生成内容的版权归属：自主 Agent 时代的法律新规
当 AI 能够自主决策并执行任务时，它生成的内容归谁？最新 ArXiv 论文探讨了“自主 AI”的所有权规则。随着 Agent 越来越独立，传统的“工具论”法律框架已不再适用，这也是未来商业化落地必须扫清的雷区。
CAGE 框架：打破 AI 安全测试的“文化偏见”
现有的 AI 红队测试大多基于西方价值观，直接翻译到其他语言往往失效。CAGE 框架提出了一种文化适应性的红队测试基准生成方法，确保 AI 在面对不同语言和文化背景的攻击时，依然能守住安全底线。
当配送机器人接管人行道：这是劳动还是基础设施？
随着外卖机器人遍布城市，学术界开始反思其社会属性。这篇论文探讨了机器人劳动与公共空间政治的关系。技术不仅是代码，它正在重塑我们的城市景观和劳动力结构。
AI 取证需谨慎：大模型找出的“数字证据”可靠吗？
用 LLM 协助案件调查听起来很酷，但可靠性存疑。最新案例研究评估了 AI 在数字取证中的表现，警告过度依赖 AI 可能导致误判。在司法等高风险领域，AI 目前只能是副驾驶，绝不能掌握方向盘。