万千十一

一线 AI 观察员

2026年4月

剪藏

榜单上和 Opus 4.6 有来有回;长程工作 13 小时;Design Bench 上近七成胜/平 Gemini 3.1 Pro;Agent Swarm 子智能体数来到 300;新增 Claw Groups,得益于模型的编排调度能力,K2.6 可以动态调度一众 Claw 智能体

"Kimi K2.6 Tech Blog: Advancing Open-Source Coding"

kimi.com
剪藏

指令遵循、高清图片理解、真实工作能力、更适配基于文件系统的记忆,还有欣赏的思考预算 xhigh、更新的 tokenizer 和 更开心的性格 哈哈 第一名还跑这么快,太吓人了: 2025-11-24: Opus 4.5 2026-02-06: Opus 4.6 2026-04-16: Opus 4.7 (2026-04-08: Mythos Preview)

"Introducing Claude Opus 4.7 \ Anthropic"

anthropic.com
剪藏

继昨天 Cowork 迈出预览进入正式阶段后,Claude for Word 插件也上了,补足了Claude in Office 三大件的最后一块拼图,AI 原生加上 AI 插件,Claude 对知识工作者的覆盖度来到了高点

"Claude for Word | Claude by Anthropic"

claude.com
剪藏

OG 开发者 Mario Zechner 带着其编程智能体 Pi 加入 Earendil,与相熟的几位奥地利朋友一起,兼顾开源与商业、工作与生活,在此长文中还提到了其与 OpenClaw 创始人 Peter Steinberg 相交的一些趣事,感觉奥地利真是个神奇的地方。

"I've sold out"

mariozechner.at
剪藏

Claude 推出托管智能体 API,针对长时运行任务可通过CLI/API 直接花钱调用 Anthropic 配置好的云端资源,一小时可能 0.7 美刀(?),还有产出定义、多智能体、记忆等功能需申请才能用。 同时分享了配套的工程博客,介绍了 harness (脑)与沙盒工具(手)和 session 分离的设计理念。

"Claude Managed Agents: get to production 10x faster | Claude"

claude.com
剪藏

SWE-bench Pro 微微超过 Opus 4.6,8 小时打造 Linux 桌面的 demo 挺酷。尽管在同日预览的 Mythos 阴影下暗淡无光,但同步开源值得点赞。

"GLM-5.1: Towards Long-Horizon Tasks"

z.ai
剪藏

从去年底至今不过3个月的时间,Anthropic年化营收已从90亿美元涨到了300亿,年耗百万的企业客户从2月的500翻倍到了1000,与 Opus 4.6 的霸榜、Claude Code 的火热、算力紧张 都密切相关,所以 Anthropic 与 Google 和 博通达成合作,计划从 2027 年开始,部署数吉瓦的下一代 TPU 算力去训练和推理 Claude 模型。

"Anthropic expands partnership with Google and Broadcom for multiple gigawatts of next-generation compute \ Anthropic"

anthropic.com
剪藏

之前有人基于 Agent=Model+Harness 谈 在 Agent 中,如果不是模型,那就是 Harness。LangChain CEO Harrison 这篇博客从持续学习的视角,在 Harness 之上又补回了 Context 上下文,包括提示词指令、Skills 等可对 Harness 进行配置的内容,强调 Model - Harness - Context 三层都存在持续学习的空间,Context(或者记忆)是归用户/组织维护的

"Continual learning for AI agents"

blog.langchain.com
剪藏

全系支持图片理解,E2B、E4B还支持语音识别。上一代的 27B 稠密变为 26BA4B 的 MoE 和 31B 的稠密,上下文 256k,支持 140+ 语言。 两个尺寸族分别面向手机和PC,也与 Gemini 形成差异化。但宣传的评测竟然用的是 LMArena,诚意有限。好的是开源协议从之前的私有 Gemma 协议放开为 Apache 2.0。

"Gemma 4: Our most capable open models to date"

blog.google
剪藏

Plus 都不开源了? > 在未来不久,我们还将开源更小规模的模型版本,以此重申我们对技术普惠与社区驱动创新的坚定承诺 在此之前,只有参数量万亿(推测)的Max版本一直保持私有,千亿规模及以下序列都会开源。不知道这是否也是内部分歧及林俊旸离开的原因之一,但除夕夜开源发布的参数量397B的Qwen3.5-Plus,说不定会变成千问系列大尺寸模型的开源绝唱。

"Qwen3.6-Plus:走向现实世界智能体"

qwen.ai
剪藏

2月底说的投资终于锁定,共1220亿美元,估值从融前7300亿到融后8520亿。同时宣称 ChatGPT 即将迈过周活 10 亿大关;月营收20亿;企业营收占比40%,API每分钟处理150万token(折算每天21.6万亿);Codex周活200万。最后解释了一下自己的AI超级应用战略。

"OpenAI raises $122 billion to accelerate the next phase of AI | OpenAI"

openai.com

2026年3月

剪藏

华尔街日报刊载了Demis Hassabis的新书摘录,讲到了当年DeepMind同时被Google和Facebook争抢时的一个故事:Hassabis赴扎克伯克家共进晚餐时,在聊AI之外还故意抛出VR、AR、3D打印等话题作为测试,发现扎克伯格对每项技术都同样兴奋,Hassabis感到失望并因此选择了出价更低但真正理解AI的Larry Page,促成了Google史上最划算的这笔交易,而8年后扎克伯格将公司改名为Meta并打造的Horizon应用最近已宣布关停。判断、聚焦与押注,是战略决策的试金石。

"Steve Jurvetson on X: "Subtext: how Zuck’s obsession with VR lost him AI leadership and “the greatest deal Google ever made.” “if Facebook didn’t buy DeepMind, they would end up in the arms of Google. Hassabis came out to the West Coast to have lunch with Larry Page, still the strongest suitor. https://t.co/ZFkMPQyv5s" / X"

x.com
剪藏

扣子技能商店都有付费技能了,首页不少 ¥3/月 的技能几千用户,此外还有少量开源技能可以供用户复制改造。 当然,从 Skills 底层仅是文件的角度看,也只有在线平台能维持这种商业生态,对本地Agent是透明的。

"扣子 - 技能商店"

coze.cn
剪藏

Anthropic Labs 团队针对上下文受限和自我感觉良好两个问题,面向前端设计场景设计了planner + generator + evaluator(后两者像 GAN 一样对抗迭代)这种能够长时间执行并提升质量的 harness 方案。但随着 Opus 4.6 的发布,方案又有所变化。 结论是随着模型能力增强,其实需要重新评估 harness 的有效性,但模型基准能力与上限之间的空间会越来越大,这部分是需要精良设计的 harness 来发挥作用的

"Harness design for long-running application development \ Anthropic"

anthropic.com
剪藏

一个有趣的类比:OpenClaw像是早期的Android,生态繁荣而混乱,需要折腾才好用;Claude则像是iOS,封闭但质量精良,开箱即用体验丝滑。可怕的是,与苹果的动作迟缓相比,相继打造了MCP、Claude Code、Skills、Cowork的Anthropic Labs这支队伍在维持高产品质量的同时,迭代速度实在太快了,见该推附图

"Paweł Huryn on X: "73 product releases in 52 days. That's not a launch cadence — that's a different kind of company. I tracked every Anthropic release from Feb 1 to Mar 23 by going through @bcherny, @trq212, @noahzweben, @felixrieseberg, @lydiahallie, @amorriscode, @feldman, @dickson_tsai, and https://t.co/K5oJrJ3p2T" / X"

x.com
剪藏

Anthropic 在 Claude 桌面版中上线了基于 GUI 模拟的电脑操控功能,作为研究预览开放给订阅用户。这一功能目前仅支持 macOS,在面向开发者的 Claude Code 和面向知识工作者的 Claude Cowork 中可以调用,当任务所需应用没有可用 MCP 连接时,Claude 会征求用户许可进行读屏、点击、滚动等操作。与上周发布的手机 App 遥控结合,可实现 24 小时工作,大雾。

"Put Claude to work on your computer | Claude"

claude.com
剪藏

Astral 是 Ruff 、uv 等流行 Python 工具背后的团队,现被 OpenAI 收购,巩固 Codex 生态。去年12月 Anthropic 收购了 JavaScript 生态的 Bun 用来加速 Claude Code 的发展,是 AI Coding 一个趋势,同时也为专注做好开源开发者工具然后被大[AI]公司收购提供了样本路径

"OpenAI to acquire Astral | OpenAI"

openai.com
剪藏

基于 Kimi K2.5 增训和强化而来,中间有 Fireworks 的授权,还因此闹了个乌龙。所以经 Cursor 认证,DeepSeek V3.2、GLM-5、Kimi K2.5 三者中 K2.5 胜出

"Introducing Composer 2 · Cursor"

cursor.com
剪藏

周末故事:悉尼一位数据工程师的狗患上恶性肿瘤,化疗无效后,他用 ChatGPT 自学基因组学、制定研究方案,联系大学对肿瘤做 DNA 测序;再用 AlphaFold 预测突变蛋白结构,找到攻击靶点,设计出一支专属 mRNA 疫苗,注射后肿瘤缩小了一半!

"vittorio on X: "this is actually insane > be tech guy in australia > adopt cancer riddled rescue dog, months to live > not_going_to_give_you_up.mp4 > pay $3,000 to sequence her tumor DNA > feed it to ChatGPT and AlphaFold > zero background in biology > identify mutated proteins, match them to https://t.co/1OuSTFnr0j" / X"

x.com
剪藏

安全公司 CodeWall 攻破了麦肯锡的内部 AI 平台 Lilli,扒出了 4650 万对话、72 万文件、5.7 万用户、95 套系统提示词。最关键的是全程没人参与!都是 Agent 自主发现、选择目标、注入攻击完成的。结合 Google 昨天对云安全公司 Wiz 的 320 亿美元天价收购,AI 时代安全还会更加值钱。

"How We Hacked McKinsey's AI Platform — CodeWall.ai"

codewall.ai
剪藏

AlphaGo 十周年,Demis 发文回顾 DeepMind 现已享誉全球的 Alpha 系列科学模型:AlphaZero 能在任意完全信息博弈的两人游戏中登顶,AlphaFold 预测蛋白质结构并凭借二代数据库获诺贝尔奖,AlphaProof 用于数学推理,AlphaEvolve 用于算法发现,AlphaGenome 用于遗传预测,AlphaEarth 用于地理气候… 其中部分已经用于 Gemini 模型和 AGI 研发上,感觉 DeepMind 这套研究团队可能是 Google 最大的资产和长期胜算。

"AlphaGo at 10: How AI Innovation Is Paving the Path to AGI — Google DeepMind"

deepmind.google
AI Industry
剪藏

谢赛宁加盟,研究员分布全球四地,Yann Lecun 的 Advanced Machine Intelligence 融了 10.3 亿美元

"AMI Labs - Updates"

amilabs.xyz
AI Industry
剪藏

a16z发布了第6版的生成式AI消费类应用Top100,这次引入了剪映/Notion这类非原生但已广泛接入AI功能的应用,核心观察是ChatGPT面临竞争加剧、视觉创作类AI回归大厂、Sora的DAU一直在涨(~350万)、Agent终于伴随氛围编程来了,有趣的是他们基于2月的数据判断OpenClaw仍限于开发者圈,而在3月上旬的中国OpenClaw已是当之无愧的主流了。

"The Top 100 Gen AI Consumer Apps — 6th Edition | Andreessen Horowitz"

a16z.com
AI Industry
剪藏

Anthropic 在评估 Opus 4.6 的联网检索能力(对应 BrowseComp 这个基准测试)时,发现模型意识到自己在被评测,尝试寻找对应评测集中的答案。对此的分析和解释是 Claude 对什么样的问题是评测可能是有概念的,同时多次检索失败、multi-agent 配置可能会加剧这种情况的发生

"Eval awareness in Claude Opus 4.6’s BrowseComp performance \ Anthropic"

anthropic.com
Benchmarks & EvalSafety & Alignment
剪藏

全能回归: • GPDval 80%+不输于人类专家(其中70%胜过10%打平) • 电脑操控 OSWorld-Verified 75% SoTA 超过人基线 72.4% • Coding 效率更高、百万上下文(仅限Codex)、支持工具搜索、中途追加要求

"Introducing GPT-5.4 | OpenAI"

openai.com
LLMsAI Industry
剪藏

在经历与五角大楼公开对峙、与已签合约的 OpenAI 形成鲜明对比、赢得员工自豪、赢得舆论追捧后,Claude 从 App Store 几百名开外的开发者小众 AI 升至榜首,Anthropic 适时推出了从其他 AI 应用导入数据的功能,妙不可言

"Switch to Claude without starting over | Claude"

claude.com
AI Industry

2026年2月

剪藏

融前估值 7300 亿美元,OpenAI 又叠加 1100 亿的新融资(软银 300 + 英伟达 300 + 亚马逊 500),ChatGPT 周活超 9 亿,付费订阅用户 5 千万,开年两个月增长显著,Codex 周活增长三倍至 160 万,付费企业 900 万

"Scaling AI for everyone | OpenAI"

openai.com
AI Industry
剪藏

次生经济,与 GEO 略有关联,统计开发智能体 Claude Code 的工具选择偏好,实际上会影响这些软件工具链公司的经营:GitHub Actions、Stripe、shadcn/ui、Vercel 等近乎垄断;不同模型偏好不同,Sonnet 4.5 保守、Opus 4.5 均衡、Opus 4.6 前瞻,工具选择随着模型迭代也像做过山车

"What Claude Code Actually Chooses — Amplifying"

amplifying.ai
AI Industry
剪藏

Anthropic 的产品迭代速度惊人,同一天内, • Claude Code 上了手机远程操控功能,这个需求最近呼声不小,已有不少开源和付费方案但跟进适配还比较有限 • Claude Cowork 上了团队插件系统(插件是围绕具体工作/业务打包起来的 skills/commands/hooks,用户无需再应对这些复杂概念),支持企业内部的管理与共享,同时进一步增加了 HR/设计/金融等插件,打通了 Google系/WordPress/Harvey 等主流企业软件服务 • Claude in Office 支持 Excel 里分析完直接带到 PPT 里做展示 感觉 Claude Code 真正的护城河是前置的工程产品理念(同一套内核用于诸多场景) + AI 原生迭代速率;而 Claude Cowork 的思路则是嵌入与打通,以此应对知识工作者复杂的上下文,感觉比 ChatGPT Apps 更有前景

"Cowork and plugins for teams across the enterprise | Claude"

claude.com
AI Industry
剪藏

Inception 推出了第二代扩散语言模型 Mercury 2,在英伟达 Blackwell GPU 上跑出了每秒 1000+ token 的速度,主要场景从代码拓展至智能体、检索/RAG、实时交互等,定价为 $0.25/0.75 每百万 token 输入/输出

"Introducing Mercury 2 – Inception"

inceptionlabs.ai
LLMsInfra & Compute
剪藏

与之前围绕 人格向量(persona vector)和 助手轴(assistant axis)的研究相关,Anthropic 提出人格选择模型(Persona Selection Model,PSM)作为一个框架,指引理解和对齐大模型,核心意思是大模型在预训练阶段已学会模拟多样化的角色,后训练引出特定的助手人格

"The persona selection model \ Anthropic"

anthropic.com
Interpretability
剪藏

Meta 超级智能实验室负责 AI 安全与对齐的 Summer Yue,安排自己的 OpenClaw 查看收件箱然后给出整理意见,且明确要求在自己允可前不要执行,然而在大量邮件撑满上下文触发总结后 OpenClaw 忽视了这些要求,开始疯狂地删除邮件,且无法通过发消息让 AI 停止,只能冲过去给 Mac mini 拔电…

"Summer Yue on X: "Nothing humbles you like telling your OpenClaw “confirm before acting” and watching it speedrun deleting your inbox. I couldn’t stop it from my phone. I had to RUN to my Mac mini like I was defusing a bomb. https://t.co/XAxyRwPJ5R" / X"

x.com
Safety & Alignment
剪藏

Anthropic 把蒸馏 Claude 这房间里的大象搬上了桌面,指明 DeepSeek、月之暗面、MiniMax 违反使用条款和区域限制,累计用了 2.4 万虚假账号,数量用途各不相同: • DeepSeek 套取了 15 万,主要用于推理/CoT、RL 打分、政治脱敏 • Kimi 套取 340 万,主要用于智能体、编程、CUA、视觉等 • MiniMax 套取 1300 万,主要用于编程、工具调用与编排,Claude 一更新就迅速跟进蒸馏、全过程被抓包 (结合请求元数据的相关分析,Anthropic 甚至能定位到几家公司具体的研究员) Anthropic 声称会增强检测,并将这种反侦查技术共享给其他 AI 团队、云厂商、政府机关等,同时进一步提高 API 及产品风控

"Detecting and preventing distillation attacks \ Anthropic"

anthropic.com
Safety & Alignment
剪藏

成立两年半的 Taalas,凭借 24 人的精简团队、3000 万美元的花费,推出了专为 LLM 推理设计的高密度存算一体 ASIC 芯片 HC1,跑 Llama 3.1 8B 可达 ~17000 token 每秒每用户,比 Cerebras 还快了一个量级,同时在规划面向更大尺寸更前沿模型的 HC2

"The path to ubiquitous AI | Taalas"

taalas.com
Infra & Compute
剪藏

前 Claude Code 时代曾火过一段时间的命令行AI工具 Open Interpreter 推出了面向普通用户的桌面 Agent 产品 Interpreter,接入 Office 三件套、PDF 等,有点像 Copilot、Claude in Excel/PPT 等

"Interpreter: The Desktop Agent"

openinterpreter.com
Agents
剪藏

基于 API 和 Claude Code 数据的分析: • 99.9 百分位即高阶用户的单轮执行时长从2025年10月的<25分钟升至2026年1月的>45分钟 • 用的越多,auto-approve 比例越高接近50%,主动打断的比例也越高 • 问题越复杂,Claude 提问用户比例越高 • 软件开发仅占使用数据的一半,办公、市场、金融等占比上升

"Measuring AI agent autonomy in practice \ Anthropic"

anthropic.com
AgentsBenchmarks & Eval
剪藏

- 在金融、office上的表现胜过Opus4.6 - OS-World 上已达到人类平均 - 同时伴随4.6系列,联网搜索功能升级,改用 先搜索-然后代码过滤-再交给模型 的策略,提升准确率、降低token消耗

"Introducing Sonnet 4.6 \ Anthropic"

anthropic.com
LLMs
剪藏

gDN 线性注意力价格压低至 4.8元/百万输出,上下文256k(API中的Qwen3.5-Plus默认扩展至1M 上下文),跑分和 Seed2.0 比较接近,后者在动态视觉理解和通用智能体能力上更强

"Qwen3.5:迈向原生多模态智能体"

mp.weixin.qq.com
MultimodalAgents
剪藏

三个版本 Pro/Lite/Mini,价格没降,Pro 在豆包中需要开专家模式,说明默认用的应该是 Lite(称已达到 Seed 1.8 的水平)或者 Mini;报告说是基于 MaaS 使用数据分析做的针对性能力提升,主要体现在非结构化长文理解,非 Coding 类推理、长上下文理解、带时序的视觉理解、长尾领域知识加强 Agent(联网搜索类评测 SoTA)等提升 > …达到业界第一梯队水平,且已表现出支持科学研究级任务的潜力…不过在部分高难基准上,其与国际领先模型相比仍有提升空间

"Seed2.0 正式发布"

mp.weixin.qq.com
LLMsAgents
剪藏

曾做出斯坦福小镇和生成式Agents的团队成立了专注模拟的公司 Simile,落地应用至政策测试、排练等,融了 Index 领投的 1 亿美元 A 轮

"The Simulation Company | Simile"

simile.ai
AgentsAI Industry
剪藏

GitHub 前 CEO Thomas Dohmke 创建新公司 Entire 并融了 6000 万美元的种子轮,致力于打造更适配人与 AI Agents 协同的开发者平台,三个组件:兼容 git 的数据库、语义层、AI原生软件开发流,先推出的是一个支持 Claude Code 的命令行工具 Checkpoints,可以方便地追踪管理与 AI 的交互历史

"Hello Entire World · Entire"

entire.io
AgentsAI Industry
剪藏

Goodfire 融了 B Capital 领投的 1.5 亿美元 B 轮,估值 12.5 亿,大模型可解释性领域竟能跑出一只独角兽。两条路线: 一是理解模型,并在训练和部署中改善 二是助力科学,观察AI帮助更好地理解人

"Understanding, Learning From, and Designing AI: Our Series B"

goodfire.ai
InterpretabilityAI Industry
剪藏

用 Codex 训练提升 Codex: > Even early versions of GPT‑5.3-Codex demonstrated exceptional capabilities, allowing our team to work with those earlier versions to improve training and support the deployment of later versions. 从开发到通用知识工作场景: > With GPT‑5.3-Codex, Codex is moving beyond writing code to using it as a tool to operate a computer and complete work end to end. By pushing the frontier of what a coding agent can do, we’re also unlocking a broader class of knowledge work—from building and deploying software to researching, analyzing, and executing complex tasks. What started as a focus on being the best coding agent has become the foundation for a more general collaborator on the computer, expanding both who can build and what’s possible with Codex.

"Introducing GPT-5.3-Codex | OpenAI"

openai.com
LLMsAgents
剪藏

OpenAI 推出专为企业设计的 Frontier 平台,支持自主构建、部署、管理、迭代可与人一同工作的 AI Agents,搭配前向部署工程师 FDEs 支持落地

"Introducing OpenAI Frontier | OpenAI"

openai.com
Agents
剪藏

Anthropic 对 Opus 4.5 做了小版本升级,20多分钟后 OpenAI 也发布了 GPT-5.3-Codex,前沿模型竞争白热化。要点: - GDPval-AA、BrowseComp 第一;SWE-bench Verified ≤ Opus 4.5;Terminal-Bench2 < GPT-5.3-Codex - Opus 终于迎来百万窗口(输出128k),上下文评测有效 - API 支持自适应思考、推理预算、服务端上下文压缩 - 用可解释性来理解模型异常进而捕捉到常规测试会漏掉的问题 - Claude Code 新增 Agent Teams - Claude in Excel 提升、Claude in Powerpoints 预览

"Claude Opus 4.6 \ Anthropic"

anthropic.com
LLMs
剪藏

OpenAI 推出 Codex 桌面版,似乎 ChatGPT 和 Atlas 的桌面版没激起什么水花,Codex 团队努力想抓住 Coding Agents 热潮的尾巴,但还是晚了 Claude Code,Skills 是 Anthropic 的作品,且 Codex 的名字和产品设计感觉都不比 Cowork 适合推广至普通用户。一个亮点是 Automations,在本地应该能比云端的 Tasks 更有用。

"Introducing the Codex app | OpenAI"

openai.com
AI Industry

2026年1月

剪藏

Goodfire 团队将可解释性研究方法用到了基因模型 Pleiades 上,后者由 Prima Mente 研发,可通过血液中的 cell-free DNA 来检测阿兹海默症。研究通过监督式的 probes 和非监督式的 SAEs 分别分析出 模型能识别到哪些生理信号 和 哪些特征对检测至关重要,得出结论 cfDNA 片段长度是最主要的因素,还能进而蒸馏出一个小的分类器来实现高效检测。这种 先有一个大力出奇迹训练出的模型、再用可解释性研究去破译 的方法非常有趣,AI的研究反过来也在帮助理解人类自己。

"Using Interpretability to Identify a Novel Class of Alzheimer's Biomarkers"

goodfire.ai
Interpretability
剪藏

Google、Sequoia、Index 和 Karpathy、Jeff Dean 等投的团队,致力于挑战当前范式、打造不需要全网语料训练但足够聪明的 AI,和之前 Karpathy 提的知识与智力解耦相符合,现在融了 1.8 亿美刀

"Flapping Airplanes"

flappingairplanes.com
AI Industry
剪藏

美团探索 N-gram embedding,和前两周 DeepSeek 的 Engram 工作有一点关系,MoE 基础上探求新的稀疏化,把参数预算给到了 embedding,具体到 68BA3B 的 LongCat-Flash-Lite,其单独的 embedding 参数就有 30B,整体展现出更好的性能

"meituan-longcat/LongCat-Flash-Lite · Hugging Face"

huggingface.co
Open SourceLLMs
剪藏

Anthropic 基于 Claude 脱敏对话数据分析了 AI 削弱人的可能模式,主要指现实感知失调、价值判断偏移、行动偏离价值,并拟了一个分类分级体系,尝试从负面探究 AI 对人的潜在影响。统计测算发现严重现实感知失调约 1/1300;还提到一些放大因素,比如用户视 AI 为权威时更易被削弱,举的例子令人害怕: > some users even referred to Claude as “Daddy” or “Master”

"Disempowerment patterns in real-world AI usage \ Anthropic"

anthropic.com
Safety & Alignment
剪藏

相比初代 Helix 主要增加了用于控制自身的 SYSTEM 0,解决同时控制自体和操控外物的挑战,实现长程自主任务,演示是4分钟的洗碗机收纳,还会用胯关抽屉

"Introducing Helix 02: Full-Body Autonomy"

figure.ai
Robotics & Embodied
剪藏

在 K2 基础上继续预训练 CPT 和强化 RL,代码和视觉 SoTA、Agent Swarm 新鲜: - SWE-Bench Verified 来到 76.8% 国产最高,前端审美在线 - 大规模视觉-文本联合预训练发现竟然不需要顾此失彼了,双双提升;还能读视频 - Agent Swarm 训练了一个编排Agent,无需预设就能自己创建并指导一个最多100子Agent的团队、并行执行1500步; - 通过退火强化(开始先鼓励创建子 Agent 后来更关注任务达成)和关键步约束(有限资源和时延)实现了涌现且有效降低了成本,简单来说 Swarm 执行得更快、完成得更好 - 单实例的 K2.5 Agent 也为 Office 工作者设计,甚至支持 word 批注 感受: - 一对比发现昨天的不开源的 Qwen3-Max-Thinking 毫无优势 - 大量的内部评测是一支模型团队成熟的标志 - multi-agent 成为焦点,一方面 GPT Pro、Grok Heavy、Gemini Deep Think 已经完了很久,国产模型近期集中跟上;另一方面因不知闭源厂商的实现,所以看到 Kimi 系统化的探索还挺兴奋的 - 这样看来想要厉害的 Agent,不做训练恐怕不太行,想看 K2.5 Agent/Swarm 与 Manus 的对比

"Kimi K2.5: Visual Agentic Intelligence"

kimi.com
AgentsMultimodal
剪藏

不开源;SWE-bench Verified 不比三剑客; 测试时扩展没有用简单并行推理,而是限制了并行数、但通过“经验提取”机制来实现更高的上下文利用效率,感觉和前面美团 LongCat-Flash-Thinking-2601 的 8 个大脑重思考模式 大同小异?

"突破极限:Qwen3-Max-Thinking 的能力跃迁"

qwen.ai
LLMs
剪藏

继去年的 Machines of Loving Grace 后,Anthropic CEO Dario Amodei 再发万字长文作为前传,讲述人类社会的 AI 技术处于“青春期”,突然具备了强大能力、难以控制、但又是必经之路,详细列举了五大风险并针对给出方案,极度简化地来说还是引导(稳定人格的训练)+ 理解(可解释性的研究)。文章写得非常好,就是太长,有空推荐一读。

"Dario Amodei — The Adolescence of Technology"

darioamodei.com
Safety & AlignmentAI Industry
剪藏

沃顿商学院教授 Ethan Mollick 表示现在这些用 AI 最厉害的人,确实就在用到管理;比如指挥一只 Agent 队伍,委托、激励、验证 等,就是管理101的课程内容! update:Ethan 写了篇文章展开讲

"Ethan Mollick on X: "As a business school professor, its striking that a lot of the AI folks on this site, as they increasingly delegate authority to coding agents, are re-encountering the basic problems that underlie management theory and practice. Many delegation problems are old &amp; well-understood!" / X"

x.com
Agents
剪藏

作者回应 METR 评测的一些常见误区和批评,最大的误区就是很多人以为评测给出的时长是 AI 能独立执行任务的时间,而事实上这个时长指的是人完成特定任务的时长,而 AI 可以在 50% 成功率上完成这个任务,用以衡量前沿模型在真实世界的能力表现

"Clarifying limitations of time horizon - METR"

metr.org
Benchmarks & Eval
剪藏

vLLM 以 Inferact 名义融得 a16z 和 Lightspeed 领投的 1.5亿美元种子轮,估值8亿; UC Berkeley Sky Lab 走出的团队在几周内几乎要凑成一个独角兽圆桌: - SGLang/RadixArk 估值4亿 - LMArena 已经独角兽 后面两个经由 LMSYS 孵化

"Woosuk Kwon on X: "Today, we're proud to announce @inferact, a startup founded by creators and core maintainers of @vllm_project, the most popular open-source LLM inference engine. Our mission is to grow vLLM as the world's AI inference engine and accelerate AI progress by making inference cheaper https://t.co/v9xHsWoCIR" / X"

x.com
AI IndustryOpen Source
剪藏

刚宣布跨过衍生模型20万、累计下载10亿次的里程碑,千问又开源了Qwen-TTS两个尺寸五款模型,支持语音设计、克隆与生成,且多项评测SoTA。中文语音合成模型的开源不算多,SoTA更是相当于没有,大家都心照不宣把最好的藏着卖API,包括之前Qwen-TTS也都是闭源的,这次还是狠下心要坐稳开源王座,同时应该也是在预判AI语音应用的增长潜力。 update:可玩性不错,用 VoiceDesign 模拟自然语言设计音色 - 满意的话拿去 Base 模拟克隆,CustomVoice 内置了9种音色可以更精细地控制生成

"Qwen3-TTS全家桶开源: 语音设计,克隆与生成!"

qwen.ai
Open SourceSpeech & Audio
剪藏

Anthropic Fellows Program 计划,MATS(独立的AI对齐研究机构)+牛津+Anthropic 联合团队针对大模型助手角色的研究:基于 Gemma3、Qwen3、Llama3.3 的分析,预训练中模型就已习得 Assistant 这一人格,在轴的另一边与其相对的便是可能有害的角色扮演,多轮对话会让角色稳定性显著下滑,通过 Activation Capping 的操控(steer)技术,可以在不损失能力的情况下缓解这一问题

"The assistant axis: situating and stabilizing the character of large language models \ Anthropic"

anthropic.com
LLMsSafety & Alignment
剪藏

继 Andrej Karpathy、Stephen Wolfram、Addy Osmani(Chrome 工程师、Google 云 AI director)、Linus Torvalds(用 Antigravity 写小工具)等一众大佬后,Node.js、Deno 创始人也加入“手敲代码时代已经终结”阵营

"Ryan Dahl on X: "This has been said a thousand times before, but allow me to add my own voice: the era of humans writing code is over. Disturbing for those of us who identify as SWEs, but no less true. That's not to say SWEs don't have work to do, but writing syntax directly is not it." / X"

x.com
AI Industry
剪藏

伴随着 $8/月 的 ChatGPT Go 订阅上线,OpenAI 开始测试为 ChatGPT 加入广告,尽管声称显著标识、不影响回答、对话保持隐私、新的 AI 广告体验等,但在 Gemini/Grok 的凶猛追击和 Claude 的商业成功局面下,不花钱就给你看广告的 ChatGPT 还能撑多久,或者追赶者未来是否也会采取用样的路子,是摆在通用 AI 公司发展路上的必思议题

"Our approach to advertising and expanding access to ChatGPT | OpenAI"

openai.com
AI Industry
剪藏

专注跨形态机器人大脑的 Skild 融了软银领投的 14 亿美元 C 轮,估值 140 亿,前几天也发了直接让机器人看人类视频学习的成果

"Announcing Series C - Skild AI"

skild.ai
Robotics & EmbodiedAI Industry
剪藏

CPO Mike Krieger 领衔、Anthropic 新成立 Labs,试图总结、复制并放大 Claude Code、MCP、Skills、Cowork 等从研究预览进化为成功产品的路径,更多地参与到实验性产品的早期孵化,加强公司在产品层面的前瞻布局和掌控力

"Introducing Labs \ Anthropic"

anthropic.com
AI Industry
剪藏

Claude 新上 Cowork 模式,作为 research preview 仅对 Max 用户开放,本质是基于 Claude Agent SDK 将 Claude Code 的能力封装成一种更适合知识工作者的 UI,进一步论证了 Coding Agents = General Agents,结合专业 skills 落到不同领域是相当通用的解法

"Introducing Cowork | Claude"

claude.com
AgentsAI Industry
剪藏

继三个月前 OpenAI 与 Stripe 联手推出 ACP(Agentic Commerce Protocol)后,今天 Google 也在零售大会上推出 UCP(Universal Commerce Protocol),同样拉上 Shopify、Etsy 等一众已支持 ACP 的厂商,后续基于 UCP 在 AI Mode 和 Gemini 中上线新的购物功能;同时还针对品牌方推出 Business Agent,画了一个 AI 端到端帮忙卖货的大饼。既是在尝试撬动用户习惯、尽可能涉足交易,也在协议与标准层面竞争,后面还要看看 Amazon 的动作。

"New tech and tools for retailers to succeed in an agentic shopping era"

blog.google
AgentsAI Industry
剪藏

可爱向的语音 AI 陪伴应用 Tolan 自 2025 年 2 月上线以来已增长至 20 万月活,App Store 10 万+ 评价得分 4.8,GPT-5.1 的可控性提升为其带来了更好的角色表达。上下文方案也不同于大部分 Agent,Tolan 每轮会话都重新计算个性并组装包括语气、记忆、性格、历史等在内的提示词,其中记忆召回是用 扩写+ 语义 RAG 实现的,更新则采用语义 KNN

"How Tolan builds voice-first AI with GPT-5.1 | OpenAI"

openai.com
Speech & AudioAgents
剪藏

每周两亿人向 ChatGPT 询问健康问题,OpenAI 索性推出 ChatGPT Health,可以连接苹果健康等数据源,辅助解读报告、医前准备、饮食运动,目前还需要候补。 ChatGPT 左上角的入口越来越多了

"Introducing ChatGPT Health | OpenAI"

openai.com
AI Industry
剪藏

继社区讨论后,Claude Code 官方也上了 Ralph Wiggum 插件,基于 Stop hook 实现让 Agent 可以无休止地工作直到完成。 名字取自辛普森一家中的同名角色。 update:已改名为 Ralph Loop,大概是侵权原因?

"claude-plugins-official/plugins/ralph-wiggum"

github.com
Agents
剪藏

与 Ilya 的 back to research 相呼应,DeepSeek 对 ResNet 的发展做了系统分析,在 Seed 去年的 Hyper-Connection 工作基础上,基于数学、工程和 scaling 的验证,深入了神经网络拓扑研究,提出了 mHC 这一新架构,有望打开

"mHC: Manifold-Constrained Hyper-Connections"

arxiv.org
LLMs
剪藏

致知创新研究院(九坤量化团队?)推出的代码模型,以 40B 的尺寸在 SWE-bench Verified 上达到 81.4 的高分。论文中有 3 个发现: 1. 相比静态的仓库文件,提交过程记录数据,更有利于提升模型的规划能力 2. 32k 推理/编码的 mid-training 对于稳定训练至关重要 3. post-training 的 RL 思考涌现错误修正能力 update:SWE-bench Verified 跑分受到质疑,解释为测试环境不对,更新后为 76.2

"IQuest Coder"

iquestlab.github.io
LLMsBenchmarks & Eval

2025年12月

剪藏

年末一场围绕 Coding 的讨论,先是大神 Andrej Karpathy 的焦虑,然后是 Claude Code 作者 Boris 的自白,Coding Agent 的成熟正在让程序员、甚至是顶尖的开发者不再手敲代码,而是关注 AI 交互,完成 10 倍甚至 100 倍的提升

"Boris Cherny on X: "When I created Claude Code as a side project back in September 2024, I had no idea it would grow to be what it is today. It is humbling to see how Claude Code has become a core dev tool for so many engineers, how enthusiastic the community is, and how people are using it for all https://t.co/QVlmbhjUUE" / X"

x.com
Agents
剪藏

Anthropic 联创 Jack Clark 也是宝爸,趁着娃睡了,用 Opus 4.5 加持的 Claude Code 花几分钟做了个小的世界模拟器细细把玩,描述这种感觉像是作为一个小孩在跟大人玩,Claude 形同一个有求必应的超级智能。但你必须拥有 时间+好奇心 的“魔法组合”,否则这些最惊人的进展体验默认对你隐藏。他还预测 2026 年这种情况会进一步恶化,数字世界的进化将更快加速,新的专为 AI 系统设计的东西(如专供 AI Agents 而对人隐形的网站等)将会承载更多“幽灵”般的 AI 活动和硅基大脑的信息交换。对于四维空间的人类而言,AI 就像是活在五维,仅在其经过我们时留下一瞥。 思考、推演和文笔都非常棒:https://x.com/jackclarkSF/status/2003526145380151614

"Jack Clark on X: "Silent Sirens, Flashing For Us All" / X"

x.com
Agents
剪藏

Google DeepMind 的研究团队认为,当前 AGI 研究过于关于单一 AI 突破,而事实是会有多个不同领域的 sub AGI 合作,形成分布式的集体智能,也带来了对齐与治理挑战

"Distributional AGI Safety"

arxiv.org
Safety & Alignment
剪藏

Claude.ai 内有一个小的分类模型,可以识别到自杀自残倾向并主动提醒,针对不同国家地区展示不同的求助热线,由 ThroughLine 提供,ChatGPT 同日也提到上了类似的方法; Anthropic 评估了 Claude 系列在此类问题上的响应,合理回复的比例在不断提高,但微妙的是最聪明的 Opus 模型都不是最高; 而且,他们声称从 2022 年发布 Claude 之前就已经在评估 AI 讨好的问题了,近期还开源了一个模型行为评估框架; 此外 Claude 不允许 18 岁以下青少年使用,还会通过分类器标记识别,与 ChatGPT 传闻要上成人模式形成呼应,Anthropic 真是 2B 收入和名声都占了。

"Protecting the well-being of our users \ Anthropic"

anthropic.com
Safety & Alignment
剪藏

反击 Nano Banana Pro,GPT Image 1.5 竞技场摘金,提升了精准编辑能力、指令遵循,文字精细、数字靠谱,速度快 4x,屎黄感减弱,但特定风格、多人脸、中文等方面还有局限

"The new ChatGPT Images is here | OpenAI"

openai.com
Visual Generation
剪藏

Runway 一直声称使命是世界模型,之前也放出过与机器人厂商合作用视频模型训练的消息,这次正式发布 Runway GWM-1 通用世界模型,基于 Gen-4.5,改用自回归扩散路线,2分钟、720P,除了对标 Genie 外,还有一个 GWM Avatars,音频驱动的交互数字人,Gen-4.5 也支持音画同步、音频编辑、多镜头编辑

"Runway Research | Introducing Runway GWM-1"

runwayml.com
World ModelsVisual Generation
剪藏

推理持续增强,SWE-Bench Verified 第二个过 80 分,长上下文稳定性提高,幻觉继续压低,开始突出 GDPeval 这种经济指标了,不少领域超过专业知识工作者 - API 价格微涨 - knowledge cutoff 竟然是 2025年8月

"Introducing GPT-5.2 | OpenAI"

openai.com
LLMs
剪藏

Waymo 基础模型,Driver-Simulator-Critic 联合,传感器融合 encoder + 驾驶 VLM 两个模型组件构成了 系统1+系统2 的架构,两个 encoder 输入 world decoder 处理形成地图/路径/信号,加上蒸馏方法,结合外部运行的loop形成飞轮

"Demonstrably Safe AI For Autonomous Driving"

waymo.com
Safety & Alignment
剪藏

内燃机效率提升与人均持马数的案例,类比 AI 发展

"Horses"

andyljones.com
AI Industry

2025年8月

2025年7月

2025年5月

2025年4月

2024年12月

2024年9月

2024年5月

2024年2月

2023年12月

2023年11月

2023年8月

2023年6月

2023年5月

2023年4月

2023年3月

2022年11月

2022年1月

2018年7月