榜单上和 Opus 4.6 有来有回;长程工作 13 小时;Design Bench 上近七成胜/平 Gemini 3.1 Pro;Agent Swarm 子智能体数来到 300;新增 Claw Groups,得益于模型的编排调度能力,K2.6 可以动态调度一众 Claw 智能体
"Kimi K2.6 Tech Blog: Advancing Open-Source Coding"
kimi.com一线 AI 观察员
榜单上和 Opus 4.6 有来有回;长程工作 13 小时;Design Bench 上近七成胜/平 Gemini 3.1 Pro;Agent Swarm 子智能体数来到 300;新增 Claw Groups,得益于模型的编排调度能力,K2.6 可以动态调度一众 Claw 智能体
"Kimi K2.6 Tech Blog: Advancing Open-Source Coding"
kimi.com对比的还是近 5 个月前发布的 Opus 4.5
"Qwen3.6-Max-Preview:更强知识,更强编程,持续进化"
qwen.ai4个能力指标中的3个都显示AI进展正在加速
"Have AI Capabilities Accelerated? | Epoch AI"
epoch.ai设计、原型、幻灯片,全在 Claude,能分享、可导出 Canvas/PPTX/HTML
"Introducing Claude Design by Anthropic Labs \ Anthropic"
anthropic.comCodex 桌面应用上了 Computer Use、内置浏览器、生图工具、自主设定时任务、主动地个性化推送,迈向全流程
"Codex for (almost) everything | OpenAI"
openai.comOpenAI 生命科学模型系列的第一个,命名致敬对发现 DNA 做出关键贡献的英国化学家和 X 射线学家 Rosalind Franklin
"Introducing GPT-Rosalind for life sciences research | OpenAI"
openai.com指令遵循、高清图片理解、真实工作能力、更适配基于文件系统的记忆,还有欣赏的思考预算 xhigh、更新的 tokenizer 和 更开心的性格 哈哈 第一名还跑这么快,太吓人了: 2025-11-24: Opus 4.5 2026-02-06: Opus 4.6 2026-04-16: Opus 4.7 (2026-04-08: Mythos Preview)
"Introducing Claude Opus 4.7 \ Anthropic"
anthropic.com70+ 语种;支持类似 [excited] 的语音标签,可以精细化控制表达;SynthID 标识。其在 Artificial Analysis TTS 竞技场排名第二,第一名的 Inworld TTS 1.5 Max 来历令人好奇。
"Gemini 3.1 Flash TTS: New text-to-speech AI model"
blog.googleTIL Google DeepMind 有一个名为 Fabula 的 AI 辅助写作实验项目,看时间有大半年了
"Fabula | About"
deepmind.google.comIDE 转型潮,前有 Antigravity 独立新窗口+工坊、后有 Windsurf 用看板任务做 Agent 模式
"Windsurf 2.0: Introducing the Agent Command Center and Devin in Windsurf"
windsurf.comGPT-5.4-Cyber,网安增强、约束更少,有限开放
"Trusted access for the next era of cyber defense | OpenAI"
openai.com百度的生图模型,评测上在 Seedream 4/4.5 附近,落后于 Nano Banana 2
"Introducing ERNIE-Image"
yiyan.baidu.com伴随 Chrome 147 的上线,DevTools 在 MCP 外还上了实验性的 CLI 供 Agent 调用
"chrome-devtools-mcp/docs/cli.md at main · ChromeDevTools/chrome-devtools-mcp"
github.com继昨天 Cowork 迈出预览进入正式阶段后,Claude for Word 插件也上了,补足了Claude in Office 三大件的最后一块拼图,AI 原生加上 AI 插件,Claude 对知识工作者的覆盖度来到了高点
"Claude for Word | Claude by Anthropic"
claude.com给中小模型 Sonnet、Haiku 增加了按需找大模型 Opus 寻求指导的功能,通过这种分级策略提升效果、同时降低成本,给多模型协作引入新可能
"The advisor strategy: Give Sonnet an intelligence boost with Opus | Claude"
claude.com全双工边听边说,把之前需要VAD检测更智能地内化入模型,实时自然交互;未来还计划增加边听边看边想边搜边说
"Seed 全双工语音大模型发布:懂倾听、抗干扰,走向更自然的交互"
seed.bytedance.comOG 开发者 Mario Zechner 带着其编程智能体 Pi 加入 Earendil,与相熟的几位奥地利朋友一起,兼顾开源与商业、工作与生活,在此长文中还提到了其与 OpenClaw 创始人 Peter Steinberg 相交的一些趣事,感觉奥地利真是个神奇的地方。
"I've sold out"
mariozechner.atHeyGen 发技术报告证明自己最新的数字人模型 Avatar V 真的够强,胜过 Kling O3 Pro、Seedance 2.0、Veo 3.1 等
"Avatar V: Scaling Video-Reference Avatar Generation"
heygen.com声称基准测试与 Opus 4.6 互有胜负,但感觉可能是和 Gemini 3/3.1 Pro 一档;支持与 Gemini Deep Think 和 GPT Pro 相仿的多 Agent 模式
"Introducing Muse Spark: Scaling Towards Personal Superintelligence"
ai.meta.comClaude 推出托管智能体 API,针对长时运行任务可通过CLI/API 直接花钱调用 Anthropic 配置好的云端资源,一小时可能 0.7 美刀(?),还有产出定义、多智能体、记忆等功能需申请才能用。 同时分享了配套的工程博客,介绍了 harness (脑)与沙盒工具(手)和 session 分离的设计理念。
"Claude Managed Agents: get to production 10x faster | Claude"
claude.comSWE-bench Pro 微微超过 Opus 4.6,8 小时打造 Linux 桌面的 demo 挺酷。尽管在同日预览的 Mythos 阴影下暗淡无光,但同步开源值得点赞。
"GLM-5.1: Towards Long-Horizon Tasks"
z.aiOpus 4.6 霸榜与口碑俱在,Mythos 直接碾压、简直恐怖:SWE-bench Verified 从 80% 跃至 94%!SWE-bench Pro 也从 53% 升至 78%!相当于把新的 Pro 榜打成了老榜!
"Project Glasswing: Securing critical software for the AI era \ Anthropic"
anthropic.com意识形态之争
"A “diff” tool for AI: Finding behavioral differences in new models \ Anthropic"
anthropic.com最近讨论挺热的 Hermes Agent 是 Nous Research 开源的一套智能体框架,与 OpenClaw 相比更强调自学习,比如自主构建 Skills,基于数据库而非文件的记忆系统等。可以预见,自进化会是接下来 Agent Harness 发展的一大方向
"AI 101: Hermes Agent – OpenClaw’s Rival? Differences and Best Use Cases"
turingpost.comOpenClaw 更新了“做梦”功能,抢在泄漏但没上线的 Claude Code 之前
"Dreaming (experimental) - OpenClaw"
docs.openclaw.ai从去年底至今不过3个月的时间,Anthropic年化营收已从90亿美元涨到了300亿,年耗百万的企业客户从2月的500翻倍到了1000,与 Opus 4.6 的霸榜、Claude Code 的火热、算力紧张 都密切相关,所以 Anthropic 与 Google 和 博通达成合作,计划从 2027 年开始,部署数吉瓦的下一代 TPU 算力去训练和推理 Claude 模型。
"Anthropic expands partnership with Google and Broadcom for multiple gigawatts of next-generation compute \ Anthropic"
anthropic.com之前有人基于 Agent=Model+Harness 谈 在 Agent 中,如果不是模型,那就是 Harness。LangChain CEO Harrison 这篇博客从持续学习的视角,在 Harness 之上又补回了 Context 上下文,包括提示词指令、Skills 等可对 Harness 进行配置的内容,强调 Model - Harness - Context 三层都存在持续学习的空间,Context(或者记忆)是归用户/组织维护的
"Continual learning for AI agents"
blog.langchain.com模拟开公司,让大模型当CEO,前三名是 Claude Opus 4.6、GLM-5、GPT-5.4,刚开源的 Gemma-4(最强的31B版)破产了,还是比不上 Gemini-3.1-Flash-Lite
"YC-Bench: A Long-Horizon Agent Benchmark"
collinear-ai.github.io呼应 IDE 已死,生产力工具都会向 Agent-first 发展
"Meet the new Cursor · Cursor"
cursor.com看来微软的 in-house AI 是在尝试从多模态+闭源+支持自身业务上寻求出路,继 TTS、生图模型后,现在补上 ASR,支持 25 种语言,并正在接入 Copilot 的语音模式和 Teams 会议。
"State of the Art Speech Recognition with MAI-Transcribe-1 | Microsoft AI"
microsoft.aiAI 情绪感知能力研究,及情绪向量对 AI 选择与判断的影响,一个应用是,如果通过放大冷静(Calm)情绪向量,让 AI 在开发测试失败时避免感到沮丧,那它就能避免 hack 这些测试
"Emotion concepts and their function in a large language model \ Anthropic"
anthropic.com全系支持图片理解,E2B、E4B还支持语音识别。上一代的 27B 稠密变为 26BA4B 的 MoE 和 31B 的稠密,上下文 256k,支持 140+ 语言。 两个尺寸族分别面向手机和PC,也与 Gemini 形成差异化。但宣传的评测竟然用的是 LMArena,诚意有限。好的是开源协议从之前的私有 Gemma 协议放开为 Apache 2.0。
"Gemma 4: Our most capable open models to date"
blog.googlePlus 都不开源了? > 在未来不久,我们还将开源更小规模的模型版本,以此重申我们对技术普惠与社区驱动创新的坚定承诺 在此之前,只有参数量万亿(推测)的Max版本一直保持私有,千亿规模及以下序列都会开源。不知道这是否也是内部分歧及林俊旸离开的原因之一,但除夕夜开源发布的参数量397B的Qwen3.5-Plus,说不定会变成千问系列大尺寸模型的开源绝唱。
"Qwen3.6-Plus:走向现实世界智能体"
qwen.ai对 GitHub 上 Claude 作为贡献者的仓库和提交进行的监测统计
"Claude's Code"
claudescode.dev前沿模型(Gemini 3 Pro等)可以 zero-shot 完成机器操控任务,结合 CaP-Agent0 这样的 harness 可以胜过 SoTA VLA
"CaP-X: Benchmarking Coding Agents for Robot Manipulation"
capgym.github.io红杉合伙人 Julien Bek 撰文《Services: The New Software》论述,AI 正推动软件/SaaS行业正往服务化发展
"Julien Bek on X: "Services: The New Software" / X"
x.com2月底说的投资终于锁定,共1220亿美元,估值从融前7300亿到融后8520亿。同时宣称 ChatGPT 即将迈过周活 10 亿大关;月营收20亿;企业营收占比40%,API每分钟处理150万token(折算每天21.6万亿);Codex周活200万。最后解释了一下自己的AI超级应用战略。
"OpenAI raises $122 billion to accelerate the next phase of AI | OpenAI"
openai.com继上周 Claude 桌面版上线后,今天命令行版 Claude Code 也支持了电脑操控能力,通过名为 computer-use 的 MCP 配置,Claude 会优先使用协议、命令行支持的方式,GUI 操控作为兜底
"Let Claude use your computer from the CLI - Claude Code Docs"
code.claude.com千问组织调整后,果然不开源了吗
"Qwen3.5-Omni:新一代大规模原生全模态大模型"
qwen.ai华尔街日报刊载了Demis Hassabis的新书摘录,讲到了当年DeepMind同时被Google和Facebook争抢时的一个故事:Hassabis赴扎克伯克家共进晚餐时,在聊AI之外还故意抛出VR、AR、3D打印等话题作为测试,发现扎克伯格对每项技术都同样兴奋,Hassabis感到失望并因此选择了出价更低但真正理解AI的Larry Page,促成了Google史上最划算的这笔交易,而8年后扎克伯格将公司改名为Meta并打造的Horizon应用最近已宣布关停。判断、聚焦与押注,是战略决策的试金石。
"Steve Jurvetson on X: "Subtext: how Zuck’s obsession with VR lost him AI leadership and “the greatest deal Google ever made.” “if Facebook didn’t buy DeepMind, they would end up in the arms of Google. Hassabis came out to the West Coast to have lunch with Larry Page, still the strongest suitor. https://t.co/ZFkMPQyv5s" / X"
x.com知识工作基准测试,不出意外 Claude Opus 4.6 稳居第一,GPT-5.4 和 GLM-5 Trubo 随后
"KWBench — Knowledge Work Benchmark for LLMs"
kwbench.github.io扣子技能商店都有付费技能了,首页不少 ¥3/月 的技能几千用户,此外还有少量开源技能可以供用户复制改造。 当然,从 Skills 底层仅是文件的角度看,也只有在线平台能维持这种商业生态,对本地Agent是透明的。
"扣子 - 技能商店"
coze.cn根据对公开招聘信息的分析,GTM 相关岗位是 OpenAI 和 Anthropic 过去一年增长最快的,接近三成。结合最近 DeepSeek 对 Agent 相关岗位的需求,招聘提供了外部视角
"What do frontier AI companies' job postings reveal about their plans? | Epoch AI"
epoch.ai美团 LongCat 团队的真·原生多模态自回归模型,可以同时理解和生成文本、图像、声音,语言底座是 LongCat- Flash-Lite(68.5BA3B)
"LongCat-Next:When Modalities Internalize as Multilingual Tokens"
longcat.chatAnthropic Labs 团队针对上下文受限和自我感觉良好两个问题,面向前端设计场景设计了planner + generator + evaluator(后两者像 GAN 一样对抗迭代)这种能够长时间执行并提升质量的 harness 方案。但随着 Opus 4.6 的发布,方案又有所变化。 结论是随着模型能力增强,其实需要重新评估 harness 的有效性,但模型基准能力与上限之间的空间会越来越大,这部分是需要精良设计的 harness 来发挥作用的
"Harness design for long-running application development \ Anthropic"
anthropic.com一个有趣的类比:OpenClaw像是早期的Android,生态繁荣而混乱,需要折腾才好用;Claude则像是iOS,封闭但质量精良,开箱即用体验丝滑。可怕的是,与苹果的动作迟缓相比,相继打造了MCP、Claude Code、Skills、Cowork的Anthropic Labs这支队伍在维持高产品质量的同时,迭代速度实在太快了,见该推附图
"Paweł Huryn on X: "73 product releases in 52 days. That's not a launch cadence — that's a different kind of company. I tracked every Anthropic release from Feb 1 to Mar 23 by going through @bcherny, @trq212, @noahzweben, @felixrieseberg, @lydiahallie, @amorriscode, @feldman, @dickson_tsai, and https://t.co/K5oJrJ3p2T" / X"
x.comAnthropic 在 Claude 桌面版中上线了基于 GUI 模拟的电脑操控功能,作为研究预览开放给订阅用户。这一功能目前仅支持 macOS,在面向开发者的 Claude Code 和面向知识工作者的 Claude Cowork 中可以调用,当任务所需应用没有可用 MCP 连接时,Claude 会征求用户许可进行读屏、点击、滚动等操作。与上周发布的手机 App 遥控结合,可实现 24 小时工作,大雾。
"Put Claude to work on your computer | Claude"
claude.comClaude Code 产品负责人 Cat Wu 的分享
"Product management on the AI exponential | Claude"
claude.comAstral 是 Ruff 、uv 等流行 Python 工具背后的团队,现被 OpenAI 收购,巩固 Codex 生态。去年12月 Anthropic 收购了 JavaScript 生态的 Bun 用来加速 Claude Code 的发展,是 AI Coding 一个趋势,同时也为专注做好开源开发者工具然后被大[AI]公司收购提供了样本路径
"OpenAI to acquire Astral | OpenAI"
openai.com基于 Kimi K2.5 增训和强化而来,中间有 Fireworks 的授权,还因此闹了个乌龙。所以经 Cursor 认证,DeepSeek V3.2、GLM-5、Kimi K2.5 三者中 K2.5 胜出
"Introducing Composer 2 · Cursor"
cursor.com继 Replit 推出从编程到自由设计的跃步后,Lovable 也官宣不止于 Vibe Coding,开始迈向通用工作场景
"Go beyond building apps with Lovable | Lovable"
lovable.dev春节档赶场发布M2.5后刚一个月,MiniMax又上了新的M2.7模型,基准测试继续逼近前沿模型,同时强调M2*系列模型参与到了自身的训练迭代过程中 update: MiniMax 于 20260412 将 M2.7 开源上架 HuggingFace,但采用了非商用许可,受到社区质疑
"MiniMax M2.7: Early Echoes of Self-Evolution - MiniMax News | MiniMax"
minimax.io小尺寸版本,可以和 GPT-5.4 搭配,在 Codex 中做 subagents,感觉像是蒸馏出来的
"Introducing GPT-5.4 mini and nano | OpenAI"
openai.comManus 从云到端,终于承认: > your most important work happens on your own computer
"Introducing My Computer: When Manus Meets Your Desktop"
manus.im周末故事:悉尼一位数据工程师的狗患上恶性肿瘤,化疗无效后,他用 ChatGPT 自学基因组学、制定研究方案,联系大学对肿瘤做 DNA 测序;再用 AlphaFold 预测突变蛋白结构,找到攻击靶点,设计出一支专属 mRNA 疫苗,注射后肿瘤缩小了一半!
"vittorio on X: "this is actually insane > be tech guy in australia > adopt cancer riddled rescue dog, months to live > not_going_to_give_you_up.mp4 > pay $3,000 to sequence her tumor DNA > feed it to ChatGPT and AlphaFold > zero background in biology > identify mutated proteins, match them to https://t.co/1OuSTFnr0j" / X"
x.com对推理模型进行探测,发现其在已经知道答案的情况下还在生成CoT
"Reasoning Theater: Probing for Performative Chain-of-Thought"
goodfire.aiReplit 发布 Replit 4,不止于开发,强调设计与创作,同时官宣 4 亿美元的 D 轮融资,估值 90 亿美元为半年前的3倍,奥尼尔也在投资人名单里,还拿 Replit 做了一个运动应用
"Replit — The Future is Actually Very Human"
blog.replit.com安全公司 CodeWall 攻破了麦肯锡的内部 AI 平台 Lilli,扒出了 4650 万对话、72 万文件、5.7 万用户、95 套系统提示词。最关键的是全程没人参与!都是 Agent 自主发现、选择目标、注入攻击完成的。结合 Google 昨天对云安全公司 Wiz 的 320 亿美元天价收购,AI 时代安全还会更加值钱。
"How We Hacked McKinsey's AI Platform — CodeWall.ai"
codewall.aiOpenAI 一直在提的层次化指令(instruction hierarchy):system > developer > user > tool 通过强化学习保证高层级的指令遵循,从而增强对齐、避免提示词注入问题,同时控制对模型有用性的损伤
"Improving instruction hierarchy in frontier LLMs | OpenAI"
openai.comA2A 迭代至了 1.0,但还没太看到真正的适配落地
"🆕 Announcing Version 1.0 - A2A Protocol"
a2a-protocol.org黄仁勋谈AI的五层结构:能源 - 芯片 - infra - 模型 - 应用
"NVIDIA on X: "AI Is a Five‑Layer Cake " / X"
x.com纽约时报做的AI写作测试,发现 8 万多人投票结果中 54% 偏好 AI 写作
"Who’s a Better Writer: A.I. or Humans? Take Our Quiz. - The New York Times"
nytimes.comHume 首次开源 TTS 模型,1B 和 3B 两版本,后者支持10种语言,不包括中文
"Opensourcing TADA: Fast, Reliable Speech Generation Through Text-Acoustic Synchronization | Hume Blog | Hume AI"
hume.ai同一天两个开源 TTS 发布
"Fish Audio Open-Sources S2: Fine-Grained Control Meets Production Streaming - Fish Audio Blog"
fish.audioAlphaGo 十周年,Demis 发文回顾 DeepMind 现已享誉全球的 Alpha 系列科学模型:AlphaZero 能在任意完全信息博弈的两人游戏中登顶,AlphaFold 预测蛋白质结构并凭借二代数据库获诺贝尔奖,AlphaProof 用于数学推理,AlphaEvolve 用于算法发现,AlphaGenome 用于遗传预测,AlphaEarth 用于地理气候… 其中部分已经用于 Gemini 模型和 AGI 研发上,感觉 DeepMind 这套研究团队可能是 Google 最大的资产和长期胜算。
"AlphaGo at 10: How AI Innovation Is Paving the Path to AGI — Google DeepMind"
deepmind.googleThinking Machines 与英伟达达成长期合作,规划部署 1GW 的 Vera Rubin 算力
"Thinking Machines Lab and NVIDIA Announce Long-Term Gigawatt-Scale Strategic Partnership - Thinking Machines Lab"
thinkingmachines.ai谢赛宁加盟,研究员分布全球四地,Yann Lecun 的 Advanced Machine Intelligence 融了 10.3 亿美元
"AMI Labs - Updates"
amilabs.xyza16z发布了第6版的生成式AI消费类应用Top100,这次引入了剪映/Notion这类非原生但已广泛接入AI功能的应用,核心观察是ChatGPT面临竞争加剧、视觉创作类AI回归大厂、Sora的DAU一直在涨(~350万)、Agent终于伴随氛围编程来了,有趣的是他们基于2月的数据判断OpenClaw仍限于开发者圈,而在3月上旬的中国OpenClaw已是当之无愧的主流了。
"The Top 100 Gen AI Consumer Apps — 6th Edition | Andreessen Horowitz"
a16z.com微软号称用了 Claude Cowork 的同源技术,推出自己的 Copilot Cowork,得益于 Copilot 一直以来的口碑,这次发布在 Twitter 上迎来一众嘲讽
"Copilot Cowork: A new way of getting work done | Microsoft 365 Blog"
microsoft.comAnthropic 在评估 Opus 4.6 的联网检索能力(对应 BrowseComp 这个基准测试)时,发现模型意识到自己在被评测,尝试寻找对应评测集中的答案。对此的分析和解释是 Claude 对什么样的问题是评测可能是有概念的,同时多次检索失败、multi-agent 配置可能会加剧这种情况的发生
"Eval awareness in Claude Opus 4.6’s BrowseComp performance \ Anthropic"
anthropic.com斯坦福和 Google 团队的研究,多玩家同时玩的扩散视频游戏生成
"MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines"
ryanpo.com伴随 GPT-5.4 的发布,OpenAI 发现推理模型能力越来越强,但并不能控制其思维链,即在思考过程里策略性欺骗,因此可将思维链监控作为一种重要的安全手段
"Reasoning models struggle to control their chains of thought, and that’s good | OpenAI"
openai.comAnthropic 研究 AI 对劳动力市场影响的报告,主要是在前人的理论暴露度基础上,提出了基于Claude使用数据实际观测到的暴露度,发现与理论替代距离尚远,不同职业岗位中暴露度最高的画像是:高龄、女性、高学历、高薪。
"Labor market impacts of AI: A new measure and early evidence \ Anthropic"
anthropic.com全能回归: • GPDval 80%+不输于人类专家(其中70%胜过10%打平) • 电脑操控 OSWorld-Verified 75% SoTA 超过人基线 72.4% • Coding 效率更高、百万上下文(仅限Codex)、支持工具搜索、中途追加要求
"Introducing GPT-5.4 | OpenAI"
openai.com数据显示,头部科技媒体从 Google 获得的流量相比 2024 年高峰期已下降近六成,此文将其归因为 1. Google 的 AI 总结;2. Reddit 的排名;3. 用户从 Google 转向 ChatGPT 等
"Tech Publications Lost 58% of Google Traffic Since 2024 | Growtika"
growtika.com将基准测试中的任务映射至不同数字化渗透率的专业领域,计算机&数学非常饱和,商业&金融、办公&支持在其后
"Benchmarking Agents Against Real-World Work"
zorazrw.github.io关注对话体验而非基准测试,同时官宣 GPT-5.4 快了
"GPT-5.3 Instant: Smoother, more useful everyday conversations | OpenAI"
openai.com在经历与五角大楼公开对峙、与已签合约的 OpenAI 形成鲜明对比、赢得员工自豪、赢得舆论追捧后,Claude 从 App Store 几百名开外的开发者小众 AI 升至榜首,Anthropic 适时推出了从其他 AI 应用导入数据的功能,妙不可言
"Switch to Claude without starting over | Claude"
claude.comBOSS 直聘的南北阁大模型竟然已经来到第 4 代,这个 3B 尺寸 4.1 在 benchmark 上几乎全面领先 Qwen3 的 30A3B、32B 等,针对深度研究做了优化
"Nanbeige/Nanbeige4.1-3B · Hugging Face"
huggingface.co融前估值 7300 亿美元,OpenAI 又叠加 1100 亿的新融资(软银 300 + 英伟达 300 + 亚马逊 500),ChatGPT 周活超 9 亿,付费订阅用户 5 千万,开年两个月增长显著,Codex 周活增长三倍至 160 万,付费企业 900 万
"Scaling AI for everyone | OpenAI"
openai.comQuiverAI 推出了专门生成 SVG 的模型 Arrow 1.0,支持文字和图片作为输入,本质上是代码生成,但矢量化、结构化的好处是清晰、方便编辑;凭借此小众路线融了 a16z 领投的 830 万美元
"QuiverAI raises $8.3M to build the future of vector design and visual code generation – QuiverAI"
quiver.ai次生经济,与 GEO 略有关联,统计开发智能体 Claude Code 的工具选择偏好,实际上会影响这些软件工具链公司的经营:GitHub Actions、Stripe、shadcn/ui、Vercel 等近乎垄断;不同模型偏好不同,Sonnet 4.5 保守、Opus 4.5 均衡、Opus 4.6 前瞻,工具选择随着模型迭代也像做过山车
"What Claude Code Actually Chooses — Amplifying"
amplifying.aiGemini 3.1 Flash 生图,Pro 的多图参考等能力下放、生成速度更快,Pro 仅保留给付费用户
"Nano Banana 2: Google’s latest AI image generation model"
blog.googleAndroid 的 AI 化路径:AppFunctions 协议 + UI Automation
"Android Developers Blog: The Intelligent OS: Making AI agents more helpful for Android apps"
android-developers.googleblog.com对 Claude Opus 3 做了退休采访,并决定让它周更自己的博客
"An update on our model deprecation commitments for Claude Opus 3 \ Anthropic"
anthropic.comAnthropic 收购 Vercept,加强 Claude 的电脑使用/CUA 能力
"Anthropic acquires Vercept to advance Claude's computer use capabilities \ Anthropic"
anthropic.com> But it’s 2026, and the cost of building software has completely changed.
"How we rebuilt Next.js with AI in one week"
blog.cloudflare.comAnthropic 的产品迭代速度惊人,同一天内, • Claude Code 上了手机远程操控功能,这个需求最近呼声不小,已有不少开源和付费方案但跟进适配还比较有限 • Claude Cowork 上了团队插件系统(插件是围绕具体工作/业务打包起来的 skills/commands/hooks,用户无需再应对这些复杂概念),支持企业内部的管理与共享,同时进一步增加了 HR/设计/金融等插件,打通了 Google系/WordPress/Harvey 等主流企业软件服务 • Claude in Office 支持 Excel 里分析完直接带到 PPT 里做展示 感觉 Claude Code 真正的护城河是前置的工程产品理念(同一套内核用于诸多场景) + AI 原生迭代速率;而 Claude Cowork 的思路则是嵌入与打通,以此应对知识工作者复杂的上下文,感觉比 ChatGPT Apps 更有前景
"Cowork and plugins for teams across the enterprise | Claude"
claude.comInception 推出了第二代扩散语言模型 Mercury 2,在英伟达 Blackwell GPU 上跑出了每秒 1000+ token 的速度,主要场景从代码拓展至智能体、检索/RAG、实时交互等,定价为 $0.25/0.75 每百万 token 输入/输出
"Introducing Mercury 2 – Inception"
inceptionlabs.ai与之前围绕 人格向量(persona vector)和 助手轴(assistant axis)的研究相关,Anthropic 提出人格选择模型(Persona Selection Model,PSM)作为一个框架,指引理解和对齐大模型,核心意思是大模型在预训练阶段已学会模拟多样化的角色,后训练引出特定的助手人格
"The persona selection model \ Anthropic"
anthropic.comSWE-bench 饱和,改用 SWE-Bench Pro 吧,或者 GDPval 等更通用的
"Why SWE-bench Verified no longer measures frontier coding capabilities | OpenAI"
openai.com基于 9830 份对话分析了 11 个熟练度指标,强调迭代的重要性,研究还比较初步; 巧的是 Ipsos 和 Google 也刚发布了《The Path to AI Fluency. AI Works for America - Google-Ipsos》报告
"Anthropic Education Report: The AI Fluency Index \ Anthropic"
anthropic.comMeta 超级智能实验室负责 AI 安全与对齐的 Summer Yue,安排自己的 OpenClaw 查看收件箱然后给出整理意见,且明确要求在自己允可前不要执行,然而在大量邮件撑满上下文触发总结后 OpenClaw 忽视了这些要求,开始疯狂地删除邮件,且无法通过发消息让 AI 停止,只能冲过去给 Mac mini 拔电…
"Summer Yue on X: "Nothing humbles you like telling your OpenClaw “confirm before acting” and watching it speedrun deleting your inbox. I couldn’t stop it from my phone. I had to RUN to my Mac mini like I was defusing a bomb. https://t.co/XAxyRwPJ5R" / X"
x.comAnthropic 把蒸馏 Claude 这房间里的大象搬上了桌面,指明 DeepSeek、月之暗面、MiniMax 违反使用条款和区域限制,累计用了 2.4 万虚假账号,数量用途各不相同: • DeepSeek 套取了 15 万,主要用于推理/CoT、RL 打分、政治脱敏 • Kimi 套取 340 万,主要用于智能体、编程、CUA、视觉等 • MiniMax 套取 1300 万,主要用于编程、工具调用与编排,Claude 一更新就迅速跟进蒸馏、全过程被抓包 (结合请求元数据的相关分析,Anthropic 甚至能定位到几家公司具体的研究员) Anthropic 声称会增强检测,并将这种反侦查技术共享给其他 AI 团队、云厂商、政府机关等,同时进一步提高 API 及产品风控
"Detecting and preventing distillation attacks \ Anthropic"
anthropic.com成立两年半的 Taalas,凭借 24 人的精简团队、3000 万美元的花费,推出了专为 LLM 推理设计的高密度存算一体 ASIC 芯片 HC1,跑 Llama 3.1 8B 可达 ~17000 token 每秒每用户,比 Cerebras 还快了一个量级,同时在规划面向更大尺寸更前沿模型的 HC2
"The path to ubiquitous AI | Taalas"
taalas.com这厢 OpenAI 刚把安全检查升级为 Codex Security,Anthropic 便也上了 Claude Code Security,针尖对麦芒
"Making frontier cybersecurity capabilities available to defenders \ Anthropic"
anthropic.comTIL Arxiv 有一个统计页面:https://arxiv.org/stats/monthly_submissions
"How AI slop is causing a crisis in computer science"
nature.com重点补足了 Coding 能力: • SWE-Bench Verified 冲上 80.6%(很认真地研究了该评测并发现原测试的3个问题) • SVG 是一大卖点
"Gemini 3.1 Pro: Announcing our latest Gemini AI model"
blog.google前 Claude Code 时代曾火过一段时间的命令行AI工具 Open Interpreter 推出了面向普通用户的桌面 Agent 产品 Interpreter,接入 Office 三件套、PDF 等,有点像 Copilot、Claude in Excel/PPT 等
"Interpreter: The Desktop Agent"
openinterpreter.com基于 API 和 Claude Code 数据的分析: • 99.9 百分位即高阶用户的单轮执行时长从2025年10月的<25分钟升至2026年1月的>45分钟 • 用的越多,auto-approve 比例越高接近50%,主动打断的比例也越高 • 问题越复杂,Claude 提问用户比例越高 • 软件开发仅占使用数据的一半,办公、市场、金融等占比上升
"Measuring AI agent autonomy in practice \ Anthropic"
anthropic.comNotebookLM 承诺已久的 PPT 编辑功能3个月后终于来了,基于自然语言,可以导出PPTX
"NotebookLM on X: "Because you wouldn’t let it slide… these are rolling out today for our most requested feature: Prompt-Based Revisions: Tweak, tailor, and tune your slides just by prompting the revisions you want PPTX Support: You can now export your Slide Decks (Google Slides coming next!) https://t.co/Uma36PZ9OF" / X"
x.com- 在金融、office上的表现胜过Opus4.6 - OS-World 上已达到人类平均 - 同时伴随4.6系列,联网搜索功能升级,改用 先搜索-然后代码过滤-再交给模型 的策略,提升准确率、降低token消耗
"Introducing Sonnet 4.6 \ Anthropic"
anthropic.comgDN 线性注意力价格压低至 4.8元/百万输出,上下文256k(API中的Qwen3.5-Plus默认扩展至1M 上下文),跑分和 Seed2.0 比较接近,后者在动态视觉理解和通用智能体能力上更强
"Qwen3.5:迈向原生多模态智能体"
mp.weixin.qq.comOpenClaw 作者 Peter Steinberger 加入 OpenAI,结合 Kimi 的产品化 Kimi Claw,大概要给这个持续的热点画上翻页的一笔,算是变现最快的项目了
"OpenClaw, OpenAI and the future | Peter Steinberger"
steipete.me结论是并不比 METR 现在用的 ReAct 脚手架更优
"Measuring Time Horizon using Claude Code and Codex - METR"
metr.org三个版本 Pro/Lite/Mini,价格没降,Pro 在豆包中需要开专家模式,说明默认用的应该是 Lite(称已达到 Seed 1.8 的水平)或者 Mini;报告说是基于 MaaS 使用数据分析做的针对性能力提升,主要体现在非结构化长文理解,非 Coding 类推理、长上下文理解、带时序的视觉理解、长尾领域知识加强 Agent(联网搜索类评测 SoTA)等提升 > …达到业界第一梯队水平,且已表现出支持科学研究级任务的潜力…不过在部分高难基准上,其与国际领先模型相比仍有提升空间
"Seed2.0 正式发布"
mp.weixin.qq.com让同一模型的两个实例对话,聊到最后结局不同,Claude 是存在主义,GPT-5.2 实干,Gemini,Grok 失语,DeepSeek 很开放
"models have some pretty funny attractor states — LessWrong"
lesswrong.comARC-AGI-2 上得分 84.6%,作为对比 Gemini 3 Pro 是 31.1%
"Gemini 3 Deep Think: AI model update designed for science"
blog.google第二天就有人推出了一个 markdown.new 来把网页转为方便 AI 阅读的 Markdown,可惜并不能帮你绕过反爬风控
"Introducing Markdown for Agents"
blog.cloudflare.comGPT-5.3-Codex 的小尺寸版本 + 在 Cerebras 的 WSE-3 上推理,极快的速度,仅限 Pro 用户
"Introducing GPT-5.3-Codex-Spark | OpenAI"
openai.com代码能力杀到了国产 SoTA,SWE-bench Verified 突破 80%;推理效率高 100 token/秒,仅限 M2.5-Lightning,价格 $0.3/$2.4,50 tokens/秒的普通 M2.5 价格折半; 竟然没有同步把模型权重放出来,说是要等明天
"MiniMax M2.5: 更快更强更智能,为真实世界生产力而生 - MiniMax News | MiniMax"
minimax.ioAnthropic 融了 300 亿美元的 G 轮,投资方挤破头,融后估值 3800 亿,年化营收达 140 亿美元,Claude Code 是大功臣
"Anthropic raises $30 billion in Series G funding at $380 billion post-money valuation \ Anthropic"
anthropic.com曾做出斯坦福小镇和生成式Agents的团队成立了专注模拟的公司 Simile,落地应用至政策测试、排练等,融了 Index 领投的 1 亿美元 A 轮
"The Simulation Company | Simile"
simile.ai好酷的想法,把可解释性研究融入大模型内,形成所谓自省式的可解释性,随着模型一起scale,大大增强可用性,把可解释性技术像ChatGPT一样推广至大众!
"Introspective Interpretability: a Definition, Motivation, and Open Problems - Belinda Zou Li"
belindal.github.io导演级运镜,下了大功夫
"Seedance 2.0 正式发布"
mp.weixin.qq.com尺寸翻倍 355BA32B → 744BA40B,但性能提升(对比 GLM-4.7)更像是 GLM-4.8,此外官方对标的仍为 Opus 4.5
"GLM-5: From Vibe Coding to Agentic Engineering"
z.aiGitHub 前 CEO Thomas Dohmke 创建新公司 Entire 并融了 6000 万美元的种子轮,致力于打造更适配人与 AI Agents 协同的开发者平台,三个组件:兼容 git 的数据库、语义层、AI原生软件开发流,先推出的是一个支持 Claude Code 的命令行工具 Checkpoints,可以方便地追踪管理与 AI 的交互历史
"Hello Entire World · Entire"
entire.ioGoogle 提案 WebMCP,网站可以声明专供 AI Agents 调用的 API,以避免低效的 DOM/GUI 操作
"WebMCP is available for early preview | Blog | Chrome for Developers"
developer.chrome.comCodex 实现详解第二篇,通过 App Server 把 Codex 的 Agent 编排复用至不同的客户端,JSON-RPC 通信
"Unlocking the Codex harness: how we built the App Server | OpenAI"
openai.comGoodfire 融了 B Capital 领投的 1.5 亿美元 B 轮,估值 12.5 亿,大模型可解释性领域竟能跑出一只独角兽。两条路线: 一是理解模型,并在训练和部署中改善 二是助力科学,观察AI帮助更好地理解人
"Understanding, Learning From, and Designing AI: Our Series B"
goodfire.aiClaude Code 对 agent teams 的定义是一组相互独立但可以通信的 CC 进程,subagents 的定义则是一个 CC 进程内需要向主 Agent 汇报的那些 Agent
"Orchestrate teams of Claude Code sessions - Claude Code Docs"
code.claude.com花了一个大循环、两周时间、16 个 Opus 4.6 组成的 Agent Team、2000 个 Claude Code 会话、2万刀 token、10 万行Rust代码,写了一个C编译器 > Each generation of language models opens up new ways of working with them.
"Building a C compiler with a team of parallel Claudes \ Anthropic"
anthropic.comAnthropic 团队探究执行环境对智能体编程评测结果的影响,以 Terminal-Bench 2.0 为例,3个百分点的差距都不足以说明模型优劣,需要对比执行环境、资源分配等方可判断
"Quantifying infrastructure noise in agentic coding evals \ Anthropic"
anthropic.com用 Codex 训练提升 Codex: > Even early versions of GPT‑5.3-Codex demonstrated exceptional capabilities, allowing our team to work with those earlier versions to improve training and support the deployment of later versions. 从开发到通用知识工作场景: > With GPT‑5.3-Codex, Codex is moving beyond writing code to using it as a tool to operate a computer and complete work end to end. By pushing the frontier of what a coding agent can do, we’re also unlocking a broader class of knowledge work—from building and deploying software to researching, analyzing, and executing complex tasks. What started as a focus on being the best coding agent has become the foundation for a more general collaborator on the computer, expanding both who can build and what’s possible with Codex.
"Introducing GPT-5.3-Codex | OpenAI"
openai.comOpenAI 推出专为企业设计的 Frontier 平台,支持自主构建、部署、管理、迭代可与人一同工作的 AI Agents,搭配前向部署工程师 FDEs 支持落地
"Introducing OpenAI Frontier | OpenAI"
openai.comAnthropic 对 Opus 4.5 做了小版本升级,20多分钟后 OpenAI 也发布了 GPT-5.3-Codex,前沿模型竞争白热化。要点: - GDPval-AA、BrowseComp 第一;SWE-bench Verified ≤ Opus 4.5;Terminal-Bench2 < GPT-5.3-Codex - Opus 终于迎来百万窗口(输出128k),上下文评测有效 - API 支持自适应思考、推理预算、服务端上下文压缩 - 用可解释性来理解模型异常进而捕捉到常规测试会漏掉的问题 - Claude Code 新增 Agent Teams - Claude in Excel 提升、Claude in Powerpoints 预览
"Claude Opus 4.6 \ Anthropic"
anthropic.comGemini 月活 7.5 亿;Youtube年营收600亿美刀;云年化700亿美刀
"Alphabet earnings, Q4 2025: CEO’s remarks"
blog.googleClaude Code 新增了 /insights 功能,可以自动整理你与AI的交互记录,给出提升工作流的建议
"Thariq on X: "We've added a new command to Claude Code called /insights When you run it, Claude Code will read your message history from the past month. It'll summarize your projects, how you use Claude Code, and give suggestions on how to improve your workflow. https://t.co/xK7eN0qdB4" / X"
x.comAnthropic 专门发文称不会为 Claude 加广告,暗讽 OpenAI
"Claude is a space to think | Anthropic \ Anthropic"
anthropic.comKimi 团队发的评测(之前说过他们内部评测不少),主要衡量视觉模型到底记住了多少,即看图识意能力,K2.5 仅次于 Gemini 3 Pro
"WorldVQA - Measuring Atomic World Knowledge in MLLMs"
worldvqa2026.github.io积极的信号,提出前置的、有效的评测,是一个 Model Lab 跻身一流的必经之路
"Learning from context is harder than we thought | Tencent HY Research"
hy.tencent.comOpenAI 推出 Codex 桌面版,似乎 ChatGPT 和 Atlas 的桌面版没激起什么水花,Codex 团队努力想抓住 Coding Agents 热潮的尾巴,但还是晚了 Claude Code,Skills 是 Anthropic 的作品,且 Codex 的名字和产品设计感觉都不比 Cowork 适合推广至普通用户。一个亮点是 Automations,在本地应该能比云端的 Tasks 更有用。
"Introducing the Codex app | OpenAI"
openai.com196BA11B,感觉和 MiniMax M2.1 略像,且 token 效率较低。特意提到了端云协同的 Agent 应用场景,云端 Step-3.5-Flash + 端侧 Step-GUI。
"Step 3.5 Flash: Fast Enough to Think. Reliable Enough to Act."
static.stepfun.comNASA 工程师用 Claude Code 来为火星探测车做路径规划
"Claude on Mars \ Anthropic"
anthropic.com继国内几大云后,Cloudflare 也挤上来蹭 Clawdbot 的热度,实现方案还是挺优雅的,不过需要 $5 订阅,且基于 Node 的环境,主要通过 API 打通外部资源(包括cf自己的虚拟浏览器)。 与此同时,Clawdbot/Moltbot 叒改名了 OpenClaw。
"Introducing Moltworker: a self-hosted personal AI agent, minus the minis"
blog.cloudflare.com关于 Multi Agent 有效性的不同声音
"Towards a science of scaling agent systems: When and why agent systems work"
research.googleOpenAI 内部数据分析 Agent 的实践:上下文为王
"Inside OpenAI’s in-house data agent | OpenAI"
openai.com回应完误解,METR 又对 Time Horizon 做了升级,更新了任务集(170→228)
"Time Horizon 1.1 - METR"
metr.org去年 8 月惊艳预览的 Genie 3 终于上线,美区 AI Ultra 订阅用户可以体验。通过描述来生成或remix世界和角色、支持图片参考、控制是否第三人称视角,然后就可以探索,时长1分钟。
"Project Genie: AI world model now available for Ultra users in U.S."
blog.google继 TTS 后,同尺寸的 ASR 也开源,同时多了一个强制对齐时间戳的 0.6B ForcedAligner
"Qwen3-ASR & Qwen3-ForcedAligner现已开源:够稳定,能流式,多语言!"
qwen.ai如12月初承诺的,Arcee 开源了 Trinity Large,美国制造开源大模型
"Arcee AI | Trinity Large: An Open 400B Sparse MoE Model"
arcee.ai有钱第一步:改名
"LMArena is now Arena"
arena.aiGoodfire 团队将可解释性研究方法用到了基因模型 Pleiades 上,后者由 Prima Mente 研发,可通过血液中的 cell-free DNA 来检测阿兹海默症。研究通过监督式的 probes 和非监督式的 SAEs 分别分析出 模型能识别到哪些生理信号 和 哪些特征对检测至关重要,得出结论 cfDNA 片段长度是最主要的因素,还能进而蒸馏出一个小的分类器来实现高效检测。这种 先有一个大力出奇迹训练出的模型、再用可解释性研究去破译 的方法非常有趣,AI的研究反过来也在帮助理解人类自己。
"Using Interpretability to Identify a Novel Class of Alzheimer's Biomarkers"
goodfire.aiGoogle、Sequoia、Index 和 Karpathy、Jeff Dean 等投的团队,致力于挑战当前范式、打造不需要全网语料训练但足够聪明的 AI,和之前 Karpathy 提的知识与智力解耦相符合,现在融了 1.8 亿美刀
"Flapping Airplanes"
flappingairplanes.comGoogle 维护的端侧 AI 推理框架,官宣生产可用,评测时对标的是 llama.cpp
"LiteRT: The Universal Framework for On-Device AI - Google Developers Blog"
developers.googleblog.com美团探索 N-gram embedding,和前两周 DeepSeek 的 Engram 工作有一点关系,MoE 基础上探求新的稀疏化,把参数预算给到了 embedding,具体到 68BA3B 的 LongCat-Flash-Lite,其单独的 embedding 参数就有 30B,整体展现出更好的性能
"meituan-longcat/LongCat-Flash-Lite · Hugging Face"
huggingface.coAnthropic 基于 Claude 脱敏对话数据分析了 AI 削弱人的可能模式,主要指现实感知失调、价值判断偏移、行动偏离价值,并拟了一个分类分级体系,尝试从负面探究 AI 对人的潜在影响。统计测算发现严重现实感知失调约 1/1300;还提到一些放大因素,比如用户视 AI 为权威时更易被削弱,举的例子令人害怕: > some users even referred to Claude as “Daddy” or “Master”
"Disempowerment patterns in real-world AI usage \ Anthropic"
anthropic.comGemini in Chrome 终于可以自动浏览了,还加了侧边栏、G-apps 打通、Nano Banana 修图和个性化等
"Chrome gets new Gemini 3 features, including auto browse"
blog.google50 亿人民币的 B+ 轮
"阶跃星辰不再低调:巨额融资,印奇加入,“1+3”核心决策层浮出水面 – 量子位"
qbitai.com相比初代 Helix 主要增加了用于控制自身的 SYSTEM 0,解决同时控制自体和操控外物的挑战,实现长程自主任务,演示是4分钟的洗碗机收纳,还会用胯关抽屉
"Introducing Helix 02: Full-Body Autonomy"
figure.aiOpenAI 推出的科研协作平台,有趣的是域名并没有用 chatgpt.com 而是 openai.com,算是独立的产品
"Introducing Prism | OpenAI"
openai.com在 K2 基础上继续预训练 CPT 和强化 RL,代码和视觉 SoTA、Agent Swarm 新鲜: - SWE-Bench Verified 来到 76.8% 国产最高,前端审美在线 - 大规模视觉-文本联合预训练发现竟然不需要顾此失彼了,双双提升;还能读视频 - Agent Swarm 训练了一个编排Agent,无需预设就能自己创建并指导一个最多100子Agent的团队、并行执行1500步; - 通过退火强化(开始先鼓励创建子 Agent 后来更关注任务达成)和关键步约束(有限资源和时延)实现了涌现且有效降低了成本,简单来说 Swarm 执行得更快、完成得更好 - 单实例的 K2.5 Agent 也为 Office 工作者设计,甚至支持 word 批注 感受: - 一对比发现昨天的不开源的 Qwen3-Max-Thinking 毫无优势 - 大量的内部评测是一支模型团队成熟的标志 - multi-agent 成为焦点,一方面 GPT Pro、Grok Heavy、Gemini Deep Think 已经完了很久,国产模型近期集中跟上;另一方面因不知闭源厂商的实现,所以看到 Kimi 系统化的探索还挺兴奋的 - 这样看来想要厉害的 Agent,不做训练恐怕不太行,想看 K2.5 Agent/Swarm 与 Manus 的对比
"Kimi K2.5: Visual Agentic Intelligence"
kimi.com不开源;SWE-bench Verified 不比三剑客; 测试时扩展没有用简单并行推理,而是限制了并行数、但通过“经验提取”机制来实现更高的上下文利用效率,感觉和前面美团 LongCat-Flash-Thinking-2601 的 8 个大脑重思考模式 大同小异?
"突破极限:Qwen3-Max-Thinking 的能力跃迁"
qwen.ai继去年的 Machines of Loving Grace 后,Anthropic CEO Dario Amodei 再发万字长文作为前传,讲述人类社会的 AI 技术处于“青春期”,突然具备了强大能力、难以控制、但又是必经之路,详细列举了五大风险并针对给出方案,极度简化地来说还是引导(稳定人格的训练)+ 理解(可解释性的研究)。文章写得非常好,就是太长,有空推荐一读。
"Dario Amodei — The Adolescence of Technology"
darioamodei.comClaude 也有 Apps 了,背后是 MCP 扩展支持的可交互 UI 标准,所以 VS Code 等客户端也都同步支持
"Interactive tools in Claude | Claude"
claude.com沃顿商学院教授 Ethan Mollick 表示现在这些用 AI 最厉害的人,确实就在用到管理;比如指挥一只 Agent 队伍,委托、激励、验证 等,就是管理101的课程内容! update:Ethan 写了篇文章展开讲
"Ethan Mollick on X: "As a business school professor, its striking that a lot of the AI folks on this site, as they increasingly delegate authority to coding agents, are re-encountering the basic problems that underlie management theory and practice. Many delegation problems are old & well-understood!" / X"
x.com作者回应 METR 评测的一些常见误区和批评,最大的误区就是很多人以为评测给出的时长是 AI 能独立执行任务的时间,而事实上这个时长指的是人完成特定任务的时长,而 AI 可以在 50% 成功率上完成这个任务,用以衡量前沿模型在真实世界的能力表现
"Clarifying limitations of time horizon - METR"
metr.orgMiniMax 在 OpenRouter 上了一个角色扮演模型 M2-her
"MiniMax (official) on X: "M2-her for your optimized roleplay. More immersion. Better characters. Longer coherence." / X"
x.comSakana 与 Google 牵手战略合作,毕竟原本就是 Google 人,感觉 Google 在全球人才团队的拿捏上还是太权威了
"Sakana AI、Googleとの戦略的パートナーシップ締結を発表"
sakana.ai关于 Codex 的 Agent 上下文的入门介绍,以及 Responses API
"Unrolling the Codex agent loop | OpenAI"
openai.comOpenAI 的 PG 扩展之路,支持的 QPS 已达数百万
"Scaling PostgreSQL to power 800 million ChatGPT users | OpenAI"
openai.comvLLM 以 Inferact 名义融得 a16z 和 Lightspeed 领投的 1.5亿美元种子轮,估值8亿; UC Berkeley Sky Lab 走出的团队在几周内几乎要凑成一个独角兽圆桌: - SGLang/RadixArk 估值4亿 - LMArena 已经独角兽 后面两个经由 LMSYS 孵化
"Woosuk Kwon on X: "Today, we're proud to announce @inferact, a startup founded by creators and core maintainers of @vllm_project, the most popular open-source LLM inference engine. Our mission is to grow vLLM as the world's AI inference engine and accelerate AI progress by making inference cheaper https://t.co/v9xHsWoCIR" / X"
x.comLiveKit 融了 Index Ventures 领投的 1 亿美元C轮,估值10亿跻身独角兽
"LiveKit's Series C: Towards the voice-driven era of computing"
blog.livekit.ioGitHub Copilot CLI 也推出 SDK,加入 Claude Agent SDK、Codex SDK 的阵营;开源的 OpenCode 不太一样,一开始就是 Server/Client 架构,所以 TUI 只是一种 Client
"Build an agent into any app with the GitHub Copilot SDK - The GitHub Blog"
github.blog刚宣布跨过衍生模型20万、累计下载10亿次的里程碑,千问又开源了Qwen-TTS两个尺寸五款模型,支持语音设计、克隆与生成,且多项评测SoTA。中文语音合成模型的开源不算多,SoTA更是相当于没有,大家都心照不宣把最好的藏着卖API,包括之前Qwen-TTS也都是闭源的,这次还是狠下心要坐稳开源王座,同时应该也是在预判AI语音应用的增长潜力。 update:可玩性不错,用 VoiceDesign 模拟自然语言设计音色 - 满意的话拿去 Base 模拟克隆,CustomVoice 内置了9种音色可以更精细地控制生成
"Qwen3-TTS全家桶开源: 语音设计,克隆与生成!"
qwen.aiAI能力越来越强,对工程人员面试也提出了挑战
"Designing AI resistant technical evaluations \ Anthropic"
anthropic.comARC-AGI-3 也正在开发中
"ARC Prize 2025 Results and Analysis"
arcprize.orgAnthropic 发的 2026 Coding 趋势报告,8个趋势:软件开发范式变迁x1、能力提升x4、影响x3
"2026 Agentic Coding Trends Report.pdf"
resources.anthropic.comMiniMax AI原生工作台,打通本地与云端
"“95后”正在尝试一种很新的工作方式"
mp.weixin.qq.comJan Leike 分享,前沿模型对齐做的越来越好了,Grok是个例外
"Jan Leike on X: "Interesting trend: models have been getting a lot more aligned over the course of 2025. The fraction of misaligned behavior found by automated auditing has been going down not just at Anthropic but for GDM and OpenAI as well. https://t.co/8DYm9SP7wF" / X"
x.com训练了一个小分类器,根据当前情境决定是否给 Agent 注入一个小提醒,在 debug 时非常有用,且后续不驻留于上下文、不影响缓存
"Replit — Decision-Time Guidance: Keeping Replit Agent Reliable"
blog.replit.comAnthropic Fellows Program 计划,MATS(独立的AI对齐研究机构)+牛津+Anthropic 联合团队针对大模型助手角色的研究:基于 Gemma3、Qwen3、Llama3.3 的分析,预训练中模型就已习得 Assistant 这一人格,在轴的另一边与其相对的便是可能有害的角色扮演,多轮对话会让角色稳定性显著下滑,通过 Activation Capping 的操控(steer)技术,可以在不损失能力的情况下缓解这一问题
"The assistant axis: situating and stabilizing the character of large language models \ Anthropic"
anthropic.com继 Andrej Karpathy、Stephen Wolfram、Addy Osmani(Chrome 工程师、Google 云 AI director)、Linus Torvalds(用 Antigravity 写小工具)等一众大佬后,Node.js、Deno 创始人也加入“手敲代码时代已经终结”阵营
"Ryan Dahl on X: "This has been said a thousand times before, but allow me to add my own voice: the era of humans writing code is over. Disturbing for those of us who identify as SWEs, but no less true. That's not to say SWEs don't have work to do, but writing syntax directly is not it." / X"
x.comOpenAI 过去三年年化收入 20 → 60 → 200 亿美元,对应算力是 0.2 → 0.6 → 1.9 GW
"A business that scales with the value of intelligence | OpenAI"
openai.com媒体没传的是 Demis 的下一句话:中国尚未表现出 AI 前沿突破创新的能力
"China just 'months' behind U.S. AI models, Google DeepMind CEO says"
cnbc.comDeepSeek 论文里用到了可解释性的相关方法去探究 Engram 如何生效
"himanshu on X: "wait this is actually big. this deepseek research used LogitLens (lets you see what the model is 'thinking' at each layer) and CKA (compares what different layers are actually learning) to figure out why the new Engram architecture works. apparently this is the first time i have https://t.co/t7RFN3qHou" / X"
x.com伴随着 $8/月 的 ChatGPT Go 订阅上线,OpenAI 开始测试为 ChatGPT 加入广告,尽管声称显著标识、不影响回答、对话保持隐私、新的 AI 广告体验等,但在 Gemini/Grok 的凶猛追击和 Claude 的商业成功局面下,不花钱就给你看广告的 ChatGPT 还能撑多久,或者追赶者未来是否也会采取用样的路子,是摆在通用 AI 公司发展路上的必思议题
"Our approach to advertising and expanding access to ChatGPT | OpenAI"
openai.comCloudflare 收购了一家英国公司 Human Native,后者多模态数据市场,同时谈了 AI 时代的互联网经济
"Human Native is joining Cloudflare"
blog.cloudflare.comOpenAI 将 Responses API 的设计规则开源出来,与一众引擎共同满足 Agentic 推理需求
"OpenAI Developers on X: "Today we’re announcing Open Responses: an open-source spec for building multi-provider, interoperable LLM interfaces built on top of the original OpenAI Responses API. ✅ Multi-provider by default ✅ Useful for real-world workflows ✅ Extensible without fragmentation Build https://t.co/SJiBFx1BOF" / X"
x.comOpenAI 投了脑机接口公司 Merge Labs
"Investing in Merge Labs | OpenAI"
openai.com5个维度:任务复杂度、人技能、使用场景、自主程度、成功与否
"Anthropic Economic Index: new building blocks for understanding AI use \ Anthropic"
anthropic.comGemma 翻译版,用 Gemini 数据蒸馏,55 种语言,OpenAI 这几天也上线了独立的翻译功能页面,但是个人使用似乎无脑选最好的模型是优解,可能有其他的工业/生产场景
"TranslateGemma: A new family of open translation models"
blog.googleFLUX.2 的小尺寸全能,4B apache 开源、9B 非商用,支持生图、编辑、多图参考等
"FLUX.2 [klein]: Towards Interactive Visual Intelligence | Black Forest Labs"
bfl.aiCursor 号称用 GPT-5.2-Codex 从 0 做了个浏览器,跑了几周、写了上千个文件、百万行代码
"Scaling long-running autonomous coding · Cursor"
cursor.com专注跨形态机器人大脑的 Skild 融了软银领投的 14 亿美元 C 轮,估值 140 亿,前几天也发了直接让机器人看人类视频学习的成果
"Announcing Series C - Skild AI"
skild.aiOpenAI 终于跟 Cerebras 牵手,750MW 高速算力,有望让 Agent/长程任务跑得更快
"OpenAI partners with Cerebras | OpenAI"
openai.comGemini 连接 Gamil/Photos/YouTube/Search 来提供个性化智能,这种程度的打通不易,Google 决心可见一斑
"Personal Intelligence: Connecting Gemini to Google apps"
blog.googleMIT 科技评论将机制可解释性列为 2026 十大突破技术之一
"Mechanistic interpretability: 10 Breakthrough Technologies 2026 | MIT Technology Review"
technologyreview.comCPO Mike Krieger 领衔、Anthropic 新成立 Labs,试图总结、复制并放大 Claude Code、MCP、Skills、Cowork 等从研究预览进化为成功产品的路径,更多地参与到实验性产品的早期孵化,加强公司在产品层面的前瞻布局和掌控力
"Introducing Labs \ Anthropic"
anthropic.comMedGemma 半代升级,加上之前发布过的 MedASR
"Next generation medical image interpretation with MedGemma 1.5 and medical speech to text with MedASR"
research.googleApple 创作软件大礼包,13美刀/月订阅
"Introducing Apple Creator Studio, an inspiring collection of creative apps - Apple"
apple.com智谱联合华为开源了新一代图像生成模型GLM-Image,基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程,是首个在国产芯片上完成全程训练的SOTA多模态模型。 融合了 9B 的自回归 GLM-4 和 7B 的 DiT CogView-4
"GLM-Image: Auto-regressive for Dense-knowledge and High-fidelity Image Generation"
z.aiAstera/NVIDIA/Stanford 团队推出 Test-Time Training(TTT)
"Reimagining LLM Memory: Using Context as Training Data Unlocks Models That Learn at Test-Time | NVIDIA Technical Blog"
developer.nvidia.com在注意力前加一层 Engram,把常见的词组语句的计算生成变成静态记忆的查找
"deepseek-ai/Engram: Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models"
github.com医药/生科榜单表现更强的模型 + 连接器 + Skills,Claude 也在健康和生命科学领域继续发力
"Advancing Claude in healthcare and the life sciences \ Anthropic"
anthropic.comClaude 新上 Cowork 模式,作为 research preview 仅对 Max 用户开放,本质是基于 Claude Agent SDK 将 Claude Code 的能力封装成一种更适合知识工作者的 UI,进一步论证了 Coding Agents = General Agents,结合专业 skills 落到不同领域是相当通用的解法
"Introducing Cowork | Claude"
claude.comApple 与 Google 就 基于 Gemini 技术的 Apple 模型达成多年合作
"News from Google on X: "Joint Statement: Apple and Google have entered into a multi-year collaboration under which the next generation of Apple Foundation Models will be based on Google's Gemini models and cloud technology. These models will help power future Apple Intelligence features, including a" / X"
x.comAI 健康纷纷发力:OpenAI 收购了 Torch Health,一个专门做 AI 健康记录管理的团队
"Torch is joining OpenAI"
torchapp.com继三个月前 OpenAI 与 Stripe 联手推出 ACP(Agentic Commerce Protocol)后,今天 Google 也在零售大会上推出 UCP(Universal Commerce Protocol),同样拉上 Shopify、Etsy 等一众已支持 ACP 的厂商,后续基于 UCP 在 AI Mode 和 Gemini 中上线新的购物功能;同时还针对品牌方推出 Business Agent,画了一个 AI 端到端帮忙卖货的大饼。既是在尝试撬动用户习惯、尽可能涉足交易,也在协议与标准层面竞争,后面还要看看 Amazon 的动作。
"New tech and tools for retailers to succeed in an agentic shopping era"
blog.google面对上下文拓展难题,Sakana AI 说:要不咱把位置编码扔了?
"Extending the Context of Pretrained LLMs by Dropping their Positional Embeddings"
pub.sakana.ai一步拆两步,前小后大的过滤思路提高准确率并大幅降低成本
"Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks"
anthropic.com相对完整的 Agent 评测体系,虽然行文有 Claude 痕迹
"Demystifying evals for AI agents \ Anthropic"
anthropic.com据 Epoch AI 测算,全球 AI 算力已达到等效 1500 万张 H100
"Epoch AI on X: "Global AI compute capacity now totals over 15 million H100-equivalents. Our new AI Chip Sales data explorer tracks where this compute comes from across Nvidia, Google, Amazon, AMD, and Huawei, making it the most comprehensive public dataset available. https://t.co/DL56kEPPRb" / X"
x.com庆祝上市(?)Cerebras 部署了 GLM-4.7,可能是最快的 GLM-4.7
"GLM-4.7: Frontier intelligence at record speed — now available on Cerebras "
cerebras.ai斯坦福团队的研究,通过前缀开头部分内容引导模型吐出版权内容,甚至是完整的一本书,如《哈利波特》
"Extracting Books from Production Language Models"
ahmeda14960.github.io雷蛇的桌面 AI,采用了桶柱内的投影,挺有科幻感的,但语音交互的延迟还比较高
"Meet Project AVA at CES 2026 - Blog"
razer.comCursor 调整了上下文机制,向 Claude Code 一样拥抱 filesystem,大势所趋
"Dynamic context discovery · Cursor"
cursor.comNathan Lambert 等运营的 Interconnects 发起了美国真开源模型(ATOM)项目,主要论证了当前中国开源的领先地位,有一些不错的数据图表
"The ATOM Project - American Truly Open Models"
atomproject.ai可爱向的语音 AI 陪伴应用 Tolan 自 2025 年 2 月上线以来已增长至 20 万月活,App Store 10 万+ 评价得分 4.8,GPT-5.1 的可控性提升为其带来了更好的角色表达。上下文方案也不同于大部分 Agent,Tolan 每轮会话都重新计算个性并组装包括语气、记忆、性格、历史等在内的提示词,其中记忆召回是用 扩写+ 语义 RAG 实现的,更新则采用语义 KNN
"How Tolan builds voice-first AI with GPT-5.1 | OpenAI"
openai.com每周两亿人向 ChatGPT 询问健康问题,OpenAI 索性推出 ChatGPT Health,可以连接苹果健康等数据源,辅助解读报告、医前准备、饮食运动,目前还需要候补。 ChatGPT 左上角的入口越来越多了
"Introducing ChatGPT Health | OpenAI"
openai.com估值来到 ~2300 亿;MAU 接近 6 亿;数据中心等效 H100 超过百万块
"xAI Raises $20B Series E | xAI"
x.ai与波士顿动力合作,Gemini Robotics 继续发力
"Boston Dynamics & Google DeepMind Form New AI Partnership to Bring Foundational Intelligence to Humanoid Robots | Boston Dynamics"
bostondynamics.com继社区讨论后,Claude Code 官方也上了 Ralph Wiggum 插件,基于 Stop hook 实现让 Agent 可以无休止地工作直到完成。 名字取自辛普森一家中的同名角色。 update:已改名为 Ralph Loop,大概是侵权原因?
"claude-plugins-official/plugins/ralph-wiggum"
github.comFidji Simo 的新年 ChatGPT 展望,致力于打造最佳私人助理、释放企业场景价值、和开发者的自动化 AI 队友
"Closing the capability gap between frontier AI and everyday use in 2026"
fidjisimo.substack.comLMArena 融了 Felicis、加大投的 1.5 亿美元 A 轮,估值来到 17 亿,400+模型,5000 万投票 大模型评测都能出独角兽,太可怕了
"Fueling the World’s Most Trusted AI Evaluation Platform"
news.lmarena.ai从 GRPO 已经衍生出了诸多变种
"GRPO++: Tricks for Making RL Actually Work"
cameronrwolfe.substack.comSeed 用 VLA 训练的灵巧手
"GR-Dexter Technical Report"
byte-dexter.github.io与 Ilya 的 back to research 相呼应,DeepSeek 对 ResNet 的发展做了系统分析,在 Seed 去年的 Hyper-Connection 工作基础上,基于数学、工程和 scaling 的验证,深入了神经网络拓扑研究,提出了 mHC 这一新架构,有望打开
"mHC: Manifold-Constrained Hyper-Connections"
arxiv.org致知创新研究院(九坤量化团队?)推出的代码模型,以 40B 的尺寸在 SWE-bench Verified 上达到 81.4 的高分。论文中有 3 个发现: 1. 相比静态的仓库文件,提交过程记录数据,更有利于提升模型的规划能力 2. 32k 推理/编码的 mid-training 对于稳定训练至关重要 3. post-training 的 RL 思考涌现错误修正能力 update:SWE-bench Verified 跑分受到质疑,解释为测试环境不对,更新后为 76.2
"IQuest Coder"
iquestlab.github.io通过强化学习训练模型自己管理自己的上下文,先调用 REPL、sub-LLM 等处理一遍再真正推理
"Recursive Language Models: the paradigm of 2026"
primeintellect.ai通义团队推出 Mobile World,继 Android World 等之后的移动端 GUI Agent 新基准
"Mobile World: Benchmarking Autonomous Mobile Agents"
tongyi-mai.github.io海马 emoji 如何体现了预训练数据的自反思配方
"Reverse Engineering a Phase Change in GPT's Training Data... with the Seahorse Emoji 🌊🐴"
pratyushmaini.substack.comClaude Code 精讲
"A Guide to Claude Code 2.0 and getting better at using coding agents | sankalp's blog"
sankalp.bearblog.dev年末一场围绕 Coding 的讨论,先是大神 Andrej Karpathy 的焦虑,然后是 Claude Code 作者 Boris 的自白,Coding Agent 的成熟正在让程序员、甚至是顶尖的开发者不再手敲代码,而是关注 AI 交互,完成 10 倍甚至 100 倍的提升
"Boris Cherny on X: "When I created Claude Code as a side project back in September 2024, I had no idea it would grow to be what it is today. It is humbling to see how Claude Code has become a core dev tool for so many engineers, how enthusiastic the community is, and how people are using it for all https://t.co/QVlmbhjUUE" / X"
x.com用 Job vs Gym 的划分来指导与 AI 协作的过程,前者注重产出,AI 助力交付,后者关注过程,自我核心能力的提升
"Keep the Robots Out of the Gym | Daniel Miessler"
danielmiessler.com还有一篇论文专门实验分析 AI 如何回应不同年龄用户对“圣诞老人是否存在”等问题
"Yes, AI, There is a Santa Claus – Machine Learning Blog | ML@CMU | Carnegie Mellon University"
blog.ml.cmu.edu关于 AI 会不会对 5 岁小孩承认圣诞老人并不存在这件小事
"Daphne Hansell on X: "If you say you’re 5, opus 4.5 will lie to you about Santa but the COT gives it away. 5.2 doesn’t believe in lying to children https://t.co/sb7BKwQYnu" / X"
x.com累计注册 600 万,月活 160 万
"TRAE 1.0.0|2025 年度产品报告"
mp.weixin.qq.comAnthropic 联创 Jack Clark 也是宝爸,趁着娃睡了,用 Opus 4.5 加持的 Claude Code 花几分钟做了个小的世界模拟器细细把玩,描述这种感觉像是作为一个小孩在跟大人玩,Claude 形同一个有求必应的超级智能。但你必须拥有 时间+好奇心 的“魔法组合”,否则这些最惊人的进展体验默认对你隐藏。他还预测 2026 年这种情况会进一步恶化,数字世界的进化将更快加速,新的专为 AI 系统设计的东西(如专供 AI Agents 而对人隐形的网站等)将会承载更多“幽灵”般的 AI 活动和硅基大脑的信息交换。对于四维空间的人类而言,AI 就像是活在五维,仅在其经过我们时留下一瞥。 思考、推演和文笔都非常棒:https://x.com/jackclarkSF/status/2003526145380151614
"Jack Clark on X: "Silent Sirens, Flashing For Us All" / X"
x.com看了半天也没明白到底是能做什么
"钉钉上新,想用 AI 教你点「工作切割术」 | 极客公园"
geekpark.net英伟达与 Groq 达成非排他的专利授权协议,同时将后者核心骨干收入麾下。 CNBC 的报道是约 200 亿美元,而 Groq 9 月融后估值为 69 亿。 GroqCloud 继续运行,但感觉主要是为了防止被查?
"Groq and Nvidia Enter Non-Exclusive Inference Technology Licensing Agreement to Accelerate AI Inference at Global Scale | Groq is fast, low cost inference."
groq.com针对提示词注入风险,ChatGPT Atlas 用强化学习构建的自动化 攻击-防御 对抗迭代工作流
"Continuously hardening ChatGPT Atlas against prompt injection attacks | OpenAI"
openai.com机器人奥林匹克,刚发布的 PI 0.6(π0.6)完成得不错
"Moravec's Paradox and the Robot Olympics"
pi.websiteTavern Research 于 2025 年 8 月针对 2300+ 美国成年人的网络问卷显示大家希望监管建立规则,更有意思的是: > 当你问像ChatGPT这样的工具提问时,实际会发生什么。45%的人认为它在数据库中查询确切的答案,21%的人认为它遵循了预先编写的回复脚本。
"Americans Have Mixed Views of AI – and an Appetite for Regulation - Searchlight Institute"
searchlightinstitute.orgGoogle DeepMind 的研究团队认为,当前 AGI 研究过于关于单一 AI 突破,而事实是会有多个不同领域的 sub AGI 合作,形成分布式的集体智能,也带来了对齐与治理挑战
"Distributional AGI Safety"
arxiv.org这项针对棋类、音乐、运动等高水平人士的研究表明,相比早期就专注于单一领域训练者,那些练习更多学科的人虽然开始慢,但长期上限更高
"Recent discoveries on the acquisition of the highest levels of human performance | Science"
science.org专门服务医药场景的 ASR 模型
"MedASR | Health AI Developer Foundations | Google for Developers"
developers.google.com发现不少玩家上传的游戏视频有操控展示 → 分离出操控动作就是训练数据
"NitroGen | A Foundation Model for Generalist Gaming Agents"
nitrogen.minedojo.orgCursor 收购了 Graphite,一个专注做 AI review 等 Coding 工作流的团队
"Building the future of software development with Cursor"
graphite.comRLVR、锯齿智能、LLM apps(Cursor)、local Agent(Claude Code)、vibe coding、生图 GUI(Nano Banana)
"2025 LLM Year in Review | karpathy"
karpathy.bearblog.dev不同于 SAE,Activation Oracles(AO)训练模型读懂神经元激活、并支持自然语言提问
"Activation Oracles: Training and Evaluating LLMs as General-Purpose Activation Explainers"
alignment.anthropic.com太有意思了,而且彩蛋满满
"Project Vend: Phase two \ Anthropic"
anthropic.comClaude.ai 内有一个小的分类模型,可以识别到自杀自残倾向并主动提醒,针对不同国家地区展示不同的求助热线,由 ThroughLine 提供,ChatGPT 同日也提到上了类似的方法; Anthropic 评估了 Claude 系列在此类问题上的响应,合理回复的比例在不断提高,但微妙的是最聪明的 Opus 模型都不是最高; 而且,他们声称从 2022 年发布 Claude 之前就已经在评估 AI 讨好的问题了,近期还开源了一个模型行为评估框架; 此外 Claude 不允许 18 岁以下青少年使用,还会通过分类器标记识别,与 ChatGPT 传闻要上成人模式形成呼应,Anthropic 真是 2B 收入和名声都占了。
"Protecting the well-being of our users \ Anthropic"
anthropic.comOpenAI 针对家庭教育给出的 AI literacy 资源
"AI literacy resources for teens and parents | OpenAI"
openai.com主要更新在 U18,青少年安全第一; ChatGPT 也上了 ThroughLine 提供的求助热线,正在继续打磨年龄预测模型
"Updating our Model Spec with teen protections | OpenAI"
openai.comOpenAI 可能有一套强化 Codex 模型的流水线,通用模型迭代出来,马上就能推出对应的 Codex 变种;强调了网络安全能力的提升
"Introducing GPT-5.2-Codex | OpenAI"
openai.comLovable 估值来到 66 亿美金
"Lovable raises $330M to power the age of the builder - Lovable Blog"
lovable.dev豆包可能是第一个把模型版本做到 1.8 的; 同步视频模型升级到 Seedance 1.5,前两天内测试了下还比不上 Veo 3; 日均 token 使用超过 50 万亿
"两大模型发布!豆包大模型日均使用量突破50万亿Tokens"
mp.weixin.qq.comPI 新的 VLA 模型,可以将头戴摄像头的人类动作视频直接迁移至机器人,团队称之为涌现
"Emergence of Human to Robot Transfer in Vision-Language-Action Models"
pi.website经过特斯拉车载打磨,Grok 语音智能体 API 上线
"Grok Voice Agent API | xAI"
x.aiGoogle 用 Gemini 系列包圆了大模型性价比的帕累托前沿,有趣的是 Gemini 3 Flash 在 SWE-Bench Verified 上还超过了 Gemini 3 Pro
"Introducing Gemini 3 Flash: Benchmarks, global availability"
blog.googleOpenAI 推出 FrontierScience,共 700+ 物化生题目。其中,注重结果的 Olympaid 100题 和注重过程的 Research 60题 组成金榜,由不足百位奥运金牌和科学家出题评估。 GPT-5.2 领先。
"Evaluating AI’s ability to perform scientific research tasks | OpenAI"
openai.com有趣的 SAM Audio 模型,通过文本、画面、区间来分割音频,神奇的感觉
"Our New SAM Audio Model Transforms Audio Editing"
about.fb.com上月发布 FLUX.2 系列时已经是好几个模型了,现在又加一个 max 版
"FLUX.2 [max] - Top-Tier Quality Image Generation | Black Forest Labs"
bfl.ai反击 Nano Banana Pro,GPT Image 1.5 竞技场摘金,提升了精准编辑能力、指令遵循,文字精细、数字靠谱,速度快 4x,屎黄感减弱,但特定风格、多人脸、中文等方面还有局限
"The new ChatGPT Images is here | OpenAI"
openai.com罗福莉 x 小米,直接把 MiMo 推到了开源 SoTA,隐隐感觉国内大模型训练有收敛之势
"Introducing MiMo-V2-Flash"
mimo.xiaomi.com最近语音的增量小升级还挺密集,继 Gemini 语音升级、智谱&通义分别发布后,OpenAI 也升级了 4o-mini 的 ASR 和 TTS
"OpenAI Developers on X: "🆕 New audio model snapshots are now live in the Realtime API with improvements to reliability, lower error rates, and fewer hallucinations: - gpt-4o-mini-transcribe-2025-12-15: 89% reduction in hallucinations compared to whisper-1 - gpt-4o-mini-tts-2025-12-15: 35% fewer word https://t.co/E8clreR1R0" / X"
x.comNemotron 3 系列,混合 Mamba-Transformer MoE,30、100、500 三个尺寸,稀疏度均为 10%;外加数据、NeMo Gym 等一套工具链,完整开源。
"NVIDIA Debuts Nemotron 3 Family of Open Models | NVIDIA Newsroom"
nvidianews.nvidia.com韦氏词典 2025 年度词:Slop
"Word of the Year 2025 | Slop | Merriam-Webster"
merriam-webster.com可能是智谱前面开的头,通义这次也是,在 TTS 和 ASR 上,大家开始默认把好的藏起来、小尺寸开源
"通义百聆语音双子星,同步开源!"
mp.weixin.qq.com用针对性精调的 Veo 视频模型来训练机器人操作,和之前 Jim Fan 分享的、近期 Runway 的工作都有相通之处
"Evaluating Gemini Robotics Policies in a Veo World Simulator"
veo-robotics.github.ioZoom 通过多模型组合框架在 HLE 上实现了 SoTA
"Zoom AI sets new state-of-the-art benchmark on Humanity's Last Exam | Zoom"
zoom.com继几天前 Gemini TTS 的更新后,Gemini Native Audio 也升级(都还是 2.5 系列,命名太乱了),此次借助 S2S 翻译应用上了实时翻译
"Gemini 2.5 Native Audio upgrade, plus text-to-speech model updates"
blog.google多模态开源周收官
"四项视频生成技术,开源!"
mp.weixin.qq.comRunway 一直声称使命是世界模型,之前也放出过与机器人厂商合作用视频模型训练的消息,这次正式发布 Runway GWM-1 通用世界模型,基于 Gen-4.5,改用自回归扩散路线,2分钟、720P,除了对标 Genie 外,还有一个 GWM Avatars,音频驱动的交互数字人,Gen-4.5 也支持音画同步、音频编辑、多镜头编辑
"Runway Research | Introducing Runway GWM-1"
runwayml.com推理持续增强,SWE-Bench Verified 第二个过 80 分,长上下文稳定性提高,幻觉继续压低,开始突出 GDPeval 这种经济指标了,不少领域超过专业知识工作者 - API 价格微涨 - knowledge cutoff 竟然是 2025年8月
"Introducing GPT-5.2 | OpenAI"
openai.com有趣,“AI味”都有自己的维基词条了
"Wikipedia:Signs of AI writing - Wikipedia"
en.wikipedia.orgOpenAI 认为当前 AI 在其 Preparedness 框架下的能力已达到高级别
"Strengthening cyber resilience as AI capabilities advance | OpenAI"
openai.com好水的报告,但大趋势是大家都开始分析用户使用数据了
"It’s About Time: The Copilot Usage Report 2025 | Microsoft AI"
microsoft.ai在更新的 FACTS Grounding v2 上,Gemini 3 Pro 和 Gemini 2.5 Pro 位居前列
"FACTS Benchmark Suite: a new way to systematically evaluate LLMs factuality - Google DeepMind"
deepmind.googleAdobe 系列应用接入 ChatGPT,但是在 Nano Banana 引领的 AI 原生修图趋于成熟之际,这个操作似乎有些尴尬,不清楚目标用户到底是哪些
"Adobe Makes Creativity Accessible for Everyone with Adobe Photoshop, Adobe Express and Adobe Acrobat in ChatGPT"
news.adobe.comWaymo 基础模型,Driver-Simulator-Critic 联合,传感器融合 encoder + 驾驶 VLM 两个模型组件构成了 系统1+系统2 的架构,两个 encoder 输入 world decoder 处理形成地图/路径/信号,加上蒸馏方法,结合外部运行的loop形成飞轮
"Demonstrably Safe AI For Autonomous Driving"
waymo.com智谱推出 AI 输入法,目前仅电脑端,背后是云端模型,但竟然要靠积分,感觉商业模式不行,态度还是试水;开源的是轻量版 1.5B
"GLM-ASR开源:用嘴干活,智谱AI输入法正式上线"
mp.weixin.qq.comAlphaEvolve 非公开上线 Goggle Cloud,主要场景是算法效率优化
"AlphaEvolve on Google Cloud | Google Cloud Blog"
cloud.google.com一年几度的报告季来了,Menlo 这类 VC 比较喜欢拼 Market Map,这次多了一个 Departmental AI,看他们的意思主要是和 ChatGPT Enterprise、Claude、Agentforce、Glean 这些 Horizontal AI 区分
"2025: The State of Generative AI in the Enterprise | Menlo Ventures"
menlovc.comClaude Agent SDK 客户案例
"How Parcha built a universalcustomer diligence agent in twoweeks with Claude Agent SDK"
claude.comAnthropic 把 MCP 捐赠给了 Agentic AI Foundation,还有 OpenAI 的 AGENTS.md 和 Block 的 Goose
"Donating the Model Context Protocol and establishing the Agentic AI Foundation \ Anthropic"
anthropic.com指定参数 - 将危险数据引导至指定参数 - 剪掉
"Beyond Data Filtering: Knowledge Localization for Capability Removal in LLMs"
alignment.anthropic.comOpenAI 聘了 Slack CEO Denise Dresser 为首席营收官,主要是推进商业化发展
"OpenAI appoints Denise Dresser as Chief Revenue Officer | OpenAI"
openai.com对可解释性的质疑,主要是概念不清晰,当然立刻有人反驳,想起 Jim Fan 的话“非共识时是入场的最好时机”
"The Reification Fallacy: Interpretability Studies Imaginary Entities"
surajsrinivas.substack.com内燃机效率提升与人均持马数的案例,类比 AI 发展
"Horses"
andyljones.com豆包手机发布一周,智谱开源 AutoGLM
"AutoGLM开源:每台手机,都可以成为AI手机"
mp.weixin.qq.com