万千十一

一线 AI 观察员

2026年1月

剪藏

作者回应 METR 评测的一些常见误区和批评,最大的误区就是很多人以为评测给出的时长是 AI 能独立执行任务的时间,而事实上这个时长指的是人完成特定任务的时长,而 AI 可以在 50% 成功率上完成这个任务,用以衡量前沿模型在真实世界的能力表现

"Clarifying limitations of time horizon - METR"

metr.org
剪藏

vLLM 以 Inferact 名义融得 a16z 和 Lightspeed 领投的 1.5亿美元种子轮,估值8亿; UC Berkeley Sky Lab 走出的团队在几周内几乎要凑成一个独角兽圆桌: - SGLang/RadixArk 估值4亿 - LMArena 已经独角兽 后面两个经由 LMSYS 孵化

"Woosuk Kwon on X: "Today, we're proud to announce @inferact, a startup founded by creators and core maintainers of @vllm_project, the most popular open-source LLM inference engine. Our mission is to grow vLLM as the world's AI inference engine and accelerate AI progress by making inference cheaper https://t.co/v9xHsWoCIR" / X"

x.com
剪藏

刚宣布跨过衍生模型20万、累计下载10亿次的里程碑,千问又开源了Qwen-TTS两个尺寸五款模型,支持语音设计、克隆与生成,且多项评测SoTA。中文语音合成模型的开源不算多,SoTA更是相当于没有,大家都心照不宣把最好的藏着卖API,包括之前Qwen-TTS也都是闭源的,这次还是狠下心要坐稳开源王座,同时应该也是在预判AI语音应用的增长潜力。 update:可玩性不错,用 VoiceDesign 模拟自然语言设计音色 - 满意的话拿去 Base 模拟克隆,CustomVoice 内置了9种音色可以更精细地控制生成

"Qwen3-TTS全家桶开源: 语音设计,克隆与生成!"

qwen.ai
剪藏

Anthropic Fellows Program 计划,MATS(独立的AI对齐研究机构)+牛津+Anthropic 联合团队针对大模型助手角色的研究:基于 Gemma3、Qwen3、Llama3.3 的分析,预训练中模型就已习得 Assistant 这一人格,在轴的另一边与其相对的便是可能有害的角色扮演,多轮对话会让角色稳定性显著下滑,通过 Activation Capping 的操控(steer)技术,可以在不损失能力的情况下缓解这一问题

"The assistant axis: situating and stabilizing the character of large language models \ Anthropic"

anthropic.com
剪藏

继 Andrej Karpathy、Stephen Wolfram、Addy Osmani(Chrome 工程师、Google 云 AI director)、Linus Torvalds(用 Antigravity 写小工具)等一众大佬后,Node.js、Deno 创始人也加入“手敲代码时代已经终结”阵营

"Ryan Dahl on X: "This has been said a thousand times before, but allow me to add my own voice: the era of humans writing code is over. Disturbing for those of us who identify as SWEs, but no less true. That's not to say SWEs don't have work to do, but writing syntax directly is not it." / X"

x.com
剪藏

伴随着 $8/月 的 ChatGPT Go 订阅上线,OpenAI 开始测试为 ChatGPT 加入广告,尽管声称显著标识、不影响回答、对话保持隐私、新的 AI 广告体验等,但在 Gemini/Grok 的凶猛追击和 Claude 的商业成功局面下,不花钱就给你看广告的 ChatGPT 还能撑多久,或者追赶者未来是否也会采取用样的路子,是摆在通用 AI 公司发展路上的必思议题

"Our approach to advertising and expanding access to ChatGPT | OpenAI"

openai.com
剪藏

专注跨形态机器人大脑的 Skild 融了软银领投的 14 亿美元 C 轮,估值 140 亿,前几天也发了直接让机器人看人类视频学习的成果

"Announcing Series C - Skild AI"

skild.ai
剪藏

CPO Mike Krieger 领衔、Anthropic 新成立 Labs,试图总结、复制并放大 Claude Code、MCP、Skills、Cowork 等从研究预览进化为成功产品的路径,更多地参与到实验性产品的早期孵化,加强公司在产品层面的前瞻布局和掌控力

"Introducing Labs \ Anthropic"

anthropic.com
剪藏

Claude 新上 Cowork 模式,作为 research preview 仅对 Max 用户开放,本质是基于 Claude Agent SDK 将 Claude Code 的能力封装成一种更适合知识工作者的 UI,进一步论证了 Coding Agents = General Agents,结合专业 skills 落到不同领域是相当通用的解法

"Introducing Cowork | Claude"

claude.com
剪藏

继三个月前 OpenAI 与 Stripe 联手推出 ACP(Agentic Commerce Protocol)后,今天 Google 也在零售大会上推出 UCP(Universal Commerce Protocol),同样拉上 Shopify、Etsy 等一众已支持 ACP 的厂商,后续基于 UCP 在 AI Mode 和 Gemini 中上线新的购物功能;同时还针对品牌方推出 Business Agent,画了一个 AI 端到端帮忙卖货的大饼。既是在尝试撬动用户习惯、尽可能涉足交易,也在协议与标准层面竞争,后面还要看看 Amazon 的动作。

"New tech and tools for retailers to succeed in an agentic shopping era"

blog.google
剪藏

可爱向的语音 AI 陪伴应用 Tolan 自 2025 年 2 月上线以来已增长至 20 万月活,App Store 10 万+ 评价得分 4.8,GPT-5.1 的可控性提升为其带来了更好的角色表达。上下文方案也不同于大部分 Agent,Tolan 每轮会话都重新计算个性并组装包括语气、记忆、性格、历史等在内的提示词,其中记忆召回是用 扩写+ 语义 RAG 实现的,更新则采用语义 KNN

"How Tolan builds voice-first AI with GPT-5.1 | OpenAI"

openai.com
剪藏

每周两亿人向 ChatGPT 询问健康问题,OpenAI 索性推出 ChatGPT Health,可以连接苹果健康等数据源,辅助解读报告、医前准备、饮食运动,目前还需要候补。 ChatGPT 左上角的入口越来越多了

"Introducing ChatGPT Health | OpenAI"

openai.com
剪藏

继社区讨论后,Claude Code 官方也上了 Ralph Wiggum 插件,基于 Stop hook 实现让 Agent 可以无休止地工作直到完成。 名字取自辛普森一家中的同名角色。 update:已改名为 Ralph Loop,大概是侵权原因?

"claude-plugins-official/plugins/ralph-wiggum"

github.com
剪藏

与 Ilya 的 back to research 相呼应,DeepSeek 对 ResNet 的发展做了系统分析,在 Seed 去年的 Hyper-Connection 工作基础上,基于数学、工程和 scaling 的验证,深入了神经网络拓扑研究,提出了 mHC 这一新架构,有望打开

"mHC: Manifold-Constrained Hyper-Connections"

arxiv.org
剪藏

致知创新研究院(九坤量化团队?)推出的代码模型,以 40B 的尺寸在 SWE-bench Verified 上达到 81.4 的高分。论文中有 3 个发现: 1. 相比静态的仓库文件,提交过程记录数据,更有利于提升模型的规划能力 2. 32k 推理/编码的 mid-training 对于稳定训练至关重要 3. post-training 的 RL 思考涌现错误修正能力 update:SWE-bench Verified 跑分受到质疑,解释为测试环境不对,更新后为 76.2

"IQuest Coder"

iquestlab.github.io

2025年12月

剪藏

年末一场围绕 Coding 的讨论,先是大神 Andrej Karpathy 的焦虑,然后是 Claude Code 作者 Boris 的自白,Coding Agent 的成熟正在让程序员、甚至是顶尖的开发者不再手敲代码,而是关注 AI 交互,完成 10 倍甚至 100 倍的提升

"Boris Cherny on X: "When I created Claude Code as a side project back in September 2024, I had no idea it would grow to be what it is today. It is humbling to see how Claude Code has become a core dev tool for so many engineers, how enthusiastic the community is, and how people are using it for all https://t.co/QVlmbhjUUE" / X"

x.com
剪藏

Anthropic 联创 Jack Clark 也是宝爸,趁着娃睡了,用 Opus 4.5 加持的 Claude Code 花几分钟做了个小的世界模拟器细细把玩,描述这种感觉像是作为一个小孩在跟大人玩,Claude 形同一个有求必应的超级智能。但你必须拥有 时间+好奇心 的“魔法组合”,否则这些最惊人的进展体验默认对你隐藏。他还预测 2026 年这种情况会进一步恶化,数字世界的进化将更快加速,新的专为 AI 系统设计的东西(如专供 AI Agents 而对人隐形的网站等)将会承载更多“幽灵”般的 AI 活动和硅基大脑的信息交换。对于四维空间的人类而言,AI 就像是活在五维,仅在其经过我们时留下一瞥。 思考、推演和文笔都非常棒:https://x.com/jackclarkSF/status/2003526145380151614

"Jack Clark on X: "Silent Sirens, Flashing For Us All" / X"

x.com
剪藏

Google DeepMind 的研究团队认为,当前 AGI 研究过于关于单一 AI 突破,而事实是会有多个不同领域的 sub AGI 合作,形成分布式的集体智能,也带来了对齐与治理挑战

"Distributional AGI Safety"

arxiv.org
剪藏

Claude.ai 内有一个小的分类模型,可以识别到自杀自残倾向并主动提醒,针对不同国家地区展示不同的求助热线,由 ThroughLine 提供,ChatGPT 同日也提到上了类似的方法; Anthropic 评估了 Claude 系列在此类问题上的响应,合理回复的比例在不断提高,但微妙的是最聪明的 Opus 模型都不是最高; 而且,他们声称从 2022 年发布 Claude 之前就已经在评估 AI 讨好的问题了,近期还开源了一个模型行为评估框架; 此外 Claude 不允许 18 岁以下青少年使用,还会通过分类器标记识别,与 ChatGPT 传闻要上成人模式形成呼应,Anthropic 真是 2B 收入和名声都占了。

"Protecting the well-being of our users \ Anthropic"

anthropic.com
剪藏

反击 Nano Banana Pro,GPT Image 1.5 竞技场摘金,提升了精准编辑能力、指令遵循,文字精细、数字靠谱,速度快 4x,屎黄感减弱,但特定风格、多人脸、中文等方面还有局限

"The new ChatGPT Images is here | OpenAI"

openai.com
剪藏

Runway 一直声称使命是世界模型,之前也放出过与机器人厂商合作用视频模型训练的消息,这次正式发布 Runway GWM-1 通用世界模型,基于 Gen-4.5,改用自回归扩散路线,2分钟、720P,除了对标 Genie 外,还有一个 GWM Avatars,音频驱动的交互数字人,Gen-4.5 也支持音画同步、音频编辑、多镜头编辑

"Runway Research | Introducing Runway GWM-1"

runwayml.com
剪藏

推理持续增强,SWE-Bench Verified 第二个过 80 分,长上下文稳定性提高,幻觉继续压低,开始突出 GDPeval 这种经济指标了,不少领域超过专业知识工作者 - API 价格微涨 - knowledge cutoff 竟然是 2025年8月

"Introducing GPT-5.2 | OpenAI"

openai.com
剪藏

Waymo 基础模型,Driver-Simulator-Critic 联合,传感器融合 encoder + 驾驶 VLM 两个模型组件构成了 系统1+系统2 的架构,两个 encoder 输入 world decoder 处理形成地图/路径/信号,加上蒸馏方法,结合外部运行的loop形成飞轮

"Demonstrably Safe AI For Autonomous Driving"

waymo.com
剪藏

继上次 ChatGPT 个人使用报告后,OpenAI 此次分析了其超百万企业客户的使用情况,没有之前那么详尽,更多是吸引 toB 客户: - 用量最大的是专业服务、金融、科技、制造,增长最快的是科技、健康、制造; - 使用最多的和平均用户之间的 gap 还在增大; - 用的越多,节省的时间越多;

"The state of enterprise AI | OpenAI"

openai.com
剪藏

Opus 4.5 的对齐实践: - 对齐在模型训练全流程的参与 - 将 soul doc 训练内化,而非仅作为信号 - 性格训练师 Amanda Askell 后面会发一篇文章详细讲

"Sam Bowman on X: "From everything we know so far, Opus 4.5 seems to be the best-aligned model out there in a bunch of ways. I follow the training process closely as part of my work on alignment evaluations. Here's my guess about the two things that are most responsible for making 4.5 special. 🧵" / X"

x.com
剪藏

非常接近 Google 之前预览的 Project Astra 了,常驻的数字AI助理,描绘了豆包更大的图景,跟手机厂商合作、同时做耳机等周边硬件,也是一种更务实能落地的策略。 是大的入口,手机厂商也会做,领跑优势、技术、产品、增长,有待观望。

"豆包手机助手发布技术预览版"

mp.weixin.qq.com

2025年11月

剪藏

Coding 最强,vending-bench 与 Gemini3Pro 接近,发现并绕过了 t2-bench 的漏洞; token 效率大大提升,价格从 15/75 降至 5/25; 做了上下文压缩方面的优化,Claude 应用中也上线了,可以“无限”畅聊; 同时 Claude Code 上线 Claude Desktop; API 中模型名为 claude-opus-4-5-20251101 所以是月初就开始测试了?看来这几家上个月都在藏,攒着感恩节一起发

"Introducing Claude Opus 4.5 \ Anthropic"

anthropic.com
剪藏

屠榜的 Gemini 3 Pro Preview,百万窗口、64K 文本输出; Pro 以上订阅用户可在 AI Mode 使用,帮你规划帮你学习; Ultra 订阅独享更进一步的 Gemini 3 Deep Think 和通用智能体 Gemini Agent; 疑似改自 Windsurf 的又一款 VSCode fork AI IDE:Google Antigravity;

"Gemini 3: Introducing the latest Gemini AI model from Google"

blog.google
剪藏

竞技场新高、降幻觉、创意写作提升(仍低于 GPT-5.1)、图文混合回答

"Grok 4.1 | xAI"

x.ai
剪藏

Cursor 以 293 亿美元估值融了 23 亿的 D 轮,Accel 领投,老伙伴 Thrive、a16z、DST,新伙伴 Coatue、NVIDIA、Google ARR 已超过 10 亿;团队规模 300+ 人

"Past, Present, and Future · Cursor"

cursor.com
剪藏

Anthropic 内部一场有趣的一日实验,控制机器狗,但一队用 Claude,另一队不能用 Claude(Claude-less,太惨了)。不太严谨的对比分析,但 Team Claude 显著用时更短、更接近完成,虽然在两个子任务上有相反的结果。竟然还通过队内录音,分析对比了两队情绪变化,自然是 Team Claude 更开心。

"Project Fetch: Can Claude train a robot dog? \ Anthropic"

anthropic.com
剪藏

特斯拉 AI 负责人 Ashok 在 ICCV 上的分享,讲端到端视觉路线的选择和三个挑战: 1. 维度诅咒,20亿token输入、2token输出,如何有效学习?多亏了数据积累和数据工程! 2. 可解释性与安全保障,通过中间推理过程(如可泛化的生成式高斯溅射)来解决 3. 评估,通过世界模拟器来解决,甚至泛化到了 Optimus

"Ashok Elluswamy on X: "Tesla's approach to Autonomy" / X"

x.com
剪藏

kimi infra工程师讲解k2-thinking的原生int4量化考虑,一个重要发现是在 thinking 模型上,随着 token 长度增加,PTQ量化误差会被放大导致失真,所以用QAT。 INT4 QAT对RL也有好处,长尾rollout效率显著提升。 不用MXFP4/NVFP4等,是为了更好支持非Blackwell架构的硬件,且int4就够用了。 W4A16:权重4bit、激活16bit

"Kimi K2 Thinking模型发布并开源,该模型哪些信息值得关注? - 知乎"

zhihu.com
剪藏

GoodFire 通过 loss curvature(误差曲率)研究大模型是如何记住东西的:通过K-FAC获取的曲率面信息、解构权重矩阵、然后类似PCA看主要成分。结论还一定程度分析了记忆、数学、逻辑推理等的敏感度

"Understanding Memorization via Loss Curvature"

goodfire.ai
剪藏

Sora2的一些幕后: - 上线时团队不足50人 - 早期测试过放在ChatGPT内的媒体流 → meme chains → remix → cameo(key breakthrough)让生成更个性化和有人味,用户就不只是消费了 - 70%用户创作 - 名人效应 - Bill:2028年视频模型在世界模拟上取得突破 - 推荐系统为创意优化 - 未来模型的优化方向:不只是娱乐,可以实用,比如科学模拟、涡流建模 - 商业化:订阅/广告都有可能

"Inside OpenAI's Sora: Surge to #1 App, Key Product Decisions & How Video Models Learn Physics - YouTube"

youtube.com

2025年10月

剪藏

与 DeepSeek-OCR 前后脚,智谱视觉压缩成果。 Q:Glyph 和 DeepSeek-OCR有何异同? A:共同点:两者都从“视觉压缩”出发,利用视觉 token 承载更多的文本信息; 不同点:DeepSeek-OCR 聚焦于真实文档 OCR 任务,验证的是视觉压缩下的文字还原能力;而 Glyph 则将这一思想应用到了更广泛的通用长文本任务中,真正验证了利用视觉模型实现上下文扩展的可行性。

"Glyph:通过视觉-文本压缩扩展上下文窗口"

mp.weixin.qq.com
剪藏

Haiku 4.5 编程能力逼近 GPT-5,让 Claude for Chrome 跑得更快;但与 Sonnet 3/15 和 Opus 15/75 的稳定价格不同,Haiku 的定价一直在涨,也许跟 Anthropic 根据“智能”定价的策略有关? Haiku 3: 0.25/1.25 Haiku 3.5: 0.8/4 Haiku 4.5: 1/5

"Introducing Claude Haiku 4.5 \ Anthropic"

anthropic.com
剪藏

为家庭设计:柔性亲肤外表、更轻、体积更小、无线充电 视觉升级 for Helix VLA:刷新率2倍、延时1/4、视角广60%、掌心摄像头; 为规模化扩张准备好:新供应链、垂直整合,BotQ 设计年产 1.2 万台,目标未来 4 年总产 10 万台

"Introducing Figure 03"

figure.ai
剪藏

Sora 2 开放 API,标准版支持 1280x720,Pro 额外支持 1792x1024,每秒价格分别为 0.1、0.3、0.5 刀,意味着 10s 的 Sora 标准版价格为 $1,API 中时长仅支持 4、8、12 秒三种

"Sora 2 Prompting Guide"

cookbook.openai.com
剪藏

OpenAI正在基于Sora的首批数据和反馈,考虑进行快速的迭代更新: 1. 给版权方选择,决定其角色可否用于生成(特别点了日本,应该是指动漫) 2. 考虑基于互动数的商业模式,并与版权方分成

"Sora update #1 - Sam Altman"

blog.samaltman.com
剪藏

OpenAI 称 Sora 1 是 GPT-1 时刻,而 Sora 2 直接来到了 GPT-3.5 时代。新的 Sora App 和社交属性的 cameos 功能: > We think a social app built around this “cameos” feature is the best way to experience the magic of Sora 2.

"Sora 2 is here | OpenAI"

openai.com
剪藏

前 OpenAI 后训练负责人 William Fudus 和 前 DeepMind 材料&化学负责人 Ekin Dogus Cubuk 联合创立的 Periodic Labs,致力于打造 AI 科学家、自主研究发现,融了 a16z 领投的 3亿美元

"Periodic Labs"

periodic.com

2025年9月

剪藏

陈·扎克伯格慈善组织 CZI 发起教育项目 Learning Commons,旨在把 learning science 带入课堂工具,其中知识图谱就是主要方法之一,他们与 Anthropic 合作,通过 MCP 将知识图谱与 Claude 连接起来,带入课堂给老师用。还开放了部分数据出来供开发者用:learning-commons-org/knowledge-graph

"Scaling Proven Learning Practices with AI Tools for Education"

chanzuckerberg.com
剪藏

Gemini 2.5 Deep Think 在国际最难的编程比赛 ICPC 中达到金牌水平,解出 12 道题中的 10 道。 作为对比,OpenAI 用了 GPT-5 并行解法 + 实验性通用推理模型挑选 的方式解出了 12 道中的 11 道,最后的一道用这个实验推理模型多次提交后也解出了。 最牛的大学生队伍解出了 11/12。Cognition CEO Scott Wu 评价“你们不知道 ICPC 究竟有多难”。

"Gemini achieves gold-level performance at the International Collegiate Programming Contest World Finals - Google DeepMind"

deepmind.google
剪藏

Mercor(17个月1→$5亿营收的零工平台)CEO Brendan 谈真实世界的工作如何为 AI 提供强化学习环境,在专业领域、模型边界、长时工作等方面,AI 仍需要人类反馈(作为环境的一部分)来持续提升;但营收还是 GMT 受到质疑

"The Economy Will Become an RL Environment Machine | Mercor Blog"

mercor.com
剪藏

OpenAI 也发布了 ChatGPT 使用报告,基于百万量级的采样数据做的分析,信息量很大,一些要点: - 用户性别(基于名字判断)从早期的不均衡已基本趋平,近一半消息来自26岁以下用户,低收入国家使用增长显著 - ChatGPT 在工作和生活场景的使用约三七开,生活使用增长更快 53%→70% - 与 Anthropic 的 Augmentation/Automation 划分不同,OpenAI 用了 Asking、Doing、Expressing 的方式,分别占比 49%、40%、11% - 近八成使用可归入三类:操作指引,how-to 类建议等;获取信息,找人/事/产品等,替代搜索;写作,邮件/文档的生成和编辑,其中2/3是修改编辑,从0生成占1/3 - ”让AI教我“类占总量10%,突出ChatGPT的教育价值 - 与 Claude 大比例(33%)用于软件开发不同,编程在 ChatGPT 使用中仅占 4.2% - 陪伴类占比较低仅1.9%

"How people are using ChatGPT | OpenAI"

openai.com
剪藏

在 GPT-5 上继续针对 Coding 强化而来的 GPT-5-Codex,token efficiency 是个亮点、上下限范围更大,即能在简单的问题上用更少的 token 清晰解决问题,复杂的问题也能比 GPT-5 想更久

"Introducing upgrades to Codex | OpenAI"

openai.com
剪藏

讲在 RL 的大势下,像 Cursor 这类原本的 API 套壳应用,也会用已经积累的数据做 RL 训练,而且应用本身就是天然的 RL 环境。 文中首次提到了软件的分发,但目前还没看到比较深入的探讨。

"The Training Imperative"

sdan.io
剪藏

数学家用 GPT-5 做研究的记录,结论还是初级助手,且作者担心 AI 研究不仅可能会使得真正原创和有价值的成果埋没在平庸的 AI 研究中,还有可能让研究生跳过试错研究的过程,而这是成为一名真正的数学家不可或缺的

"Mathematical research with GPT-5: a Malliavin-Stein experiment"

arxiv.org
剪藏

ElevenLabs 发起 1亿刀的员工期权出售,收购方 Sequoia 和 ICONIQ 等,等价估值 66 亿刀,距离上次 33 亿估值的 C 轮融资仅过去了 9 个月;预期年底 ARR 达到 3 亿刀,其中企业客户过去一年增长 200%+,现在 2B 和 2C(使用自助服务的消费者)营收各占一半;员工人数从一年前的 70 增至现在的 330

"Announcing an Employee Tender Offer at $6.6B valuation | ElevenLabs"

elevenlabs.io
剪藏

OpenAI 正在搭建 OpenAI Jobs Platform 和 OpenAI Certification:前者是专注 AI 的人才市场,亮点是用 AI 做供需匹配;后者是 AI 技能认证,与先前的 AI 培训 OpenAI Academy、ChatGPT 学习模式连贯打通,OpenAI 将与沃尔玛等合作伙伴一起,在2030年前认证 1 千万美国人。

"Expanding economic opportunity with AI | OpenAI"

openai.com

2025年8月

剪藏

主要强调角色一致、多图组合、细节控制和世界知识; 竞技场测了一段时间,Elo 领先,特别是编辑方面,但生成式编辑并不能保证非编辑区的像素级对齐,文字渲染不够顶尖

"Gemini 2.5 Flash Image - Google DeepMind"

deepmind.google
剪藏

黑森林和 Krea AI 合作训练了一个去 AI 味儿的文生图模型,Krea AI 详述了训练思路和过程,用了来自 BFL 的预训练基座 flux-dev-raw,自己基于美学品味收集了一套偏好数据

"Releasing Open Weights for FLUX.1 Krea"

krea.ai

2025年7月

剪藏

除了模型的前端设计能力比拼,还增加了lovable、bolt等产品的PK,以及生图、声音等模态竞技场,但数据量还较为有限

"Design Arena"

designarena.ai
剪藏

通义千问团队在 DeepSeek 提出的 GRPO 强化算法基础上做了改进,从 token 到 sequence 序列,能提高训练效率和性能、稳定 MoE 训练、简化 RL infra 等,已用于更新的 Qwen3 系列模型中

"Group Sequence Policy Optimization"

arxiv.org
剪藏

2024.5-2025.6 在 OpenAI 工作(主要围绕 Codex)的 Calvin French-Owen 的回顾与反思,一些细节: - 自下而上 - 非常关注Twitter上的相关讨论,可能转化为改进 - Python为主 - 从陪产假中早归来上线 Codex,一共只花了7周!团队=工程师x8+研究员x4+设计x2+市场x2+PM

"Reflections on OpenAI"

calv.info
剪藏

文心4.5如期开源,5款(带base版共10款)不同尺寸、模态和推理,采用Apache协议开源 时间线: 2月中,官宣要推出4.5系列并于6月底开源 3月中,一言App上线4.5和X1 4月下,一言App上线4.5-turbo和X1-turbo 根据百度云一些信息,此次开源的为turbo版本,是旗舰吗?

"ERNIE 4.5 模型系列正式开源 | ERNIE Blog"

ernie.baidu.com

2025年6月

剪藏

斯坦福大学SALT实验室对AI时代就业的研究,与Anthropic之前基于Claude使用数据的研究都采用了增强Augmentation和自动Automation两种划分,且提出了一个自动化层级划分HAS(H5是全人工,H1是全AI)

"Future of Work with AI Agents"

futureofwork.saltlab.stanford.edu
剪藏

OpenAI o3-pro,没有单独发稿,放在了模型更新日志中。相比 o3,胜率大致在 65% 上下,不过没有透露 o3 是 medium 还是 high;引入了一个新的比较,在 AIME、GPQA、Codeforces 等榜单上4次都答对才算对,用来评估可靠性。

"Model Release Notes | OpenAI Help Center"

help.openai.com
剪藏

Sam Altman 新博客,奇点叙事,几个细节: - Sam 的时间线:2025-Agent&Coding;2026-AI创新;2027-机器人实用;2030-有想法就行;2035-难以想象/科幻 - ChatGPT 平均每次请求耗电 0.34 瓦时 + 耗水 0.000085 加仑,折算下来 1度电 + 1升水 大约可以请求 3000 次 - 自强化循环(机器人造机器人造芯片&数据中心)会持续加速 - 面前两个重要方向:解决安全对齐问题,然后让推理更便宜

"The Gentle Singularity - Sam Altman"

blog.samaltman.com
剪藏

Claude Code 在 Anthropic 内部不同岗位的应用报告:https://clau.de/how-anthropic-teams-use-claude - 数据科学家用来构建ML可视化应用 - Infra团队用来做安全检查 - 市场团队用来自动化投放 - 设计师直出修改 - Claude Code自己写Claude Code

"cat on X: "Since we originally built Claude Code as an internal tool, we've heard a ton of questions about how our teams use it at Anthropic. Here’s an inside look on how our teams—from product engineering, to growth marketing, to legal—use Claude Code: https://t.co/YnCpVZHEqA" / X"

x.com

2025年5月

剪藏

Kyutai(去年开源voice2voice模型Moshi)发布了STT+TTS新作Unmute,声音交互的设计超级棒

"Unmute by Kyutai"

unmute.sh
剪藏

字节 Seed 开源的统一多模态理解-生成模型,可以理解、生成、各种编辑图像,还有CoT,通过对话来自由地调整,但从demo看还需要手动选择输出文本还是图像,是一个局限 PS:项目官网做的有OpenAI那味了

"BAGEL: The Open-Source Unified Multimodal Model"

bagel-ai.org
剪藏

云端开发 Agent,背后是基于 o3 强化精调的 codex-1; 云端容器不联网,只能通过初始化脚本配置环境、安装依赖; 有一个基于 o4-mini 的 codex-mini 可用于 Codex CLI

"Introducing Codex | OpenAI"

openai.com
剪藏

OpenAI 的 Health AI 团队与来自 60 个国家的 262 名医师合作,构建了 HealthBench 评测数据集,包含 5000 条真实的医疗问诊对话和打分,涵盖急症、不确定性等主题。o3 表现最优。

"Introducing HealthBench | OpenAI"

openai.com
剪藏

基于 MindCraft —— 一个将 LLM 引入 MineCraft 的框架 —— 的多智能体协作研究,结论是当前 SoTA 的 LLM 在协作时仍会因缺乏有效的语言沟通而导致任务表现下降达 15%,建造、烹饪、收集三种任务中均出现了令人哭笑不得的失败案例,包括但不限于“你建地基我来拆”、“忘记任务跑偏闲谈”等等

"Collaborating Action by Action"

mindcraft-minecollab.github.io
剪藏

曾在 OpenAI 担任 Science Communicator 的 Andrew Mayne 分享 GPT-4 发布趣事: - ChatGPT 打乱了 GPT-4 的节奏 - ChatGPT 发布前夜 Ilya 测试仍不满意 - GPT-4 发布请了 PBS Spacetime 的创作团队来做视频,并定了绿白横条状的 logo - 团队小且扁平,发布时不带 title - 请了个公司帮忙给 GPT-4 起名… - GPT-3.5 持续提升,导致 GPT-4 发布时在部分任务上反而不如上代,比如下国际象棋 - GPT-4 可以通过抽帧理解视频,但听闻 Gemini 正在研发原生的视频理解,咨询研究团队后未宣传,结果后来 Gemini 发布后发现还是用的抽帧…推测 DeepMind 的研究员会很困扰…

"Inside the Launch of GPT-4 – @AndrewMayne"

andrewmayne.com
剪藏

通过自博弈训练摆脱人工数据依赖: - proposer 提出问题,奖励那些合适的,即 solver 时胜时败的 - solver 解决问题,代码解释器来验证

"Absolute Zero Reasoner"

andrewzh112.github.io
剪藏

OpenAI 推出国家合作计划,初步规划与10个国家建立合作,基于本地数据中心、用本地化的 ChatGPT 为公民提供教育医疗等公共服务,并联动本地资本推动 AI 创新,是 OpenAI 推进星际之门计划全球化的一部分

"Introducing OpenAI for Countries | OpenAI"

openai.com
剪藏

OpenAI 对近期 ChatGPT 讨好问题的完整复盘,粗糙地讲了更新模型的流程、评估等,要点: - 4o 上线后共更新了 5 次 - 错在优先考虑了 A/B 测试的好评而非专家意见 - 将在安全评估之外,增加性格相关的一票否决机制

"Expanding on what we missed with sycophancy | OpenAI"

openai.com
剪藏

Andrej Karpathy 在一场黑客松上 vibe coding 开发了一款将文字菜单变成图片的 AI 应用 MenuGen,但更精华的是背后的故事和令人忍俊不禁的心路历程,web 开发不简单哈哈

"Vibe coding MenuGen | karpathy"

karpathy.bearblog.dev

2025年4月

剪藏

Pete Koomen(YC GP)认为当前不少AI应用是内燃机刚出现时的无马马车,缺乏针对AI的设计

"AI Horseless Carriages"

koomen.dev
AI User ExperienceLanguage ModelsAI Interaction
剪藏

微软WorkLab刚发了名为《2025: The Year the Frontier Firm Is Born》的工作趋势报告,包含与工作组织相关的三个核心洞察: 1: You can buy intelligence on tap 2: Human-agent teams will upend the org chart 3: Every employee becomes an agent boss

"2025: The Year the Frontier Firm Is Born"

microsoft.com
AI AgentsAI User ExperienceResponsible AI

2025年3月

2025年2月

剪藏

Inception Labs发布了Mercury系列大语言模型,与行业普遍采用的自回归next token prediction方案不同,Mercury属于扩散大语言模型(diffusion large language models,dLLMs),类似于扩散生图模型,推理时采用coarse-to-fine的去噪解码形式。 Inception Labs声称Mercury是首个商业级别dLLM,速度比自回归模型快10倍,主打代码补全Copilot场景。 Mercury Coder可以在 https://chat.inceptionlabs.ai/ 体验,记得勾选右上角diffusion effect开关,效果很酷。

"Introducing Mercury, the first commercial-scale diffusion large language model"

inceptionlabs.ai
Generative AILanguage ModelsAI Model Innovation

2025年1月

2024年12月

2024年11月

2024年10月

2024年9月

2024年8月

2024年6月

2024年5月

2024年3月

2024年2月

2023年12月

2023年11月

2023年9月

2023年8月

2023年6月

2023年5月

2023年4月

2023年3月

2022年11月

2022年1月

2018年7月