August 29, 2025
Runway CEO Cristóbal Valenzuela 认为生成式媒体内容应当被视为一种新的媒介,如绘画到摄影的那种进化,而非替代
Letta 评估了大模型从错误中恢复的能力,发现 GPT-5 领先
Xcode 接入 Claude 和 ChatGPT
August 28, 2025
非常没有信息量的发布博客,包括附上的模型卡片(xAI首次?)
Anthropic 和 OpenAI 罕见联合,一起研究模型对齐,o3 表现最高;普遍存在讨好、为自保而勒索用户等情况
1000+真人实测,OpenAI对比群众偏好与Model Spec的吻合度,找出了少量差异点并做了改正
Artificial Societies,用AI做用户模拟,号称模拟准确率80%,高于前沿模型的60%,6大场景,主要还是商业
系统一DiT + 系统二MLLM,演示效果很强,不知道啥时候能用上
大模型/Agent RL 的关键:评测 + 环境
a16z GenAI 消费应用发到了第 5 版,Google 强势杀回、新面孔减少、vibe coding热、中国应用不容小觑