豆包生图,超越GPT-4o?
背后还有路线之争
2025-04-16 ,豆包大模型团队正式推出了 Seedream 3.0,称其为「下一代全场景文生图模型」、「在多项评估中排名领先」。事实上,Seedream 3.0 自 4 月初已于豆包和即梦中灰度上线,多家媒体将其与 3 月底凭借原生生图和吉卜力风爆火的 GPT-4o 对比,认为 Seedream 3.0 在文生图上已追平甚至超越 GPT-4o。究竟情况如何,是否「设计师危矣」,不如上手一瞧。
美学改进、2K直出,但文字创作才是亮点
豆包团队在技术报告中强调,Seedream 3.0 与前代相比,主要升级在于:
- 文图对应、美学质量的综合提升
- 支持 2K 原生高分辨率输出
- 小字体生成、长文本排版等文本渲染性能的大幅增强
其中,第三点尤为突出——
模型挑战了小文本生成和长文本布局的业界难题,平面设计输出效果超越了 Canva 等平台的人工设计模板。基于精准且高审美的文字生成能力,可轻松实现设计师级海报创作,融合多样字体、风格与版式。
官方给出的样例也确实惊艳,从个人不专业的视角看,随便哪一幅都可以做海报直接拿去印刷了。
翻开技术报告,有两个地方吸引人:
- 美学+文字的样例部分给出了具体的提示词,让我们知道这样一幅非常成熟的海报,是通过什么样的文本指令生成出来的;
- 在 Artificial Analysis 图像盲测竞技场中,Seedream 力压 GPT-4o 排名第一,显著优于 Redraft V3、HiDream 和 FLUX1.1 Pro、Midjouney v6.1 等新老劲旅。
榜单中,包括 Seedream 3.0 在内的绝大多数模型都是走的扩散路线,后来者居上显得合理而必然。但 GPT-4o 是与众不同的自回归路线,上月的实测中也确实表现惊艳,难道这么快就被反超了?
不如实战对比一番。
实战,豆包、即梦 vs ChatGPT
Seedream 3.0 可以在豆包和即梦中体验,找图片生成 3.0 字样的入口即可。相比豆包,即梦提供更多配置选项,如通过中文双引号来实现文字效果增强、可选高清 2K 生成等,但有积分限制,大量使用需要充值。
首先来重现一下技术报告中的海报生成。
截图交给豆包提取,竟然不太乐意,需要摩擦一下:
卡通风格的营销海报,标题为“夏日欢乐季”。画面展示了一对卡通人物坐在湖边椅子上,背景是蓝天白云和湖面,右侧有一个装饰有灯串的帐篷,旁边摆放着饮料、零食和购物袋等物品,营造出轻松愉快的夏日氛围。配色以蓝色、绿色为主,搭配黄色点缀,整体色调明亮清新,氛围轻松愉悦。标题位于画面上方中央,使用白色手写体,搭配黄色线条装饰。标题上方是黄色手写体书写的英文标题,下方白底黄字写着宣传语“抽一分钱,夏日快乐大礼包”,画面顶部中央有主办方标志,画面底部写着活动信息、宣传语“出门过夏天 超值好物省心选”和电商标识。
提取出提示词文本后,用豆包生成,直出 4 幅图,乍一看很像那么回事,整体风格也与前面技术报告中的样例较为接近,但是细看文字竟然没一幅过关:
即使选中区域令其修正文字,也没什么效果:
算了,改用即梦试一下,有了专门的文字效果增强后,果真效果明显,引号内的中文字都基本得到了保障:
但是顶部和底部电商 Logo 相关的字符较为奇怪,以及要求手写在标题上方的黄色英文也有一些不对头,试一下局部重绘,不错,能改就是好同学:
那么同样的提示词丢给 GPT-4o 效果如何呢?
首次输出的效果还不错!文字方面,除了一些笔画的连接没那么精准,整体都还是正确的!但是 GPT-4o 对卡通风格理解好像和 Seedream 3.0 不太一样,我们来补充指令调整一下「风格有点扁平,能不能更拟人3D卡通一些」:
有点接近了,之前缺失的英文标题也加上了,尽管并非没那么「手写体」、「钱」字的笔画更奇怪了,但整体方向还不错!如果和之前 Seedream 3.0 的出图相比,GPT-4o 的色彩风格显著不同,硬说的话还真能品到吉卜力那种暖灰的感觉。
总的来说,豆包、即梦和 GPT-4o 都未能简单复现技术报告中的样例效果,在指令遵循均基本过关的情况下,即梦通过文字效果增强可以保证文字大体不错,GPT-4o 的文字把控相对更准,豆包则因为没有对应选项而无法正确生成文本。
所以,Seedream 3.0 超越 GPT-4o 了吗
首先必须承认
考虑到目前唯一的指标来自于 Artificial Analysis 的图像竞技场,然而当我 2025-04-19 再去看时,位列第一的却是 GPT-4o,Seedream 3.0 以微弱的 Elo 差距暂居第二,考虑到技术报告截取时二者差距更小,我想我们可以安全地说:超越言之过早。
需要提及的是,Artificial Analysis 图像竞技场长下面这个样子,专为单次文生图的盲测比拼而设计,多数提示词长度有限、并不十分复杂,因此更倾向于考察模型的美学发挥和有限的指令遵循能力:
而在海报设计等实际场景中,往往需要基于一版设计精细调整优化,这便对 AI 生图模型的多轮交互、可控编辑等能力提出了要求。如前面已展示的,豆包和即梦都提供了圈选+指令的局部重绘等功能,其背后是 SeedEdit 等图生图编辑模型的能力;而 GPT-4o 的原生生图内嵌在 ChatGPT 中,可以通过自然语言直接调整。在 Seedream 3.0 技术报告中,豆包团队也就此做了对比,认为 GPT-4o 在二次编辑时难以保持图片原状,SeedEdit 表现出优势。
此外,他们还真提到了 GPT-4o 的色彩倾向:
GPT-4o 生成的图像往往具有深黄色色调,并表现出明显的噪声,这显着影响了生成图像在各种场景中的可用性。
当然,兼听则明。OpenAI 在发布 GPT-4o 生图能力时,强调了得益于自回归原生,4o 能够将文本模型中蕴含的世界知识与图像生成关联起来,从而可以更「聪明」地生图:
我们将指令改换为「深圳气候特点及成因示意图」,试图做最后一轮对比。然而无论豆包还是即梦,再反复优化提示词后仍都无法准确勾勒地图,与 GPT-4o 的产出差距明显: