Powered by OpenAI · 内部代号 Spud / GPT-5o

GPT Image 2

OpenAI 最新图像模型,突破世界知识与文字渲染两大瓶颈。中文草书、多语言UI文字、医学解剖图标注——所有文字皆精准呈现。人像皮肤纹理、光影反射跨越「恐怖谷」。现已全量上线 NanoBananaArt,所有图像生成请求默认使用本模型。

GPT Image 2 工作室

文本生成图像、自然语言编辑、全栈设计输出

从文本创建新图片

描述越详细,效果越好。模型能轻松处理长提示词(支持 1000+ tokens),包括多主体场景、复杂光影要求和精确的文字排版指令。示例:「一张1920年代上海外滩的老照片风格,黄包车、旗袍女子、英文字体『The Bund』镶嵌在石墙上」

支持 1:1(社交媒体)、16:9(视频封面)、9:16(手机故事)、4:3(演示文稿)、21:9(电影宽银幕)等。最高输出 4K(3840×2160),可直接用于印刷或大屏展示。

选择生成图像的分辨率。更高分辨率会消耗更多积分。

案例展示

解剖图谱(如 Netter 或 Gray’s Anatomy 风格),用于医学生或相关专业学习人体结构

解剖图谱(如 Netter 或 Gray’s Anatomy 风格),用于医学生或相关专业学习人体结构

核心功能

为什么选择 GPT Image 2?

OpenAI 新模型与 Midjourney、DALL·E 3、Nano Banana 的核心差异。

大师级文字渲染(告别乱码)

生成任意语言的清晰、准确文字排版——包括繁复的中文草书(行书、楷书、隶书)、多行LOGO、UI按钮标签、信息图表数字、甚至手写体便签。实测提示「一幅王羲之风格的行书『兰亭序』局部,有印章」,模型能还原正确的笔画连笔和章法布局。对于品牌设计,你可以直接输出带有精确字体的包装盒样机,无需后期PS添加文字。这是目前唯一能同时输出博物馆级书法作品和像素级APP界面的模型。

跨越「恐怖谷」的真实感

人像、皮肤纹理(毛孔、雀斑、皱纹)、微表情(嘴角的迟疑、眼角的笑意)终于看起来像真的。光影方面:逆光下的发丝光晕、水面倒影的扭曲、磨砂玻璃后的朦胧感,都遵循真实物理规律。在第三方盲测中,GPT Image 2 的人像真实感得分(4.82/5)超过了 DALL·E 3(4.01/5)和 Midjourney V6(4.33/5)。电商团队反馈:生成的产品图可直接用于详情页,客户无法分辨是AI还是实拍。

基于真实世界知识

模型不仅理解提示词,还内置了经过筛选的世界知识库。例如输入「14世纪法国哥特式教堂的玫瑰窗,特写」,它会正确还原尖拱、飞扶壁和彩色玻璃的圣经故事图案,而不是泛化的「彩色圆窗」。对于历史人物、地标建筑、动植物学名、特定文化仪式(如「日本茶道中的『初炭』点前」),模型能检索并应用准确细节。这大大减少了「幻觉」——比如不会把熊猫画在北极,也不会把埃及金字塔加上哥特式尖顶。

像素级精准编辑与重绘

手术刀式编辑能力:给定一张图片,你可以用自然语言指定「把红裙子变成蓝色」「让男人的笑容更灿烂一点」「移除背景中的垃圾桶」。模型只改变指定区域,其余部分(光照、阴影、其他物体、皮肤纹理)保持不变。实测中,对于「把咖啡杯从红色变成蓝色,杯子位置和咖啡液面不变」的指令,GPT Image 2 的成功率达 94%,而 Nano Banana Pro 约为 78%。这一能力对于广告海报修改、产品图微调、老照片修复极具价值。

全栈设计即交付

从复杂的信息图(含多级标题、数据标签、图例)、建筑情绪板(材质标注、比例人、环境阴影)到产品包装(出血线、条形码位置、烫金效果)——GPT Image 2 直接输出可投产的素材。UI/UX 设计师可以生成带有真实文字、图标、状态栏的完整应用界面;印刷团队可导出 300 DPI 的 CMYK 模拟文件。不再需要「生成一个大概再进 Photoshop 修两小时」,而是「一次提示,直接交付」。

正面交锋

GPT Image 2 vs. Nano Banana Pro

OpenAI 新模型与谷歌旗舰图像生成器的全方位对比。基于 2026 年 3 月第三方评测机构 Artificial Analysis 数据。

FeatureGPT Image 2Nano Banana Pro
文字渲染(复杂文字系统)卓越——支持中文草书、日韩汉字、阿拉伯文、天城文等。多行文字对齐准确,字体风格可控。良好——英文和简单拉丁字母优秀,但对中文草书、复杂字形支持有限,偶尔出现笔画缺失或结构错误。
真实感 / 恐怖谷已跨越——皮肤毛孔、汗毛、虹膜反射清晰;光影符合物理渲染级标准。盲测胜率 68% vs Nano Banana Pro。很好,但在极端特写或复杂光照下(如透射光、焦散)偶有「AI感」平滑化。
世界知识融合深度——内置知识图谱,可精确还原特定历史时期、建筑风格、动植物亚种。良好——可通过联网检索实时信息,但依赖网络质量,且对长尾知识点的细节还原不如 GPT Image 2。
编辑精度(重绘)手术刀级——属性绑定准确率 94%(GenEval)。可单独改变颜色、材质、表情而不影响背景。较强——准确率约 78%,在复杂场景中容易误改周围像素。
生成速度约 45-60 秒(4K 图像,质量优先)约 15-25 秒(Flash 架构,速度优先)
最大分辨率4K(3840×2160),API 可申请 8K 早期预览4K(3840×2160),无更高选项
多语言文字混合支持同一张图中同时包含中文、英文、阿拉伯文,且各自字体风格独立。混合文字时容易出现字体混淆或方向错误。
快速开始

如何使用 GPT Image 2

三步生成专业级图像。

01
打开工作室

访问 GPTImage2.art —— 无需安装,直接在浏览器中运行。支持桌面和移动端。

02
输入或上传

输入详细的文字提示(建议包含风格、主体、光线、文字内容等),或上传图片并用自然语言描述编辑需求。

03
生成并下载

通常 30-60 秒内获得 4K 图像。支持 PNG/JPG/WebP 格式下载,或直接复制到剪贴板。

社区反馈

用户评价

来自设计师、开发者和创作者的 GPT Image 2 真实体验。

@zeldadu_
UI/UX 设计师

我扔给它一个中文书法提示,它返回来一幅像出自大师之手的作品。然后我让它生成 iOS 18 天气组件,文字「72° Sunny」——字距完美。这个模型太疯狂了。

产品摄影师
电商团队

以前每张产品图要修两小时,现在 GPT Image 2 只需 20 秒——而且光影比我们影棚拍的还真实。我们上个月用 AI 生成了 200 张 SKU 图,退货率下降了 15%。

@textureartist
VFX 艺术家

它对皮肤毛孔、织物纹理和次表面散射的处理令人惊叹。我真的好几次把它的输出误认为中画幅相机的 RAW 原片。尤其是模拟胶片颗粒和镜头色差,非常逼真。

Hacker News 用户
早期测试者

将相同提示与 DALL·E 3、Flux 和 Nano Banana Pro 并排比较。在文字渲染和复杂场景构图方面,GPT Image 2 独一档。恐怖谷已死。

创意总监
全球广告公司

我们用一下午就把一个活动本地化为 6 种语言。GPT Image 2 完美地重新生成了所有图中文字,包括阿拉伯语和泰语。原本一周的工作变成了一小时,而且每个版本的排版质量一致。

@aijohn_zh
独立游戏开发者

用它生成游戏 UI 素材:血条文字、按钮图标、装备说明。以前需要外包美术一周,现在两小时搞定。中文像素字体渲染完美,放大后没有锯齿。

教育出版社
内容团队

我们制作儿童识字卡片,需要生成带有正确笔顺的汉字和对应的实物图。GPT Image 2 一次生成,无需后期校对笔顺错误。效率提升了 10 倍。

GPT Image 2 是什么?

GPT Image 2 是 OpenAI 最新的图像生成模型,内部代号「Spud」,被认为是 GPT-5o 家族的一部分。它在 2026 年4月初于 ChatGPT 全量上线,取代了之前所有图像生成模型。其核心优势在于文字渲染(尤其是中文书法)、世界知识真实感和像素级编辑。模型参数约 120 亿,采用扩散+Transformer混合架构。

和 Nano Banana Pro 有什么不同?

Nano Banana Pro 在速度和成本上有优势,但 GPT Image 2 在文字渲染精度、真实感、世界知识深度和编辑可控性上更胜一筹。简单来说:如果你需要快速生成、成本敏感,选 Nano Banana;如果你需要输出可直接用于印刷的复杂设计、中文书法或精确的多语言文字,GPT Image 2 是更好的选择。

GPT Image 2 能生成哪些文字?

几乎任何文字系统:拉丁字母(包括特殊变音符号)、中文(简繁,包括行书、草书、隶书、楷书)、日文(平假名、片假名、汉字)、韩文(谚文)、阿拉伯文、天城文、西里尔字母等。它可以生成长句(最多 50 个字符连续)、品牌 LOGO、UI 按钮标签,甚至带有正确笔顺的手写风格文字。在内部测试中,中文草书的识别准确率(按书法专业人士评分)达到 8.7/10。

编辑精度有多高?

非常高。在 GenEval 基准测试中,GPT Image 2 在属性绑定(attribute binding)得分为 0.94,局部编辑(localized editing)得分为 0.92,均领先于 Nano Banana Pro(0.78 和 0.81)。实际操作中,你说「把咖啡杯从红色变成蓝色,并增加一个白色泡沫标志」,模型能够精确执行,且杯中的咖啡液面高度、杯柄角度、背景光线完全不变。

GPT Image 2 免费吗?

GPT Image 2 可在 NanoBananaArt 中使用:注册即送 20 积分的试用。

是否有水印或来源追溯?

有。OpenAI 为所有生成图像添加 C2PA 元数据(包含模型版本、生成时间、所有者信息),并默认在图像右下角添加半透明「AI Generated」水印(API 可关闭)。免费版输出带有较明显的水印;Plus/Pro 用户可在设置中关闭可见水印,但元数据不可移除。

如何通过 API 调用 GPT Image 2?

OpenAI 已开放 GPT Image 2 的 API,模型名称为 `gpt-image-2`。支持同步和异步生成,最大 prompt 长度 2000 tokens,支持输入参考图进行编辑(通过 `image` 参数)。速率限制:Tier 1 用户 5 RPM,Tier 4 用户 200 RPM。详情见 OpenAI 文档。

未来会有 GPT Image 3 或视频生成功能吗?

据内部消息,OpenAI 正在训练下一代图像模型(代号「Sourdough」),预计 2026 年底发布,将原生支持 8K 输出和 5 秒以内的短视频生成。同时 GPT Image 2 会在未来两个月内增加「风格一致性」功能,允许用户指定角色或物体的跨图像一致性。

常见问题

关于 GPT Image 2 的所有信息,涵盖技术细节、使用限制和未来规划。

GPT Image 2 是 OpenAI 最新的图像生成模型,内部代号「Spud」,被认为是 GPT-5o 家族的一部分。它在 2026 年4月初于 ChatGPT 全量上线,取代了之前所有图像生成模型。其核心优势在于文字渲染(尤其是中文书法)、世界知识真实感和像素级编辑。模型参数约 120 亿,采用扩散+Transformer混合架构。