GPT Image-2能力边界全面横测：匿名模型如何颠覆图像生成格局？

April 18, 2026

在4月4日，LM Arena的图像盲测中，用户意外发现了三个匿名模型。

它们的代号分别为maskingtape-alpha、gaffertape-alpha和packingtape-alpha。

尽管这些模型在几小时内就被撤下，但社区中反应迅速的用户已经截取大量对比图像。一个令人震惊的事实浮出水面：在盲测中，这些匿名模型击败了此前排名第一的Google Nano Banana Pro。

截至目前，OpenAI官方尚未公开承认，但API元数据中已有用户挖掘出新模型的标识。

这就是GPT Image-2。

目前，网络流传两种触发方法：

方式一：在Chatbot Arena随机匹配（需要运气）。打开http://lmarena.ai进入Battle模式（图像生成对战），多次刷新匹配，系统会匿名分配模型——有一定概率遇到duct-tape-2。方式二：在ChatGPT图像生成中随机触发。大量用户在X上反馈，当在ChatGPT中使用Images功能时，有机会激活新模型。

基础能力测试：真实感与在场感

从基础能力开始评估。首张测试图像是一幅极其真实的支付宝转账截图，未来夸耀时无需草稿，可直接展示图像！

第一个提示词：警用执法记录仪截图，凌晨两点四十一分，警察靠近一辆轿车，驾驶员递出驾照，画面带有body cam水印和时间戳。

车门反光的弧线、车内仪表盘的残影、驾驶员那种“刚被叫停略带不满却不敢表露”的微表情，以及关键的AXON BODY 3设备水印，所有细节都精准呈现。

黄色滤镜消失。过曝的高光不再。塑料感褪去。

模型似乎在模仿相机行为。

随后，我让它生成一张便利店夜班纪实抓拍，描绘五个男人结账的场景。提示词中特意避免使用“写实风格”或“电影感”等标签。

这并非电影剧照，而是类似街头摄影师手持富士X100V，在美东小镇7-Eleven中随意捕捉的瞬间。

中间戴棒球帽的年轻人的眼神，真实而带有被拍摄经验，透出“最好别多拍”的防备感。

以往所有图像模型，无论是Midjourney、Flux还是Nano Banana Pro，在营造“在场感”方面总差一口气。

GPT Image-2成功弥补了这一差距。

UI还原测试：理解视觉语法

基础真实感验证完毕后，转向另一个关键指标：UI还原。

这是图像模型长期被诟病的短板，常出现按钮错位、字体模糊或图标变形。我一连给出五个测试题目。

CS2的AK-47皮肤预览界面。

Minecraft中的Claude总部场景。

方块风格的橙色Claude标志、桌上一份CONFIDENTIAL文件，右侧物品展示栏标注CLAUDE OPUS 5。

左下角甚至有一行聊天记录显示“Claude Joined the game”。

这个彩蛋令人会心一笑。

模型并非简单模仿Minecraft的外观，而是在理解游戏中可能出现的幽默元素。

GTA的洛圣都街头景象。

完成这组测试后，我意识到一个关键点。

UI还原不仅考验绘画能力，更揭示模型是否理解世界的视觉语法。CS2皮肤预览UI背后是Valve的字体偏好和Steam视觉习惯，TikTok截图则融合iOS规范、字节跳动UI风格及短视频用户视觉预期。

过去的图像模型仅模仿形状，而GPT Image-2开始模仿规则。

氛围感测试：审美与场景构建

继续测试氛围感，这对模型审美要求极高。

赛博朋克雨夜，巨型全息少女投影，撑伞的人抬头仰望。

这幅图像令人联想到《银翼杀手2049》中Joi的场景。冷蓝与品红交织的光线、雨雾弥漫、积水镜面反射，仿佛能听到低频电子嗡鸣。

接下来是一张剖析图，影视、动画和游戏行业前期会制作称为production design的图纸，同时包含俯视平面图、侧面立面图、剖面图、材质样本、灯光标注和镜头分镜对应表。这并非追求美观的图像，而是用于指导剧组施工的实用图表。

以往图像模型无法处理此类任务，因为它需要同步理解几何透视、建筑制图规范、艺术设定、多语言文字排版及信息图层组织。

只能说，表现非常出色。

模型开始领会“这是给施工队看的图纸”、“这是为了欺骗玩家的游戏UI”或“这是还原body cam质感的执法记录”。

它在理解图像的用途。

而图像的用途，决定了其信息组织方式。

不足之处：当前限制与挑战

回归测试本身，必须诚实指出GPT Image-2的一些不完美之处。

灰度触发机制下，大约20%的提示词可能被路由回旧模型。
复杂构图偶尔存在小缺陷，如手指数量、细小文字拼写或超长文本段落，问题有所减少但未完全消除。
默认偏向真实感电影色调，对于纯平涂2D、赛璐珞等强风格化表现，尚未达到Midjourney的极致水平。
API尚未开放，规模化应用需等待进一步更新。

尽管存在这些限制，它仍然是当前图像模型中最具“时代感”的代表。