Skip to content

GPT-Image-2 绘图教程

GPT-Image-2 是 OpenAI 于 2026 年 4 月发布的新一代图像生成模型,支持最高 2K 分辨率、强可控的图像内文字渲染、以及多图编辑。可通过 Clauddy 的 OpenAI 兼容 /v1/images/generations 接口调用。

Playground 在线体验(最简单)

无需写任何代码,直接在 Clauddy 网页端即可生成图片:

  1. 进入 Clauddy 操练场(左侧菜单点击 操练场
  2. 在「模型」下拉框中选择 gpt-image-2
  3. 在底部输入框输入你的提示词(如「画一只可爱的猫咪坐在月亮上」),点击发送

Playground 绘图示例

生成的图片会直接显示在对话区域,可以右键保存。


命令行测试(无需安装客户端)

最快的验证方式 —— 一行 curl + Python 解码 base64:

bash
TOKEN="sk-you...oken"  # 替换为你的 Clauddy 令牌

curl -sS https://clauddy.com/v1/images/generations \
  -H "Authorization: Bearer $TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "一只可爱的猫咪坐在月亮上,数字插画风格",
    "size": "1024x1024",
    "n": 1
  }' \
  | python3 -c "import sys,json,base64; open('output.png','wb').write(base64.b64decode(json.load(sys.stdin)['data'][0]['b64_json']))" \
  && echo "已保存 output.png"

执行后会在当前目录生成 output.png,效果示例:

gpt-image-2 文生图示例:月亮上的猫咪

关于响应格式

gpt-image-2 始终返回 base64b64_json 字段),不支持 response_format=url。这与 DALL·E 系列不同,需要客户端自己解码。


API 调用(开发者)

模型信息

  • 模型名称: gpt-image-2
  • 接口: POST https://clauddy.com/v1/images/generations(文生图)
  • 编辑接口: POST https://clauddy.com/v1/images/edits(图生图,multipart/form-data)
  • 响应格式: 始终 b64_json
  • 耗时: 1024×1024 约 30–60 秒,2K 可达 1–2 分钟(请把客户端超时设到 300 秒以上)

主要参数

参数取值说明
model"gpt-image-2"必填
prompt字符串,最长约 32000 字符必填,支持中英文
size"1024x1024" / "1536x1024" / "1024x1536" / "2048x2048" / "auto"默认 auto
quality"low" / "medium" / "high" / "auto"默认 auto
n1–10一次生成几张
background"transparent" / "opaque" / "auto"透明背景需 output_format=pngwebp
output_format"png" / "jpeg" / "webp"默认 png

Python 示例

python
import base64
from openai import OpenAI

client = OpenAI(
    api_key="sk-you...oken",
    base_url="https://clauddy.com/v1"
)

resp = client.images.generate(
    model="gpt-image-2",
    prompt="一只可爱的猫咪坐在月亮上,数字插画风格",
    size="1024x1024",
    quality="high",
    n=1,
)

with open("output.png", "wb") as f:
    f.write(base64.b64decode(resp.data[0].b64_json))

print("已保存 output.png")

图生图 / 编辑(multipart)

/v1/images/edits 接口接受一张或多张输入图(最多 16 张),按提示词进行编辑、风格迁移或多图融合。注意:请求体是 multipart/form-data不是 JSON

curl 一键编辑

bash
TOKEN="sk-you...oken"

curl -sS https://clauddy.com/v1/images/edits \
  -H "Authorization: Bearer $TOKEN" \
  -F "model=gpt-image-2" \
  -F "image[][email protected]" \
  -F 'prompt=把这只猫的项圈换成红色,并给它戴一副小圆墨镜,其它部分保持不变' \
  -F "size=1024x1024" \
  | python3 -c "import sys,json,base64; open('edited.png','wb').write(base64.b64decode(json.load(sys.stdin)['data'][0]['b64_json']))" \
  && echo "已保存 edited.png"

编辑前后对比(输入:上一节生成的月亮上的猫;提示词:加红色项圈 + 小圆墨镜):

编辑前编辑后
编辑前编辑后:红色项圈 + 墨镜

提示词写法

  • 明确说"保持其它部分不变",避免模型把整张图重画
  • 想保留构图就描述"同样的姿势/角度/背景"
  • 要换风格就用"以 XXX 风格重绘这张图"

Python 编辑

python
import base64
from openai import OpenAI

client = OpenAI(
    api_key="sk-you...oken",
    base_url="https://clauddy.com/v1"
)

with open("input.png", "rb") as f:
    resp = client.images.edit(
        model="gpt-image-2",
        image=f,
        prompt="把这只猫的项圈换成红色,并给它戴一副小圆墨镜,其它部分保持不变",
        size="1024x1024",
    )

with open("edited.png", "wb") as f:
    f.write(base64.b64decode(resp.data[0].b64_json))

print("已保存 edited.png")

多图融合 / 风格迁移

最多可传 16 张图作为输入,常用于"把 A 的内容用 B 的风格画出来"、"把 A 和 B 的元素融合"等场景:

bash
curl -sS https://clauddy.com/v1/images/edits \
  -H "Authorization: Bearer $TOKEN" \
  -F "model=gpt-image-2" \
  -F "image[][email protected]" \
  -F "image[]=@style_reference.png" \
  -F 'prompt=以第二张图的水彩风格重绘第一张图中的主体' \
  -F "size=1024x1024" \
  | python3 -c "import sys,json,base64; open('fused.png','wb').write(base64.b64decode(json.load(sys.stdin)['data'][0]['b64_json']))"

局部修改(mask 蒙版)

如需只修改图片的某个区域,可以传一张 PNG 蒙版(透明区域 = 要修改的位置):

bash
curl -sS https://clauddy.com/v1/images/edits \
  -H "Authorization: Bearer $TOKEN" \
  -F "model=gpt-image-2" \
  -F "image[][email protected]" \
  -F "[email protected]" \
  -F 'prompt=在蒙版区域画一只飞翔的鹦鹉' \
  -F "size=1024x1024" \
  | python3 -c "import sys,json,base64; open('inpaint.png','wb').write(base64.b64decode(json.load(sys.stdin)['data'][0]['b64_json']))"
参数说明
image[]=@文件输入图(最多 16 张,传多个即可)
mask=@文件可选蒙版,透明区域为修改范围
input_fidelity"high" / "low",对原图的忠实度,仅 edits 接口可用
prompt描述如何编辑

推荐客户端

不同客户端对图像生成接口的支持差异较大,以下按推荐度排序:

🥇 Open WebUI — 配置最简单

原生支持图像生成引擎,在管理后台填入:

ENABLE_IMAGE_GENERATION = true
IMAGE_GENERATION_ENGINE = openai
IMAGES_OPENAI_API_BASE_URL = https://clauddy.com/v1
IMAGES_OPENAI_API_KEY = sk-you...oken
IMAGE_GENERATION_MODEL = gpt-image-2
IMAGE_SIZE = 1024x1024

聊天界面点击图片按钮即可生图,体验最干净。

🥈 Cherry Studio — 桌面端,UI 精致

自带尺寸 / 质量 / 数量选择器。配置要点:在 API 地址末尾加一个 #(如 https://clauddy.com/v1/images/generations#),否则 Cherry Studio 会自动把路径改写成 /chat/completions。模型名手动填 gpt-image-2

🥉 Chatbox — 跨平台,需手动覆盖路径

Chatbox 默认走 /chat/completions,所以要在「自定义提供商」中:

  1. 选择 自定义 提供商类型
  2. API 路径手动改为 /v1/images/generations
  3. 超时时间设为 ≥ 360 秒
  4. 模型名填 gpt-image-2

Chatbox 的局限

由于 /v1/images/generations 是无状态接口,无法做"再把猫的项圈改红"这样的多轮编辑。需要多轮迭代时建议用 Playground 或 Cherry Studio。


选择哪个绘图模型?

场景推荐
写实风格、商业海报、产品图、图内文字渲染GPT-Image-2
创意场景、艺术风格、角色一致性、二次元Nano Banana Pro(Gemini)
透明背景 PNG / WebPGPT-Image-2(原生支持 background=transparent
多轮"改一下这里"对话式编辑Nano Banana Pro(chat 接口天然支持多轮)

两者各有优势,建议同一提示词分别生成对比效果。

Clauddy | AI API 聚合平台