如果你已经在用 CPA、OpenClaw、Claude Code 或其他 Agent 工作流,最近大概率会遇到一个新需求:不要只让 Agent 写代码或查资料,而是让它直接生成图片。NodeSeek 上有人分享了一个 ImageForge skill,用来通过 gpt-image-2 生成 4K 图片,这个方向很值得 API 中转站用户参考。
这篇文章不复制原帖内容,而是把它整理成一篇面向 DeepAI API 中转站用户的实用教程:什么时候用 gpt-image-2,什么时候走普通 Responses 图像生成,DeepAI 的 Base URL 怎么填,返回的 base64 图片怎么处理,以及在 Agent skill 里应该怎么设计默认规则。
搜索意图:为什么大家在找 gpt-image-2 skill
很多人搜索“gpt-image-2 4K”“ImageForge skill”“CPA 生图 skill”,真实需求通常不是看模型介绍,而是想解决这些问题:
- Agent 能不能直接生成图片?
- gpt-image-2 的 API 地址怎么填?
- DeepAI API 中转站是否支持文生图?
- 生成图片返回 base64 后怎么保存成 png?
- 普通生图和 4K 生图应该用同一个模型吗?
- Claude Code / OpenClaw / CPA 里怎么把生图能力做成 skill?
所以这类文章的重点不是“AI 绘画很强”,而是把 Base URL、模型名、返回格式、skill 规则、失败排查 讲清楚。
DeepAI gpt-image-2 基础参数
根据 DeepAI 文档,gpt-image-2 文生图接口可以这样理解:
| 项目 | 配置 |
| Base URL | https://api.deepai.wang/v1/images/generations |
| model | gpt-image-2 |
| response | json |
| 返回内容 | JSON 中包含图片 base64 |
注意:这里的 Base URL 是图片生成接口,不是普通聊天接口。如果你把它填成 /v1/chat/completions 或 /v1/responses,大概率会出现路径不匹配、模型不支持或返回格式不对的问题。
最短可用请求示例
下面是一个更适合排查连通性的 curl 示例。实际字段以 DeepAI 控制台和接口文档为准,但思路是:先用最小请求确认 API Key、模型和 endpoint 都没问题。
curl https://api.deepai.wang/v1/images/generations \
-H "Authorization: Bearer YOUR_DEEPAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "一只红色机械龙虾在赛博朋克城市街头,电影感光影,细节丰富",
"response_format": "b64_json"
}'
如果请求成功,通常需要从 JSON 里提取 base64 字段,再拼接图片格式头或直接解码保存成图片文件。
Python 保存示例:
import base64
import json
resp = json.loads(raw_response_text)
b64 = resp["data"][0]["b64_json"]
with open("image.png", "wb") as f:
f.write(base64.b64decode(b64))
如果你的返回字段名称不同,先打印完整 JSON,看图片 base64 在哪一层。不要盲目假设所有服务商返回结构完全一致。
ImageForge Skill 应该怎么设计默认规则
原帖提到的思路很实用:把生图逻辑封装成一个可分享的 skill,让 Agent 根据用户需求自动选择路径。
比较合理的规则可以这样设计:
- 普通生图:优先走通用图像生成能力,适合快速草图、封面灵感、低成本预览;
- 用户明确说
gpt-image-2:走 DeepAI 的/v1/images/generations; - 用户明确要求 4K、高清、海报级细节:优先走
gpt-image-2; - 用户只是要“配图/草稿”:不强行使用高成本高清路径;
- 生成后自动保存文件,并把路径返回给用户;
- 失败时输出 endpoint、model、status code,但不要暴露 API Key。
这样的 skill 才适合长期使用。否则每次都让用户自己判断模型、接口和返回格式,Agent 的价值就被削弱了。
为什么建议通过 DeepAI API 中转站来接
如果你只是偶尔测试一次,直接写死某个上游 API 也能跑。但如果你想把 ImageForge 做成团队可用的 skill,API 中转站会更方便。
DeepAI API 中转站的价值主要在这几处:
1. 统一 API Key:Agent、脚本、工作流都用同一套入口管理,不用到处散落不同供应商密钥。 2. 统一模型入口:聊天模型、图像模型、不同上游模型可以在同一个控制台管理。 3. 方便看日志:生成失败时,可以先确认请求有没有到达 DeepAI、状态码是什么、消耗是否正常。 4. 便于成本控制:4K 生图通常比普通文本请求更贵,最好单独给 skill 配 Key 或额度。 5. 减少迁移成本:以后替换模型或调整路由,不必改每一个 Agent 配置。
尤其是图像生成这类功能,成本和失败排查都比普通聊天更敏感。把它放进中转站统一管理,会比散装 API Key 稳得多。
4K 生图不要滥用:先预览,再高清
很多人一上来就想默认 4K,但这对 API 成本并不友好。更适合生产使用的流程是:
1. 先生成低成本预览图; 2. 用户确认构图、主体和风格; 3. 再用 gpt-image-2 生成高清版本; 4. 最后做压缩、裁剪或封面适配。
如果你把 ImageForge skill 用在 SEO 配图、公众号封面、产品海报、小红书图片里,这个流程会更稳定,也更省钱。
可以在 skill 里写明默认策略:
当用户没有明确要求 4K 时,先生成普通清晰度预览;
当用户确认“高清、4K、海报、可商用成品图”时,再调用 gpt-image-2 高清路径。
这样既能满足高级需求,又不会让每一次随手画图都变成高成本请求。
常见报错与排查
1. 401 Unauthorized
优先检查 API Key 是否正确,是否复制了多余空格,是否使用了已经禁用或额度不足的 Key。建议在 DeepAI 控制台为 ImageForge 单独创建 Key,方便后续统计。
2. 404 Not Found
通常是 Base URL 填错。gpt-image-2 文生图应走:
https://api.deepai.wang/v1/images/generations
不要把聊天接口、Responses 接口和 Images 接口混在一起。
3. model not found
检查模型名是否写成了 gpt-image-2,并以 DeepAI 控制台当前可用模型为准。模型名大小写、横杠、版本后缀都可能影响调用。
4. 图片打不开
如果返回的是 base64,必须正确解码。常见错误包括:
- 把 base64 当 URL 打开;
- 没有去掉 data URL 前缀;
- 保存时用了文本模式而不是二进制模式;
- JSON 字段取错,拿到的不是图片内容。
5. Agent 说生成成功但没有文件
这通常不是模型问题,而是 skill 没有把 base64 写入本地文件,或者保存路径不可访问。检查 skill 的文件写入逻辑和最终返回路径。
适合写进 ImageForge Skill 的提示词模板
如果你要把它封装成 skill,可以让 Agent 自动把用户的口语需求整理成更适合图像模型的 prompt,例如:
把用户需求改写成图像生成提示词,包含:
1. 主体
2. 场景
3. 风格
4. 光线
5. 构图
6. 画幅
7. 不要出现的元素
如果用户明确要求 4K 或高清成品,使用 gpt-image-2;否则先生成预览版本。
示例:
主体:一只红色机械龙虾
场景:夜晚赛博朋克城市街头
风格:电影感、金属质感、细节丰富
光线:霓虹灯、强对比、湿润路面反光
构图:居中主体,低机位,背景虚化
画幅:16:9
避免:文字、水印、畸形肢体
这比直接把“帮我画个龙虾”丢给模型更容易得到稳定结果。
谁适合用这个方案
这套 DeepAI + gpt-image-2 + ImageForge skill 方案,比较适合:
- 想让 Agent 自动生成文章配图的人;
- 做 SEO 站群、教程站、产品博客的运营者;
- 需要批量生成封面图、海报草稿、社媒配图的团队;
- 想把图片生成能力接进 OpenClaw / CPA / Claude Code 工作流的开发者;
- 想统一管理图像生成成本和日志的 API 中转站用户。
如果你只是偶尔手动画一张图,网页端工具可能更简单;但如果你要把生图能力嵌进工作流,API 中转站 + skill 才是更可控的做法。
FAQ
gpt-image-2 和普通聊天模型有什么区别?
gpt-image-2 是图像生成模型,调用路径、返回格式和普通聊天模型不同。不要把它当成聊天模型填到 /v1/chat/completions 里。
DeepAI 的 gpt-image-2 返回图片 URL 还是 base64?
当前文档重点说明返回 JSON,需要提取其中的 base64,再解码保存为图片。实际字段以接口返回为准。
ImageForge skill 必须固定用 gpt-image-2 吗?
不建议。更好的策略是:普通需求走低成本预览,用户明确要求高清、4K、成品图时再走 gpt-image-2。
4K 图片生成失败是不是 DeepAI API 中转站问题?
不一定。先看 DeepAI 控制台日志:请求是否到达、状态码是什么、模型是否返回。如果 API 正常返回但本地没有图片,通常是 skill 的 base64 解码或文件保存逻辑有问题。
可以把这个方案用于 SEO 文章配图吗?
可以,但要注意图片与文章主题相关,不要为了配图而配图。对于 paper.deepai.wang 这类 API 教程站,更推荐用流程截图、架构图、错误排查图,而不是无关的装饰图。
总结
NodeSeek 上的 ImageForge skill 思路提醒了一个很重要的方向:AI Agent 不应该只会聊天,也应该能通过 skill 调用图像模型,把“生成图片”变成工作流的一部分。
对 DeepAI API 中转站用户来说,关键不是把 gpt-image-2 硬塞进所有场景,而是建立一套清晰规则:普通生图走预览,明确 4K 或高清需求再走 gpt-image-2;请求通过 DeepAI 统一管理;返回 base64 后正确保存;出错时用控制台日志和 skill 日志分层排查。
这样,ImageForge 才不是一个临时脚本,而是一个真正可复用、可控成本、可排错的 Agent 生图能力。