AI 配图不用找参考图:GPT Image 2 + 100 种风格的三层提示词方案

AI 配图风格漂移怎么解决?用 GPT Image 2 + 三层提示词分离架构 + 100 种视觉风格池,让每篇文章配图风格不同但篇内统一,19 平台一键适配。

AI 配图方案封面:GPT Image 2 驱动的 100 种视觉风格三层提示词架构,不用参考图即可实现篇间差异与篇内统一

文章配图有两个看起来矛盾的需求:每篇文章的配图风格要不同(辨识度),但同一篇文章里的图风格要一致(整体感)。直接让 AI 生成图片很难同时满足这两点——要么篇篇雷同,要么篇内风格漂移。

这篇拆解一套纯提示词 AI 配图框架的设计:通过三层提示词分离架构 + 100 种预设视觉风格池,让配图做到「篇间不同、篇内统一」。不需要参考图,不需要写提示词,随机抽签就能出效果。这是我在上一套垫图配图方案之后做的第二套方案。


先看效果:同一个 Skill,每篇不同的风格

下面这些都是已发布文章的配图,全部由同一个 Skill(技能包,装到 Claude Code 里就能用的自动化模块)自动生成——每篇随机抽到不同的风格。先看封面,再看正文图。

封面 + 正文图:同一风格贯穿全文

6 篇文章的封面和正文图放在一起——注意每组内的风格是统一的,但组和组之间完全不同。

① 蓝白对比卡 · 《Skill 自动质检》

蓝白对比卡风格封面:Skill 自动质检文章,蓝白主色卡片式信息块布局

蓝白对比卡风格正文图:与封面相同视觉语言的内容展示
蓝白主色、卡片式信息块。封面和正文图用同一套视觉语言,一眼看出是同一篇文章。

② 星空城市叙事 · 《九平台搜索 CLI》

星空城市叙事风格封面:九平台搜索 CLI 文章,深蓝夜空贯穿的宏观全景

星空城市叙事风格正文图:深蓝夜空贯穿的具体场景展开
深蓝夜空贯穿每一张。封面是宏观全景,正文图是具体场景,风格一脉相承。

③ 中式朱印 · 《一人 AI 公司》

中式朱印风格封面:一人 AI 公司文章,朱红印章和水墨笔触的东方风格

中式朱印风格正文图:同一国风调性下的多 AI 协作场景
朱红印章、水墨笔触。一个多 AI 协作的技术文章配了国风——意外的搭配成了最强的记忆点。

④ 深蓝几何 · 《AI 知识库最佳实践》

深蓝几何风格封面:AI 知识库最佳实践文章,渐变底和几何网格

渐变底 + 几何网格。封面定调性,正文图用同样的网格做对比图解。

⑤ 工具对比矩阵 · 《AI 编程工具横评》

工具对比矩阵风格封面:AI 编程工具横评文章,多栏信息图式排版

工具对比矩阵风格正文图:多栏对比展示的细节展开
多栏信息图式排版。封面铺全貌,正文图展开细节,信息密度高但层级清晰。

⑥ 商业信息图 · 《一人公司 AI 变现指南》

商业信息图风格封面:一人公司 AI 变现指南文章,路径分支可视化

商业信息图风格正文图:三条路径展开的信息图式布局
路径分支可视化。封面是全局视角,正文图是三条路径展开,同一种信息图风格。

6 组,每组封面 + 正文图风格统一、内容各异——这就是三层分离的效果。

更多风格:每篇一种调性

再看几篇,感受更多风格的覆盖面——

流程架构风格封面:Agent 工作流完全指南文章,节点连线系统架构风

⑦ 流程架构 · 《Agent 工作流完全指南》——节点连线、系统架构风

入门引导风格封面:零基础 AI 编程入门文章,门槛可视化的轻快友好风格

⑧ 入门引导 · 《零基础 AI 编程入门》——门槛可视化、轻快友好

观点表达风格封面:AI 时代真正值钱的不是你会什么文章,概念隐喻大留白

⑨ 观点表达 · 《AI 时代真正值钱的,不是你会什么》——概念隐喻、大留白

平台运营风格封面:小红书 AI 运营完全指南文章,竖屏适配风格

⑩ 平台运营 · 《小红书 AI 运营完全指南》——竖屏适配

流程矩阵风格封面:自媒体 AI 自动化指南文章,多通道架构展示

⑪ 流程矩阵 · 《自媒体 AI 自动化指南》——多通道架构

渐变卡片风格封面:Vibe Coding 完全指南文章,柔和渐变和图文分区

⑫ 渐变卡片 · 《Vibe Coding 完全指南》——柔和渐变 + 图文分区

文档结构风格封面:CLAUDE.md 最佳实践文章,分区色块和结构标注

⑬ 文档结构 · 《CLAUDE.md 最佳实践》——分区色块 + 结构标注

连线节点风格封面:MCP 最佳实践文章,服务连接拓扑图

⑭ 连线节点 · 《MCP 最佳实践》——服务连接拓扑图

14 篇文章,14 种视觉调性。翻阅文章列表时,每篇的配图都能一眼区分。

英文文章也是同一个 Skill

100 种风格每种都有中英文两版提示词——英文文章自动用英文提示词生成:

英文示例封面:Codex 最佳实践文章,深色终端和代码高亮的英文提示词风格

英文示例 · 《Codex 最佳实践》——深色终端 + 代码高亮,英文提示词生成

同一个 Skill、同一套框架,中英文通吃。

这只是 100 种里的一小部分。再列几种风格名感受覆盖面:渐变科技 · 代码夜空 · 手绘流程概念 · 漫画分格 · Q 版教程 · 现代水墨 · 赛博信息面板 · 旧报纸排版 · 便签看板 · 蒸汽波日落 · 工程蓝图 · 丝网印刷 · 波普漫画 · 像素复古 · 日式极简 · 颗粒渐变 ……

从极简到赛博朋克、从国风到波普、从水墨到像素——100 种里任意两种放在一起,都能一眼区分。


100 种视觉风格效果展示:从蓝白对比卡到星空城市叙事到中式朱印,每篇文章随机抽到不同的视觉调性

核心设计:三层提示词分离架构

100 种风格好看只是表面。真正撑住这套系统的,是底下的三层提示词架构。

要解决的问题很简单:怎么让每篇文章的配图风格不同,但同一篇文章里的图风格一致?

这两件事看起来矛盾——「不同」和「一致」怎么同时做到?答案是分层。

第一层:文章主题(只给封面)

AI 配图常见问题之一:每张图「长差不多」。封面和正文图像是一个模子刻出来的。原因很简单——你把同一段文章描述喂给每张图,它们当然画得差不多。

第一层就是拆这个问题的。Skill 读完文章后,把整篇主题压成一句话——不超过 240 个字。关键是:这句话只给封面看,正文图压根不知道整篇文章讲什么。

正文图只看自己那一节的内容。这样封面管大方向,正文图各管各的章节,画出来自然有层次。

第二层:视觉风格(整篇共享)

整篇文章一份。脚本从 100 种风格里随机抽一种,写入运行配置。选定后,这篇文章的每张图——封面和所有正文图——共享同一个风格提示词。

每种风格的核心是一段 50-100 字的视觉描述。比如「渐变科技」这种风格:

蓝绿到蓝紫的柔和渐变背景,3D 玻璃拟态方块与流体几何,干净大留白,科技大会题图质感;现代、专业、不喧宾夺主。

这不是现场写的——100 种风格各有一段这样的描述,中英双语,全部预设好了。不用会写提示词,不用有审美直觉,风格池已经替你准备好了。

💡 通俗讲:把风格池想象成杂志社的视觉风格库——好杂志每期封面风格都不一样,不是编辑每次精心挑,是他们有一个够大的视觉词汇量。100 种风格就是这个 Skill 的视觉词汇量。

为什么随机抽签而不是 AI 自动选风格?

让 AI 根据文章内容「自动选最合适的风格」——听起来更聪明。但实际跑下来,AI 选的「最合适」就是最无聊的那个:科技文章永远选科技风,教程永远选扁平设计。篇篇都「最合适」,结果翻文章列表,配图全长一个样。

随机抽签反而出效果:多 AI 协作的文章配了中式朱印,搜索工具的文章配了星空城市叙事。这种「不按套路」的搭配,恰恰成了每篇文章最强的辨识度。

第三层:单图画面描述(每张图独立)

风格定了,但每张图画什么,谁来决定?

每张图一份。Skill 为每个需要配图的章节单独编写两样东西:

  • 场景语境:这个章节在讲什么,用什么视觉场景来表达
  • 主焦点:画面最该突出的那一个东西

场景语境写多长也有讲究——分了六档密度,从「就画一个东西、大片留白」到「信息丰富但层次分明」。不是越多越好,有时候一张留白很大的极简图比塞满细节的信息图更抓眼球。

三层最后才合成。 第二层的风格描述和第三层的内容描述被注入一个固定模板,拼成最终发给图像生成模型的提示词。改风格只改第二层,所有图自动换风格;换文章只改第一层和第三层,风格逻辑不用动。各管各的,互不干扰。

🔍 深入一步:这种分层最直观的好处——配图不满意想换风格?换掉第二层的风格标识,重新跑一遍就行,文章主题和每张图的画面描述都不用重写。反过来也一样:同一种风格给不同文章用,出来的画面完全不同。风格管「用什么笔触画」,内容管「画什么」,各干各的。


三层提示词框架图解:第一层文章主题只给封面,第二层视觉风格整篇共享,第三层单图委托每张图独立编写,三层在渲染阶段合成

封面和正文图的提示词区别

很多人没注意到:封面和正文图用的其实是两套不同的提示词模板。

封面有一条硬规则:画面里唯一允许出现的文字是文章标题原文。 不改写、不缩写、不加副标题。其他概念全用画面元素表达——人物、物件、空间、光线、符号。

为什么这么严格?封面在信息流里只有 1-2 秒的扫视时间。标题文字必须清晰锐利,在缩略图大小也一眼可辨。画面文字一多,手机上什么都看不清。

正文图则宽松得多——可以有简短文字标注,可以有更复杂的构图。因为正文图是在阅读流里被看到的,读者已经在读这个章节了,不需要靠画面「抢注意力」。

两套模板收到的信息也不一样:封面知道文章标题和主题,正文图只知道自己那一节的标题和画面描述。正文图压根不知道整篇文章讲什么——所以每张图真的在讲自己那一节的事,不会所有图都在重复同一个大方向。


封面与正文图的提示词差异对比:封面收到文章标题和主题、只允许标题文字出现在画面,正文图只收到章节上下文、可以有简短文字标注

19 个平台适配:不止是改尺寸

同一篇文章发不同平台——每个平台的封面尺寸都不一样。公众号要 2.35:1 的宽图,小红书要 3:4 的竖图,Ghost 独立站要 1.91:1 对齐社交分享预览标准。

这个 Skill 内置了 19 个平台的配图尺寸。一个参数切换:

公众号——封面 1248×528,移动端宽图
小红书——封面 1088×1440,竖屏 9:16
Ghost 独立站——封面 1200×627,社交分享预览标准
知乎——封面 1280×720,16:9 桌面阅读
FlowUS——封面 1200×640,课程知识库
WordPress / 独立站——封面 1200×640,通用博客

以及更多主流平台也有对应适配——总共 19 个平台,覆盖了内容创作者日常发布内容的几乎所有渠道。

但光改尺寸不够。每个平台的阅读场景也不一样——公众号是「手机信息流,缩略图扫视 1.5 秒」,小红书是「18-28 岁年轻人竖屏快速滑动」。这些场景描述也写进了配置里,生成时自动调整视觉冲击力:手机上 1.5 秒扫过的图,得比桌面长文阅读的图更抓眼球。


风格池可以无限扩充

100 种风格不是上限。

每种风格的本质就是一段视觉描述——50 到 100 个字,描述色调、构图、笔触、整体气质。想新增一种风格,只需要在风格池文件里加一条记录:给它取个英文标识名,写一段中文描述和一段英文描述。下次抽签就会抽到它。

比如想加一种「赛博水墨」风格——传统水墨的笔触和留白,但色调换成霓虹蓝紫、加数据流纹理:

水墨飞白与霓虹线条交织,传统留白构图中穿插数据流纹理和代码片段光影,黑底蓝紫主色调,兼具东方气韵与未来科技感。

加进风格池文件,它就成了第 101 种风格。

这意味着什么?可以基于现有框架,把风格池从 100 种扩展到 200 种、500 种。 熟悉的视觉风格、品牌专属的调性、喜欢的杂志版式——都可以变成一段提示词写进风格池。风格池越大,每篇文章抽到重复风格的概率越低,视觉多样性越强。

扩展风格不用改代码。三层分离的好处就在这里——风格层是独立的,加再多风格,其他两层完全不受影响。


7 步全自动流水线

整个流程拆成 7 步,每一步只做一件事:

  1. 预检——检查运行环境就绪
  2. 准备——分析文章结构,随机抽风格,建运行目录
  3. 写主题——从原文提炼一句话文章主题
  4. 写画面描述——为每张图编写场景语境和主焦点
  5. 渲染提示词——三层合成最终提示词
  6. 生成图片——调图像生成模型生成封面 + 正文图
  7. 回写——上传图片,把链接写回文章

这里面有个讲究:需要动脑子的步骤让 AI 做,不需要动脑子的步骤让脚本做。 写主题、写画面描述得读懂文章,这是 AI 的活。抽风格、拼提示词、调接口、上传图片,这些照章办事的活交给脚本。

好处?脚本那几步可以断点续跑。比如生成到第三张图时网断了,重跑只补剩下两张,前面的不用重来。

图像生成模型配了两家服务商,第一家挂了自动切第二家,还有 4 轮重试兜底。5 张图同时生成,不用排队等。

图片存储位置可选:本地保存(没图床也能用)、国内云存储、海外云存储三选一。

跑一篇 5 张图的文章,3 到 5 分钟全部搞定——画图大概半分钟到一分钟一张,但 5 张同时出,总时间跟画一张差不多。


和垫图方案的关系

这是 AI 配图系列第二篇。第一篇讲了垫图——用参考图做视觉锚点;这一篇讲纯提示词——用预设风格池替代参考图。

两条路不矛盾:

  • 垫图模式:有审美判断力、有时间找参考图时用。优势是风格锁得最精准——你给什么参考图,出来就是什么调性。
  • 纯提示词模式:想开箱即用、批量配图时用。优势是零参考图成本——100 种风格已经替你准备好了,随机抽签就能出效果。

两个 Skill 可以交替使用。精品长文用垫图锁调性,日常更新用纯提示词走批量。

如果你对 Skill 的开发方法感兴趣,可以看看 Skill 开发完全指南——了解这套配图系统背后的 Skill 标准化框架。如果对用文件系统构建 AI 知识库感兴趣,知识库最佳实践那篇详细拆解了如何让 AI 记住你的所有偏好和资产。


获取完整源码

prompt-imaging 的完整源码——100 种风格池 + 三层提示词框架 + 19 平台配置 + 7 步流水线——在「翔宇工作流 · AI 编程实操课」的会员资源里。拿到手,配一个图像服务商的密钥,指着你的文章跑一次就知道效果。

配图只是这套工具体系里的一个。课里还有——

  • 九平台数据采集工具——一条命令搜 9 个平台,从内容选题到电商选品
  • 200 个思维框架——全教给了 AI,让它替你做决策分析
  • 知识库搭建方案——把你自己复刻进文件夹,AI 再也不会忘记你是谁
  • 多 AI 调度系统——一个人指挥一队 AI,24 小时并行跑任务
  • 搜索优化工具——帮你的官网在搜索结果里往前挪
  • ……以及更多生产级 Skill 的完整源码

不讲概念,全是每天在用的真东西。拿到手就能跑。

了解课程详情 →


工具生态总览:配图 Skill 是整套 AI 编程工具体系中的一个模块,课程里还有数据采集、思维框架、知识库、多 Agent 调度等工具

常见问题

三层提示词框架和直接写提示词生成图片有什么区别?

直接写提示词,每张图独立构思,风格难以统一,篇与篇之间更难产生差异。三层框架把文章主题、视觉风格、单图画面三件事拆开:风格层整篇共享保证篇内统一,风格层篇间随机保证篇间差异,内容层各管各的章节保证画面不雷同。改风格只改一层,不用重写每张图的提示词。

100 种风格用完了怎么办?

100 种不是上限。每种风格本质是一段 50-100 字的视觉描述,新增风格只需在风格池文件里加一条记录。风格池可以无限扩充,且不影响框架其他层的逻辑。

随机抽签会不会抽到完全不适合文章主题的风格?

实际跑下来,随机反而出效果。让 AI 根据文章内容自动选风格,结果是科技文章永远选科技风——篇篇雷同。随机抽签让多 AI 协作文章配了国风水墨、搜索工具文章配了星空叙事,这种意外搭配反而成了最强辨识度。

配图生成一篇文章的费用大概是多少?

一篇典型文章(1 张封面 + 4-5 张正文图)成本约为几毛到一块人民币。5 张图并行生成,总耗时约 3-5 分钟。

能不能指定用某种风格而不是随机抽签?

可以。通过参数直接指定风格标识名。适合品牌有固定视觉调性的场景——比如系列文章统一用同一种风格。两种模式一个参数切换。

这套框架可以用在英文文章上吗?

可以。100 种风格每种都有中英文两版提示词。框架自动检测文章语言,中英文通吃。

和垫图方案是什么关系?

两者是同一体系下的两条路:垫图模式用参考图做视觉锚点,纯提示词模式用预设风格池替代参考图。互补使用,按需选择。

跑一篇文章的配图需要多长时间?

一篇 5 张图的文章,3 到 5 分钟全部搞定。图片并行生成,总时间跟画一张差不多。脚本步骤支持断点续跑——中途断了重跑只补没生成的图。

订阅成功!请到邮箱查收确认链接。

订阅成功!请到邮箱查收确认链接。

订阅成功!请到邮箱查收确认链接。

订阅成功!请到邮箱查收确认链接。

操作成功。

操作已取消。