这是我目前最满意的一套 AI 配图工作流

AI 配图最难的不是生成一张好图,而是稳定复现同一种风格。这篇拆解我目前最满意的一套垫图式文章配图工作流:一张参考图定义风格,五步流水线完成生成、上传和写回。

AI 配图工作流封面,展示用参考图统一文章配图风格

凌晨 1 点,文章写完了,配图还没搞定。
这是我最讨厌的时刻。
打开 AI 绘图工具,写了一堆提示词,生成的图和想象中完全不一样。换个关键词再试,风格又飘了。折腾半小时,还是对不上心中那个「感觉」。
更崩溃的是,好不容易调出一个满意的风格,下次再用,怎么也复现不出来。
问题出在哪?
文字和画面之间,天然存在一道翻译损耗。
AI 绘图工具对文字描述的理解是模糊的。你说「科技感」,它可能给你赛博朋克,也可能给你工业风。你说「简约」,它可能给你极简,也可能给你空洞。文字和画面之间,隔着一道「翻译损耗」。
而「垫图」——用一张参考图作为视觉锚点——直接跳过了文字翻译这一步。AI 看到的不是抽象的描述,而是具体的颜色、构图、笔触。
我做了一个 Skill,用垫图模式实现「无限风格复刻」。
如果你是那种——

  • 写文章比配图快 10 倍的人
  • 用过 AI 绘图但总觉得「不太对」的人
  • 相信工具应该为人服务,而不是人伺候工具的人
  • 追求「一次搞定,永久可用」的效率主义者

那这套系统就是为你设计的。
你将获得

  1. 一套 5 步配图系统 ,从文档分析到图像生成到云端存储,全流程自动化
  2. 一种「1 张图定义 1 种风格」的思维方式 ,告别复杂提示词
  3. 一个可直接复刻的完整方案 ,本文 7 张配图就是用这个系统一键生成的

1. 为什么「垫图」比「提示词」更靠谱

问题树:配图的三层痛点

先拆解一下配图这件事到底难在哪里:
根问题 :AI 生成的图和心中所想不一致

  • 子问题 1 :风格描述困难。「科技感」「简约」这类词太抽象,每个人理解不同,AI 理解更不同
  • 子问题 2 :风格复现困难。这次生成满意了,下次换个内容,风格又飘了
  • 子问题 3 :多图一致性困难。一篇文章配 5 张图,每张看起来像不同系列

传统方案(精雕提示词)为什么解决不了?
因为它在错误的方向上优化。
文字的模糊性不是「不够精确」的问题,而是媒介本身的限制 。你说「科技感」,我脑海里浮现的画面和你脑海里的完全不同——因为我们各自的视觉记忆库不一样。AI 也是如此。
用更精确的文字弥补文字的模糊性,就像用更大声的喊叫弥补语言不通——方向错了,努力白费。
这个道理我折腾了半年才想明白。希望你不用。

垫图模式的底层原理

Adobe Firefly 的官方定义说得很清楚:「AI 图像风格迁移让你上传一张图像作为参考,然后生成与该风格一致的新素材。」
关键词是「视觉锚点」。
用第一性原理思考:配图的本质需求是什么?
不是「描述你想要的风格」,而是「传递你想要的风格」。
文字是「描述」,图片是「传递」。一张参考图直接把风格信息无损传给了 AI——没有翻译,没有理解偏差,没有「每个人脑海里的科技感不一样」。
当你给 AI 一张参考图,它做的不是「理解文字 → 想象画面」,而是「分析画面特征 → 复制特征到新内容」。
这两个路径的差异巨大——
提示词路径 :「蓝紫渐变科技感」→ AI 脑补 → 输出结果(不确定)
垫图路径 :参考图的颜色 / 构图 / 笔触 → AI 提取特征 → 应用到新内容(确定)
我曾经用同一句提示词连续生成 10 张图,10 张风格都不一样。换成垫图后,10 张图看起来像同一个系列。
这就是「确定性」的价值。

🔬 底层原理
神经风格迁移的本质是「特征提取 + 特征合成」。AI 从参考图中学习色调、纹理、构图模式,然后把这些特征「迁移」到新生成的内容上。这不是简单的滤镜叠加,而是重新生成一张「看起来属于同一系列」的新图。

垫图 vs 提示词:两种路径对比

垫图 vs 提示词:两种路径对比


2. 系统架构:五步流水线

这套流程跑通后,配一篇文章的图只需要 3 分钟。
更重要的是,你再也不用担心「这次调出来了,下次调不出来」。
找到一个喜欢的风格,永久可用。换一个风格,无缝切换。你的配图库不再是碎片化的试错结果,而是可复用的视觉资产
这个 Skill 把配图流程拆成 5 个步骤,每一步只干一件事,出问题好排查:

整体数据流

输入:Markdown 文档 + 用户选择的风格

  1. Step 01 初始化 → 收集参数,创建运行目录
  2. Step 02 分析文档 → 提取标题、章节、关键词
  3. Step 03 生成配图 → 垫图 + Gemini API 生成
  4. Step 04 上传云端 → COS / R2 / 本地三选一
  5. Step 05 插入文档 → 图片链接写回 Markdown

输出:带配图的 Markdown 文档 + 云端图片 URL

为什么要拆成 5 步?

单一职责原则 ——每一步只做一件事,出问题能快速定位。
复杂系统的稳定性,来自组件的简单性。

  • Step 02 出错?检查文档解析逻辑
  • Step 03 出错?检查 API 调用和垫图加载
  • Step 04 出错?检查云存储凭证

断点恢复 。每一步完成后都会更新 progress.json。如果 Step 03 生成到一半断了,下次可以从断点继续,不用从头开始。
好的系统不怕中断,怕的是从头再来。
模块可替换 。想换个图像生成服务?只改 Step 03。想换个云存储?只改 Step 04。其他步骤不受影响。

🏗️ 设计洞见
很多人做自动化工具喜欢「一个脚本搞定所有」。这样写起来快,但维护起来是噩梦。把流程拆成独立步骤,每步有明确的输入输出,看起来麻烦,实际上是「用前期的结构化投入,换后期的维护自由」。

五步流水线架构

五步流水线架构


3. Step 03 详解:出图的核心逻辑

这一步决定图片好不好看。 其他步骤都是辅助,这里是真正干活的地方。

垫图加载机制

系统预置了多种风格,每种风格对应一张参考图:
封面风格 (cover_styles):

  • gradient-tech (渐变科技):蓝紫渐变、3D 玻璃质感,适合科技 / AI 主题
  • news-press (新闻报刊):报纸版式、红黑配色,适合新闻资讯
  • notebook-doodle (笔记本涂鸦):线圈本背景、彩色手写字,适合教程
  • sketch-doodle (简笔涂鸦):手绘简笔画、黄色高亮,适合小红书

主图风格 (main_styles):

  • info-card (信息卡片):卡片式布局、中央人物、周围信息块
  • knowledge-theory (知识理论):传播学 / 心理学理论可视化
  • infographic (信息图表):知识图谱、流程可视化
  • edu-illustration (科普插画):教育插图风格

每张参考图都存放在 reference/images/ 目录,文件名遵循 {类型}-{风格ID}.{扩展名} 的命名规范,比如 cover-gradient-tech.png

调用 Gemini 的关键参数

核心是把参考图和内容描述一起发给 Gemini:
Prompt 结构

  1. STYLE REFERENCE :告诉 AI「用附带的图片作为主要风格参考,匹配它的视觉风格、配色、构图和插画技法」
  2. CONTENT TO ILLUSTRATE :当前要画的主题和上下文
  3. REQUIREMENTS :生成一张新插画,和参考图看起来属于同一系列
  4. TECHNICAL :平台规格(小红书用 3:4,抖音用 9:16)
  5. CONSTRAINTS :不要文字水印,不要写实人脸

为什么这样设计 Prompt?

  • 把「风格参考」放在最前面,权重最高
  • 明确说「匹配 visual style、color palette、composition」,而不是「参考这张图」——后者太模糊
  • 强调「看起来属于同一系列」——这是一致性的关键表达

第一次运行时的感觉,我到现在还记得。
看着 AI 根据那张参考图,一张一张生成出来——颜色对、构图对、连笔触的粗细都对。那一刻我知道,配图这件事,从此不一样了。

📝 记住这个
垫图的本质是「用图片定义风格」。找到一张你喜欢的图,复制到 reference/images/ 目录,更新 styles.json,这个风格就永久可用了。再也不用记那些复杂的提示词。

Gemini API 调用与 Prompt 设计

Gemini API 调用与 Prompt 设计


4. 添加新风格:三步搞定

这是整个系统最「可迁移」的部分。你不需要改任何代码,只需要:

操作步骤

  1. 找一张你喜欢的参考图 ——从网上、从你之前生成的图里、从任何地方
  2. 复制到 reference/images/ 目录——按命名规范:
    • 封面:cover-{style-id}.png
    • 主图:main-{style-id}.jpg
  3. 更新 styles.json——在对应数组里加一条:

封面示例:

{
  "id": "my-custom-style",
  "name": "我的自定义风格",
  "file": "cover-my-custom-style.png"
}

主图示例:

{
  "id": "my-main-style",
  "name": "我的主图风格",
  "file": "main-my-main-style.jpg"
}

下次运行 Skill 时,新风格就会出现在选项里。
大多数人还在研究「怎么写出更好的提示词」。而你,已经在收藏风格了。

为什么这么简单?

设计决策 :风格定义和代码逻辑完全解耦。
styles.json 是纯数据文件,脚本只负责「读取配置 → 加载图片 → 调用 API」。你添加的任何风格,脚本都能自动处理。
这就是「数据驱动」的威力——扩展功能不需要改代码,只需要加数据。
扩展功能不改代码,只加数据——这就是「数据驱动」的威力。
掌握这套系统后,你的思维方式会发生一个微妙的变化:
以前看到好看的图,你想的是「这图真好看」。 现在看到好看的图,你想的是「这个风格我要收藏」。
从「欣赏者」变成「收藏者」——这就是系统化思维带来的认知升级。

🎯 打个比方
这就像手机换壁纸。你不需要懂手机系统是怎么渲染的,只需要把图片放到相册里,选择「设为壁纸」。垫图风格扩展的逻辑是一样的——把图片放到指定目录,更新索引文件,完成。

数据驱动的风格扩展

数据驱动的风格扩展


5. 多平台适配:一套系统覆盖三大平台

不同平台对图片比例有不同要求:
微信公众号 :封面 2.35:1(接近 21:9),主图 16:9
小红书 :封面 3:4(竖版),主图 3:4
抖音 :封面 9:16(全竖版),主图 9:16
系统在 Step 01 初始化时让你选择目标平台,后续生成会自动套用对应的分辨率。

平台配置文件

所有规格定义在 reference/definitions/platforms.json

"wechat": {
  "name": "微信公众号",
  "cover": {"aspect": "2.35:1", "resolution": "900x383"},
  "main": {"aspect": "16:9", "resolution": "1280x720"}
}

想增加新平台?加一条配置就行。

三大平台的图片规格适配

三大平台的图片规格适配


6. 存储模式:三选一的灵活性

生成完图片,总得有个地方放。系统支持三种存储模式:
腾讯云 COS (推荐国内用户):

  • 国内访问速度快
  • 需要配置 credentials/cos.json

Cloudflare R2 (推荐全球用户):

  • 自带 CDN 加速
  • 每月 10GB 免费存储
  • 需要配置 credentials/r2.json

本地存储

  • 不上传,图片留在本地
  • 适合离线使用或本地预览

选择存储模式后,Step 04 会自动调用对应的上传脚本,Step 05 会把正确的 URL 插入文档。


7. 完整复刻路径

如果你想从零搭建这套系统,关键里程碑是:
M1:能跑通最小闭环

  • 一篇 Markdown → 一张封面 → 本地存储
  • 验证方法:output/ 目录下有带图的文档

M2:垫图风格生效

  • 换一张参考图,生成结果确实不一样
  • 验证方法:对比两种风格的输出

M3:多平台多风格

  • 同一篇文章,生成小红书版本和抖音版本
  • 验证方法:图片比例符合平台规格

M4:云存储可用

  • 上传到 COS 或 R2,URL 可访问
  • 验证方法:浏览器打开 URL 能看到图片

常见卡点

  1. Gemini API 调用失败 :检查 credentials/gemini.json 是否配置正确
  2. 垫图加载失败 :确认文件名和 styles.json 中的 file 字段一致
  3. 云存储上传失败 :检查对应的凭证文件是否存在且格式正确
从零搭建的四个里程碑

从零搭建的四个里程碑


8. 一键复刻


这篇文章的 7 张配图,就是用这个 Skill 一键生成的。

  • 转发给 :经常用 AI 配图的朋友
  • 适合人群 :内容创作者、自媒体运营、技术博主
  • 一句话总结 :告别提示词玄学,一张垫图锁定风格

参考资料

Great! You’ve successfully signed up.

欢迎回来!登录成功。

你已成功订阅 翔宇工作流。

成功!请查收邮件中的登录链接。

账单信息已更新。

账单信息未更新。