这套 AI 配图工作流解决什么问题？

它解决的不是单张图片生成，而是文章配图的风格一致性。通过参考图作为视觉锚点，同一篇文章里的封面和主图可以保持相近的配色、构图和质感。

为什么垫图比纯提示词更稳定？

纯提示词依赖模型对抽象词的理解，例如科技感、简约、高级感。垫图直接提供颜色、构图、笔触和视觉密度，减少文字到画面的翻译损耗。

这套流程适合哪些内容创作者？

它适合经常写文章、需要稳定配图风格、又不想每次重新调提示词的人。技术博客、公众号、课程文档、小红书图文都可以使用同一套思路。

AI 配图工作流：用垫图稳定复刻文章视觉风格

凌晨 1 点，文章写完了，配图还没搞定。
这是我最讨厌的时刻。
打开 AI 绘图工具，写了一堆提示词，生成的图和想象中完全不一样。换个关键词再试，风格又飘了。折腾半小时，还是对不上心中那个「感觉」。
更崩溃的是，好不容易调出一个满意的风格，下次再用，怎么也复现不出来。
问题出在哪？
文字和画面之间，天然存在一道翻译损耗。
AI 绘图工具对文字描述的理解是模糊的。你说「科技感」，它可能给你赛博朋克，也可能给你工业风。你说「简约」，它可能给你极简，也可能给你空洞。文字和画面之间，隔着一道「翻译损耗」。
而「垫图」——用一张参考图作为视觉锚点——直接跳过了文字翻译这一步。AI 看到的不是抽象的描述，而是具体的颜色、构图、笔触。
我做了一个 Skill，用垫图模式实现「无限风格复刻」。
如果你是那种——

写文章比配图快 10 倍的人
用过 AI 绘图但总觉得「不太对」的人
相信工具应该为人服务，而不是人伺候工具的人
追求「一次搞定，永久可用」的效率主义者

那这套系统就是为你设计的。
你将获得 ：

一套 5 步配图系统 ，从文档分析到图像生成到云端存储，全流程自动化
一种「1 张图定义 1 种风格」的思维方式 ，告别复杂提示词
一个可直接复刻的完整方案 ，本文 7 张配图就是用这个系统一键生成的

1. 为什么「垫图」比「提示词」更靠谱

问题树：配图的三层痛点

先拆解一下配图这件事到底难在哪里：
根问题 ：AI 生成的图和心中所想不一致

子问题 1 ：风格描述困难。「科技感」「简约」这类词太抽象，每个人理解不同，AI 理解更不同
子问题 2 ：风格复现困难。这次生成满意了，下次换个内容，风格又飘了
子问题 3 ：多图一致性困难。一篇文章配 5 张图，每张看起来像不同系列

传统方案（精雕提示词）为什么解决不了？
因为它在错误的方向上优化。
文字的模糊性不是「不够精确」的问题，而是媒介本身的限制 。你说「科技感」，我脑海里浮现的画面和你脑海里的完全不同——因为我们各自的视觉记忆库不一样。AI 也是如此。
用更精确的文字弥补文字的模糊性，就像用更大声的喊叫弥补语言不通——方向错了，努力白费。
这个道理我折腾了半年才想明白。希望你不用。

垫图模式的底层原理

Adobe Firefly 的官方定义说得很清楚：「AI 图像风格迁移让你上传一张图像作为参考，然后生成与该风格一致的新素材。」
关键词是「视觉锚点」。
用第一性原理思考：配图的本质需求是什么？
不是「描述你想要的风格」，而是「传递你想要的风格」。
文字是「描述」，图片是「传递」。一张参考图直接把风格信息无损传给了 AI——没有翻译，没有理解偏差，没有「每个人脑海里的科技感不一样」。
当你给 AI 一张参考图，它做的不是「理解文字 → 想象画面」，而是「分析画面特征 → 复制特征到新内容」。
这两个路径的差异巨大——
提示词路径 ：「蓝紫渐变科技感」→ AI 脑补 → 输出结果（不确定）
垫图路径 ：参考图的颜色 / 构图 / 笔触 → AI 提取特征 → 应用到新内容（确定）
我曾经用同一句提示词连续生成 10 张图，10 张风格都不一样。换成垫图后，10 张图看起来像同一个系列。
这就是「确定性」的价值。

🔬 底层原理
神经风格迁移的本质是「特征提取 + 特征合成」。AI 从参考图中学习色调、纹理、构图模式，然后把这些特征「迁移」到新生成的内容上。这不是简单的滤镜叠加，而是重新生成一张「看起来属于同一系列」的新图。

垫图 vs 提示词：两种路径对比

2. 系统架构：五步流水线

这套流程跑通后，配一篇文章的图只需要 3 分钟。
更重要的是，你再也不用担心「这次调出来了，下次调不出来」。
找到一个喜欢的风格，永久可用。换一个风格，无缝切换。你的配图库不再是碎片化的试错结果，而是可复用的视觉资产 。
这个 Skill 把配图流程拆成 5 个步骤，每一步只干一件事，出问题好排查：

整体数据流

输入：Markdown 文档 + 用户选择的风格

Step 01 初始化 → 收集参数，创建运行目录
Step 02 分析文档 → 提取标题、章节、关键词
Step 03 生成配图 → 垫图 + Gemini API 生成
Step 04 上传云端 → COS / R2 / 本地三选一
Step 05 插入文档 → 图片链接写回 Markdown

输出：带配图的 Markdown 文档 + 云端图片 URL

为什么要拆成 5 步？

单一职责原则 ——每一步只做一件事，出问题能快速定位。
复杂系统的稳定性，来自组件的简单性。

Step 02 出错？检查文档解析逻辑
Step 03 出错？检查 API 调用和垫图加载
Step 04 出错？检查云存储凭证

断点恢复 。每一步完成后都会更新 progress.json。如果 Step 03 生成到一半断了，下次可以从断点继续，不用从头开始。
好的系统不怕中断，怕的是从头再来。
模块可替换 。想换个图像生成服务？只改 Step 03。想换个云存储？只改 Step 04。其他步骤不受影响。

🏗️ 设计洞见
很多人做自动化工具喜欢「一个脚本搞定所有」。这样写起来快，但维护起来是噩梦。把流程拆成独立步骤，每步有明确的输入输出，看起来麻烦，实际上是「用前期的结构化投入，换后期的维护自由」。

五步流水线架构

3. Step 03 详解：出图的核心逻辑

这一步决定图片好不好看。 其他步骤都是辅助，这里是真正干活的地方。

垫图加载机制

系统预置了多种风格，每种风格对应一张参考图：
封面风格 （cover_styles）：

gradient-tech （渐变科技）：蓝紫渐变、3D 玻璃质感，适合科技 / AI 主题
news-press （新闻报刊）：报纸版式、红黑配色，适合新闻资讯
notebook-doodle （笔记本涂鸦）：线圈本背景、彩色手写字，适合教程
sketch-doodle （简笔涂鸦）：手绘简笔画、黄色高亮，适合小红书

主图风格 （main_styles）：

info-card （信息卡片）：卡片式布局、中央人物、周围信息块
knowledge-theory （知识理论）：传播学 / 心理学理论可视化
infographic （信息图表）：知识图谱、流程可视化
edu-illustration （科普插画）：教育插图风格

每张参考图都存放在 reference/images/ 目录，文件名遵循 {类型}-{风格ID}.{扩展名} 的命名规范，比如 cover-gradient-tech.png。

调用 Gemini 的关键参数

核心是把参考图和内容描述一起发给 Gemini：
Prompt 结构 ：

STYLE REFERENCE ：告诉 AI「用附带的图片作为主要风格参考，匹配它的视觉风格、配色、构图和插画技法」
CONTENT TO ILLUSTRATE ：当前要画的主题和上下文
REQUIREMENTS ：生成一张新插画，和参考图看起来属于同一系列
TECHNICAL ：平台规格（小红书用 3:4，抖音用 9:16）
CONSTRAINTS ：不要文字水印，不要写实人脸

为什么这样设计 Prompt？

把「风格参考」放在最前面，权重最高
明确说「匹配 visual style、color palette、composition」，而不是「参考这张图」——后者太模糊
强调「看起来属于同一系列」——这是一致性的关键表达

第一次运行时的感觉，我到现在还记得。
看着 AI 根据那张参考图，一张一张生成出来——颜色对、构图对、连笔触的粗细都对。那一刻我知道，配图这件事，从此不一样了。

📝 记住这个
垫图的本质是「用图片定义风格」。找到一张你喜欢的图，复制到 reference/images/ 目录，更新 styles.json，这个风格就永久可用了。再也不用记那些复杂的提示词。

Gemini API 调用与 Prompt 设计

4. 添加新风格：三步搞定

这是整个系统最「可迁移」的部分。你不需要改任何代码，只需要：

操作步骤

找一张你喜欢的参考图 ——从网上、从你之前生成的图里、从任何地方
复制到 reference/images/ 目录——按命名规范：
- 封面：cover-{style-id}.png
- 主图：main-{style-id}.jpg
更新 styles.json——在对应数组里加一条：

封面示例：

{
  "id": "my-custom-style",
  "name": "我的自定义风格",
  "file": "cover-my-custom-style.png"
}

主图示例：

{
  "id": "my-main-style",
  "name": "我的主图风格",
  "file": "main-my-main-style.jpg"
}

下次运行 Skill 时，新风格就会出现在选项里。
大多数人还在研究「怎么写出更好的提示词」。而你，已经在收藏风格了。

为什么这么简单？

设计决策 ：风格定义和代码逻辑完全解耦。
styles.json 是纯数据文件，脚本只负责「读取配置 → 加载图片 → 调用 API」。你添加的任何风格，脚本都能自动处理。
这就是「数据驱动」的威力——扩展功能不需要改代码，只需要加数据。
扩展功能不改代码，只加数据——这就是「数据驱动」的威力。
掌握这套系统后，你的思维方式会发生一个微妙的变化：
以前看到好看的图，你想的是「这图真好看」。现在看到好看的图，你想的是「这个风格我要收藏」。
从「欣赏者」变成「收藏者」——这就是系统化思维带来的认知升级。

🎯 打个比方
这就像手机换壁纸。你不需要懂手机系统是怎么渲染的，只需要把图片放到相册里，选择「设为壁纸」。垫图风格扩展的逻辑是一样的——把图片放到指定目录，更新索引文件，完成。

数据驱动的风格扩展

5. 多平台适配：一套系统覆盖三大平台

不同平台对图片比例有不同要求：
微信公众号 ：封面 2.35:1（接近 21:9），主图 16:9
小红书 ：封面 3:4（竖版），主图 3:4
抖音：封面 9:16（全竖版），主图 9:16
系统在 Step 01 初始化时让你选择目标平台，后续生成会自动套用对应的分辨率。

平台配置文件

所有规格定义在 reference/definitions/platforms.json：

"wechat": {
  "name": "微信公众号",
  "cover": {"aspect": "2.35:1", "resolution": "900x383"},
  "main": {"aspect": "16:9", "resolution": "1280x720"}
}

想增加新平台？加一条配置就行。

三大平台的图片规格适配

6. 存储模式：三选一的灵活性

生成完图片，总得有个地方放。系统支持三种存储模式：
腾讯云 COS （推荐国内用户）：

国内访问速度快
需要配置 credentials/cos.json

Cloudflare R2 （推荐全球用户）：

自带 CDN 加速
每月 10GB 免费存储
需要配置 credentials/r2.json

本地存储 ：

不上传，图片留在本地
适合离线使用或本地预览

选择存储模式后，Step 04 会自动调用对应的上传脚本，Step 05 会把正确的 URL 插入文档。

7. 完整复刻路径

如果你想从零搭建这套系统，关键里程碑是：
M1：能跑通最小闭环

一篇 Markdown → 一张封面 → 本地存储
验证方法：output/ 目录下有带图的文档

M2：垫图风格生效

换一张参考图，生成结果确实不一样
验证方法：对比两种风格的输出

M3：多平台多风格

同一篇文章，生成小红书版本和抖音版本
验证方法：图片比例符合平台规格

M4：云存储可用

上传到 COS 或 R2，URL 可访问
验证方法：浏览器打开 URL 能看到图片

常见卡点

Gemini API 调用失败 ：检查 credentials/gemini.json 是否配置正确
垫图加载失败 ：确认文件名和 styles.json 中的 file 字段一致
云存储上传失败 ：检查对应的凭证文件是否存在且格式正确

从零搭建的四个里程碑

8. 一键复刻

这篇文章的 7 张配图，就是用这个 Skill 一键生成的。

转发给 ：经常用 AI 配图的朋友
适合人群 ：内容创作者、自媒体运营、技术博主
一句话总结 ：告别提示词玄学，一张垫图锁定风格

参考资料

Claude Code Skill 开发完全指南：从入门到精通

n8n 工作流秒变 Claude Code Skill：SEO 关键词调研实战

我让 AI 替我写博客，结果比自己写更好

这是我目前最满意的一套 AI 配图工作流