CLAUDE.md 最佳实践:Karpathy 四原则 + 6 套完整模板,看完直接复制
拆解 Karpathy 22 万星四原则、Anthropic 官方案例、Dan Abramov 的真实 CLAUDE.md。给出前端开发、后端开发、独立开发者、写作者、数据分析师、学生初学者 6 套完整可复制模板,附官方包含排除清单和反模式检查表。
2026 年的 AI 图片和视频生成工具已经完成了一次质变:不再是「玩一下看看效果」的玩具,而是能直接产出发布级视觉素材的生产工具。
过去一年,GPT Image(gpt-image-2)把中文提示词理解能力拉到了实用线以上;PixVerse、Runway Gen-3 等图生视频工具让 4-10 秒的高质量视频片段变成了日常产出;ComfyUI 的云端方案让没有本地显卡的创作者也能跑复杂工作流。关键不再是工具强不强,而是你的提示词写法和工作流设计能不能把这些能力串成一条稳定的生产线。
这篇指南覆盖从提示词写法到完整视频成片的全链路,串联 8 篇深度教程。无论你是需要给文章配图的写作者、需要做缩略图的视频创作者,还是想搭建批量视频产线的内容团队,都能在这里找到可落地的方法。
先看整体地图——AI 视觉创作的五大场景和对应的工具链:
| 场景 | 核心工具 | 交付物 | 单次耗时 |
|---|---|---|---|
| 文章配图 | GPT Image / Flux | 封面 + 正文插图 | 5-15 分钟/篇 |
| 视频缩略图 | GPT Image + 字体叠加 | 1280×720 缩略图 | 3-5 分钟/张 |
| 关键帧生图 | GPT Image / Flux / ComfyUI | 分镜关键帧序列 | 10-20 分钟/组 |
| 图生视频 | PixVerse / Runway / 可灵 | 4-10 秒视频片段 | 2-5 分钟/段 |
| 剪辑成片 | Cherry Studio / 剪映 | 30-120 秒完整短视频 | 15-30 分钟/条 |

AI 配图的核心不是工具选得对不对,而是提示词(Prompt)写得好不好。同样的 GPT Image,给一句「科技风格的图」和给一段结构化提示词,出图质量天差地别。
一条能稳定产出高质量图片的提示词,通常包含五个要素:
💡 通俗讲:写提示词就像给设计师写需求文档——你描述得越具体,返回的结果越接近你要的效果。模糊的指令只会换来模糊的图片。
下面是一个实际的提示词对比:
| 要素 | 模糊版(效果差) | 结构化版(效果好) |
|---|---|---|
| 主体 | AI 工作流 | 一个创作者面对双屏显示器,左屏是图片编辑界面,右屏是视频时间线 |
| 风格 | 好看的 | 蓝绿水彩笔触,柔和晕染,手绘插画风格 |
| 构图 | (没写) | 45 度俯视视角,桌面场景,居中构图 |
| 色调 | (没写) | 主色蓝绿,辅色暖橙,整体明亮柔和 |
| 尺寸 | (没写) | 2000×1125(16:9,博客封面用) |
做内容最怕的不是单张图不好看,而是十张图十个风格。一篇文章里出现水彩图、3D 渲染图和扁平插画图,读者的视觉体验是割裂的。
解决方法是建立风格模板:
一个实用的做法是维护一个风格池(比如 40-50 个预定义风格),每篇文章随机抽一个风格,篇内所有图共享该风格。这样既保证了单篇的一致性,又保证了不同文章之间的视觉多样性。
关于配图工作流的完整实践——从单篇配图到批量出图——我在 我目前最满意的 AI 配图工作流 里详细拆解了每一步。那篇文章记录了我从「一张图调半小时」到「批量出图每张不到 30 秒」的整个过程,包括风格池的建立方法和模板化提示词的具体格式。
当你需要为 10 篇文章各配 5 张图时,逐张手动调试会消耗大量时间。批量出图的关键是三个环节的自动化:
模板化提示词:只替换变量部分(主体、章节标题),风格和构图固定不动。一个好的提示词模板长这样:
[风格模板:固定] + [章节标题:变量] + [可视化概念:变量] + [画面重点:变量]
API 调用:通过代码调用 GPT Image 或 Flux 的 API,一个脚本跑完全部图片。以 fal.ai 为例,单张图调用成本约 0.02-0.05 美元,批量 50 张配图的总成本在 1-2.5 美元之间。
质检筛选:批量生成 → 人工快速筛选(5 秒看一张,不合格的标记)→ 不合格的自动换变量重跑。这比逐张精调快得多,因为你把决策点从「每张图都仔细调」变成了「只处理不合格的」。
🔍 深入一步:批量出图还有一个容易忽略的环节——图片的 alt 文本(替代文字)。每张图都需要一段描述性的 alt 文本,既是辅助功能的要求,也是 SEO 的重要信号。在批量流程里,alt 文本应该在提示词阶段就规划好,而不是上传后再补。
缩略图是内容的「门面」。YouTube 官方数据显示,90% 表现最好的视频使用了自定义缩略图(来源:YouTube Creator Academy)。公众号、小红书的封面图同样直接影响打开率——用户在信息流里决定要不要点进去,通常只用不到 1 秒。
大字少字——缩略图在手机上的显示面积通常只有 3-4 厘米宽。这意味着文字太多根本看不清。3-5 个字就够了,字号要大到在手机信息流列表里一眼能读。很多人犯的错误是把完整标题塞进缩略图——那是标题字段的工作,不是缩略图的。
高对比度——深色背景配亮色文字,或者亮色背景配深色主体。灰蒙蒙的缩略图在信息流里直接被忽略。对比度不够的缩略图,在暗色模式的手机上几乎看不见。一个实用的检查方法:把缩略图缩到 100×56 像素(YouTube 移动端的实际显示大小),如果核心信息还能辨认,就合格。
情绪明确——缩略图只传达一个情绪:惊讶、好奇、紧迫、兴奋。不要试图在一张图里说清所有内容。一个有情绪张力的人脸表情,比任何精美的构图都更能吸引点击。
| 平台 | 推荐尺寸 | 比例 | 关键要求 |
|---|---|---|---|
| YouTube | 1280×720 | 16:9 | 人脸 + 大字 + 高饱和度,移动端只显示 100×56 |
| 公众号 | 900×383 | 2.35:1 | 标题可读 + 品牌色一致,列表页裁切到中央区域 |
| 小红书 | 1080×1440 | 3:4 | 第一张图决定生死,竖图比横图展示面积大 3 倍 |
| B 站 | 1146×717 | 16:10 | 动态封面加分,静态封面需要色彩鲜明 |
用 AI 做缩略图的详细方法,包括字体叠加、人物抠图和 A/B 测试策略,可以看 用 AI 做 YouTube 缩略图:让点击率翻倍的方法。那篇教程覆盖了从选题到最终缩略图交付的完整流程。

AI 视频生成的当前最佳实践不是「一句话生成完整视频」,而是关键帧驱动:先用 AI 生成精确的关键帧图片,再用图生视频(Image-to-Video)工具把静态图变成动态片段。
这种两步法是目前 AI 视频产出质量最高、可控性最强的方法。
纯文生视频(Text-to-Video)的核心问题是不可控——同一段提示词生成五次,五次的构图、角色长相、场景布局可能完全不同。你无法精确指定「人物站在画面左三分之一处,面朝右边」这样的空间关系。
而关键帧驱动的流程把「构图控制」和「运动控制」拆成两个独立可调的步骤:
💡 通俗讲:纯文生视频相当于让 AI 同时决定「画什么」和「怎么动」,两个变量叠加导致不可控。关键帧驱动把两个变量拆开,先搞定一个再搞定另一个。
关于关键帧提示词的系统写法,AI 短视频关键帧提示词指南 提供了从分镜脚本到逐帧提示词的完整方法论,包括如何保持多个关键帧之间的角色一致性。
图生视频的提示词和图片提示词完全不同。图片提示词描述「画面里有什么」,而视频提示词描述「画面怎么变化」。很多人犯的错误是把图片提示词直接复制到视频提示词框里——这只会让 AI 重新理解一遍画面内容,而不是让画面动起来。
有效的视频提示词围绕三个维度:
运动方向:具体描述镜头或物体的移动轨迹。不要写「动态效果」,要写「镜头从左向右缓慢平移,背景建筑依次入画」或「主体从画面底部缓缓升起,在中央停留」。方向越具体,结果越可预测。
运动幅度:AI 视频目前的运动幅度不宜太大。微动效果(呼吸感的缓慢放大缩小、光影流动、头发飘动)通常比剧烈运动(跑步、跳跃、转身)更自然。原因是剧烈运动需要 AI 生成更多中间帧,容易出现肢体变形或物理错误。
运动节奏:开头慢、中间快、结尾慢的节奏(类似动画中的「缓入缓出」)比匀速运动更有质感。在提示词中可以用「gradually accelerate then slow to a stop」这样的表述来引导节奏。
图生视频提示词的系统化写法,在 图生视频 AI 提示词指南 里有详细拆解,包括不同运动类型(平移、推拉、旋转、变焦)的模板和常见踩坑记录。
在目前的图生视频工具中,PixVerse 是性价比较高的选择。它支持图片输入 + 运动提示词,生成的视频在流畅度和画面一致性方面表现稳定,特别是在人物和场景的一致性保持上做得不错。
PixVerse 的几个实用参数:
PixVerse 的操作入门和进阶技巧,可以参考 PixVerse 视频提示词教程,那篇教程从账号注册到高级参数调节都有覆盖,包括不同版本(4.5 / 5.0)的功能差异对比。
AI 能帮你生成视觉素材,但一条完整的短视频不只是素材的堆砌。它需要脚本结构、分镜设计和剪辑节奏三个维度的配合。好消息是,AI 可以在每个环节提供辅助。
一条 60 秒短视频的脚本结构通常遵循「钩子-正文-行动」的三段式:
脚本写完后,关键步骤是把每个场景拆成具体的视觉画面,并标注每个画面的生成方式:
| 时间 | 场景描述 | 素材类型 | 生成方式 | 注意事项 |
|---|---|---|---|---|
| 0-3s | 人物惊讶表情 + 大字标题 | 图片 | GPT Image | 文字后期叠加,不靠 AI 生成 |
| 3-15s | 工具操作屏幕录制 | 录屏 | 真实操作 | 提前准备干净桌面,隐藏隐私信息 |
| 15-30s | AI 生成画面过程 | 视频 | 图生视频 | 用微动效果,避免剧烈变化 |
| 30-45s | 前后对比效果 | 图片组 | AI 生图 | 前后图用同一风格,只变内容 |
| 45-60s | 成品展示 + CTA | 视频 | 剪辑合成 | 叠加半透明关注引导动画 |
一个实用的技巧是:AI 生成的素材和真实录屏交替出现,比纯 AI 素材更有可信度。观众能分辨全 AI 生成的视频,但 AI 素材和真实画面穿插时,整体观感会更专业。
从脚本到最终剪辑的完整流程,AI 短视频从脚本到剪辑的完整指南 提供了可直接复用的模板和检查清单,包括不同平台的时长和分辨率要求。
素材齐了,剪辑决定最终效果。爆款短视频的剪辑有三个共性:
🔍 深入一步:剪辑时有一个容易忽略的细节——转场不是装饰,是叙事工具。淡入淡出表示时间流逝,硬切表示场景并列,缩放转场表示因果关系。乱用花哨转场会让视频看起来不专业。
Cherry Studio 在 AI 视频剪辑方面做了不少自动化,包括自动节拍检测、智能转场推荐和字幕生成。它特别适合需要快速出片、不想在剪辑软件里花太多时间的创作者。具体操作可以看 Cherry Studio 爆款短视频剪辑。

选工具之前先搞清楚需求。不同工具的强项差异很大,用错工具会导致事倍功半。这一节按「图片生成 → 视频生成 → 工作流编排」三层列出主流选项和适用边界。
| 工具 | 强项 | 短板 | 适用场景 | 单张成本 |
|---|---|---|---|---|
| GPT Image(gpt-image-2) | 语义理解强、中文提示词友好 | 精确空间布局弱 | 文章配图、概念图、信息图 | ≈$0.02-0.05 |
| Flux(Flux.1 Pro / Dev) | 写实质感、细节控制 | 中文提示词支持一般 | 产品图、人物图、场景图 | ≈$0.03-0.06 |
| Midjourney | 美学风格突出 | API 限制多、批量不便 | 艺术创作、概念设计 | $0.01-0.04 |
| DALL-E 3 | 和 ChatGPT 深度集成 | 风格偏单一 | 快速原型、对话式迭代 | ≈$0.04 |
选择建议:如果你主要做中文内容配图,GPT Image 是首选——它对中文语义的理解在所有模型中最好。如果需要写实产品图或人物照片级效果,Flux 更适合。日常快速验证想法用 ChatGPT 内置的 DALL-E 3 最方便,不用折腾 API。
| 工具 | 强项 | 单段时长 | 图生视频支持 | 适用场景 |
|---|---|---|---|---|
| PixVerse | 性价比高、图生视频稳定 | 4-8 秒 | 好 | 短视频素材片段 |
| Runway Gen-3 | 运动控制精细 | 4-10 秒 | 好 | 高品质视频片段 |
| Kling(可灵) | 中文生态友好、国内访问快 | 5-10 秒 | 好 | 国内平台视频素材 |
| Sora | 长时长、叙事连贯 | 最长 60 秒 | 一般 | 完整短视频 |
| Veo(Google) | 与 Gemini 生态集成 | 8 秒 | 有限 | Google 生态用户 |
选择建议:多数人的入门选择是 PixVerse——它的免费额度够用于学习,图生视频的一致性表现稳定。需要更高品质时升级到 Runway Gen-3。面向国内平台(抖音、B 站、小红书)发布的内容,可灵在审核合规和访问速度上有优势。
| 工具 | 定位 | 学习曲线 | 适合谁 |
|---|---|---|---|
| ComfyUI | 节点式可视化工作流 | 陡峭 | 需要精细控制的进阶用户、批量生产场景 |
| Cherry Studio | AI 视频剪辑 | 平缓 | 需要快速出片的内容创作者 |
| n8n / Dify | 自动化编排 | 中等 | 需要批量自动化的技术用户 |
| 脚本 + API | 完全自定义 | 需编程能力 | 极致效率追求者 |
如果你对 ComfyUI 的部署和使用感兴趣,特别是不想在本地装显卡的情况,ComfyUI 云端平台指南 对比了几个主流的云端 ComfyUI 平台,帮你省掉硬件投入——对于没有高性能显卡的创作者来说,云端方案是唯一可行的路径。
工具选好了,下一步是把它们串起来。零散地用每个工具,和搭建一条产线之间的效率差距可以是 10 倍——不是夸张,而是因为产线消除了每次切换工具时的重复操作和决策成本。
适用场景:给文章、公众号、知乎批量配图。
需求分析 → 风格抽签 → 提示词模板填充 → 批量 API 调用 → 质检筛选 → CDN 上传 → 正文回写
逐步拆解关键节点:
风格抽签:从预定义的风格池中随机抽取一个风格。风格池里每个条目包含风格名称(如「蓝绿水彩」)和风格描述(如「柔和晕染、手绘笔触、白色背景、蓝绿主色」)。抽中的风格应用于这篇文章的全部配图——封面和所有正文图共享同一个视觉风格,保证一致性。
提示词模板填充:把风格描述填入模板的固定部分,章节标题和可视化概念填入变量部分。封面模板和正文图模板分开管理:
[风格描述] + [文章标题] + [文章主题概述],强调低信息密度和视觉冲击[风格描述] + [章节标题] + [可视化概念] + [画面重点],强调与段落内容的相关性CDN 上传:上传到 Cloudflare R2 或其他 CDN,而不是 Ghost/WordPress 自带的媒体库。自带媒体库的图片加载速度受服务器带宽限制,CDN 分发后全球加载速度快 3-5 倍。上传后把 CDN URL 回写到文章的 frontmatter(feature_image / og_image / twitter_image)和正文图片标签中。
这条配图工作流的完整实现,包括模板文件、批量脚本和质量检查清单,在 我目前最满意的 AI 配图工作流 里有完整公开。
适用场景:批量生产短视频内容,目标是单人日产 3-5 条。
选题脚本 → 分镜拆解 → 关键帧生图 → 图生视频 → 剪辑模板套用 → 字幕生成 → 导出发布
这条管线的核心优化点是并行化和模板化:
并行化:关键帧生图和图生视频可以流水线并行——上一条视频在剪辑时,下一条的关键帧已经在生成了。图片生成(30 秒/张)和视频生成(2-5 分钟/段)是主要的等待环节,利用等待时间做其他视频的剪辑,整体产能提升一倍以上。
模板化:剪辑模板固化转场效果、字幕样式(字体、大小、位置、颜色)和音乐节拍点。每条新视频只需要替换素材和调整文字内容,不用从零配置。一个好的剪辑模板可以让单条视频的剪辑时间从 30 分钟缩短到 10 分钟。
字幕自动化:字幕用 Whisper 或类似的语音识别工具自动生成,手动校对(改错别字、加标点)远比从头手打快。国内平台还需要注意敏感词替换——AI 生成的字幕不会自动规避平台敏感词。
💡 通俗讲:批量视频产出的本质是把创作从「作品思维」转变为「产品思维」——每条视频不是从头创作,而是在成熟的产线上替换变量。这不是偷懒,而是把精力集中在真正需要创意的环节(选题和核心信息),把重复劳动交给工具和模板。

提示词不是越长效果越好。超过 200 词以后,AI 模型对后半段的关注度明显下降。核心信息前置,200 词以内解决问题是更好的策略。
没有万能工具。GPT Image 在语义理解上强,但不擅长精确的空间布局;Flux 在写实质感上好,但不如 GPT Image 理解复杂的中文指令。根据场景切换工具,比死磕一个工具效率高得多。
AI 生成的单段视频通常只有 4-10 秒,画面里偶尔会出现物理规律不对的地方——手指多一根、文字反转、物体突然消失。这些需要在剪辑阶段处理:裁掉有瑕疵的帧、用转场遮盖、或者干脆重新生成那几秒。
很多人每张图换一个风格,最终整篇文章的视觉效果像拼贴画。同一篇内容的所有配图必须共享一个视觉风格——同一种色调、同一种画风、同一种构图逻辑。风格一致性是专业感的来源。
不同平台对图片尺寸的要求差异很大。用 1:1 的图片做 YouTube 缩略图会被系统自动裁剪,裁掉的部分可能正好是你的标题文字。生成之前先确认目标平台的尺寸要求。
每次做 AI 配图或视频时,对照这份清单检查:

这篇指南覆盖了 AI 图片与视频生成的全链路——从提示词结构到工作流搭建。每个板块都有对应的深度教程可以继续深入:
找到你当前最需要的环节,点进去看完整教程,然后动手搭你自己的 AI 视觉创作产线。
每周精选 AI 编程与自动化实战内容,直达你的邮箱