AI 短视频制作全攻略：从脚本到剪辑的创作教程

Q: 全貌：AI 短视频创作的三层框架？

| 层次 | 关注什么 | 目标 | |------|----------|------| | 感官层 | 画面冲击力、色彩、音效 | 前 3 秒抓住眼球 | | 情节层 | 故事结构、节奏、转折 | 让人看完不划走 | | 理念层 | 价值观、情感共鸣 | 让人记住你、关注你 | 每一层都有四个制作步骤：脚本撰写 → 分镜编排 → 素材生成 → 后期合成。翔宇建议你按照这个框架从感官层开始练习，把每一层的技能练扎实后再进入下一层。我们从最直观的感官层开始。 搞懂了这个框架，你会发现 AI 短视频制作不是「一步到位」的事，而是一个层层递进的系统工程。就像盖房子——先搭地基（感官），再建结构（情节），最后做精装修（理念）。翔宇走过这条路，最大的体感是：新手最容易犯的错是只关注画面好不好看，却忽略了故事和价值观才是长期吸粉的核心。

Q: 脚本撰写：用感官语言写「画面说明书」？

短视频的黄金法则——前 3 秒决定生死。感官层的脚本不需要讲故事，只需要让每一帧都有冲击力。 写脚本时，给 AI 的指令要具体到能「脑补出画面」。对比一下： - 模糊：写一个关于城市的短视频脚本 - 具体：你是一名电影导演，用镜头语言描写这个场景——霓虹灯闪烁的雨夜街道，路面反射出五颜六色的光斑，远处传来低沉的鼓点 第二种写法会让 AI 输出充满画面感的内容。关键技巧： 1. 强调场景氛围：指定色彩、光影、天气。比如「金色夕阳逆光」「蓝色冷调暗巷」「雪花飘落的暖黄路灯下」 2. 加入听觉元素：背景音乐风格、环境音描写。听觉和视觉同步描写会让 AI 输出更完整的分镜 3. 设定 AI 角色：让它扮演电影导演或摄影师来写，输出质量比直接让它「写脚本」高一个层级 4. 指定画面比例和时长：明确告诉 AI「竖屏 9:16」「每个镜头 2-3 秒」「总时长 30 秒」，约束条件越具体，产出越可控 翔宇自己测试下来，一个有效的脚本提示词通常包含四要素：角色设定 + 画面风格 + 情绪基调 + 时长约束。缺任何一个，AI 的输出都会飘。

Q: 后期合成：把素材拼成成片？

用剪映（国内）或 CapCut（海外）把 AI 生成的素材组合起来。重点操作： - 节奏卡点：画面切换和音乐节拍对齐。剪映有「自动踩点」功能，一键标记节拍位置 - 转场效果：快节奏用硬切（Cut），慢节奏用溶解（Dissolve），情绪转折用闪白（Flash） - 字幕配音：AI 配音工具推荐 CosyVoice（阿里出品，中文效果好）、ElevenLabs（英文顶级）、MeloTTS（开源免费） - 色彩统一：AI 生成的不同镜头色调可能不一致，用剪映的「滤镜」或「调色」功能统一色调 - 封面制作：第一帧 ≠ 封面。单独设计封面图，文字大、对比强、手机小屏也能看清 后期合成检查清单： - [ ] 前 3 秒有没有视觉冲击或悬念？ - [ ] 背景音乐节奏和画面切换是否同步？ - [ ] 字幕字体大小在手机上能否清晰辨认？ - [ ] 整体时长是否控制在平台最优区间（抖音 15-60 秒，YouTube Shorts 30-60 秒）？ - [ ] 结尾是否有引导关注/点赞的视觉提示？

Q: 情节层：让观众看完不划走？

感官层抓住了注意力，情节层要做的是留住人。这是新手和进阶创作者的分水岭——画面好看的视频到处都是，但能让人看完还想看下一条的，一定有故事。

一条爆款短视频的生命周期只有 72 小时，但它背后的制作流程——脚本、分镜、素材、配音、剪辑——传统做法至少要三天。这个时间差，就是 AI 短视频工具要解决的核心矛盾。

现在的情况是：你不需要会拍摄、不需要会剪辑软件，甚至不需要露脸。只要你会打字描述画面，AI 就能帮你生成脚本、图片、视频片段，甚至配音。这篇教程把整个流程——从构思到成片——拆解成你能立刻动手的步骤。

要点速览

AI 短视频创作分三层：感官层（画面冲击力）、情节层（故事节奏）、理念层（价值共鸣），从底层往上练
脚本提示词四要素：角色设定 + 画面风格 + 情绪基调 + 时长约束，缺一个输出就飘
30 秒短视频需要 8-12 个分镜，每个 2-4 秒，至少 30% 镜头加入运动
2026 年主流工具格局：Runway Gen-4.5 创意最强、Kling 3.0 性价比之王、Pika 3.0 速度最快

全貌：AI 短视频创作的三层框架

层次	关注什么	目标
感官层	画面冲击力、色彩、音效	前 3 秒抓住眼球
情节层	故事结构、节奏、转折	让人看完不划走
理念层	价值观、情感共鸣	让人记住你、关注你

每一层都有四个制作步骤：脚本撰写 → 分镜编排 → 素材生成 → 后期合成。翔宇建议你按照这个框架从感官层开始练习，把每一层的技能练扎实后再进入下一层。我们从最直观的感官层开始。

搞懂了这个框架，你会发现 AI 短视频制作不是「一步到位」的事，而是一个层层递进的系统工程。就像盖房子——先搭地基（感官），再建结构（情节），最后做精装修（理念）。翔宇走过这条路，最大的体感是：新手最容易犯的错是只关注画面好不好看，却忽略了故事和价值观才是长期吸粉的核心。

感官层：让画面自己会说话

脚本撰写：用感官语言写「画面说明书」

短视频的黄金法则——前 3 秒决定生死。感官层的脚本不需要讲故事，只需要让每一帧都有冲击力。

写脚本时，给 AI 的指令要具体到能「脑补出画面」。对比一下：

模糊：写一个关于城市的短视频脚本
具体：你是一名电影导演，用镜头语言描写这个场景——霓虹灯闪烁的雨夜街道，路面反射出五颜六色的光斑，远处传来低沉的鼓点

第二种写法会让 AI 输出充满画面感的内容。关键技巧：

强调场景氛围：指定色彩、光影、天气。比如「金色夕阳逆光」「蓝色冷调暗巷」「雪花飘落的暖黄路灯下」
加入听觉元素：背景音乐风格、环境音描写。听觉和视觉同步描写会让 AI 输出更完整的分镜
设定 AI 角色：让它扮演电影导演或摄影师来写，输出质量比直接让它「写脚本」高一个层级
指定画面比例和时长：明确告诉 AI「竖屏 9:16」「每个镜头 2-3 秒」「总时长 30 秒」，约束条件越具体，产出越可控

翔宇自己测试下来，一个有效的脚本提示词通常包含四要素：角色设定 + 画面风格 + 情绪基调 + 时长约束。缺任何一个，AI 的输出都会飘。

分镜编排：把文字变成镜头序列

分镜就是把脚本翻译成「逐个镜头」的清单。每个分镜包含：画面内容、镜头类型（特写/全景/跟踪）、画面时长、转场方式。

给 AI 的提示词示例：

根据以下脚本生成分镜表，每个分镜包含：
1. 画面描述（用于 AI 图片生成的英文提示词）
2. 镜头类型和运动方式
3. 持续时间（秒）
4. 配乐/音效建议
5. 画面情绪标签（如：紧张/温暖/震撼）

翔宇的经验是，分镜表最好用表格形式输出——方便后续逐个镜头去生成素材。一个 30 秒的短视频通常需要 8-12 个分镜，每个分镜 2-4 秒。超过 15 个分镜节奏就太碎了，低于 6 个又会显得拖沓。

分镜编排的三个常见错误：

错误	表现	修正方法
镜头时长不均	有的 1 秒有的 8 秒，节奏感全无	控制在 2-4 秒之间，高潮段可短至 1 秒快切
缺少镜头运动	全是静态画面，像幻灯片	至少 30% 的镜头加入推拉摇移
转场单一	全部硬切或全部溶解	根据情绪变化混用 3-4 种转场

素材生成：AI 出图和出视频

2026 年 3 月，随着 OpenAI 关闭 Sora 独立应用，AI 视频生成格局发生了重大洗牌。当前主流工具的实际表现如下：

工具	核心优势	生成速度（10s 片段）	适合场景	价格定位
Runway Gen-4.5	创意控制力最强，已集成 Veo 3.1	60-120 秒	品牌短片、视觉叙事	专业级
Google Veo 3.1	4K 画质、原生音频、最长 60 秒	60-180 秒	高品质成片、API 集成	企业级
Kling 3.0	性价比之王，$0.07/秒	60-90 秒	日常内容、社交媒体	平价
Pika 3.0	最快速度，15-30 秒出片	15-30 秒	快速原型、高频发布	入门级
Seedance 2.0	字节出品，中文支持好	60-120 秒	国内平台内容	平价
Wan 2.6	开源免费，GPU 自部署	取决于硬件	技术型创作者	免费

翔宇的选择建议：新手从 Kling 3.0 开始——性价比最高、中文支持好、生成速度快。等熟悉流程后再升级到 Runway 或 Veo 做精品内容。Pika 适合需要每天发多条短视频的高频创作者。

图片生成方面，Midjourney 和 FLUX 仍是主力。写提示词时注意：具体描述 > 抽象概念，英文提示词效果普遍优于中文（更多视频提示词技巧详见PixVerse 视频提示词创作深度教程）。翔宇常用的图片提示词结构是：[主体] + [环境/背景] + [光影/氛围] + [画风/质感] + [镜头参数]。翔宇举一个实际的例子——比如翔宇要生成一个「雨中城市夜景」的镜头，提示词会写成：「一个穿着深色风衣的男人站在霓虹灯下的街角，雨滴反射出五彩光斑的路面，冷蓝色调电影质感，浅景深特写镜头，八十五毫米焦段效果」。这种具体到光线颜色、焦段参数的描述，生成的画面质量远超泛泛的「城市夜景雨中男人」。

图片转视频的实操流程：

用 Midjourney 生成关键帧图片（选 --ar 9:16 竖屏比例）
在 Kling 或 Runway 中上传图片，选择 Image-to-Video 模式
用文字描述期望的运动方式（如「镜头缓慢推进」「人物转头微笑」）
生成 3-5 个候选片段，挑选最佳的
不满意的镜头重新调整提示词再生成，不要将就

后期合成：把素材拼成成片

用剪映（国内）或 CapCut（海外）把 AI 生成的素材组合起来。重点操作：

节奏卡点：画面切换和音乐节拍对齐。剪映有「自动踩点」功能，一键标记节拍位置
转场效果：快节奏用硬切（Cut），慢节奏用溶解（Dissolve），情绪转折用闪白（Flash）
字幕配音：AI 配音工具推荐 CosyVoice（阿里出品，中文效果好）、ElevenLabs（英文顶级）、MeloTTS（开源免费）
色彩统一：AI 生成的不同镜头色调可能不一致，用剪映的「滤镜」或「调色」功能统一色调
封面制作：第一帧 ≠ 封面。单独设计封面图，文字大、对比强、手机小屏也能看清

后期合成检查清单：

[ ] 前 3 秒有没有视觉冲击或悬念？
[ ] 背景音乐节奏和画面切换是否同步？
[ ] 字幕字体大小在手机上能否清晰辨认？
[ ] 整体时长是否控制在平台最优区间（抖音 15-60 秒，YouTube Shorts 30-60 秒）？
[ ] 结尾是否有引导关注/点赞的视觉提示？

情节层：让观众看完不划走

感官层抓住了注意力，情节层要做的是留住人。这是新手和进阶创作者的分水岭——画面好看的视频到处都是，但能让人看完还想看下一条的，一定有故事。

脚本：经典叙事结构

短视频的叙事不需要复杂，但需要节奏感。常用结构：

悬念开头：先抛结果，再讲过程（「当我打开包裹，我愣住了」）
三段式：铺垫 → 冲突 → 反转
对比式：before vs. after
清单式：「3 个你不知道的技巧」——简单但有效，适合知识类内容
倒叙式：从结局开始，倒推原因，天然制造悬念

给 AI 的指令要明确叙事目标：

为一个 60 秒的短视频写脚本。主题：独居年轻人的深夜厨房。
结构：开头 10 秒制造孤独感，中间 30 秒展示做饭过程（温馨转变），
结尾 20 秒反转——原来是在给明天的自己准备便当。
语气：温暖但不煽情。
每个段落标注对应的画面描述和情绪节奏。

不同类型短视频的叙事结构对比：

类型	推荐结构	时长	关键节奏点
知识教程	痛点 → 方法 → 效果展示	45-90 秒	第 5 秒抛出痛点
情感故事	悬念 → 铺垫 → 反转	30-60 秒	最后 5 秒反转
产品展示	before → 使用过程 → after	15-30 秒	对比要强烈
趣味创意	日常场景 → 意外元素 → 反差	15-30 秒	反差越大越好
Vlog 记录	时间线 + 旁白点评	60-180 秒	每 15 秒一个小高潮

分镜：情绪曲线决定镜头节奏

情节层的分镜核心是情绪曲线。低落时用暗色调、慢镜头、低沉配乐；高潮时用明亮色彩、快速剪辑、鼓点加速。让 AI 在生成分镜时标注每个镜头的情绪标签。

翔宇常用的情绪曲线模板：

开头（0-5s）：好奇/紧张 — 画面暗调、近景
上升（5-20s）：期待/温暖 — 逐渐明亮、中景
高潮（20-35s）：惊喜/感动 — 最亮画面、特写+全景交替
收尾（35-45s）：满足/留恋 — 回归柔和、慢镜头

一个简单但有效的技巧：在情绪转折点切换配乐。比如从低沉的钢琴突然切到轻快的吉他，画面同时从暗调切到暖调——这种视听同步的转折，观众的情绪会被强烈牵引。

素材：角色一致性是关键

如果你的短视频有主角，素材生成时最大的挑战是角色一致性——同一个人在不同镜头里长得不一样。

解决方案：

Kling 3.0 的 Character 功能：上传一张角色参考图，后续所有镜头自动保持一致
Runway 的 Style Reference：锁定视觉风格，确保不同镜头的画风统一
手动提示词锚定：在每个镜头的提示词中重复角色的核心特征描述（发型、服装、肤色），用完全相同的文字
LoRA（低秩适配微调）微调：技术门槛较高，但效果最稳定。适合需要大量同一角色内容的创作者

翔宇的实际经验是：方案 1 和 3 配合使用效果最好。先用 Character 功能锁定大方向，再用提示词微调细节。

理念层：让观众记住你

理念层是短视频的灵魂。它不一定要「讲大道理」，但需要传递一个让人产生共鸣的核心信息。好的理念不是说出来的，是让观众自己悟出来的。

脚本：价值观嵌入

把你想传达的理念嵌入故事，而不是直接说教。比如「普通人也能用 AI 创作」这个理念，可以通过一个零基础创作者从困惑到完成第一个作品的故事来呈现。

给 AI 的关键指令：

这个短视频的核心信息是：{你的理念}。
不要直接说出来，通过画面和故事让观众自己感受到。
结尾用一个画面或一句话点题，但不要超过 10 个字。
避免使用「加油」「你可以的」「相信自己」等鸡汤套话。

不同理念的嵌入策略：

理念类型	嵌入方式	示例
励志成长	展示过程而非结果	不说「努力就能成功」，而是展示凌晨 3 点还在学习的桌面
生活态度	用细节传递氛围	不说「享受独处」，而是展示一个人在阳台喝咖啡看日落的画面
知识启发	先展示认知冲突	不说「AI 很重要」，而是展示同一任务人工 3 小时 vs AI 3 分钟的对比
情感共鸣	复现普遍场景	不说「父母很辛苦」，而是展示父亲偷偷用手机查「年轻人喜欢什么礼物」

配音与文案：语气决定感染力

理念层的配音不能太平，也不能太亢奋。翔宇的经验是：用「和朋友聊天」的语气来讲，比播音腔更容易引起共鸣。AI 配音工具现在已经能很好地模拟这种自然语气。

配音脚本的写法要点：

短句为主：每句不超过 15 个字，方便配音节奏控制
留白：关键画面不要配旁白，让画面自己说话
语气词：适当加入「其实」「你知道吗」「说实话」等口语化表达
结尾金句：最后一句要短、要有力、要能当文案标题用

FAQ：新手最常问的 5 个问题

Q1：完全不会英文，能用 AI 做短视频吗？

可以。现在 Kling、剪映、豆包等国产工具的中文支持已经很好。不过如果你想用 Midjourney 或 Runway，英文提示词效果确实更好——可以让 ChatGPT 帮你把中文描述翻译成英文提示词。

Q2：一个人做一条短视频大概需要多长时间？

新手第一次跑通全流程大约需要 3-5 小时。熟练之后，一条 30 秒的短视频从构思到成片大约 1-2 小时。如果有模板化的流程（固定的风格、固定的结构），可以压缩到 30-60 分钟。

Q3：AI 生成的视频会被平台限流吗？

目前主流平台（抖音、TikTok、YouTube）对 AI 生成内容的政策是：要求标注但不限流。YouTube 2026 年起要求创作者在上传时勾选「AI 生成内容」标签。关键是内容本身的质量和原创性——用 AI 工具做的原创内容和用手机拍的原创内容，在算法面前是平等的。

Q4：这些 AI 工具要花多少钱？

入门阶段可以零成本起步：Kling 有免费额度、Pika 有免费试用、剪映完全免费。如果你决定认真做，每月预算 100-300 元（Kling Pro + Midjourney 基础版）就足够覆盖一个月的创作量了。

Q5：做什么类型的短视频最容易起号？

翔宇的观察是：知识教程类 + AI 生成画面 是 2026 年最稳的起号公式。原因有两个：一是知识类内容的完播率天然比纯娱乐高（观众需要看完才能学到），二是 AI 画面的视觉质量已经足够高，不需要真人出镜就能做出专业感。

从 0 到 1 的实操清单

如果你是完全零基础，按这个顺序来：

选一个 30 秒的简单主题（比如「清晨的城市」）
用 ChatGPT/DeepSeek 写脚本，指定时长和镜头数
让 AI 把脚本转成分镜表（表格形式，含英文提示词）
用 Midjourney 或 FLUX 生成每个分镜的图片（--ar 9:16 竖屏）
用 Kling 或 Pika 把图片转成视频片段（每段 3-5 秒）
在剪映/CapCut 中拼装、加音乐、加字幕
导出前检查：前 3 秒、节奏、字幕清晰度
发布，收集反馈，迭代

不要追求完美。第一个作品的目标是跑通流程，而不是做出爆款。翔宇的第一条 AI 短视频现在回头看简直惨不忍睹——但正是那条视频让我搞懂了整个链路，后面的每一条都比前一条好。

第一周目标：完成 3 条短视频，不管质量如何都发布。第二周目标：根据数据反馈（完播率、点赞率）找到哪个环节最弱，重点优化。第三周目标：尝试加入情节层，从纯画面视频升级到有故事的视频。

翔宇的实操经验：三个月的 AI 短视频创作复盘

翔宇用 AI 工具做了三个月的短视频，分享几个真实的教训：

第一个月：工具焦虑。翔宇花了太多时间在「选哪个 AI 视频工具」上——Kling 还是 Runway？Midjourney 还是 FLUX？结果发现，工具选择在初期几乎不影响结果。真正影响完播率的是脚本质量和前三秒的设计。翔宇后来的策略是：先用最便宜的工具（Kling 免费版）跑通流程，等明确了内容方向再升级工具。

第二个月：模板化的力量。翔宇把「知识教程类」短视频的制作流程固定下来——选题（10 分钟）→ 脚本（20 分钟）→ 分镜（10 分钟）→ 生成素材（30 分钟）→ 剪辑（30 分钟）。这个流程一旦跑通，每天稳定产出一条不是问题。模板化不是偷懒，而是把创意精力集中在最有价值的环节（选题和脚本），其他环节用固定流程提高效率。

第三个月：数据驱动迭代。翔宇开始认真看数据——完播率低于 40% 的视频分析原因，高于 60% 的视频总结共性。发现了一个规律：包含「认知冲突」的开头（比如「你以为 XX 其实是错的」）完播率普遍比「今天教你 XX」高 15-20 个百分点。这种洞察只有通过数据复盘才能发现。

关于 AI 标注：2026 年 YouTube 和 TikTok 都要求创作者标注 AI 生成内容。翔宇的做法是主动标注，同时在视频描述中说明「本视频使用 AI 工具辅助制作」。翔宇发现主动标注不仅不影响流量，反而因为透明度获得了更多观众信任。AI 工具是手段不是秘密——大方承认反而更有人味。

到这里，你已经掌握了 AI 短视频制作的完整方法论

从感官冲击到情节张力再到价值共鸣，从脚本到分镜到素材到成片——三层四步的框架覆盖了从入门到进阶的所有环节。

AI 工具在快速迭代——2026 年 3 月 Sora 关停、Kling 3.0 和 Veo 3.1 崛起就是最好的例证。但创作的底层逻辑不变：好内容 = 抓眼球 + 有故事 + 有共鸣。工具只是放大器，真正的差异化来自你的创意和对受众的理解。翔宇在 AI 短视频赛道上最深的体感是：技术门槛在快速下降，但「讲好一个故事」的能力门槛从来没变。会用 Kling 生成画面的人越来越多，但能用这些画面讲出让人看完还想看下一条的故事的人——依然稀缺。这就是你的机会所在。

2026 年 3 月 YouTube 推出了内置的 Veo 驱动 AI 短视频创建功能，加上 AI 运动特效和品牌链接功能——这意味着平台自身正在降低 AI 短视频的制作门槛。TikTok 的 Symphony AI 创意套件、Instagram 的 Edits 应用也在同步扩展 AI 辅助创作能力。翔宇的判断是：当平台自己都在推 AI 创作工具的时候，AI 短视频已经不是「要不要做」的问题，而是「怎么做得比别人好」的问题。

翔宇的判断是：2026 年是 AI 短视频创作的分水岭。工具的门槛已经低到几乎为零，竞争的维度正在从「谁会用工具」转向「谁的内容更有价值」。越早跑通流程、积累创作经验的人，越能在这个赛道上占据先发优势。

翔宇最后想说的是：不要被「完美」绑架。翔宇的第一条 AI 短视频用的是最基础的工具组合——ChatGPT 写脚本、Midjourney 生成图片、Kling 免费版转视频、剪映拼装。整个过程磕磕绊绊花了五个小时，成品现在看来质量非常一般。但正是那条视频让翔宇搞懂了整个链路中每个环节的要点和坑——后面每一条视频的制作效率和质量都在稳步提升。你不需要一开始就做出电影级的短视频，你只需要迈出第一步。

现在，打开你的 AI 工具，从一个三十秒的小视频开始。

常见问题

AI 生成的短视频脚本质量如何？

AI 擅长生成结构完整的脚本框架，但需要人工调整口语化表达和平台调性。建议用 AI 生成初稿，然后手动优化开头钩子和结尾 CTA（行动号召），确保内容有个人风格。

短视频制作需要哪些 AI 工具？

脚本生成用 DeepSeek 或 ChatGPT，画面生成用 PixVerse 或 Runway，配音用 ElevenLabs 或豆包，剪辑用 CapCut 或剪映。工具组合取决于你的内容类型和预算。

抖音和 TikTok 的短视频创作有什么区别？

核心区别在内容调性：抖音偏娱乐化和本土化，TikTok 更国际化。脚本结构类似，但梗和表达方式需要针对平台调整。建议先聚焦一个平台做深，再做内容适配。

下一步

AI 编程实操课：国内版-FlowUS | 国际版-BMC
YouTube 频道：翔宇工作流

学员实践：openbili AI 接入驾驶舱介绍

学员实践：42织序播客介绍

AI 编程中文教程哪里找？10 大主流编程工具完整指南