我如何用 Cherry Studio 进行爆款短视频剪辑的?论文级教程

这篇拆解我如何把短视频剪辑做成一个 Cherry Studio 里的 Claude Code Skill:输入原始视频,自动完成看片、分镜、旁白、配音、字幕、配乐和成片输出。

Cherry Studio 短视频剪辑 Skill 官网封面,展示用 AI 自动剪辑爆款短视频的工作流

翔宇工作流100个原创 Skill 第 10 期
摘要:本文用 AI 做了一套全自动视频剪辑系统——输入一段原始视频,输出一部带旁白、字幕、背景音乐的成片,全程不动鼠标。完整拆解这套系统的设计逻辑和工程哲学,以及一个可能改变你做事方式的核心洞察:工具一直在变,不变的是工作流程
关键词: 剪辑;音画同步;多模态;Claude Code Skill。
没吓到各位吧?像不像真论文?
有朋友说我的文章写的像论文,看着头大,最好加个摘要。没办法,读书时落下的毛病 - 那今天就不绕弯了,你面前的是一篇一万字的「论文级教程」。
上面这些示例(更多示例可以关注翔宇视频号查看)都是今天我们的 Skill 实现的效果——AI 根据输入的原始素材,自动完成剪辑、配音、配乐,直接输出一段「舌尖上的中国」风格的短视频。
这就是「创剪 Skill」做的事。这个项目跟了我三代工具。早在Make 和 N8N 工作流时代,我就在尝试用自动化工作流剪辑视频。后来写了一个几万行代码的创剪项目来实现这个功能。今天的版本换了个壳,用 Claude Code 的 Skill 来实现,但骨架没变。
这里面有一个我反复验证了三代工具的观点:工具一直在变,工作流不变。
Make 与 N8N 是工具,几万行 TypeScript 是工具,Skill 也是工具。但剪辑视频的流程——看片、写旁白、配音、对齐时长、合成输出——这个工作流从来没变过。
如果你是一个内容创作者,你一定有自己的章法。这个章法就是你的工作流,是你多年积累的肌肉记忆。AI 做的事很简单:把你的章法放大。你原来要花 3 小时做的事,AI 帮你 10 分钟做完。
你的价值没变,但你的效率放大了 10 倍。
工作流是每个人最大的杠杆。AI 只是放大器。
你有自己的工作流吗?那个你不需要思考、自然就会启动的做事流程?

工作流是杠杆,AI 是放大器

工作流是杠杆,AI 是放大器
这个问题我问过很多人,答案大致分两类。
我认识的内容创作者分两种。一种是「手工匠人型」,享受每一帧的精雕细琢,剪辑本身就是创作的一部分。另一种是「系统架构型」,觉得重复劳动是对生命的浪费,能自动化的绝不手动。
这篇文章是写给第二种人的。如果你是第一种——理解自动化的设计逻辑,也会让你的手工更有章法。
好了,回到创剪 Skill。
这个项目的核心逻辑是「原生 AI 剪辑」——完全让 AI 来理解视频内容,人不干预。AI 看完视频后,自己决定怎么分镜、怎么写旁白、什么地方该保留原声、什么地方该加速。
目前视频理解能力最强的模型是 Google 的 Gemini。它的上下文窗口能容纳整段视频,多模态能力可以直接「看」画面然后输出结构化的分镜剧本。创剪 Skill 整个系统就是围绕 Gemini 的视频理解能力来设计的。
今天读完这篇文章,你将理解:

  1. Cherry Studio 的实操路径 ,如何在你的电脑上跑起来
  2. 八步流水线的全景架构 ,每一步在做什么,为什么要做这一步
  3. 数据流动的完整轨迹 ,追踪一个分镜从诞生到成片的全过程
  4. 音画同步的核心难题 ,为什么画面和声音总是对不上,以及创剪 Skill 如何解决
  5. 风格系统的设计哲学 ,一个文件如何定义一种美学
原生 AI 剪辑:让 AI 真正理解视频

原生 AI 剪辑:让 AI 真正理解视频


1. 目录

  • 一、先跑起来:在 Cherry Studio 中使用创剪 Skill
  • 二、八步流水线总览
  • 三、每个步骤在做什么
  • 四、数据在步骤间如何流动
  • 五、为什么画面和声音总是对不上
  • 六、AI 不是万能的,但可编辑就够了
  • 七、风格系统:一个文件定义一种美学
  • 八、结语:好的工程设计不是解决难题,而是让难题不出现

2. 一、先跑起来:在 Cherry Studio 中使用创剪 Skill

在讲设计哲学之前,先让你手上有东西跑。
但在动手之前,花 30 秒理解两个概念。搞清楚了,后面每一步你都知道自己在做什么。
Cherry Studio。 开源的多模型 AI 桌面客户端,集成 300+ 模型,支持 macOS、Windows、Linux。
它解决了两个痛点。第一个:模型太多太散。OpenAI 一个网页,Claude 一个网页,Gemini 又一个。Cherry Studio 把它们收进同一个窗口,一键切换。第二个,也是更重要的:它把 Claude Code Agent SDK(智能体开发套件)这套复杂的底层能力封装成了图形界面。不用开终端,不用敲命令行,点点鼠标就能让 AI 在你电脑上执行代码、操作文件、运行 Skill。Cherry Studio 让「用 Skill」变得跟聊天一样简单。
Agent + Skill。 Cherry Studio 里的 Agent(智能体)模式让 AI 能「动手干活」。但它还是通才——你说「剪视频」,它可能写一段命令让你自己跑,也可能理解成「帮我写个剪辑教程」。有能力,没章法。
Skill 解决的就是这个问题。Anthropic(Claude 母公司)2025 年推出的能力模块化标准,把指令、脚本、参考资源打包成一个文件夹,Agent 遇到对应任务时自动加载。 不是限制 AI,而是给它一条确定的路径——每次说「剪视频」,它都知道该走哪八步。
Cherry Studio 给了你界面,Agent 给了你执行力,Skill 给了你确定性。 创剪就是那个让「剪视频」变得确定的 Skill。

第一步:下载安装 Cherry Studio

前往官网 cherry-ai.com,根据你的操作系统(macOS / Windows / Linux)下载对应版本,安装后打开即可。
▼ Cherry Studio 官网首页,点击「下载」按钮选择你的系统版本

Cherry Studio 官网首页:你的超级 AI 工作站

Cherry Studio 官网首页:你的超级 AI 工作站

第二步:配置模型密钥

打开 Cherry Studio,进入设置 → 模型服务。左侧找到 CherryIN ,开启开关。
右侧会显示 API(接口)密钥和 API 地址。API 地址默认是 https://open.cherryin.cc,不用改。密钥需要去 CherryIN 官网获取具体步骤如下:
▼ 在设置 → 模型服务中,左侧开启 CherryIN,右侧显示 API 密钥和地址

设置页面:开启 CherryIN 服务商

设置页面:开启 CherryIN 服务商
▼ 去 CherryIN 官网的「令牌管理」页面,添加令牌并复制密钥

CherryIN 令牌管理:创建 Claude 令牌并复制

CherryIN 令牌管理:创建 Claude 令牌并复制
回到 Cherry Studio,把复制的密钥粘贴到 API 密钥栏,点击「检测」验证连通性。
▼ 然后点击下方「管理」进入模型添加页面

粘贴密钥,点击管理按钮

粘贴密钥,点击管理按钮
在弹出的模型列表中搜索 claude,找到 anthropic/claude-opus-4.6 ,点击添加。

图片1

模型列表:选择 anthropic/claude-opus-4.6


翔宇的建议 :如果你是第一次用,直接选 Claude。Skill 是 Anthropic 的原生标准,Claude 对 Skill 指令的理解最准确。价格相对高,可见限制 AI 发展的还是算力不足。另外试试 Kimi 2.5 等国产模型。

第三步:安装 Claude Code(Agent 底层引擎)

Cherry Studio 的 Agent 模式底层依赖 Claude Code——Anthropic 官方的命令行 AI 编程工具。没有它,Agent 就只能聊天,不能动手。
打开 Cherry Studio,点击左侧导航栏的「代码工具」图标。上方会显示 Claude Code 选项,以及一个黄色提示:「运行 CLI 工具需要安装 Bun 环境」。点击右侧的「安装 Bun」按钮,等待安装完成。

代码工具页面:安装 Bun 环境

代码工具页面:安装 Bun 环境
Bun(JavaScript 运行时)装好后,往下配置:

  • 模型 :选择你要用的模型
  • 工作目录 :指定一个本地路径(比如 F:\\code-ty),Skill 的所有文件都会在这里
  • 终端 :根据自己偏好选择即可

配好后点击底部绿色的「启动」按钮。

配置完成,点击启动

配置完成,点击启动
Cherry Studio 会自动打开终端,开始安装 Claude Code。你会看到 Installing @anthropic-ai/claude-code... 的进度条滚动。
▼ 终端正在安装 Claude Code,等待进度完成

终端安装 Claude Code 进行中

终端安装 Claude Code 进行中
安装完成后,终端会显示一条黄色警告Claude Code on Windows requires git-bash。这意味着 Windows 用户还需要安装 Git Bash(Git 命令行终端)。
▼ 安装完成,提示需要 Git Bash

安装完成,提示需要 Git Bash

安装完成,提示需要 Git Bash
前往 Git 官网 git-scm.com,下载 Windows 最新版本并安装。

Git 官网:下载 Windows 版本

Git 官网:下载 Windows 版本
▼ Claude Code 首次启动成功,选择你喜欢的终端主题

Claude Code 启动成功:选择主题

Claude Code 启动成功:选择主题


Windows 用户注意 :如果启动后仍然报错找不到 Git Bash,需要手动设置环境变量 CLAUDE_CODE_GIT_BASH_PATH,指向你的 bash.exe 路径(通常是 C:\\Program Files\\Git\\bin\\bash.exe)。

第四步:创建 Agent

回到主界面,点击左上角「添加助手」。弹出选择框时,不要选「添加助手」——选右边的「添加 Agent」。 助手只能聊天,Agent 才能动手干活。

选择添加类型:点击「添加 Agent」

选择添加类型:点击「添加 Agent」
在 Agent 配置弹窗中,依次填写:

  • 名称 :随便取,比如「翔宇创剪」
  • 模型 :选择刚才添加的 anthropic/claude-opus-4.6 | CherryIN
  • 工作目录 :指定一个本地路径,Skill 的中间产物和成片都会输出到这里**
    **
  • 权限模式 : 跳过所有权限检查 (请确保在隔离环境中使用做好数据备份)
  • 提示词 :填入 调用如下 skill: xiangyu-video-chuangcut-editing
输入名称、选择模型

输入名称、选择模型

Agent 完整配置:名称、模型、工作目录、提示词

Agent 完整配置:名称、模型、工作目录、提示词

第五步:安装创剪 Skill

创剪 Skill 是翔宇自己开发的,不在 Cherry Studio 的公开技能市场里,需要手动安装。
打开你刚才设置的工作目录,进入隐藏文件夹 .claude,再进入 skills/ 目录。把创剪 Skill 的整个文件夹(xiangyu-video-chuangcut-editing)复制粘贴到这里即可。Agent 会自动识别并加载它。如果没找到该文件夹,可先去市场安装任意 Skill。

工作目录下的 .claude 隐藏文件夹

工作目录下的 .claude 隐藏文件夹

skills 目录下放入 xiangyu-video-chuangcut-editing

skills 目录下放入 xiangyu-video-chuangcut-editing


一个细节 :Skill 文件是纯文本,你可以直接打开阅读。看看里面写了什么,你会对「AI 是如何被指挥的」有更直观的理解。

第六步:配置环境

创剪 Skill 运行需要两样东西:API 凭据 ——Gemini 看片 + Fish Audio 配音(Fish Audio 一个语音合成服务),以及运行时依赖 ——Python 环境 + FFmpeg 音视频处理工具。让 Agent 帮你搞定。
回到 Cherry Studio,打开刚创建的 Agent 对话窗口,发送这段话:
「我刚在 .claude/skills/ 放置了创剪 Skill(xiangyu-video-chuangcut-editing),请帮我完成环境配置:1)读取 Skill 目录下的 credentials/,列出每个凭证文件需要填写的字段、用途和 Key 申请地址;2)运行 scripts/setup.sh,完成虚拟环境创建、依赖安装和 FFmpeg 验证,遇到报错直接修复。需要密钥时直接向我索要。」
Agent 会自动读取配置、运行初始化脚本、装好所有依赖。你只需要做一件事:把申请到的 API Key 填进去。

Agent 对话界面:发送环境配置指令

Agent 对话界面:发送环境配置指令


只需要做一次 :凭据和环境配好后,以后每次使用创剪 Skill 都不用重复配置。

第七步:触发创剪 Skill

在对话框输入触发关键词——「视频剪辑」「创剪」「ChuangCut」「剪视频」,任一即可。
触发后,Agent 会像导演开工前一样,通过对话逐步和你确认参数。整个过程就是聊天,不需要填表、不需要改配置文件。
第一轮对话(所有模式都会问)

  • 视频文件在哪里?——给一个路径
  • 要保留几个原声分镜?——比如煎牛肉的滋啦声,保留比配音更有感染力
  • 选哪种模式?——自动 / 手动 / 高级

自动模式 到这里就结束了,Agent 用默认参数直接开始。第一次用,选这个就够了。
手动模式 会多问两个:选哪种风格(20 种可选,美食纪录片、TikTok 带货……)、要几个分镜。
高级模式 在手动的基础上,再问背景音乐用哪首、要不要输入创作大纲、是否生成字幕。煎烤视频就是用高级模式跑的——指定了美食纪录片风格、6 个分镜、一首自定义 BGM(背景音乐)。

图片2

参数确认对话:选择模式和风格

第八步:等待八步流水线执行

参数确认完,Agent 自动执行八步流水线。整个过程约 5-15 分钟,取决于视频时长和网络状况。
你会在对话窗口看到每一步的执行状态——初始化、AI 看片、视频切片、旁白校准、AI 配音、调速合成、拼接、输出。不需要任何操作,喝杯咖啡等着就行。
执行过程中可能会遇到报错——API 超时、文件路径不对、依赖版本冲突。不用慌。Agent 会尝试自动修复常见问题(如 API 超时重试)。遇到无法自动修复的,它会告诉你问题出在哪,你按提示处理即可。需要说明的是该 Skill 仅测试了短视频的剪辑,针对长视频并未做详细测试。

第九步:获取成片

处理完成后,Agent 会告诉你成片的路径,同时生成一份 Markdown 格式的制作报告——记录每个分镜的时长、速度因子、选用的旁白版本等信息。
成片在你指定的工作目录下,制作报告在同级目录,直接打开即可。
跑起来了。接下来拆开引擎盖——这八步到底在做什么,每一步的设计决策背后有什么工程哲学。


3. 二、八步流水线总览

八步流水线全景:从视频到成片

八步流水线全景:从视频到成片
先给你一张全景地图。
八个步骤像工厂的八道工序。每道工序只做一件事,上一道的产出就是下一道的原料。这个设计在工程上叫「管道模式」(Pipeline),你可以把它想象成一条流水线,视频从一端放进去,成片从另一端出来。
第一步:初始化 。告诉系统「剪什么、怎么剪」。煎烤视频选了高级模式,指定美食纪录片风格、6 个分镜、一首背景音乐。
第二步:AI 看片 。AI 观看视频,写出分镜剧本和旁白。Gemini 识别出蒜瓣热油、煎牛肉、炒口蘑、炸鸡翅、金沙鸡翅、收尾 6 个场景。
第三步:视频切片与跳切检测 。按剧本时间戳切片,扫描首尾修剪残留画面。煎烤视频 6 段全部干净,无需修剪。
第四步:旁白校准 。检查旁白字数是否匹配画面时长,基于语速系数逐段校准。
第五步:AI 配音 。为旁白生成语音,计算速度因子。5 段 AI 配音 + 1 段保留原声。
第六步:调速合成 。调整画面速度、烧入字幕,3 路并行处理。
第七步:拼接 。合并所有分镜,混入背景音乐,BGM 音量 15%,循环混入。
第八步:输出 。生成最终视频和制作报告,成片交付。
每一步完成后,系统在进度文件中记录状态。中途断电或出错,重新启动时从中断点继续——这叫「断点恢复」。
核心设计原则是「单一职责」:每一步只做一件事,任何一步出问题,只修那一步,不影响其他步骤。
这八步本质上做的是一件事:把不确定性逐步消除。 每走一步,系统对最终成品的掌控力就多一分。
下面一步一步拆。


4. 三、每个步骤在做什么

第一步:初始化,导演开机前的准备会

第一章讲了三种模式的区别,这里只说一个关键动作:系统用 FFprobe(视频元信息读取工具)读取视频元信息——时长 94 秒,分辨率 720×1280,帧率 60。后续所有计算(分镜时长、旁白字数)都依赖这些基础数据。
好的初始化不是问更多问题,是把默认值设到最好。

第二步:AI 看片,导演的第一遍观影

这是整个系统最关键的一步。
系统把视频上传给 Google Gemini,连同一份「导演指令」,告诉 AI 用什么美学标准来分析。美食纪录片风格的导演指令长达 800 多行,定义了四条守则:绝对音画同步、先解构再书写、用节奏聚焦感官、旁白是温度。
正是这份指令让 AI 写出了「高温是风味的起点」「时间赋予了它独特的韧性」这样有纪录片质感的旁白,而不是「今天教大家做一道煎牛肉」这样的教程口吻。
Gemini 看完后输出一份分镜剧本:第一个镜头从第 6 秒到第 15 秒,拍的是蒜瓣在热油中翻滚;第二个镜头从第 15 秒到第 26 秒,拍的是煎牛肉……每个分镜包含起止时间和一段旁白。
这里有一个巧妙的成本优化。系统和 Gemini 的对话分两轮:第一轮上传视频并注入导演指令,输出分镜剧本;第二轮在同一个对话中生成多版旁白。因为第二轮复用了第一轮的视频上下文缓存,不需要重新上传视频,大约节省了 45000 个 token(令牌,AI 计费单位)。
你付出的是一次 API 调用的费用,得到的是一个不知疲倦的导演。

初始化与 AI 看片:导演的准备会和第一遍观影

初始化与 AI 看片:导演的准备会和第一遍观影

第三步:视频切片与跳切检测,剪刀落下,再擦去毛边

按分镜剧本的时间戳,用 FFmpeg 把完整视频切成 6 段素材。
切完后,系统扫描每段首尾各 1.3 秒,检测有没有残留画面——比如蒜瓣的画面闪了一帧才切到煎牛肉,观众就会感知到一次不自然的「跳」。系统用 FFmpeg 的 scdet(场景检测)滤镜扫描并自动裁掉残留帧。
煎烤视频的 6 个切点都干净,全部跳过修剪。但广州美食视频就没这么幸运:8 段中有 5 段需要修剪,烤鸭那段开头 1.03 秒残留着肠粉画面。
把不干净的剪刀口擦干净。 这一步不影响内容,但决定品质。

视频切片与跳切检测:剪刀落下,再擦毛边

视频切片与跳切检测:剪刀落下,再擦毛边

第四步:旁白校准,编辑的红笔

美食纪录片的语速大约每秒 3.63 个字。一个 8.7 秒的蒜瓣热油镜头,旁白应该在 32 个字左右。
系统逐段检查旁白字数。如果偏差超过 10%,就自动精简或扩展。比如一段旁白本来有 45 个字,但画面只有 8 秒,按 3.63 字/秒算应该是 29 个字,偏多了 55%,系统会把旁白精简到 29 字左右。
注意这一步排在跳切检测之后。为什么?因为跳切修剪可能会改变画面时长。广州美食视频中,烤鸭分镜原本 8 秒,修剪后变成 6.47 秒,缩短了将近 20%。如果在修剪之前算字数,就会算多。
这是一个典型的「顺序依赖」设计——步骤的排列顺序不是随意的,后面的步骤依赖前面步骤的准确输出。


设计洞见 :为什么不合并?跳切检测管「画面」,旁白校准管「文字」,职责不同。合并则牵一发动全身,分开则互不影响。

旁白校准:语速系数与顺序依赖

旁白校准:语速系数与顺序依赖

第五步:AI 配音,声音的诞生

校准后的旁白送给 Fish Audio(一个语音合成服务)生成配音。
这里有一个不常见的设计——系统不是生成一版配音,而是同时生成三版:一版语速快、一版语速中等、一版语速慢。三版并发生成,哪版的时长最接近画面时长,就选哪版。
为什么?因为语音合成引擎无法精确控制输出时长。你告诉它「把这 32 个字念出来」,它可能念出 8 秒,也可能念出 11 秒,取决于它如何处理停顿、语气和节奏。生成三版,选最接近的,比生成一版然后反复重试更高效。
选中后,系统计算一个关键数值:速度因子。这个概念在后文「音画同步」部分会详细解释。
另外,煎烤视频的第二段「煎牛肉」被标记为保留原声。这正是保留原声的价值——有些声音,比任何旁白都有感染力。

第六步到第八步:从碎片到成品

第六步:调速合成 。把画面速度、配音、字幕三者融合为一个片段。字幕用 ASS 格式(一种可以控制字体、颜色、位置的高级字幕格式)生成,可以指定字体大小(48 号)、描边颜色(黑色双重描边)、位置(底部居中)、每行字数(20 字自动换行)。三路并行处理,三个分镜同时合成。
第七步:拼接 。6 段首尾相连,背景音乐压到 15% 音量循环混入。15% 是一个经过实践验证的数值,再高会盖过旁白,再低存在感不够。
第八步:输出 。成片复制到输出目录,生成一份制作报告,记录每个分镜的时长、速度因子、选用的旁白版本等信息。
八步流水线可以分成三个阶段来记忆:分析准备 (第 1-4 步)——从一段视频到一份精确的剧本;素材加工 (第 5-6 步)——从剧本到一堆带声音的片段;合成输出 (第 7-8 步)——从一堆片段到一部成片。

从配音到成品:三版择优与三路并行

从配音到成品:三版择优与三路并行


5. 四、数据在步骤间如何流动

第三章是每一步各自在做什么。这一节换个视角——跟着一个具体分镜走完全程,看数据如何变形流动。
以煎烤视频的第四个分镜「炸鸡翅」为线索。
AI 看片 :Gemini 在第 59-69 秒识别出炸鸡翅画面(9.7 秒),写下旁白初稿,以 JSON(结构化数据格式)格式写入分镜剧本。
跳切检测 :切出视频片段,扫描首尾画面干净,时长保持 9.7 秒。
旁白校准 :9.7 秒 × 3.63 字/秒 = 35 字,系统微调定稿。
AI 配音 :定稿旁白合成出 12.4 秒配音——比画面长了近 3 秒。速度因子 = 9.7 ÷ 12.4 = 0.78,视频需要减速到 0.78 倍。
调速合成 :视频 0.78 倍速 + 配音正常速度 + 字幕按标点断句,三者合并。观众看到稍慢的炸鸡翅画面配上从容旁白——美食纪录片,慢一点反而更有质感。
拼接 :炸鸡翅排第四位,和其他五段拼接,背景音乐贯穿始终。
数据在步骤间的形态不断变化:视频文件 → 分镜剧本 → 视频片段 → 音频文件 → 合成片段 → 成片。每一次交接,形态变了,但信息被完整保留。
好的管道设计,就是让每一步只需要知道上一步给了它什么,不需要知道更远的事。

数据追踪:一个分镜从诞生到成片

数据追踪:一个分镜从诞生到成片


6. 五、为什么画面和声音总是对不上

这是整篇文章的核心问题。本质是精度不对等 :视频时长精确到毫秒,语音合成的时长精度只到「大概差不多」。35 个字可能合成出 8 秒,也可能 13 秒。再叠加跳切修剪改变视频时长——画面和声音几乎不可能天然对齐。
创剪 Skill 的解法是一道除法:速度因子 = 视频时长 ÷ 音频时长 。等于 1.0 完美同步,大于 1.0 画面加速,小于 1.0 画面减速。煎烤视频 6 个分镜实测:蒜瓣热油 1.00,煎牛肉保留原声,炒口蘑 1.14,炸鸡翅 0.78,金沙鸡翅 0.84,收尾 0.94。6 个分镜只有一个命中 1.0。时长天然不匹配,是常态而非例外。

音画不同步的根源:精度不对等

音画不同步的根源:精度不对等

三道防线:预防、补偿、硬底线

上游预防 :旁白校准阶段用语速系数提前控制字数。蒜瓣热油之所以命中 1.0,正是上游预防的成功案例。
下游补偿 :用 FFmpeg 变速调整画面播放速度。0.8 到 1.2 范围内人眼几乎感觉不到——你不会注意到炸鸡翅慢了 22%,美食画面本来就适合慢节奏。
硬底线 :速度因子超出 0.5 到 1.5,分镜直接丢弃。不修复,不降级,直接放弃。少一个好镜头,远好过多一个坏镜头。
这背后是一个重要的设计哲学:消除问题优于处理问题。

三道防线:预防、补偿、硬底线

三道防线:预防、补偿、硬底线


7. 六、AI 不是万能的,但可编辑就够了

讲完了音画同步的工程方案,必须说一个很多人不愿意面对的事实:Gemini 会犯错。
它是一个概率模型,不是一个精密仪器。每次分析同一段视频,输出可能不一样。时间戳可能偏了两秒,旁白可能出现幻觉——明明画面里是炒口蘑,它写的是「翻炒着鲜嫩的牛肉」。上下文窗口虽然大,但对 94 秒视频中某个 0.3 秒的转场,它的判断本质上是猜的。
这不是创剪 Skill 的问题,这是大模型的底层特性。
字数校准能修正一部分偏差,速度因子能补偿一部分偏差,硬底线能过滤极端情况。但总有一些分镜,Gemini 给的时间戳就是不准,配音和字幕就是对不上。翔宇做了三代工具,这个问题每一代都存在。
那怎么办?
答案藏在 Skill 的本质里:它跑在你的本地环境,所有中间产物都是可编辑的。
分镜剧本是 JSON 文件,你可以手动改时间戳。旁白是文本,直接改措辞。配音是音频文件,可以重新生成。字幕是 ASS 文件,可以微调起止时间。甚至速度因子,也可以手动覆盖。
出了问题不可怕。让 Agent 重新跑一下那个步骤,或者你自己改两行配置,问题就解决了。这就是「可编辑」的价值——不是追求一次完美,而是让修正的成本足够低。
可编辑的不只是中间产物,Skill 本身也是可编辑的。 翔宇不认为今天的创剪 Skill 是最终版。Agent 具有自主能力,你完全可以用自然语言告诉它「把导演指令改成更幽默的风格」「语速系数调高一点」「加一个新的风格模板」——它会直接帮你修改 Skill 的配置文件和脚本。不需要懂代码,聊天就能调试。产出可编辑让你修正错误,Skill 可编辑让你定义自我。
八步流水线的断点恢复设计,本质上就是为「可编辑」服务的。 你不需要从头跑,只需要从出错的那一步重新开始。
大模型能力在指数级增长,今天偏两秒的时间戳明年可能只偏 0.1 秒,八步流水线里真正不可替代的只有两步:AI 看片和风格系统,其余六步本质上都在补偿模型能力的不足。
工具会越来越简单,但前提是你现在就用原生的方式去构建它。 当所有人都能用一句话让 AI 剪视频时,真正的差距在你的风格系统、导演指令和沉淀了三代工具的工作流。工具普惠化,认知垄断化。


记住这个 :不可编辑才是真正的问题。今天你花时间修正 AI 的偏差,明天 AI 自己就修好了——但你在修正过程中积累的认知,才是真正的资产。

AI 不完美,但可编辑就够了

AI 不完美,但可编辑就够了


8. 七、风格系统:一个文件定义一种美学

创剪 Skill 内置 20 种风格。每种风格用一个配置文件定义四样东西:
导演指令 :告诉 AI 用什么美学标准分析视频。美食纪录片的导演指令要求「绝对音画同步、先解构再书写、用节奏聚焦感官」,而 TikTok 带货风格的导演指令则要求「节奏紧凑、卖点前置、情绪感染」。
配音音色 :美食纪录片用沉稳男声,带货用活力女声。每种风格绑定一个 Fish Audio 的音色标识。
语速系数 :美食纪录片 3.63 字/秒,慢节奏,有呼吸感。带货 3.8 字/秒,快节奏,信息密度高。深度拉片 3.13 字/秒,最慢,学术气质。
分镜时长范围 :美食 6-12 秒慢节奏,带货 4-8 秒快节奏,演讲访谈 10-20 秒长镜头。
这四样东西写在同一个文件里,一个 YAML 格式(一种人类可读的配置文件格式,像一份条目清晰的清单)的配置文件,大约 100 行。
20 种风格覆盖了大多数场景:通用解说、商品评测、TikTok 带货、搞笑混剪、综艺解说、游戏解说、演讲访谈、纪实故事、历史纪录、自然萌趣、儿童动画、毒舌影评、电影解说、深度拉片、美食纪录片、治愈风景、文案配画、黑帮狠人、专业播音、短视频复刻。
要新增一种风格,只需写一个新的配置文件,不需要改任何代码。同一段煎烤视频,换成 TikTok 带货风格,会剪出节奏更快、文案更直接的完全不同的短片。「姐妹们看这个鸡翅!外酥里嫩!」vs「热油,是成就酥脆的魔法」——同一段画面,两种完全不同的表达。
如果你是做内容的人,你会发现这正是「内容复用」的终极形态:一次拍摄,多种表达,覆盖多个平台的调性。创作者的时间应该花在创意上,不是在重复劳动上。
风格系统的核心思想是「配置即行为」。 你不需要理解系统内部的代码,只需要修改一个配置文件,就能改变系统的输出。把「变化的部分」(风格偏好)和「不变的部分」(处理流程)分离开来。

风格系统:配置即行为

风格系统:配置即行为


9. 八、结语:好的工程设计不是解决难题,而是让难题不出现

八步流水线的设计哲学可以用一句话概括:把一个复杂的创作问题拆解成八个简单的工程问题。
音画同步就是最好的例子。创剪 Skill 不试图消灭偏差,而是用字数控制缩小、变速播放消化、硬底线过滤——接受不完美,设计容忍偏差的系统。
这不只是工程设计。这是一种面对不确定性的态度。
你不需要控制一切,你只需要预设一条安全边界:接受小偏差(0.8-1.2),砍掉大偏差(<0.5 或 >1.5)。
回到开头那句话:工具一直在变,工作流不变。
创剪 Skill 换了三代壳,但骨头没变。你的价值不在于你用什么工具,而在于你对「如何做好一件事」的理解。这个理解,纳瓦尔管它叫「特定知识」——不是学校教的,不是搜索引擎能查到的,而是你在实践中一点一点磨出来的。
你的工作流,就是你的特定知识。AI 能放大它,但替代不了它。
十年后回头看,真正值钱的不是你用过哪个工具,而是你在使用工具的过程中,沉淀下来的那套做事的章法。
那才是你的护城河。


今天你带走了什么?
四个核心洞见:

  1. 工具在变,工作流不变 ——你的工作流就是你的特定知识,AI 放大它但替代不了它
  2. 消除问题优于处理问题 ——好的系统让难题不出现,而非堆叠防御机制
  3. 精度不对等是常态 ——接受不完美,设计出容忍偏差的系统
  4. AI 不完美但可编辑 ——修正的成本足够低,就等于没有问题

一键复刻
看到这里,你应该想亲手试试了。
把下面这段提示词复制给 Claude Code,你就能从零搭建自己的 AI 剪辑系统:
「你是一位高级多媒体系统架构师,精通视频处理管道设计。请帮我从零构建一个 AI 视频剪辑自动化系统,要求如下:
核心目标 :输入一段原始视频,输出一部带旁白、字幕、背景音乐的成品短片。全程自动化,人不干预。
技术栈 :Python 3.12+ / Gemini API / Fish Audio API / FFmpeg
八步管道设计

  1. 初始化 :收集用户输入(视频路径、风格选择、分镜数量),用 FFprobe 读取视频元信息(时长、分辨率、帧率),创建运行目录和配置文件
  2. AI 视频分析 :将视频上传至 Gemini,注入风格化导演指令,输出 JSON 格式的分镜剧本,包含每个分镜的起止时间戳和旁白文本。利用 Gemini 多轮对话的隐式缓存,第二轮生成多版旁白时复用第一轮的视频上下文
  3. 视频切片 + 跳切检测 :按分镜时间戳用 FFmpeg 无损切割视频片段。对每段首尾各扫描 1.3 秒,用 scdet 滤镜检测场景跳切,自动裁剪残留帧。跳切检测阈值 8%,裁剪后最小保留 2 秒
  4. 旁白字数校准 :基于语速系数(如美食纪录片 3.63 字/秒)计算每段旁白的目标字数。偏差超过 ±10% 则自动精简或扩展旁白。必须排在跳切检测之后,因为修剪会改变视频时长
  5. TTS(文字转语音)配音 :为每段旁白并发生成三版配音(快/中/慢语速),计算速度因子 = 视频时长 ÷ 音频时长,自动选择速度因子最接近 1.0 的版本。支持标记特定分镜为「保留原声」
  6. 调速合成 :用 FFmpeg setpts 滤镜调整视频播放速度,atempo 调整音频速度,生成 ASS 格式字幕(48号字体、黑色双重描边、底部居中、20字换行),三者合并为完整片段。最大并发 3 路
  7. 最终拼接 :用 FFmpeg concat demuxer(拼接解复用器)无损拼接所有分镜。若有 BGM,以 15% 音量循环混入
  8. 输出报告 :复制成片到输出目录,生成 Markdown 格式的制作报告

关键机制

  • 速度因子硬底线 :超出 0.5-1.5 范围的分镜直接丢弃,不做降级处理
  • 断点恢复 :每步完成后写入 progress.json,支持中断后从断点继续
  • 风格配置化 :每种风格用一个 YAML 文件定义(导演指令、音色ID、语速系数、时长范围),新增风格不改代码
  • 双重音画同步保障 :上游字数校准 + 下游变速补偿

请完整实现这个系统,确保八个步骤顺序执行并支持断点恢复。」


继续深入
这套八步视频剪辑流水线只是「AI 内容自动化」的一个实战项目。在课程中,你还会学到微信公众号批量运营、小红书内容创作、PPT 自动生成、SEO 审计等各类实战项目,每一个都是可以直接落地的工作流。
如果你想获取完整资源、系统学习 AI 编程工作流,欢迎加入 翔宇工作流:AI 编程实操课


订阅成功!请到邮箱查收确认链接。

订阅成功!请到邮箱查收确认链接。

订阅成功!请到邮箱查收确认链接。

订阅成功!请到邮箱查收确认链接。

操作成功。

操作已取消。