Cherry Studio 在这套流程里负责什么？

Cherry Studio 负责把 Agent 和 Skill 的执行入口图形化。它让用户不用一直在终端里操作 Claude Code，而是用桌面客户端发起任务、确认参数和查看执行过程。

创剪 Skill 的八步流水线是什么？

八步是初始化、AI 看片、视频切片与跳切检测、旁白校准、AI 配音、调速合成、拼接混音、输出报告。每一步只做一件事，上一阶段的产出成为下一阶段的输入。

AI 剪辑是不是完全不用人工检查？

不是。AI 可以自动完成大量重复劳动，但成片仍然需要人工审片。好的设计不是假设 AI 永远正确，而是让每一步产物都可编辑、可复查、可重跑。

Cherry Studio 短视频剪辑教程：AI 创剪 Skill 八步流水线

翔宇工作流100个原创 Skill 第 10 期
摘要：本文用 AI 做了一套全自动视频剪辑系统——输入一段原始视频，输出一部带旁白、字幕、背景音乐的成片，全程不动鼠标。完整拆解这套系统的设计逻辑和工程哲学，以及一个可能改变你做事方式的核心洞察：工具一直在变，不变的是工作流程 。
关键词： 剪辑；音画同步；多模态；Claude Code Skill。
没吓到各位吧？像不像真论文？
有朋友说我的文章写的像论文，看着头大，最好加个摘要。没办法，读书时落下的毛病 - 那今天就不绕弯了，你面前的是一篇一万字的「论文级教程」。
上面这些示例（更多示例可以关注翔宇视频号查看）都是今天我们的 Skill 实现的效果——AI 根据输入的原始素材，自动完成剪辑、配音、配乐，直接输出一段「舌尖上的中国」风格的短视频。
这就是「创剪 Skill」做的事。这个项目跟了我三代工具。早在Make 和 N8N 工作流时代，我就在尝试用自动化工作流剪辑视频。后来写了一个几万行代码的创剪项目来实现这个功能。今天的版本换了个壳，用 Claude Code 的 Skill 来实现，但骨架没变。
这里面有一个我反复验证了三代工具的观点：工具一直在变，工作流不变。
Make 与 N8N 是工具，几万行 TypeScript 是工具，Skill 也是工具。但剪辑视频的流程——看片、写旁白、配音、对齐时长、合成输出——这个工作流从来没变过。
如果你是一个内容创作者，你一定有自己的章法。这个章法就是你的工作流，是你多年积累的肌肉记忆。AI 做的事很简单：把你的章法放大。你原来要花 3 小时做的事，AI 帮你 10 分钟做完。
你的价值没变，但你的效率放大了 10 倍。
工作流是每个人最大的杠杆。AI 只是放大器。
你有自己的工作流吗？那个你不需要思考、自然就会启动的做事流程？

工作流是杠杆，AI 是放大器
这个问题我问过很多人，答案大致分两类。
我认识的内容创作者分两种。一种是「手工匠人型」，享受每一帧的精雕细琢，剪辑本身就是创作的一部分。另一种是「系统架构型」，觉得重复劳动是对生命的浪费，能自动化的绝不手动。
这篇文章是写给第二种人的。如果你是第一种——理解自动化的设计逻辑，也会让你的手工更有章法。
好了，回到创剪 Skill。
这个项目的核心逻辑是「原生 AI 剪辑」——完全让 AI 来理解视频内容，人不干预。AI 看完视频后，自己决定怎么分镜、怎么写旁白、什么地方该保留原声、什么地方该加速。
目前视频理解能力最强的模型是 Google 的 Gemini。它的上下文窗口能容纳整段视频，多模态能力可以直接「看」画面然后输出结构化的分镜剧本。创剪 Skill 整个系统就是围绕 Gemini 的视频理解能力来设计的。
今天读完这篇文章，你将理解：

Cherry Studio 的实操路径 ，如何在你的电脑上跑起来
八步流水线的全景架构 ，每一步在做什么，为什么要做这一步
数据流动的完整轨迹 ，追踪一个分镜从诞生到成片的全过程
音画同步的核心难题 ，为什么画面和声音总是对不上，以及创剪 Skill 如何解决
风格系统的设计哲学 ，一个文件如何定义一种美学

原生 AI 剪辑：让 AI 真正理解视频

1. 目录

一、先跑起来：在 Cherry Studio 中使用创剪 Skill
二、八步流水线总览
三、每个步骤在做什么
四、数据在步骤间如何流动
五、为什么画面和声音总是对不上
六、AI 不是万能的，但可编辑就够了
七、风格系统：一个文件定义一种美学
八、结语：好的工程设计不是解决难题，而是让难题不出现

2. 一、先跑起来：在 Cherry Studio 中使用创剪 Skill

在讲设计哲学之前，先让你手上有东西跑。
但在动手之前，花 30 秒理解两个概念。搞清楚了，后面每一步你都知道自己在做什么。
Cherry Studio。 开源的多模型 AI 桌面客户端，集成 300+ 模型，支持 macOS、Windows、Linux。
它解决了两个痛点。第一个：模型太多太散。OpenAI 一个网页，Claude 一个网页，Gemini 又一个。Cherry Studio 把它们收进同一个窗口，一键切换。第二个，也是更重要的：它把 Claude Code Agent SDK（智能体开发套件）这套复杂的底层能力封装成了图形界面。不用开终端，不用敲命令行，点点鼠标就能让 AI 在你电脑上执行代码、操作文件、运行 Skill。Cherry Studio 让「用 Skill」变得跟聊天一样简单。
Agent + Skill。 Cherry Studio 里的 Agent（智能体）模式让 AI 能「动手干活」。但它还是通才——你说「剪视频」，它可能写一段命令让你自己跑，也可能理解成「帮我写个剪辑教程」。有能力，没章法。
Skill 解决的就是这个问题。Anthropic（Claude 母公司）2025 年推出的能力模块化标准，把指令、脚本、参考资源打包成一个文件夹，Agent 遇到对应任务时自动加载。 不是限制 AI，而是给它一条确定的路径——每次说「剪视频」，它都知道该走哪八步。
Cherry Studio 给了你界面，Agent 给了你执行力，Skill 给了你确定性。 创剪就是那个让「剪视频」变得确定的 Skill。

第一步：下载安装 Cherry Studio

前往官网 cherry-ai.com，根据你的操作系统（macOS / Windows / Linux）下载对应版本，安装后打开即可。
▼ Cherry Studio 官网首页，点击「下载」按钮选择你的系统版本

Cherry Studio 官网首页：你的超级 AI 工作站

第二步：配置模型密钥

打开 Cherry Studio，进入设置 → 模型服务。左侧找到 CherryIN ，开启开关。
右侧会显示 API（接口）密钥和 API 地址。API 地址默认是 https://open.cherryin.cc，不用改。密钥需要去 CherryIN 官网获取具体步骤如下：
▼ 在设置 → 模型服务中，左侧开启 CherryIN，右侧显示 API 密钥和地址

设置页面：开启 CherryIN 服务商
▼ 去 CherryIN 官网的「令牌管理」页面，添加令牌并复制密钥

CherryIN 令牌管理：创建 Claude 令牌并复制
回到 Cherry Studio，把复制的密钥粘贴到 API 密钥栏，点击「检测」验证连通性。
▼ 然后点击下方「管理」进入模型添加页面

粘贴密钥，点击管理按钮
在弹出的模型列表中搜索 claude，找到 anthropic/claude-opus-4.6 ，点击添加。

模型列表：选择 anthropic/claude-opus-4.6

★
翔宇的建议 ：如果你是第一次用，直接选 Claude。Skill 是 Anthropic 的原生标准，Claude 对 Skill 指令的理解最准确。价格相对高，可见限制 AI 发展的还是算力不足。另外试试 Kimi 2.5 等国产模型。

第三步：安装 Claude Code（Agent 底层引擎）

Cherry Studio 的 Agent 模式底层依赖 Claude Code——Anthropic 官方的命令行 AI 编程工具。没有它，Agent 就只能聊天，不能动手。
打开 Cherry Studio，点击左侧导航栏的「代码工具」图标。上方会显示 Claude Code 选项，以及一个黄色提示：「运行 CLI 工具需要安装 Bun 环境」。点击右侧的「安装 Bun」按钮，等待安装完成。

代码工具页面：安装 Bun 环境
Bun（JavaScript 运行时）装好后，往下配置：

模型：选择你要用的模型
工作目录 ：指定一个本地路径（比如 F:\\code-ty），Skill 的所有文件都会在这里
终端：根据自己偏好选择即可

配好后点击底部绿色的「启动」按钮。

配置完成，点击启动
Cherry Studio 会自动打开终端，开始安装 Claude Code。你会看到 Installing @anthropic-ai/claude-code... 的进度条滚动。
▼ 终端正在安装 Claude Code，等待进度完成

终端安装 Claude Code 进行中
安装完成后，终端会显示一条黄色警告 ：Claude Code on Windows requires git-bash。这意味着 Windows 用户还需要安装 Git Bash（Git 命令行终端）。
▼ 安装完成，提示需要 Git Bash

安装完成，提示需要 Git Bash
前往 Git 官网 git-scm.com，下载 Windows 最新版本并安装。

Git 官网：下载 Windows 版本
▼ Claude Code 首次启动成功，选择你喜欢的终端主题

Claude Code 启动成功：选择主题

★
Windows 用户注意 ：如果启动后仍然报错找不到 Git Bash，需要手动设置环境变量 CLAUDE_CODE_GIT_BASH_PATH，指向你的 bash.exe 路径（通常是 C:\\Program Files\\Git\\bin\\bash.exe）。

第四步：创建 Agent

回到主界面，点击左上角「添加助手」。弹出选择框时，不要选「添加助手」——选右边的「添加 Agent」。 助手只能聊天，Agent 才能动手干活。

选择添加类型：点击「添加 Agent」
在 Agent 配置弹窗中，依次填写：

名称：随便取，比如「翔宇创剪」
模型：选择刚才添加的 anthropic/claude-opus-4.6 | CherryIN
工作目录 ：指定一个本地路径，Skill 的中间产物和成片都会输出到这里
权限模式 : 跳过所有权限检查 (请确保在隔离环境中使用做好数据备份)
提示词 ：填入 调用如下 skill: xiangyu-video-chuangcut-editing

输入名称、选择模型

Agent 完整配置：名称、模型、工作目录、提示词

第五步：安装创剪 Skill

创剪 Skill 是翔宇自己开发的，不在 Cherry Studio 的公开技能市场里，需要手动安装。
打开你刚才设置的工作目录，进入隐藏文件夹 .claude，再进入 skills/ 目录。把创剪 Skill 的整个文件夹（xiangyu-video-chuangcut-editing）复制粘贴到这里即可。Agent 会自动识别并加载它。如果没找到该文件夹，可先去市场安装任意 Skill。

工作目录下的 .claude 隐藏文件夹

skills 目录下放入 xiangyu-video-chuangcut-editing

★
一个细节 ：Skill 文件是纯文本，你可以直接打开阅读。看看里面写了什么，你会对「AI 是如何被指挥的」有更直观的理解。

第六步：配置环境

创剪 Skill 运行需要两样东西：API 凭据 ——Gemini 看片 + Fish Audio 配音（Fish Audio 一个语音合成服务），以及运行时依赖 ——Python 环境 + FFmpeg 音视频处理工具。让 Agent 帮你搞定。
回到 Cherry Studio，打开刚创建的 Agent 对话窗口，发送这段话：
「我刚在 .claude/skills/ 放置了创剪 Skill（xiangyu-video-chuangcut-editing），请帮我完成环境配置：1）读取 Skill 目录下的 credentials/，列出每个凭证文件需要填写的字段、用途和 Key 申请地址；2）运行 scripts/setup.sh，完成虚拟环境创建、依赖安装和 FFmpeg 验证，遇到报错直接修复。需要密钥时直接向我索要。」
Agent 会自动读取配置、运行初始化脚本、装好所有依赖。你只需要做一件事：把申请到的 API Key 填进去。

Agent 对话界面：发送环境配置指令

★
只需要做一次 ：凭据和环境配好后，以后每次使用创剪 Skill 都不用重复配置。

第七步：触发创剪 Skill

在对话框输入触发关键词——「视频剪辑」「创剪」「ChuangCut」「剪视频」，任一即可。
触发后，Agent 会像导演开工前一样，通过对话逐步和你确认参数。整个过程就是聊天，不需要填表、不需要改配置文件。
第一轮对话（所有模式都会问） ：

视频文件在哪里？——给一个路径
要保留几个原声分镜？——比如煎牛肉的滋啦声，保留比配音更有感染力
选哪种模式？——自动 / 手动 / 高级

自动模式 到这里就结束了，Agent 用默认参数直接开始。第一次用，选这个就够了。
手动模式 会多问两个：选哪种风格（20 种可选，美食纪录片、TikTok 带货……）、要几个分镜。
高级模式 在手动的基础上，再问背景音乐用哪首、要不要输入创作大纲、是否生成字幕。煎烤视频就是用高级模式跑的——指定了美食纪录片风格、6 个分镜、一首自定义 BGM（背景音乐）。

参数确认对话：选择模式和风格

第八步：等待八步流水线执行

参数确认完，Agent 自动执行八步流水线。整个过程约 5-15 分钟，取决于视频时长和网络状况。
你会在对话窗口看到每一步的执行状态——初始化、AI 看片、视频切片、旁白校准、AI 配音、调速合成、拼接、输出。不需要任何操作，喝杯咖啡等着就行。
执行过程中可能会遇到报错——API 超时、文件路径不对、依赖版本冲突。不用慌。Agent 会尝试自动修复常见问题（如 API 超时重试）。遇到无法自动修复的，它会告诉你问题出在哪，你按提示处理即可。需要说明的是该 Skill 仅测试了短视频的剪辑，针对长视频并未做详细测试。

第九步：获取成片

处理完成后，Agent 会告诉你成片的路径，同时生成一份 Markdown 格式的制作报告——记录每个分镜的时长、速度因子、选用的旁白版本等信息。
成片在你指定的工作目录下，制作报告在同级目录，直接打开即可。
跑起来了。接下来拆开引擎盖——这八步到底在做什么，每一步的设计决策背后有什么工程哲学。

3. 二、八步流水线总览

八步流水线全景：从视频到成片
先给你一张全景地图。
八个步骤像工厂的八道工序。每道工序只做一件事，上一道的产出就是下一道的原料。这个设计在工程上叫「管道模式」（Pipeline），你可以把它想象成一条流水线，视频从一端放进去，成片从另一端出来。
第一步：初始化 。告诉系统「剪什么、怎么剪」。煎烤视频选了高级模式，指定美食纪录片风格、6 个分镜、一首背景音乐。
第二步：AI 看片 。AI 观看视频，写出分镜剧本和旁白。Gemini 识别出蒜瓣热油、煎牛肉、炒口蘑、炸鸡翅、金沙鸡翅、收尾 6 个场景。
第三步：视频切片与跳切检测 。按剧本时间戳切片，扫描首尾修剪残留画面。煎烤视频 6 段全部干净，无需修剪。
第四步：旁白校准 。检查旁白字数是否匹配画面时长，基于语速系数逐段校准。
第五步：AI 配音 。为旁白生成语音，计算速度因子。5 段 AI 配音 + 1 段保留原声。
第六步：调速合成 。调整画面速度、烧入字幕，3 路并行处理。
第七步：拼接 。合并所有分镜，混入背景音乐，BGM 音量 15%，循环混入。
第八步：输出 。生成最终视频和制作报告，成片交付。
每一步完成后，系统在进度文件中记录状态。中途断电或出错，重新启动时从中断点继续——这叫「断点恢复」。
核心设计原则是「单一职责」：每一步只做一件事，任何一步出问题，只修那一步，不影响其他步骤。
这八步本质上做的是一件事：把不确定性逐步消除。 每走一步，系统对最终成品的掌控力就多一分。
下面一步一步拆。

4. 三、每个步骤在做什么

第一步：初始化，导演开机前的准备会

第一章讲了三种模式的区别，这里只说一个关键动作：系统用 FFprobe（视频元信息读取工具）读取视频元信息——时长 94 秒，分辨率 720×1280，帧率 60。后续所有计算（分镜时长、旁白字数）都依赖这些基础数据。
好的初始化不是问更多问题，是把默认值设到最好。

第二步：AI 看片，导演的第一遍观影

这是整个系统最关键的一步。
系统把视频上传给 Google Gemini，连同一份「导演指令」，告诉 AI 用什么美学标准来分析。美食纪录片风格的导演指令长达 800 多行，定义了四条守则：绝对音画同步、先解构再书写、用节奏聚焦感官、旁白是温度。
正是这份指令让 AI 写出了「高温是风味的起点」「时间赋予了它独特的韧性」这样有纪录片质感的旁白，而不是「今天教大家做一道煎牛肉」这样的教程口吻。
Gemini 看完后输出一份分镜剧本：第一个镜头从第 6 秒到第 15 秒，拍的是蒜瓣在热油中翻滚；第二个镜头从第 15 秒到第 26 秒，拍的是煎牛肉……每个分镜包含起止时间和一段旁白。
这里有一个巧妙的成本优化。系统和 Gemini 的对话分两轮：第一轮上传视频并注入导演指令，输出分镜剧本；第二轮在同一个对话中生成多版旁白。因为第二轮复用了第一轮的视频上下文缓存，不需要重新上传视频，大约节省了 45000 个 token（令牌，AI 计费单位）。
你付出的是一次 API 调用的费用，得到的是一个不知疲倦的导演。

初始化与 AI 看片：导演的准备会和第一遍观影

第三步：视频切片与跳切检测，剪刀落下，再擦去毛边

按分镜剧本的时间戳，用 FFmpeg 把完整视频切成 6 段素材。
切完后，系统扫描每段首尾各 1.3 秒，检测有没有残留画面——比如蒜瓣的画面闪了一帧才切到煎牛肉，观众就会感知到一次不自然的「跳」。系统用 FFmpeg 的 scdet（场景检测）滤镜扫描并自动裁掉残留帧。
煎烤视频的 6 个切点都干净，全部跳过修剪。但广州美食视频就没这么幸运：8 段中有 5 段需要修剪，烤鸭那段开头 1.03 秒残留着肠粉画面。
把不干净的剪刀口擦干净。 这一步不影响内容，但决定品质。

视频切片与跳切检测：剪刀落下，再擦毛边

第四步：旁白校准，编辑的红笔

美食纪录片的语速大约每秒 3.63 个字。一个 8.7 秒的蒜瓣热油镜头，旁白应该在 32 个字左右。
系统逐段检查旁白字数。如果偏差超过 10%，就自动精简或扩展。比如一段旁白本来有 45 个字，但画面只有 8 秒，按 3.63 字/秒算应该是 29 个字，偏多了 55%，系统会把旁白精简到 29 字左右。
注意这一步排在跳切检测之后。为什么？因为跳切修剪可能会改变画面时长。广州美食视频中，烤鸭分镜原本 8 秒，修剪后变成 6.47 秒，缩短了将近 20%。如果在修剪之前算字数，就会算多。
这是一个典型的「顺序依赖」设计——步骤的排列顺序不是随意的，后面的步骤依赖前面步骤的准确输出。

★
设计洞见 ：为什么不合并？跳切检测管「画面」，旁白校准管「文字」，职责不同。合并则牵一发动全身，分开则互不影响。

旁白校准：语速系数与顺序依赖

第五步：AI 配音，声音的诞生

校准后的旁白送给 Fish Audio（一个语音合成服务）生成配音。
这里有一个不常见的设计——系统不是生成一版配音，而是同时生成三版：一版语速快、一版语速中等、一版语速慢。三版并发生成，哪版的时长最接近画面时长，就选哪版。
为什么？因为语音合成引擎无法精确控制输出时长。你告诉它「把这 32 个字念出来」，它可能念出 8 秒，也可能念出 11 秒，取决于它如何处理停顿、语气和节奏。生成三版，选最接近的，比生成一版然后反复重试更高效。
选中后，系统计算一个关键数值：速度因子。这个概念在后文「音画同步」部分会详细解释。
另外，煎烤视频的第二段「煎牛肉」被标记为保留原声。这正是保留原声的价值——有些声音，比任何旁白都有感染力。

第六步到第八步：从碎片到成品

第六步：调速合成 。把画面速度、配音、字幕三者融合为一个片段。字幕用 ASS 格式（一种可以控制字体、颜色、位置的高级字幕格式）生成，可以指定字体大小（48 号）、描边颜色（黑色双重描边）、位置（底部居中）、每行字数（20 字自动换行）。三路并行处理，三个分镜同时合成。
第七步：拼接 。6 段首尾相连，背景音乐压到 15% 音量循环混入。15% 是一个经过实践验证的数值，再高会盖过旁白，再低存在感不够。
第八步：输出 。成片复制到输出目录，生成一份制作报告，记录每个分镜的时长、速度因子、选用的旁白版本等信息。
八步流水线可以分成三个阶段来记忆：分析准备 （第 1-4 步）——从一段视频到一份精确的剧本；素材加工 （第 5-6 步）——从剧本到一堆带声音的片段；合成输出 （第 7-8 步）——从一堆片段到一部成片。

从配音到成品：三版择优与三路并行

5. 四、数据在步骤间如何流动

第三章是每一步各自在做什么。这一节换个视角——跟着一个具体分镜走完全程，看数据如何变形流动。
以煎烤视频的第四个分镜「炸鸡翅」为线索。
AI 看片 ：Gemini 在第 59-69 秒识别出炸鸡翅画面（9.7 秒），写下旁白初稿，以 JSON（结构化数据格式）格式写入分镜剧本。
跳切检测 ：切出视频片段，扫描首尾画面干净，时长保持 9.7 秒。
旁白校准 ：9.7 秒 × 3.63 字/秒 = 35 字，系统微调定稿。
AI 配音 ：定稿旁白合成出 12.4 秒配音——比画面长了近 3 秒。速度因子 = 9.7 ÷ 12.4 = 0.78，视频需要减速到 0.78 倍。
调速合成 ：视频 0.78 倍速 + 配音正常速度 + 字幕按标点断句，三者合并。观众看到稍慢的炸鸡翅画面配上从容旁白——美食纪录片，慢一点反而更有质感。
拼接：炸鸡翅排第四位，和其他五段拼接，背景音乐贯穿始终。
数据在步骤间的形态不断变化：视频文件 → 分镜剧本 → 视频片段 → 音频文件 → 合成片段 → 成片。每一次交接，形态变了，但信息被完整保留。
好的管道设计，就是让每一步只需要知道上一步给了它什么，不需要知道更远的事。

数据追踪：一个分镜从诞生到成片

6. 五、为什么画面和声音总是对不上

这是整篇文章的核心问题。本质是精度不对等 ：视频时长精确到毫秒，语音合成的时长精度只到「大概差不多」。35 个字可能合成出 8 秒，也可能 13 秒。再叠加跳切修剪改变视频时长——画面和声音几乎不可能天然对齐。
创剪 Skill 的解法是一道除法：速度因子 = 视频时长 ÷ 音频时长 。等于 1.0 完美同步，大于 1.0 画面加速，小于 1.0 画面减速。煎烤视频 6 个分镜实测：蒜瓣热油 1.00，煎牛肉保留原声，炒口蘑 1.14，炸鸡翅 0.78，金沙鸡翅 0.84，收尾 0.94。6 个分镜只有一个命中 1.0。时长天然不匹配，是常态而非例外。

音画不同步的根源：精度不对等

三道防线：预防、补偿、硬底线

上游预防 ：旁白校准阶段用语速系数提前控制字数。蒜瓣热油之所以命中 1.0，正是上游预防的成功案例。
下游补偿 ：用 FFmpeg 变速调整画面播放速度。0.8 到 1.2 范围内人眼几乎感觉不到——你不会注意到炸鸡翅慢了 22%，美食画面本来就适合慢节奏。
硬底线 ：速度因子超出 0.5 到 1.5，分镜直接丢弃。不修复，不降级，直接放弃。少一个好镜头，远好过多一个坏镜头。
这背后是一个重要的设计哲学：消除问题优于处理问题。

三道防线：预防、补偿、硬底线

7. 六、AI 不是万能的，但可编辑就够了

讲完了音画同步的工程方案，必须说一个很多人不愿意面对的事实：Gemini 会犯错。
它是一个概率模型，不是一个精密仪器。每次分析同一段视频，输出可能不一样。时间戳可能偏了两秒，旁白可能出现幻觉——明明画面里是炒口蘑，它写的是「翻炒着鲜嫩的牛肉」。上下文窗口虽然大，但对 94 秒视频中某个 0.3 秒的转场，它的判断本质上是猜的。
这不是创剪 Skill 的问题，这是大模型的底层特性。
字数校准能修正一部分偏差，速度因子能补偿一部分偏差，硬底线能过滤极端情况。但总有一些分镜，Gemini 给的时间戳就是不准，配音和字幕就是对不上。翔宇做了三代工具，这个问题每一代都存在。
那怎么办？
答案藏在 Skill 的本质里：它跑在你的本地环境，所有中间产物都是可编辑的。
分镜剧本是 JSON 文件，你可以手动改时间戳。旁白是文本，直接改措辞。配音是音频文件，可以重新生成。字幕是 ASS 文件，可以微调起止时间。甚至速度因子，也可以手动覆盖。
出了问题不可怕。让 Agent 重新跑一下那个步骤，或者你自己改两行配置，问题就解决了。这就是「可编辑」的价值——不是追求一次完美，而是让修正的成本足够低。
可编辑的不只是中间产物，Skill 本身也是可编辑的。 翔宇不认为今天的创剪 Skill 是最终版。Agent 具有自主能力，你完全可以用自然语言告诉它「把导演指令改成更幽默的风格」「语速系数调高一点」「加一个新的风格模板」——它会直接帮你修改 Skill 的配置文件和脚本。不需要懂代码，聊天就能调试。产出可编辑让你修正错误，Skill 可编辑让你定义自我。
八步流水线的断点恢复设计，本质上就是为「可编辑」服务的。 你不需要从头跑，只需要从出错的那一步重新开始。
大模型能力在指数级增长，今天偏两秒的时间戳明年可能只偏 0.1 秒，八步流水线里真正不可替代的只有两步：AI 看片和风格系统，其余六步本质上都在补偿模型能力的不足。
工具会越来越简单，但前提是你现在就用原生的方式去构建它。 当所有人都能用一句话让 AI 剪视频时，真正的差距在你的风格系统、导演指令和沉淀了三代工具的工作流。工具普惠化，认知垄断化。

★
记住这个 ：不可编辑才是真正的问题。今天你花时间修正 AI 的偏差，明天 AI 自己就修好了——但你在修正过程中积累的认知，才是真正的资产。

AI 不完美，但可编辑就够了

8. 七、风格系统：一个文件定义一种美学

创剪 Skill 内置 20 种风格。每种风格用一个配置文件定义四样东西：
导演指令 ：告诉 AI 用什么美学标准分析视频。美食纪录片的导演指令要求「绝对音画同步、先解构再书写、用节奏聚焦感官」，而 TikTok 带货风格的导演指令则要求「节奏紧凑、卖点前置、情绪感染」。
配音音色 ：美食纪录片用沉稳男声，带货用活力女声。每种风格绑定一个 Fish Audio 的音色标识。
语速系数 ：美食纪录片 3.63 字/秒，慢节奏，有呼吸感。带货 3.8 字/秒，快节奏，信息密度高。深度拉片 3.13 字/秒，最慢，学术气质。
分镜时长范围 ：美食 6-12 秒慢节奏，带货 4-8 秒快节奏，演讲访谈 10-20 秒长镜头。
这四样东西写在同一个文件里，一个 YAML 格式（一种人类可读的配置文件格式，像一份条目清晰的清单）的配置文件，大约 100 行。
20 种风格覆盖了大多数场景：通用解说、商品评测、TikTok 带货、搞笑混剪、综艺解说、游戏解说、演讲访谈、纪实故事、历史纪录、自然萌趣、儿童动画、毒舌影评、电影解说、深度拉片、美食纪录片、治愈风景、文案配画、黑帮狠人、专业播音、短视频复刻。
要新增一种风格，只需写一个新的配置文件，不需要改任何代码。同一段煎烤视频，换成 TikTok 带货风格，会剪出节奏更快、文案更直接的完全不同的短片。「姐妹们看这个鸡翅！外酥里嫩！」vs「热油，是成就酥脆的魔法」——同一段画面，两种完全不同的表达。
如果你是做内容的人，你会发现这正是「内容复用」的终极形态：一次拍摄，多种表达，覆盖多个平台的调性。创作者的时间应该花在创意上，不是在重复劳动上。
风格系统的核心思想是「配置即行为」。 你不需要理解系统内部的代码，只需要修改一个配置文件，就能改变系统的输出。把「变化的部分」（风格偏好）和「不变的部分」（处理流程）分离开来。

风格系统：配置即行为

9. 八、结语：好的工程设计不是解决难题，而是让难题不出现

八步流水线的设计哲学可以用一句话概括：把一个复杂的创作问题拆解成八个简单的工程问题。
音画同步就是最好的例子。创剪 Skill 不试图消灭偏差，而是用字数控制缩小、变速播放消化、硬底线过滤——接受不完美，设计容忍偏差的系统。
这不只是工程设计。这是一种面对不确定性的态度。
你不需要控制一切，你只需要预设一条安全边界：接受小偏差（0.8-1.2），砍掉大偏差（<0.5 或 >1.5）。
回到开头那句话：工具一直在变，工作流不变。
创剪 Skill 换了三代壳，但骨头没变。你的价值不在于你用什么工具，而在于你对「如何做好一件事」的理解。这个理解，纳瓦尔管它叫「特定知识」——不是学校教的，不是搜索引擎能查到的，而是你在实践中一点一点磨出来的。
你的工作流，就是你的特定知识。AI 能放大它，但替代不了它。
十年后回头看，真正值钱的不是你用过哪个工具，而是你在使用工具的过程中，沉淀下来的那套做事的章法。
那才是你的护城河。

今天你带走了什么？
四个核心洞见：

工具在变，工作流不变 ——你的工作流就是你的特定知识，AI 放大它但替代不了它
消除问题优于处理问题 ——好的系统让难题不出现，而非堆叠防御机制
精度不对等是常态 ——接受不完美，设计出容忍偏差的系统
AI 不完美但可编辑 ——修正的成本足够低，就等于没有问题

一键复刻
看到这里，你应该想亲手试试了。
把下面这段提示词复制给 Claude Code，你就能从零搭建自己的 AI 剪辑系统：
「你是一位高级多媒体系统架构师，精通视频处理管道设计。请帮我从零构建一个 AI 视频剪辑自动化系统，要求如下：
核心目标 ：输入一段原始视频，输出一部带旁白、字幕、背景音乐的成品短片。全程自动化，人不干预。
技术栈 ：Python 3.12+ / Gemini API / Fish Audio API / FFmpeg
八步管道设计 ：

初始化 ：收集用户输入（视频路径、风格选择、分镜数量），用 FFprobe 读取视频元信息（时长、分辨率、帧率），创建运行目录和配置文件
AI 视频分析 ：将视频上传至 Gemini，注入风格化导演指令，输出 JSON 格式的分镜剧本，包含每个分镜的起止时间戳和旁白文本。利用 Gemini 多轮对话的隐式缓存，第二轮生成多版旁白时复用第一轮的视频上下文
视频切片 + 跳切检测 ：按分镜时间戳用 FFmpeg 无损切割视频片段。对每段首尾各扫描 1.3 秒，用 scdet 滤镜检测场景跳切，自动裁剪残留帧。跳切检测阈值 8%，裁剪后最小保留 2 秒
旁白字数校准 ：基于语速系数（如美食纪录片 3.63 字/秒）计算每段旁白的目标字数。偏差超过 ±10% 则自动精简或扩展旁白。必须排在跳切检测之后，因为修剪会改变视频时长
TTS（文字转语音）配音 ：为每段旁白并发生成三版配音（快/中/慢语速），计算速度因子 = 视频时长 ÷ 音频时长，自动选择速度因子最接近 1.0 的版本。支持标记特定分镜为「保留原声」
调速合成 ：用 FFmpeg setpts 滤镜调整视频播放速度，atempo 调整音频速度，生成 ASS 格式字幕（48号字体、黑色双重描边、底部居中、20字换行），三者合并为完整片段。最大并发 3 路
最终拼接 ：用 FFmpeg concat demuxer（拼接解复用器）无损拼接所有分镜。若有 BGM，以 15% 音量循环混入
输出报告 ：复制成片到输出目录，生成 Markdown 格式的制作报告

关键机制 ：

速度因子硬底线 ：超出 0.5-1.5 范围的分镜直接丢弃，不做降级处理
断点恢复 ：每步完成后写入 progress.json，支持中断后从断点继续
风格配置化 ：每种风格用一个 YAML 文件定义（导演指令、音色ID、语速系数、时长范围），新增风格不改代码
双重音画同步保障 ：上游字数校准 + 下游变速补偿

请完整实现这个系统，确保八个步骤顺序执行并支持断点恢复。」

继续深入
这套八步视频剪辑流水线只是「AI 内容自动化」的一个实战项目。在课程中，你还会学到微信公众号批量运营、小红书内容创作、PPT 自动生成、SEO 审计等各类实战项目，每一个都是可以直接落地的工作流。
如果你想获取完整资源、系统学习 AI 编程工作流，欢迎加入 翔宇工作流：AI 编程实操课 。

📚 更多 AI 视觉创作内容：AI 图片与视频生成指南：从提示词到成片的完整工作流

循环工程 Loop Engineering 指南：一个 Skill 解决终止条件设计难题

用 Hermes Agent 搭建跨平台 AI 消息助手：一个 Agent 同时管 Telegram + Discord + 微信

Ghost 建站最佳实践：一人公司从零到有订阅者的完整手册

我如何用 Cherry Studio 进行爆款短视频剪辑的？论文级教程

1. 目录

2. 一、先跑起来：在 Cherry Studio 中使用创剪 Skill

第一步：下载安装 Cherry Studio

第二步：配置模型密钥

第三步：安装 Claude Code（Agent 底层引擎）

第四步：创建 Agent

第五步：安装创剪 Skill

第六步：配置环境

第七步：触发创剪 Skill

第八步：等待八步流水线执行

第九步：获取成片

3. 二、八步流水线总览

4. 三、每个步骤在做什么

第一步：初始化，导演开机前的准备会

第二步：AI 看片，导演的第一遍观影

第三步：视频切片与跳切检测，剪刀落下，再擦去毛边

第四步：旁白校准，编辑的红笔

第五步：AI 配音，声音的诞生

第六步到第八步：从碎片到成品

5. 四、数据在步骤间如何流动

6. 五、为什么画面和声音总是对不上

三道防线：预防、补偿、硬底线

7. 六、AI 不是万能的，但可编辑就够了

8. 七、风格系统：一个文件定义一种美学

9. 八、结语：好的工程设计不是解决难题，而是让难题不出现

翔宇

接着读