Make 25. 全网首个多模态 Make 工作流，轻松从文本、音频或视频生成爆款口播稿

Q: Notion 数据库配置？

Notion 数据库的属性设置如下： - 标题：默认属性 - 状态：单选属性，选项包括"开始素材""开始音频""开始视频""已完成" - 口播稿素材：文本属性，用于粘贴纯文本素材 - 口播稿音频：文本属性，填入音频文件的直链 URL - 口播稿视频：文本属性，填入视频文件的直链 URL - 段落字数：文本属性，填入 500、800 或 1000 - 写作风格：单选属性，填入目标大 V 或平台风格名称 - 额外需求：文本属性，用于补充自定义提示词 - 平台：单选属性，选择抖音、TikTok 或 Bilibili 等 这里有一个重要提示：一定要使用文本属性而非链接属性来存储 URL，避免格式校验导致的报错。

Q: 音频转录模块搭建？

音频转录使用的是 Replicate 平台上的一个高质量中文转录模型。这个模型的优势在于： - 支持超长音频（几十分钟不成问题） - 中文识别准确率高 - 按使用付费，不使用不花钱 - 处理速度快 在 Make 中通过 HTTP 模块调用 Replicate API，发送音频文件的直链 URL。由于转录是异步处理的，需要在请求后添加一个 Sleep 模块等待约 120-200 秒，然后通过第二个 HTTP 请求获取转录结果。 转录结果是一个包含多个文本片段的数组，需要通过 Map 函数提取 Text 字段，再用 Join 函数以换行符连接成完整的长文本。

Q: 视频多模态分析模块搭建？

视频分析是这套工作流最大的亮点。流程分为三步： 1. 下载视频：通过 HTTP Get a File 模块，使用 Notion 中存储的视频直链下载文件 2. 上传至 Gemini：使用 Google Gemini AI 的 Upload a File 模块将视频上传，获取资源的唯一标识符（URI） 3. 多模态分析：调用 Gemini 2.0 Flash 模型，在对话中同时传入文件 URI 和分析提示词 提示词要求模型按照时间轴对视频进行解说，输出完整的解说稿件，包含段落划分、叙事逻辑、去除广告内容等规范。 上传和分析之间需要一个 120 秒左右的等待时间，让 Gemini 完成视频的处理。

引言

做自媒体最痛苦的事情是什么？不是没有选题，而是明明手里有大量的文本资料、播客音频、甚至高质量的视频素材，却始终无法高效地把它们转化成一篇能直接上提词器的口播稿。我自己在做抖音和 YouTube 内容的过程中，反复经历过这种"素材在手，开口犯愁"的困境。

我是翔宇。翔宇一直在想：不同格式的素材为什么不能统一处理？这套工作流就是解决这个问题的。

今天分享的这套 Make 工作流，是我目前在全网看到的第一个真正意义上的多模态口播稿生成方案。它支持文本、音频、视频三种素材输入，通过 Gemini 2.0 Flash 的多模态分析能力处理视频，Replicate 的高质量转录处理音频，再结合火山引擎 DeepSeek R1 的风格化写作能力，一键生成可以直接上镜的口播稿，全程自动保存到 Notion 知识库。

这套工作流不只是一个简单的"文本改写"工具。它的核心价值在于打通了从素材获取到成品输出的完整链路，让你从此不再被单一模态的信息茧房所限制。

你将学到

如何在 Make 中搭建支持文本、音频、视频三种模态的路由分支结构
利用 Gemini 2.0 Flash 对视频进行多模态深度分析并提取解说文稿
通过 Replicate 平台实现长音频的高质量中文转录
使用火山引擎 DeepSeek R1 进行风格化口播稿写作
Make 中 Data Store、Variable 与 Repeater 的组合使用技巧
如何通过 Substring 函数对长文本进行智能段落切分
利用路由条件实现第一段与后续段落的差异化提示词策略
发现自媒体新赛道的模态转化思维方法

视频教程

本教程配套视频已发布在 YouTube，建议搭配视频一起学习效果更佳。

详细教程

工作流整体架构

整个工作流的核心思路是"三条输入链路，一条生成链路"。

在 Notion 数据库中，你只需要填入素材链接或文本内容，选择对应的状态（素材、音频、视频），设置写作风格和段落字数，把状态调到"开始"，工作流就会自动运行。

三条输入链路分别处理：

文本链路：直接从 Notion 读取口播稿素材文本，通过 Set Variable 聚合为完整的长文本
音频链路：通过 HTTP 模块下载音频文件，调用 Replicate 平台的转录模型，等待处理完成后获取中文转录结果
视频链路：通过 HTTP 下载视频文件，上传至 Google Gemini AI 平台，利用 Gemini 2.0 Flash 多模态模型进行视频深度分析，输出完整的视频解读文稿

三条链路的输出统一存储到一个名为"口播稿素材"的 Variable 中，后续的生成链路从这个变量中读取，实现了输入与生成的解耦。

Notion 数据库配置

Notion 数据库的属性设置如下：

标题：默认属性
状态：单选属性，选项包括"开始素材""开始音频""开始视频""已完成"
口播稿素材：文本属性，用于粘贴纯文本素材
口播稿音频：文本属性，填入音频文件的直链 URL
口播稿视频：文本属性，填入视频文件的直链 URL
段落字数：文本属性，填入 500、800 或 1000
写作风格：单选属性，填入目标大 V 或平台风格名称
额外需求：文本属性，用于补充自定义提示词
平台：单选属性，选择抖音、TikTok 或 Bilibili 等

这里有一个重要提示：一定要使用文本属性而非链接属性来存储 URL，避免格式校验导致的报错。

素材获取方法

对于 YouTube 视频，可以通过在线工具将视频下载为 MP3 格式。对于抖音视频，同样可以通过即刻下载等工具获取 MP4 或 MP3 文件。下载后，上传到支持直链的免费网盘（如 Linx），获取直链 URL 填入 Notion 即可。

直链的判断标准很简单：把链接粘贴到浏览器地址栏，如果直接开始下载文件，那就是直链。

音频转录模块搭建

音频转录使用的是 Replicate 平台上的一个高质量中文转录模型。这个模型的优势在于：

支持超长音频（几十分钟不成问题）
中文识别准确率高
按使用付费，不使用不花钱
处理速度快

在 Make 中通过 HTTP 模块调用 Replicate API，发送音频文件的直链 URL。由于转录是异步处理的，需要在请求后添加一个 Sleep 模块等待约 120-200 秒，然后通过第二个 HTTP 请求获取转录结果。

转录结果是一个包含多个文本片段的数组，需要通过 Map 函数提取 Text 字段，再用 Join 函数以换行符连接成完整的长文本。

视频多模态分析模块搭建

视频分析是这套工作流最大的亮点。流程分为三步：

下载视频：通过 HTTP Get a File 模块，使用 Notion 中存储的视频直链下载文件
上传至 Gemini：使用 Google Gemini AI 的 Upload a File 模块将视频上传，获取资源的唯一标识符（URI）
多模态分析：调用 Gemini 2.0 Flash 模型，在对话中同时传入文件 URI 和分析提示词

提示词要求模型按照时间轴对视频进行解说，输出完整的解说稿件，包含段落划分、叙事逻辑、去除广告内容等规范。

上传和分析之间需要一个 120 秒左右的等待时间，让 Gemini 完成视频的处理。

长文本段落切分与 Repeater 机制

这是整套工作流中技术含量最高的环节。核心问题是：大模型的单次输出长度有限（通常 400-500 字左右），但口播稿素材可能有几千甚至上万字。

解决方案是利用 Repeater（重复器）进行分段处理：

计算总文本长度，除以每段字数（500/800/1000），得出需要重复的次数
Repeater 按次数循环，每次通过 Substring 函数截取对应位置的文本片段
将每个片段分别发送给 DeepSeek R1 生成口播稿

这里有一个关键的设计决策：第一段和后续段落使用不同的提示词。第一段没有前文参考，直接生成即可；第二段开始需要在提示词中加入前文内容，让模型根据前文的结尾进行承上启下的衔接，确保整篇口播稿的连贯性。

路由条件的设置很直观：当 Repeater 的 i 等于 1 时走第一分支，不等于 1 时走第二分支。

Data Store 的覆盖存储与完整存储

Data Store 在这套工作流中扮演着"中间缓存"的角色，用于在段落之间传递前文内容。

覆盖存储模式：每次只保存最新生成的段落内容。这样每次传给大模型的前文只有上一个段落，节省 Token 消耗，但上下文连贯性稍弱。

完整存储模式：每次将已有内容（从 Data Store 获取）与新生成内容拼接后保存。这样传给大模型的前文是从第一段到当前段的完整内容，连贯性更好，但 Token 消耗更大。

具体选择哪种模式取决于你的素材长度和预算。对于几千字的素材，完整存储模式的效果明显更好。

段落字数设置的讲究

段落字数参数（500/800/1000）直接影响口播稿的质量：

素材很长（万字以上）：建议设置 800-1000，让大模型对信息进行压缩和提炼，口播稿的信息密度更高
素材较短（几百字）：建议设置 500 以下，避免大模型过度扩充而引入不准确的内容
DeepSeek R1 的经验值：在翔宇的测试环境下，每段固定输出大约 400-500 字

核心原则是：输入字数大于输出字数时，模型做压缩提炼；输入字数小于输出字数时，模型做信息扩充。压缩通常比扩充更可靠。

最终保存到 Notion

所有段落生成完成后，工作流会从 Data Store 获取完整口播稿内容，通过 Notion 的 Create and Update 模块将其保存回原始数据库条目中。保存的内容包括每段的思考过程和口播稿正文，方便后期检查大模型是否正确识别了写作风格。

生成效果与实际案例

在实际测试中，这套工作流覆盖了多个赛道和模态的组合：

抖音财经音频 → DeepSeek R1 以"小林说财经"风格生成口播稿，将"回升、繁荣、衰退、萧条"四阶段翻译为"春种、夏长、秋收、冬藏"
新闻文本素材 → 将严肃的经济理论文章转化为抖音风格的通俗口播稿
电影解说视频 → 从视频画面直接分析生成《落叶归根》的解说口播稿
豆瓣书评文本 → 将《最重要的事只有一件》书评转化为知识分享口播稿
油管财经音频 → 转录并生成带有反差对比修辞的财经口播稿

每种组合都能输出可直接使用的口播稿素材，一分钟口播稿建议 280-300 字，1500 字约对应五分钟视频时长。

模态转化思维与新赛道发现

这套工作流背后更重要的是一种思维方式：通过模态转化发现新的自媒体赛道。

音乐 MP3 → MV 可视化视频
书籍文本 → 抖音书评口播
财经播报文本 → 有表情、肢体语言的视频讲解
知乎优质回答 → 配图配乐的短视频
外文书籍 → 中文口播稿分享

在文本、音频、视频三种模态之间画连线，每一条连线就是一个潜在的新赛道。这套工作流提供的就是这种连线能力。

常见问题

Q：音频转录模块总是报错怎么办？
A：首先检查 Sleep 等待时间是否足够，建议设置 200 秒以上。其次确认音频文件是直链格式。如果是 Z-Library 等平台的文件，加载时间较长，可能需要多次重试。

Q：DeepSeek R1 生成的口播稿有幻觉怎么办？
A：这是风格化写作的正常现象。R1 会为了增强表达效果加入一些原文没有的元素。如果需要更准确的输出，可以将大模型替换为 GPT-4o，风格化稍弱但信息更准确。

Q：段落之间的衔接不够自然怎么办？
A：建议使用完整存储模式而非覆盖存储模式，让大模型能看到所有前文内容。同时检查第二分支的提示词中是否包含"根据前文结尾进行承上启下"的要求。

Q：火山引擎 DeepSeek R1 如何配置？
A：需要在火山引擎平台注册并创建接入点，获取 API Key。具体配置步骤可参考翔宇会员专栏中的手把手教程。注意模型名称使用的是接入点名称而非模型名称。

总结

这套多模态 Make 工作流打通了从文本、音频、视频到口播稿的完整链路。它不只是一个内容生成工具，更是一种新的内容创作方法论——通过模态转化，让你在不同形式的信息之间自由穿越，发现别人看不到的赛道机会。

结合上一期（第 24 期）的 AI 写作工作流，你甚至可以将多模态获取的素材直接生成图文赛道的爆款文章，进一步扩展应用范围。

下一期我们会探索微信公众号深度改写与 Medium 创收的玩法，敬请期待。

资源下载

AI 编程实操课：国内版-FlowUS | 国际版-BMC
YouTube 频道：翔宇工作流

AI 编程中文教程哪里找？10 大主流编程工具完整指南

学员实践：Animaker Dev 介绍

2026 RSS 订阅源大全：开源 1745 个源 + Claude Code 工作流