Make 25. 全网首个多模态 Make 工作流,轻松从文本、音频或视频生成爆款口播稿

全网首个多模态 Make 工作流,支持从文本、音频或视频输入自动生成爆款口播稿。工作流整合 Whisper 语音转文字、GPT-4V 视频理解和 DeepSeek 文案生成三大能力,无论你的素材是什么形态都能一键转化为结构化脚本。教程涵盖多模态输入路由设计、音视频预处理配置、口播稿模板优化和 Notion 稿件管理,让内容创作不再受限于素材格式。

Make 25. 全网首个多模态 Make 工作流,轻松从文本、音频或视频生成爆款口播稿

引言

做自媒体最痛苦的事情是什么?不是没有选题,而是明明手里有大量的文本资料、播客音频、甚至高质量的视频素材,却始终无法高效地把它们转化成一篇能直接上提词器的口播稿。我自己在做抖音和 YouTube 内容的过程中,反复经历过这种"素材在手,开口犯愁"的困境。

我是翔宇。翔宇一直在想:不同格式的素材为什么不能统一处理?这套工作流就是解决这个问题的。

今天分享的这套 Make 工作流,是我目前在全网看到的第一个真正意义上的多模态口播稿生成方案。它支持文本、音频、视频三种素材输入,通过 Gemini 2.0 Flash 的多模态分析能力处理视频,Replicate 的高质量转录处理音频,再结合火山引擎 DeepSeek R1 的风格化写作能力,一键生成可以直接上镜的口播稿,全程自动保存到 Notion 知识库。

这套工作流不只是一个简单的"文本改写"工具。它的核心价值在于打通了从素材获取到成品输出的完整链路,让你从此不再被单一模态的信息茧房所限制。

你将学到

  • 如何在 Make 中搭建支持文本、音频、视频三种模态的路由分支结构
  • 利用 Gemini 2.0 Flash 对视频进行多模态深度分析并提取解说文稿
  • 通过 Replicate 平台实现长音频的高质量中文转录
  • 使用火山引擎 DeepSeek R1 进行风格化口播稿写作
  • Make 中 Data Store、Variable 与 Repeater 的组合使用技巧
  • 如何通过 Substring 函数对长文本进行智能段落切分
  • 利用路由条件实现第一段与后续段落的差异化提示词策略
  • 发现自媒体新赛道的模态转化思维方法

视频教程

本教程配套视频已发布在 YouTube,建议搭配视频一起学习效果更佳。

详细教程

工作流整体架构

整个工作流的核心思路是"三条输入链路,一条生成链路"。

在 Notion 数据库中,你只需要填入素材链接或文本内容,选择对应的状态(素材、音频、视频),设置写作风格和段落字数,把状态调到"开始",工作流就会自动运行。

三条输入链路分别处理:

  1. 文本链路:直接从 Notion 读取口播稿素材文本,通过 Set Variable 聚合为完整的长文本
  2. 音频链路:通过 HTTP 模块下载音频文件,调用 Replicate 平台的转录模型,等待处理完成后获取中文转录结果
  3. 视频链路:通过 HTTP 下载视频文件,上传至 Google Gemini AI 平台,利用 Gemini 2.0 Flash 多模态模型进行视频深度分析,输出完整的视频解读文稿

三条链路的输出统一存储到一个名为"口播稿素材"的 Variable 中,后续的生成链路从这个变量中读取,实现了输入与生成的解耦。

Notion 数据库配置

Notion 数据库的属性设置如下:

  • 标题:默认属性
  • 状态:单选属性,选项包括"开始素材""开始音频""开始视频""已完成"
  • 口播稿素材:文本属性,用于粘贴纯文本素材
  • 口播稿音频:文本属性,填入音频文件的直链 URL
  • 口播稿视频:文本属性,填入视频文件的直链 URL
  • 段落字数:文本属性,填入 500、800 或 1000
  • 写作风格:单选属性,填入目标大 V 或平台风格名称
  • 额外需求:文本属性,用于补充自定义提示词
  • 平台:单选属性,选择抖音、TikTok 或 Bilibili 等

这里有一个重要提示:一定要使用文本属性而非链接属性来存储 URL,避免格式校验导致的报错。

素材获取方法

对于 YouTube 视频,可以通过在线工具将视频下载为 MP3 格式。对于抖音视频,同样可以通过即刻下载等工具获取 MP4 或 MP3 文件。下载后,上传到支持直链的免费网盘(如 Linx),获取直链 URL 填入 Notion 即可。

直链的判断标准很简单:把链接粘贴到浏览器地址栏,如果直接开始下载文件,那就是直链。

音频转录模块搭建

音频转录使用的是 Replicate 平台上的一个高质量中文转录模型。这个模型的优势在于:

  • 支持超长音频(几十分钟不成问题)
  • 中文识别准确率高
  • 按使用付费,不使用不花钱
  • 处理速度快

在 Make 中通过 HTTP 模块调用 Replicate API,发送音频文件的直链 URL。由于转录是异步处理的,需要在请求后添加一个 Sleep 模块等待约 120-200 秒,然后通过第二个 HTTP 请求获取转录结果。

转录结果是一个包含多个文本片段的数组,需要通过 Map 函数提取 Text 字段,再用 Join 函数以换行符连接成完整的长文本。

视频多模态分析模块搭建

视频分析是这套工作流最大的亮点。流程分为三步:

  1. 下载视频:通过 HTTP Get a File 模块,使用 Notion 中存储的视频直链下载文件
  2. 上传至 Gemini:使用 Google Gemini AI 的 Upload a File 模块将视频上传,获取资源的唯一标识符(URI)
  3. 多模态分析:调用 Gemini 2.0 Flash 模型,在对话中同时传入文件 URI 和分析提示词

提示词要求模型按照时间轴对视频进行解说,输出完整的解说稿件,包含段落划分、叙事逻辑、去除广告内容等规范。

上传和分析之间需要一个 120 秒左右的等待时间,让 Gemini 完成视频的处理。

长文本段落切分与 Repeater 机制

这是整套工作流中技术含量最高的环节。核心问题是:大模型的单次输出长度有限(通常 400-500 字左右),但口播稿素材可能有几千甚至上万字。

解决方案是利用 Repeater(重复器)进行分段处理:

  1. 计算总文本长度,除以每段字数(500/800/1000),得出需要重复的次数
  2. Repeater 按次数循环,每次通过 Substring 函数截取对应位置的文本片段
  3. 将每个片段分别发送给 DeepSeek R1 生成口播稿

这里有一个关键的设计决策:第一段和后续段落使用不同的提示词。第一段没有前文参考,直接生成即可;第二段开始需要在提示词中加入前文内容,让模型根据前文的结尾进行承上启下的衔接,确保整篇口播稿的连贯性。

路由条件的设置很直观:当 Repeater 的 i 等于 1 时走第一分支,不等于 1 时走第二分支。

Data Store 的覆盖存储与完整存储

Data Store 在这套工作流中扮演着"中间缓存"的角色,用于在段落之间传递前文内容。

覆盖存储模式:每次只保存最新生成的段落内容。这样每次传给大模型的前文只有上一个段落,节省 Token 消耗,但上下文连贯性稍弱。

完整存储模式:每次将已有内容(从 Data Store 获取)与新生成内容拼接后保存。这样传给大模型的前文是从第一段到当前段的完整内容,连贯性更好,但 Token 消耗更大。

具体选择哪种模式取决于你的素材长度和预算。对于几千字的素材,完整存储模式的效果明显更好。

段落字数设置的讲究

段落字数参数(500/800/1000)直接影响口播稿的质量:

  • 素材很长(万字以上):建议设置 800-1000,让大模型对信息进行压缩和提炼,口播稿的信息密度更高
  • 素材较短(几百字):建议设置 500 以下,避免大模型过度扩充而引入不准确的内容
  • DeepSeek R1 的经验值:在翔宇的测试环境下,每段固定输出大约 400-500 字

核心原则是:输入字数大于输出字数时,模型做压缩提炼;输入字数小于输出字数时,模型做信息扩充。压缩通常比扩充更可靠。

最终保存到 Notion

所有段落生成完成后,工作流会从 Data Store 获取完整口播稿内容,通过 Notion 的 Create and Update 模块将其保存回原始数据库条目中。保存的内容包括每段的思考过程和口播稿正文,方便后期检查大模型是否正确识别了写作风格。

生成效果与实际案例

在实际测试中,这套工作流覆盖了多个赛道和模态的组合:

  • 抖音财经音频 → DeepSeek R1 以"小林说财经"风格生成口播稿,将"回升、繁荣、衰退、萧条"四阶段翻译为"春种、夏长、秋收、冬藏"
  • 新闻文本素材 → 将严肃的经济理论文章转化为抖音风格的通俗口播稿
  • 电影解说视频 → 从视频画面直接分析生成《落叶归根》的解说口播稿
  • 豆瓣书评文本 → 将《最重要的事只有一件》书评转化为知识分享口播稿
  • 油管财经音频 → 转录并生成带有反差对比修辞的财经口播稿

每种组合都能输出可直接使用的口播稿素材,一分钟口播稿建议 280-300 字,1500 字约对应五分钟视频时长。

模态转化思维与新赛道发现

这套工作流背后更重要的是一种思维方式:通过模态转化发现新的自媒体赛道。

  • 音乐 MP3 → MV 可视化视频
  • 书籍文本 → 抖音书评口播
  • 财经播报文本 → 有表情、肢体语言的视频讲解
  • 知乎优质回答 → 配图配乐的短视频
  • 外文书籍 → 中文口播稿分享

在文本、音频、视频三种模态之间画连线,每一条连线就是一个潜在的新赛道。这套工作流提供的就是这种连线能力。

延伸阅读

常见问题

Q:音频转录模块总是报错怎么办?
A:首先检查 Sleep 等待时间是否足够,建议设置 200 秒以上。其次确认音频文件是直链格式。如果是 Z-Library 等平台的文件,加载时间较长,可能需要多次重试。

Q:DeepSeek R1 生成的口播稿有幻觉怎么办?
A:这是风格化写作的正常现象。R1 会为了增强表达效果加入一些原文没有的元素。如果需要更准确的输出,可以将大模型替换为 GPT-4o,风格化稍弱但信息更准确。

Q:段落之间的衔接不够自然怎么办?
A:建议使用完整存储模式而非覆盖存储模式,让大模型能看到所有前文内容。同时检查第二分支的提示词中是否包含"根据前文结尾进行承上启下"的要求。

Q:火山引擎 DeepSeek R1 如何配置?
A:需要在火山引擎平台注册并创建接入点,获取 API Key。具体配置步骤可参考翔宇会员专栏中的手把手教程。注意模型名称使用的是接入点名称而非模型名称。

总结

这套多模态 Make 工作流打通了从文本、音频、视频到口播稿的完整链路。它不只是一个内容生成工具,更是一种新的内容创作方法论——通过模态转化,让你在不同形式的信息之间自由穿越,发现别人看不到的赛道机会。

结合上一期(第 24 期)的 AI 写作工作流,你甚至可以将多模态获取的素材直接生成图文赛道的爆款文章,进一步扩展应用范围。

下一期我们会探索微信公众号深度改写与 Medium 创收的玩法,敬请期待。

资源下载

订阅成功!请到邮箱查收确认链接。

订阅成功!请到邮箱查收确认链接。

订阅成功!请到邮箱查收确认链接。

订阅成功!请到邮箱查收确认链接。

操作成功。

操作已取消。