AI 编程中文教程哪里找?10 大主流编程工具完整指南
AI 编程中文教程到底去哪学?翔宇过去一年被问过不下一百次——中文圈整体性地缺一份不滞后、不机翻、有判断密度的工具中文手册。所以翔宇干脆动手做了 aiworkflowtutorials.com,免费在线阅读,10 大主流 AI 编程工具的 588 篇中文文档,事实层+解读层两层架构,浏览器打开即看。
全网首个多模态 Make 工作流,支持从文本、音频或视频输入自动生成爆款口播稿。工作流整合 Whisper 语音转文字、GPT-4V 视频理解和 DeepSeek 文案生成三大能力,无论你的素材是什么形态都能一键转化为结构化脚本。教程涵盖多模态输入路由设计、音视频预处理配置、口播稿模板优化和 Notion 稿件管理,让内容创作不再受限于素材格式。
做自媒体最痛苦的事情是什么?不是没有选题,而是明明手里有大量的文本资料、播客音频、甚至高质量的视频素材,却始终无法高效地把它们转化成一篇能直接上提词器的口播稿。我自己在做抖音和 YouTube 内容的过程中,反复经历过这种"素材在手,开口犯愁"的困境。
我是翔宇。翔宇一直在想:不同格式的素材为什么不能统一处理?这套工作流就是解决这个问题的。
今天分享的这套 Make 工作流,是我目前在全网看到的第一个真正意义上的多模态口播稿生成方案。它支持文本、音频、视频三种素材输入,通过 Gemini 2.0 Flash 的多模态分析能力处理视频,Replicate 的高质量转录处理音频,再结合火山引擎 DeepSeek R1 的风格化写作能力,一键生成可以直接上镜的口播稿,全程自动保存到 Notion 知识库。
这套工作流不只是一个简单的"文本改写"工具。它的核心价值在于打通了从素材获取到成品输出的完整链路,让你从此不再被单一模态的信息茧房所限制。
本教程配套视频已发布在 YouTube,建议搭配视频一起学习效果更佳。
整个工作流的核心思路是"三条输入链路,一条生成链路"。
在 Notion 数据库中,你只需要填入素材链接或文本内容,选择对应的状态(素材、音频、视频),设置写作风格和段落字数,把状态调到"开始",工作流就会自动运行。
三条输入链路分别处理:
三条链路的输出统一存储到一个名为"口播稿素材"的 Variable 中,后续的生成链路从这个变量中读取,实现了输入与生成的解耦。
Notion 数据库的属性设置如下:
这里有一个重要提示:一定要使用文本属性而非链接属性来存储 URL,避免格式校验导致的报错。
对于 YouTube 视频,可以通过在线工具将视频下载为 MP3 格式。对于抖音视频,同样可以通过即刻下载等工具获取 MP4 或 MP3 文件。下载后,上传到支持直链的免费网盘(如 Linx),获取直链 URL 填入 Notion 即可。
直链的判断标准很简单:把链接粘贴到浏览器地址栏,如果直接开始下载文件,那就是直链。
音频转录使用的是 Replicate 平台上的一个高质量中文转录模型。这个模型的优势在于:
在 Make 中通过 HTTP 模块调用 Replicate API,发送音频文件的直链 URL。由于转录是异步处理的,需要在请求后添加一个 Sleep 模块等待约 120-200 秒,然后通过第二个 HTTP 请求获取转录结果。
转录结果是一个包含多个文本片段的数组,需要通过 Map 函数提取 Text 字段,再用 Join 函数以换行符连接成完整的长文本。
视频分析是这套工作流最大的亮点。流程分为三步:
提示词要求模型按照时间轴对视频进行解说,输出完整的解说稿件,包含段落划分、叙事逻辑、去除广告内容等规范。
上传和分析之间需要一个 120 秒左右的等待时间,让 Gemini 完成视频的处理。
这是整套工作流中技术含量最高的环节。核心问题是:大模型的单次输出长度有限(通常 400-500 字左右),但口播稿素材可能有几千甚至上万字。
解决方案是利用 Repeater(重复器)进行分段处理:
这里有一个关键的设计决策:第一段和后续段落使用不同的提示词。第一段没有前文参考,直接生成即可;第二段开始需要在提示词中加入前文内容,让模型根据前文的结尾进行承上启下的衔接,确保整篇口播稿的连贯性。
路由条件的设置很直观:当 Repeater 的 i 等于 1 时走第一分支,不等于 1 时走第二分支。
Data Store 在这套工作流中扮演着"中间缓存"的角色,用于在段落之间传递前文内容。
覆盖存储模式:每次只保存最新生成的段落内容。这样每次传给大模型的前文只有上一个段落,节省 Token 消耗,但上下文连贯性稍弱。
完整存储模式:每次将已有内容(从 Data Store 获取)与新生成内容拼接后保存。这样传给大模型的前文是从第一段到当前段的完整内容,连贯性更好,但 Token 消耗更大。
具体选择哪种模式取决于你的素材长度和预算。对于几千字的素材,完整存储模式的效果明显更好。
段落字数参数(500/800/1000)直接影响口播稿的质量:
核心原则是:输入字数大于输出字数时,模型做压缩提炼;输入字数小于输出字数时,模型做信息扩充。压缩通常比扩充更可靠。
所有段落生成完成后,工作流会从 Data Store 获取完整口播稿内容,通过 Notion 的 Create and Update 模块将其保存回原始数据库条目中。保存的内容包括每段的思考过程和口播稿正文,方便后期检查大模型是否正确识别了写作风格。
在实际测试中,这套工作流覆盖了多个赛道和模态的组合:
每种组合都能输出可直接使用的口播稿素材,一分钟口播稿建议 280-300 字,1500 字约对应五分钟视频时长。
这套工作流背后更重要的是一种思维方式:通过模态转化发现新的自媒体赛道。
在文本、音频、视频三种模态之间画连线,每一条连线就是一个潜在的新赛道。这套工作流提供的就是这种连线能力。
Q:音频转录模块总是报错怎么办?
A:首先检查 Sleep 等待时间是否足够,建议设置 200 秒以上。其次确认音频文件是直链格式。如果是 Z-Library 等平台的文件,加载时间较长,可能需要多次重试。
Q:DeepSeek R1 生成的口播稿有幻觉怎么办?
A:这是风格化写作的正常现象。R1 会为了增强表达效果加入一些原文没有的元素。如果需要更准确的输出,可以将大模型替换为 GPT-4o,风格化稍弱但信息更准确。
Q:段落之间的衔接不够自然怎么办?
A:建议使用完整存储模式而非覆盖存储模式,让大模型能看到所有前文内容。同时检查第二分支的提示词中是否包含"根据前文结尾进行承上启下"的要求。
Q:火山引擎 DeepSeek R1 如何配置?
A:需要在火山引擎平台注册并创建接入点,获取 API Key。具体配置步骤可参考翔宇会员专栏中的手把手教程。注意模型名称使用的是接入点名称而非模型名称。
这套多模态 Make 工作流打通了从文本、音频、视频到口播稿的完整链路。它不只是一个内容生成工具,更是一种新的内容创作方法论——通过模态转化,让你在不同形式的信息之间自由穿越,发现别人看不到的赛道机会。
结合上一期(第 24 期)的 AI 写作工作流,你甚至可以将多模态获取的素材直接生成图文赛道的爆款文章,进一步扩展应用范围。
下一期我们会探索微信公众号深度改写与 Medium 创收的玩法,敬请期待。
每周精选 AI 编程与自动化实战内容,直达你的邮箱