RAG 知识库副业月入过万？n8n 实操

Q: 知识变现的两个时代？

在搭建工作流之前，先聊一下为什么要做 RAG 知识库。 1.0 时代：卖资料。 淘宝上到处都是行业报告合集，几块钱几十块钱一份。问题在于：知识产权风险高（报告来自大机构），内容容易被复制（买家直接转卖），附加值低（整理再辛苦也卖不上价），没有行业壁垒。 2.0 时代：卖知识库服务。 把这些行业报告进行 RAG 化处理，存入向量数据库。用户付费后不是拿到文档本身，而是获得知识库的访问权限，通过对话界面直接提问获取答案。好处是：准确性高（基于真实文档而非大模型编造），内容独特（竞争对手无法遍历你的向量库复制），一次制作有壁垒，结合 AI 附加值高。 打个比方：1.0 是卖菜谱，用户还得自己翻、自己理解；2.0 是请了个私厨，用户说一句话就能上菜。

Q: RAG 系统原理？

RAG（Retrieval-Augmented Generation，检索增强生成）的核心流程分两步： 文档处理阶段：把各种格式的文档（PDF、Word、Excel、PPT、图片等）进行分块，通过 Embedding 模型将每个文本块转化为向量（比如 1536 维的数字数组），存入 Pinecone 等向量数据库。 知识检索阶段：用户提问时，问题文本同样转化为向量，通过向量相似度计算在数据库中找到最相关的文本块（Top K），把这些文本块作为上下文发送给大模型，大模型基于这些真实资料生成回答。 向量检索的优势在于语义理解——搜索"全格式文件"能匹配到包含"全格式文档"的内容，因为"文件"和"文档"在向量空间中距离很近。这是传统关键词检索做不到的。

引言

上一期我拆解了 n8n 自动化副业系统，核心是"用工作流交付结果"。这一期我要把这个思路往前推一步——不再交付一次性的处理结果，而是交付一个持续可用的知识库访问权限。

我是翔宇。在做这期内容之前，我一直在想一个问题：淘宝上那些卖行业报告的店铺，销量动辄几千单，说明需求是真实存在的。但这个模式有个致命问题——你辛辛苦苦整理的几百份 PDF，买家拿到后复制一份就能低价转卖，你根本没有壁垒。

所以我提出了"知识变现 2.0"的概念：不卖文档，卖知识库服务。用户付费后获得一个登录账号，在 n8n 原生的对话界面里直接提问，AI 从你精心构建的向量数据库中检索答案。内容独特、不易复制、附加值高。这期视频就是完整的搭建教程。

你将学到

RAG（检索增强生成）系统的核心原理与向量检索机制
如何用 n8n 搭建支持 20+ 格式的全自动文档处理工作流
Pinecone 向量数据库的接入与索引管理
Unstructured API 实现 Office/PDF/HTML 等全格式解析
多模态图片信息提取（表格、手写体、扫描件）
基于时间订阅的付费密码校验系统
构建上下文检索式问答系统（LangChain + MultiQuery Retriever）
知识变现 1.0 vs 2.0 的商业模式对比

视频教程

本教程配套视频已发布在 YouTube，建议搭配视频一起学习效果更佳。

详细教程

知识变现的两个时代

在搭建工作流之前，先聊一下为什么要做 RAG 知识库。

1.0 时代：卖资料。 淘宝上到处都是行业报告合集，几块钱几十块钱一份。问题在于：知识产权风险高（报告来自大机构），内容容易被复制（买家直接转卖），附加值低（整理再辛苦也卖不上价），没有行业壁垒。

2.0 时代：卖知识库服务。 把这些行业报告进行 RAG 化处理，存入向量数据库。用户付费后不是拿到文档本身，而是获得知识库的访问权限，通过对话界面直接提问获取答案。好处是：准确性高（基于真实文档而非大模型编造），内容独特（竞争对手无法遍历你的向量库复制），一次制作有壁垒，结合 AI 附加值高。

打个比方：1.0 是卖菜谱，用户还得自己翻、自己理解；2.0 是请了个私厨，用户说一句话就能上菜。

RAG 系统原理

RAG（Retrieval-Augmented Generation，检索增强生成）的核心流程分两步：

文档处理阶段：把各种格式的文档（PDF、Word、Excel、PPT、图片等）进行分块，通过 Embedding 模型将每个文本块转化为向量（比如 1536 维的数字数组），存入 Pinecone 等向量数据库。

知识检索阶段：用户提问时，问题文本同样转化为向量，通过向量相似度计算在数据库中找到最相关的文本块（Top K），把这些文本块作为上下文发送给大模型，大模型基于这些真实资料生成回答。

向量检索的优势在于语义理解——搜索"全格式文件"能匹配到包含"全格式文档"的内容，因为"文件"和"文档"在向量空间中距离很近。这是传统关键词检索做不到的。

第一步：配置表单与任务路由

在 n8n 中新建工作流，添加 Form Trigger 节点。表单包含三个字段：

类型：Dropdown 下拉菜单，选项为"纯文本""PDF 文档""图片""Office"，对应四条处理链路。
文件上传：File 类型，支持多文件批量上传。
文本内容：TextArea 类型，用于直接粘贴纯文本。

表单提交后，添加 Switch 节点根据用户选择的类型进行路由分发。四条分支分别处理不同格式的文档。

第二步：四条格式处理链路

纯文本链路：将文本通过 ConvertToFile 转为文件格式，经 Default Data Loader 加载，再用 Recursive Character Text Splitter 进行分块，最后通过 Embeddings OpenAI 生成向量并存入 Pinecone。

PDF 链路：用 Merge 节点聚合多个 PDF 文件，通过 n8n 内置的 LangChain 框架进行分块嵌入，遍历存入 Pinecone 的 PDF 专属索引。

Office 全格式链路：调用 Unstructured API 进行文档解析。Unstructured 支持 20+ 格式（Word、Excel、PPT、HTML、EPUB、RTF 等），支持三种解析模式——Fast（纯文本快速提取）、High Resolution（OCR + 布局分析）、VLM（视觉模型处理手写体和扫描件）。解析后同样分块嵌入到向量数据库。

图片链路：通过 Google Gemini 大模型的多模态能力，提取图片中的视觉元素、文字、表格结构化数据，转为 Markdown 格式后存入向量数据库。我测试了包含复杂表格的图片，提取准确率相当高。

第三步：构建问答对话系统

文档处理完成后，搭建检索式问答系统。使用 Chat Trigger 节点创建对话界面，后端通过 MultiQuery Retriever + Vector Store Retriever + ChainRetrievalQA 构建问答链路。用户提问时，系统从 Pinecone 中检索相关文本块，作为上下文传给大模型生成回答。

我用法律领域做了测试——上传了劳动合同法全文和广东省诉讼费标准表（Excel）。问"员工辞职需要提前多久通知公司"，系统精准定位到第 37 条返回答案；问"诉讼费怎么收费"，系统从 Excel 表格中提取出费率数据。十几个文档处理后生成了 448 个向量块，检索速度毫秒级。

第四步：付费订阅系统

这次的密码系统和上一期不同——不按次数计费，而是按时间订阅（按日/月/年）。用户输入购买密码后，工作流自动校验是否在有效期内，验证通过后自动生成知识库的登录账号和密码，用户凭此直接访问对话界面。

全格式支持与分块策略

我提出的分块方式是按页数切块——因为很多人在写文档时会把一个完整的内容放在一页里，按页分块能保持内容的完整性。Unstructured 还支持按标题、按相似度、按 Token 数等多种分块逻辑，以及跨页分块、块间重叠等高级参数，你可以根据文档特点灵活调整。

效果展示

这套工作流构建了一个从文档上传到智能问答的完整 RAG 系统：

全格式批量处理：支持 PDF、Word、Excel、PPT、HTML、TXT、Markdown、EPUB、图片等 20+ 格式，一次上传十几个不同格式的文档，几分钟内完成分块嵌入。

高精度检索问答：基于 Pinecone 向量数据库和 LangChain 检索链，实现语义级别的知识检索。测试结果中，法律条文定位准确，Excel 表格数据提取正确，图片中的结构化信息也能被检索到。

多模态处理能力：通过 Gemini 多模态模型，能从复杂图片中提取表格数据、文字信息和结构化内容，并存入向量数据库供后续检索。

动态路由扩展：Switch 路由架构支持随时添加新的文档格式处理分支，无需改动现有工作流。

付费订阅闭环：集成时间订阅制密码校验，用户付费后自动获取知识库登录凭证，支持按日/月/年灵活设置订阅周期。

常见问题

Q：Pinecone 免费额度够用吗？
A：Pinecone 免费版提供的存储和查询量对于中小规模知识库完全够用。我测试的十几个文档生成了 448 个向量块，远没有触及免费额度上限。如果规模很大，可以考虑升级付费计划。

Q：Unstructured API 收费吗？
A：Unstructured 提供免费额度，日常测试和小规模使用足够。如果是企业级大批量文档处理，需要购买付费计划。

Q：知识库里的内容会不会被用户复制走？
A：这就是 RAG 模式的核心优势——用户只能通过对话获取特定问题的回答，无法遍历你底层的 448 个甚至上千个向量块把原始文档全部还原出来。相比直接发文档，壁垒高得多。

Q：适合哪些行业？
A：任何有大量专业文档沉淀的领域都适合。法律（法规条文、判例库）、金融（行业报告、审计标准）、医疗（临床指南、药品说明书）、教育（课题组资料、教材）、科研（论文库、实验数据），甚至企业内部的知识管理都是好的方向。

总结

这期我从"知识变现 2.0"的商业逻辑出发，完整搭建了一套终极 RAG 系统——全格式支持、批量高效处理、多模态信息提取、语义级检索问答、付费订阅闭环。核心思路就是：不卖资料卖服务，用 RAG 把你的行业知识变成一个持续产生价值的产品。

n8n 的无限制执行次数让批量处理毫无压力，Pinecone 的专业向量检索保证了查询速度和精度。如果你在某个垂直领域有深度积累，这套系统就是你把知识转化为收入的基础设施。下一期我会带来 n8n + MCP 实操指南，教你把任意工作流接入大模型生态。

资源下载

AI 编程实操课：国内版-FlowUS | 国际版-BMC
n8n 官网：n8n.io
YouTube 频道：翔宇工作流

📚 更多一人公司内容：如果你想系统化了解怎么用 AI Agent 搭建一人公司并实现创收，这篇指南串联了全部教程：一人公司 AI 创收指南：一个人指挥 AI Agent，产出抵一个团队。

📚 更多知识库内容：AI 知识库构建指南

📚 更多 n8n 自动化内容：n8n 自动化工作流完全指南

Hermes Skill 自我进化系统：让 AI 助手越用越聪明

循环工程 Loop Engineering 指南：一个 Skill 解决终止条件设计难题

用 Hermes Agent 搭建跨平台 AI 消息助手：一个 Agent 同时管 Telegram + Discord + 微信

n8n 30. n8n RAG 全自动知识库副业工作流，轻松月入过万？

引言