学员实践:openbili AI 接入驾驶舱介绍
Calvin 是「翔宇工作流」的学员,方向是 AI 模型中转。他把这件事做成了独立站点「openbili」,覆盖 OpenAI SDK 兼容、模型路由、调用成本可见、失败可解释。本文将其介绍给关注同方向的读者。
用 Make.com 搭建科研文献自动化处理工作流。PDF 上传 Notion 后自动下载、PDF.co 转文本、ChatGPT 提取结构化元数据,通过 Router 分支生成通用文献总结和课题导向摘要两份报告并回填数据库。教程详解 Notion 知识库字段设计、toString 公式处理技巧和双提示词策略,适合研究生和科研工作者批量处理几十上百篇文献。
做科研最费时的环节之一就是文献阅读和总结。每篇论文都要手动下载 PDF,逐页阅读,提取元数据,写总结笔记,再针对自己的研究课题分析启示。处理十篇二十篇还能忍,等到文献综述阶段要梳理几十上百篇的时候,效率就成了瓶颈。
我是翔宇。翔宇在做深度研究项目时就遇过这个问题——一次要处理上百篇文献,手动总结根本来不及。这套工作流就是那段经历催生的。
本期教程,我来教你用 Make 搭建一套科研文献自动化工作流。整个流程是这样的:把 PDF 文献上传到 Notion 知识库 → 工作流自动下载 PDF → 提取文本 → ChatGPT 生成结构化元数据 → 通过定制提示词生成两份报告(通用文献总结 + 针对具体课题的文献摘要)→ 全部回填到 Notion。
这套方法适合研究生、博士生、科研工作者,也适合任何需要批量处理 PDF 文档并提取关键信息的场景——比如金融研报分析、产品文档整理、解决方案提炼等。
toString() 公式处理二进制数据的技巧本教程配套视频已发布在 YouTube,建议搭配视频一起学习效果更佳。
整个工作流分为两大部分:
第一部分:数据提取(4 个模块)
Notion 检索 → HTTP 下载 PDF → PDF.co 转文本 → ChatGPT 结构化提取元数据
第二部分:报告生成(Router 分两条分支)
Router 的两条分支会按顺序执行,先生成通用总结,再生成课题摘要,最终都保存到同一个 Notion 条目中。
在 Notion 中新建"科研论文库"数据库,属性设置:
| 属性名 | 类型 | 说明 |
|---|---|---|
| 标题 | Title | 论文标题 |
| 作者 | Text | 作者列表 |
| 摘要 | Text | 论文摘要 |
| 关键词 | Text | 关键词 |
| 期刊 | Text | 期刊名称 |
| DOI | Text | 数字对象标识符 |
| 网址 | URL | 论文链接 |
| 文件 | Files | PDF 文件上传 |
| 状态 | Select | 开始 / 已完成 |
| 分类 | Text | 研究方向(如"大语言模型") |
重点说一下"分类"字段。它不只是简单的标签,而是用来指导文献摘要的生成方向。比如填"大语言模型",工作流就会针对大语言模型方向分析这篇文献的启示和研究线索。如果填"大模型训练的新方法和理论",生成的摘要会更加聚焦。分类越精确,摘要越有针对性。
使用方法:新建条目 → 填写标题 → 上传 PDF 到文件字段 → 设置分类 → 状态改为"开始"。
模块 1:Notion Search Objects
配置检索条件:
你可以通过修改分类条件来切换处理的研究方向。比如同时有大语言模型和大数据两个方向的文献,只需改一下筛选值就能分批处理。把限制数改大(比如 10),一次运行就能批量处理一整个方向的所有文献。
模块 2:HTTP Get a File
URL 映射 Notion 条目中文件字段的链接,下载 PDF 到 Make 服务器。
这是本期介绍的新方法。以前我们用过网页截图 + 多模态识别(Make 视频 8),也用过 Kimi 的文件接口(Make 视频 7)。今天用 PDF.co 模块直接把 PDF 转为纯文本。
模块 3:PDF.co Convert from PDF
0-3(只提取前 3 页)为什么只取前 3 页?因为论文的摘要、引言和方法论概述通常在前几页,已经包含了核心信息。ChatGPT 的上下文窗口有限,不需要塞入整篇论文。3 页足够生成高质量的总结。
PDF.co 按页计费,新用户有免费额度。如果不想用 PDF.co,后续教程还会介绍 PDF 转 Markdown 等其他方案。
这里我用了 OpenAI 的"Transform Text to Structured Data"模块,和普通对话模块不同——你不需要写复杂的提示词来限定 JSON 格式,只需要定义数据结构即可。
模块 4:OpenAI Transform Text to Structured Data
toString(PDF.co 的 Data)注意这里有个关键点:PDF.co 输出的是二进制数据,需要用 toString() 函数转为字符串。这是一个容易踩坑的地方。
然后逐一定义数据结构参数:
| 参数名 | 描述 | 示例 |
|---|---|---|
| title | 翻译为中文的科研文献标题 | 大语言模型偏好优化的直接方法 |
| authors | 科研文献的作者列表 | Rafael Rafailov, et al. |
| abstract | 翻译为中文的摘要 | (中文摘要示例) |
| keywords | 提取中文关键词 | 大语言模型, 偏好优化 |
| journal | 期刊名称(无需翻译) | NeurIPS 2024 |
| doi | DOI 标识符 | 10.xxxx/xxxxx |
| url | 文献网址 | https://arxiv.org/... |
每个参数的 Required 建议设为 No,因为预印本论文可能缺少 DOI、期刊等信息,避免因缺失字段导致报错。
添加 Router 模块,创建两条分支。
模块 5:OpenAI Chat Completion
系统提示词定义为"科研文献总结助手",核心要求:
输出结构包括:文献基本信息、研究背景和目的、研究方法和实验设计、研究结果和关键发现、研究结论和意义。
User 消息:toString(PDF.co 的 Data),直接发送 PDF 文本内容。Max Tokens 设为 4000。
接下来用 Notion Update 模块把结构化元数据(标题、作者、摘要、DOI 等)回填到知识库条目,状态更新为"已完成"。再用 Notion Append 模块把文献总结追加到条目正文中。
模块 6:OpenAI Chat Completion
这条分支的提示词和分支一有本质区别。系统角色是"科研文献摘要撰写助手",目标是将文献内容转化为针对具体研究课题的启示和帮助线索。
输出结构包括:
User 消息的关键差异在于——要额外传入研究课题:
具体的研究课题为:{{Notion 条目的分类字段}}
科研文献内容:{{toString(PDF.co 的 Data)}}
这样 ChatGPT 就会结合你的课题方向来分析文献,产出的内容对开题报告、文献综述、研究方向探索都有直接帮助。
同样用 Notion Append 模块把摘要追加到条目正文中(排在通用总结之后)。
运行工作流后,回到 Notion 科研论文库:
在 Markdown 编辑器中打开可以看到完整的格式化效果——标题层级清晰、要点分明、启示和线索条理清楚。
Q: PDF.co 的免费额度有多少?
新注册用户有一定的免费额度(按页计费)。本教程只提取 3 页,消耗很少。如果你不想用 PDF.co,可以用 Kimi 的文件接口,或者等后续教程中介绍的 PDF 转 Markdown 方案。
Q: 提取 3 页够用吗?会不会丢失重要信息?
对于文献总结来说,论文的摘要、引言和方法论概述集中在前几页,已经涵盖了核心内容。如果你需要更详细的分析(比如实验数据、图表解读),可以把页数范围扩大到 0-10 甚至更多,相应增加 Max Tokens。
Q: "分类"字段怎么设才有效?
越具体越好。"大语言模型"是宽泛方向,生成的摘要会比较通用。"大语言模型训练中的偏好优化方法"就非常聚焦,生成的启示和线索也会更有针对性。建议根据你的开题方向或研究问题来设定。
Q: 能不能批量处理多篇文献?
可以。把所有待处理文献的状态都设为"开始",Notion 检索模块的限制数设为 10 或更大。Make 会遍历每条数据,逐一执行完整工作流。一次运行就能处理一整个方向的文献。
这期教程展示了科研文献处理的自动化方案:PDF 下载 → 文本提取 → 元数据结构化 → 双报告生成(通用总结 + 课题摘要)。Router 分支是关键设计——让一个工作流产出两种不同角度的分析。
这套架构的复用空间很大。把 PDF 换成金融研报,提示词改成投资分析角度,就能自动生成研报摘要。换成产品文档,就能提取功能亮点和应用场景。核心思路不变:数据提取 + 定制提示词 + 结构化保存。
每周精选 AI 编程与自动化实战内容,直达你的邮箱