Make 3. Jina Reader API 实操:如何利用 Make 自动采集 OpenAI 官网新闻

用 Make.com、Jina Reader API 和 ChatGPT 搭建全自动网页内容采集系统。通过 RSS 获取更新链接,Jina Reader 抓取网页全文去除 HTML 标签输出纯文本,ChatGPT 自动翻译标题并生成中文新闻快报,最终保存到 Notion 知识库。解决 RSS 无法获取全文的痛点,适合追踪 AI 行业动态的研究者和资讯运营者。

Make 3. Jina Reader API 实操:如何利用 Make 自动采集 OpenAI 官网新闻

引言

RSS 订阅源能告诉你有新文章了,但大多数时候只给标题和摘要,拿不到全文。如果你想把某个网站的新闻完整采集下来,自动翻译、生成摘要、存进 Notion 知识库呢?

我是翔宇。在本期教程中,我以 OpenAI 官网新闻页面为例,教你用 Make.com + Jina Reader API + ChatGPT 搭建一套全自动网页内容采集系统。它的核心能力是:通过 RSS 获取更新链接 → Jina Reader 抓取网页全文(去掉 HTML 标签,输出纯文本)→ ChatGPT 翻译标题并生成中文快报 → 保存到 Notion。

这套工作流解决了 RSS 无法获取全文的痛点,适合需要追踪特定网站更新的研究者、资讯运营者和内容创作者。

你将学到

  • 如何用 RSS.app 将任意网页转化为 RSS 订阅源
  • 如何使用 Jina Reader API 将网页链接转为纯文本
  • 如何在 Make.com 中配置 HTTP 模块调用 Jina Reader
  • 如何用 ChatGPT 模块自动翻译标题并生成新闻快报
  • 如何将采集结果(标题、快报、封面、全文)写入 Notion 知识库

视频教程

本教程配套视频已发布在 YouTube,建议搭配视频一起学习效果更佳。

详细教程

第一步:创建 Notion 新闻知识库

打开 Notion,新建表格页面,命名为"OpenAI 新闻库"。设置以下属性字段:

字段名 类型 用途
标题 Title 新闻标题(翻译后的中文)
新闻内容 Text ChatGPT 生成的中文快报
发布时间 Date 新闻发布时间
更新时间 Date 条目更新时间
新闻发布时间 Date 原文发布时间
封面 Files & Media 新闻封面图
链接 URL 原文链接

第二步:将 OpenAI 新闻页面转为 RSS

OpenAI 的新闻页面是一个 Blog 列表——每个缩略图对应一篇新闻。这种页面结构和 RSS 很像,可以转化为 RSS 格式来采集。

我使用 RSS.app 来完成转化。这是一个付费服务(不到 10 美元/月),但互联网上有很多免费替代工具,大家可以根据需求选择。

操作步骤:用 Google 账号登录 RSS.app → 点击新建 → 粘贴 OpenAI 新闻页面的 URL → 点击生成 → 复制生成的 RSS 地址。

另一种思路:也可以通过网站的 Sitemap 找到所有页面链接再采集,但今天我们用 RSS 方式更简单。

第三步:在 Make.com 中配置 RSS 模块

创建新场景,命名为"OpenAI 新闻采集"。

添加 RSS 模块,选择「Watch RSS Feed Items」,粘贴刚才生成的 RSS 地址,数量设为 5。运行一次查看输出。

RSS 输出包含标题、简要摘要、网址和发布时间。但没有全文内容——这正是我们需要 Jina Reader 的原因。

第四步:配置 Jina Reader API 获取网页全文

Jina Reader 是一个把原始网页链接转为大语言模型友好文本的工具。它会去掉 HTML 标签和无用符号,输出干净的纯文本。

Jina Reader 网站上配置参数:

参数 设置 说明
模式 读取模式(非搜索模式) 获取网页文本而非搜索结果
API Key 免费申请 提高使用效率
图片格式 URL 格式返回 图片以链接形式输出
缓存 关闭(绕过缓存) 每次重新采集最新内容

使用方式很简单:在 https://r.jina.ai/ 后面拼接目标网址即可。

回到 Make.com,添加 HTTP 模块,选择「Make a Request」。

URL 配置:https://r.jina.ai/ + RSS 模块输出的链接字段(动态拼接,每条新闻自动替换)。

Headers 配置:

  • Authorization:Bearer + 你的 Jina API Key
  • X-No-Cache:true

Content Type 选择 Raw,其他保持默认。

第五步:运行 HTTP 模块查看采集结果

运行 HTTP 模块,5 条 RSS 数据会分别通过 Jina Reader 获取全文。

打开 Output → Data,可以看到完整的网页文本。Jina Reader 的输出非常干净——去掉了所有 HTML 标签和无用符号,纯文本格式。这种格式不管是存入 Notion 还是发给 ChatGPT 处理都很合适,因为不会浪费 Token 在无意义的标签上。

这也解决了 RSS 只有摘要没有全文的问题。有了 Jina Reader,任何网页链接都能获取完整内容。

第六步:用 ChatGPT 生成中文快报

添加 OpenAI 模块,选择对话模块。模型选 GPT-3.5(够用且省 Token)。

提示词:

你是一个资深新闻编辑,你负责将我发送给你的新闻内容整理为少于500字的中文快报。
新闻快报要求:简洁明了、客观介绍、抓住关键点、提供读者可带走的观点。
我提供的新闻标题为:{RSS模块的标题}
我提供的新闻内容为:{HTTP模块返回的全文Content}
请按照以下JSON格式输出:
{ "新闻标题": "<标题的中文翻译>", "新闻快报": "<新闻快报全文>" }
输出完整JSON格式之后,避免在结尾添加任何额外信息与符号。

把两个占位符分别替换为 RSS 模块的 Title 和 HTTP 模块的 Content 字段。

为了节省 Token,测试时可以右键模块选择「Run this module only」,只处理一条数据验证效果。

第七步:保存到 Notion 知识库

添加 Notion 模块,选择「Create a Database Item」。搜索"OpenAI 新闻库"。

字段映射:

  • 标题 → ChatGPT 输出的「新闻标题」
  • 封面 → 图片地址
  • 发布时间 → RSS 模块的发布时间
  • 新闻内容 → ChatGPT 输出的「新闻快报」

如果 Notion 模块无法正常映射字段,关闭弹窗后重新打开,刷新数据即可。Make.com 有时需要重新加载模块数据。

再添加一个 Notion 模块「Append Page Content」,Database ID 选择上一个模块创建的条目 ID。添加 Paragraph,Text 选择 HTTP 模块的 Content(Jina Reader 的全文输出),把完整原文也保存下来方便后续检索。

第八步:运行完整工作流

点击运行,整个流程:RSS 获取 5 条最新链接 → Jina Reader 抓取每条全文 → ChatGPT 翻译标题并生成快报 → Notion 创建条目并附加全文。

回到 Notion 查看结果:每条新闻都有中文标题、500 字快报、封面图、原文链接以及完整正文。切换到画廊视图,封面展示效果很好。

延伸阅读

常见问题

Q:RSS.app 是收费的,有免费替代品吗?
有很多。搜索"URL to RSS"可以找到不少免费工具。只要能把网页转成标准 RSS 格式,都可以替代。

Q:Notion 连接失效、搜索不到数据库怎么办?
每个第三方服务对 Notion 的授权都有时间限制。隔一段时间可能需要重新连接。在 Make.com 中重新创建 Notion 连接,重新授权即可。

Q:Jina Reader 是免费的吗?
Jina Reader 提供免费 API 额度。注册账号后可以获得更高的使用限额。对于个人使用场景,免费额度通常够用。

总结

在本期教程中,我们搭建了一套 RSS + Jina Reader + ChatGPT + Notion 的全自动网页采集系统。核心流程是:RSS 监控更新 → Jina Reader 获取全文 → ChatGPT 翻译和摘要 → Notion 存储。

Jina Reader 解决了 RSS 无法获取全文的痛点。它把网页内容转为干净的纯文本,省 Token、易处理。这个能力不仅适用于新闻采集,任何需要抓取网页内容的场景都可以用。

这三期 Make 基础教程到这里告一段落。接下来的教程会介绍更多实战场景——小红书自动化、Notion 数据库自动关联、播客自动化等。

资源下载

订阅成功!请到邮箱查收确认链接。

订阅成功!请到邮箱查收确认链接。

订阅成功!请到邮箱查收确认链接。

订阅成功!请到邮箱查收确认链接。

操作成功。

操作已取消。