一个专门为GPT设计的爬虫脚本

Post author:zentorno
Post published:2023年12月12日
Post category:AI学习 / 搭建 / 教程
Post comments:1评论

在GPT的时代，你或许已经很熟悉创建个人知识库。但是对于网上的各种知识，一点一点复制粘贴也很麻烦。这个时候，一个专门为GPT设计的爬虫脚本就显得非常方便。它可以轻松爬取一个网站上的所有内容，把它存到一个文件里，然后上传到GPT问答机器人，30秒就能完成。以下教程默认为在GitHub上有部署的经验基础，搭建好了Node和Git环境。这篇文章简单介绍如何复刻Github上的项目：如何复刻github的项目和共享自己的项目 | 高治中的个人空间 (xinyixx.com)

今天要介绍的软件就是GPT crawler：GitHub – BuilderIO/gpt-crawler：抓取网站以生成知识文件，以便从 URL 创建自己的自定义 GPT，它的使用非常简单，也是开源免费的。在安装之前，需要确认电脑已经安装Node和Git。打开terminal，检查note和git的版本，如果版本过低或显示软件未安装，可以通过home brew进行安装。

安装GPT Crawler的步骤如下:

1. 在Github项目页面clone项目代码

2. CD进入项目目录，运行npm i安装Node依赖

3. 打开VS Code，找到config.ts文件，设置要爬取的网站URL

4. 设置要爬取的最大网页数量，保存文件

5. 命令行中运行npm start爬取网站

6. 等待爬取完成，项目目录下生成output.json文件

output.json就是我们的知识库了，比手动一个个页面复制要快得多，而且都有标题和链接方便查找。

同样的，我们也可以在Docker上部署。这是Docker上的readme：gpt-crawler/containerapp/README.md at main · BuilderIO/gpt-crawler · GitHub

最后，我们来创建GPT问答机器人，可以参考这篇costomGPT：如何在ChatGPT上创建customGPT | 高治中的个人空间 (xinyixx.com)，利用output.json构建知识库:

1. 在ChatGPT创建新GPT，上传output.json文件

2. 进行知识库索引，然后就可以开始问答了

3. 同样可以在Assistant页面创建助手，添加output.json文件

4. 测试助手，可以看到它从文件中检索知识回答问题

这样我们就轻松利用爬虫获取知识，并快速创建了专属GPT问答机器人。不需要一点一点手动整理知识，非常方便高效。

相比其他爬虫，GPT Crawler更加轻量和易用，直接生成GPT可用的JSON文件。它可以帮助我们访问更多互联网信息，实现个性化问答服务。在知识爆炸的时代，这样的工具无疑大大提高我们的知识获取效率。

标签: chatGPT

这篇文章有一个评论

第 Skapa personligt konto页 2026年5月13日回复
Thanks for sharing. I read many of your blog posts, cool, your blog is very good. https://www.binance.bh/fr/register?ref=T7KCZASX

你可能也喜欢

办公效率神器盘点：Excel、PPT、报表与可视化工具全攻略

OpenClaw 20大实战与部署使用场景

PromeAi

这篇文章有一个评论

发表回复 取消回复

发表回复取消回复