一个专门为GPT设计的爬虫脚本

在GPT的时代,你或许已经很熟悉创建个人知识库。但是对于网上的各种知识,一点一点复制粘贴也很麻烦。这个时候,一个专门为GPT设计的爬虫脚本就显得非常方便。它可以轻松爬取一个网站上的所有内容,把它存到一个文件里,然后上传到GPT问答机器人,30秒就能完成。以下教程默认为在GitHub上有部署的经验基础,搭建好了Node和Git环境。这篇文章简单介绍如何复刻Github上的项目:如何复刻github的项目和共享自己的项目 | 高治中的个人空间 (xinyixx.com)

今天要介绍的软件就是GPT crawler:GitHub – BuilderIO/gpt-crawler:抓取网站以生成知识文件,以便从 URL 创建自己的自定义 GPT,它的使用非常简单,也是开源免费的。在安装之前,需要确认电脑已经安装Node和Git。打开terminal,检查note和git的版本,如果版本过低或显示软件未安装,可以通过home brew进行安装。

安装GPT Crawler的步骤如下:

1. 在Github项目页面clone项目代码

2. CD进入项目目录,运行npm i安装Node依赖

3. 打开VS Code,找到config.ts文件,设置要爬取的网站URL

4. 设置要爬取的最大网页数量,保存文件

5. 命令行中运行npm start爬取网站

6. 等待爬取完成,项目目录下生成output.json文件

output.json就是我们的知识库了,比手动一个个页面复制要快得多,而且都有标题和链接方便查找。

同样的,我们也可以在Docker上部署。这是Docker上的readme:gpt-crawler/containerapp/README.md at main · BuilderIO/gpt-crawler · GitHub

最后,我们来创建GPT问答机器人,可以参考这篇costomGPT:如何在ChatGPT上创建customGPT | 高治中的个人空间 (xinyixx.com),利用output.json构建知识库:

1. 在ChatGPT创建新GPT,上传output.json文件

2. 进行知识库索引,然后就可以开始问答了

3. 同样可以在Assistant页面创建助手,添加output.json文件

4. 测试助手,可以看到它从文件中检索知识回答问题

这样我们就轻松利用爬虫获取知识,并快速创建了专属GPT问答机器人。不需要一点一点手动整理知识,非常方便高效。

相比其他爬虫,GPT Crawler更加轻量和易用,直接生成GPT可用的JSON文件。它可以帮助我们访问更多互联网信息,实现个性化问答服务。在知识爆炸的时代,这样的工具无疑大大提高我们的知识获取效率。

发表回复