如何搭建专有的GPT知识库

这篇文章:一个专门为GPT设计的爬虫脚本 | 高治中的个人空间 (xinyixx.com)有的同学私信我说不清楚如何部署,我在这里补充说明一下。

首先在windows系统上安装node,软件安装地址:Node.js (nodejs.org),具体环境配置可以参考下面这个教程:Node.js下载安装及环境配置教程【超详细】_nodejs下载-CSDN博客

Git在windows系统的安装,可以参考这个教程:https://zhuanlan.zhihu.com/p/242540359

这两个教程已详细说明,按照上面教程配置完毕后可以通过命令查看安装的版本信息:

nmp -v
git -v
node -v

以管理员打开powershell或者cmd,通过命令:cd ‘你的gpt-clawer-main路径’,这里我的路径为:

 cd 'D:\Program Files\nodejs\gpt-crawler-main\gpt-crawler-main\' 

然后通过npn i,安装依赖,如下图所示:

等到进图条走完再次出现PS表示安装完成:

此时需要手动修改gpt-clawer-main路径下的config.ts内的代码。

修改URL和match的值即可,使其变为自己需要爬取的网站。maxpagestocrawl为最大爬取网页数,outputfilename为输出的文件名称,这里为.json格式。

然后在powershell内输入npm start,运行爬取程序,如下图所示:

根目录下面会有一个output.json的文件,我们可以用vscode打开。

从图中可以清晰看到文章的名称、链接等。

得到了这个文件下一步需要将它转换为自己的AI助手。

创建自定义 GPT

使用此选项可对生成的知识进行 UI 访问,以便轻松与他人共享

注意:您现在可能需要付费的 ChatGPT 计划才能创建和使用自定义 GPT,每月20美元

  • 选择“configure”
  • 在“knowledge”下,选择“upload files”并上传生成.json格式的文件
  • 如果收到有关文件过大的错误,可以尝试将其拆分为多个文件,并使用 config.ts 文件中的 maxFileSize 选项分别上传它们,或者使用 config.ts 文件中的 maxTokens 选项使用标记化来减小文件大小
  • 最后点击右上角“save”和“confirm”就获得了 这个网站的知识库,我们随时可以问它相关的问题

我尝试爬取自己的这个网站内容,询问了GPT如下的问题:

这样就实现了学以致用。同理我们可以爬取其他的网站。

下面说另外一种通过自定义助手的方式建设AI对话:Assistants – OpenAI API,设置如下所示:

有需要的小伙伴尝试一下吧。

发表回复