spider – 心一信息

如何搭建专有的GPT知识库

Post author:zentorno
Post published:2024年1月4日
Post category:AI学习
Post comments:1评论

这篇文章：一个专门为GPT设计的爬虫脚本 | 高治中的个人空间 (xinyixx.com)有的同学私信我说不清楚如何部署，我在这里补充说明一下。首先在windows系统上安装node，软件安装地址：Node.js (nodejs.org)，具体环境配置可以参考下面这个教程：Node.js下载安装及环境配置教程【超详细】_nodejs下载-CSDN博客。 Git在windows系统的安装，可以参考这个教程：https://zhuanlan.zhi…

继续阅读

python程序2：网页爬虫

Post author:zentorno
Post published:2023年5月28日
Post category:教程编程软件
Post comments:1评论

网页爬虫是一种程序，它可以模拟人类浏览器的行为，向目标网站发送请求，获取网页内容，再通过解析网页内容提取有用信息。这个过程就像我们在浏览器中打开一个网页，然后查看网页的内容一样。

为了实现这个过程，我们需要使用一些工具。其中一个常用的工具是 requests 模块。这个模块可以帮助我们发送 HTTP 请求，并且自动处理连接池、认证、Cookies 等方面的细节。我们可以使用这个模块发送 GET、POST、PUT、DELETE 等请求，并且可以自定义请求头、请求体等信息。

举个例子，如果我们想要从一个电商网站上爬取商品信息，我们可以使用 requests 模块向这个网站发送请求，获取网页内容。然后，我们可以使用一些技术（比如正则表达式或者解析库）来解析网页内容，提取出我们需要的商品信息（比如商品名称、价格、评价等等）。最后，我们可以将这些信息保存到本地文件或者数据库中，以便后续分析和使用。

总之，网页爬虫和 requests 模块是实现网页爬取的两个重要工具。它们可以帮助我们获取网页内容，并且提取有用信息。

（更多…）

继续阅读