chrome扩展应用web scraper使用教程

Post author:zentorno
Post published:2023年7月21日
Post category:网络 / 软件
Post comments:1评论

有同学私信对于网页爬虫比较感兴趣，用python写又不怎么会，其他的爬虫软件又收费，那么有没有即免费又好用的爬虫应用呢？最近发现了一个chrome的扩展应用web scraper，这个直接在chrome浏览器里下载即可。google搜索：应用商店，或者直接打开下面这个连接：https://chrome.google.com/webstore/category/extensions?hl=zh-CN

添加到chrome浏览器即可。

然后我们打开我的网站，按下F12，在最后就能看到刚才安装的浏览器插件了，这里点击create new sitmap，然后添加一个名字和当前的页面链接，点击create sitemap如下图所示：

添加后需要add new selector，如下图所示：

点击后，这里需要注意了，这里需要爬取的文章目录。因为博客内的文章很多所以需要多选同类型的标签，勾选mulitple，type的类型选择链接，然后选择多个文章的标题，如下图所示：

点击done selecting，完成选择，得到如下的ID和selcetor。

再点击articles后进入下一层，如下图。同样需要add new selector：

这时候我们需要进入博客内的一个页面，设置一个Id为title，type为默认text，然后点击select，选择标题–最简单最有效-几秒捏实现AI换脸，然后点击Down selecting和save selector如下图所示。

然后增加一个发布时间选项，设置一个Id为time，type为默认text，然后点击select，选择时间-2023年7月21日，然后点击Down selecting和save selector如下图所示。

继续和上面一样，按照步骤设置一个Id为txt，type为默认text，然后点击select，选择整个文章，然后点击Down selecting和save selector如下图所示。

这样我们就得到了下图的结构：

这时候可以点击右侧的data preview，查看预爬取的内容，如下：

做到这一步只是，实现了第一页的文章采集，其实可以通过下图看出一共有11个文章页面，最后需要回到root，实现翻页爬取的效果。

这里需要设置一个Id为page，type为pagination，然后点击select，选择1和…，然后点击Down selecting和save selector如下图所示。

注意：这里需要编辑articles里的Parent Selectors，选择root和page，然后点击save selector，如下图，以便爬取所有的网页文章。

然后点击sitemap x521里的scrape等待爬取完毕，然后export data，导出为.xlsx格式的文件

这样就直接导出为表格，最后得到了所有的文章标题、发布时间和内容。

显然这个教程不如视频看起来直观，并且需要一定的html知识。操作上遇到困难的同学可以直接私信我。

标签: 网络, 软件

这篇文章有一个评论

第 Binance referal code页 2026年5月14日回复
Thank you for your sharing. I am worried that I lack creative ideas. It is your article that makes me full of hope. Thank you. But, I have a question, can you help me? https://www.binance.bh/cs/register?ref=OMM3XK51

你可能也喜欢

办公效率提高十倍！超级好用的办公网站推荐

HCIE学习之路4：FR帧中继实验

什么是obisdian？高效的 Obsidian 插件组合

这篇文章有一个评论

发表回复 取消回复

发表回复取消回复