chrome扩展应用web scraper使用教程

有同学私信对于网页爬虫比较感兴趣,用python写又不怎么会,其他的爬虫软件又收费,那么有没有即免费又好用的爬虫应用呢?最近发现了一个chrome的扩展应用web scraper,这个直接在chrome浏览器里下载即可。google搜索:应用商店,或者直接打开下面这个连接:https://chrome.google.com/webstore/category/extensions?hl=zh-CN

添加到chrome浏览器即可。

然后我们打开我的网站,按下F12,在最后就能看到刚才安装的浏览器插件了,这里点击create new sitmap,然后添加一个名字和当前的页面链接,点击create sitemap如下图所示:

添加后需要add new selector,如下图所示:

点击后,这里需要注意了,这里需要爬取的文章目录。因为博客内的文章很多所以需要多选同类型的标签,勾选mulitple,type的类型选择链接,然后选择多个文章的标题,如下图所示:

点击done selecting,完成选择,得到如下的ID和selcetor。

再点击articles后进入下一层,如下图。同样需要add new selector:

这时候我们需要进入博客内的一个页面,设置一个Id为title,type为默认text,然后点击select,选择标题–最简单最有效-几秒捏实现AI换脸,然后点击Down selecting和save selector如下图所示。

然后增加一个发布时间选项,设置一个Id为time,type为默认text,然后点击select,选择时间-2023年7月21日,然后点击Down selecting和save selector如下图所示。

继续和上面一样,按照步骤设置一个Id为txt,type为默认text,然后点击select,选择整个文章,然后点击Down selecting和save selector如下图所示。

这样我们就得到了下图的结构:

这时候可以点击右侧的data preview,查看预爬取的内容,如下:

做到这一步只是,实现了第一页的文章采集,其实可以通过下图看出一共有11个文章页面,最后需要回到root,实现翻页爬取的效果。

这里需要设置一个Id为page,type为pagination,然后点击select,选择1和…,然后点击Down selecting和save selector如下图所示。

注意:这里需要编辑articles里的Parent Selectors,选择root和page,然后点击save selector,如下图,以便爬取所有的网页文章。

然后点击sitemap x521里的scrape等待爬取完毕,然后export data,导出为.xlsx格式的文件

这样就直接导出为表格,最后得到了所有的文章标题、发布时间和内容。

显然这个教程不如视频看起来直观,并且需要一定的html知识。操作上遇到困难的同学可以直接私信我。

发表回复