简介
做爬虫很久了,一直愁于如何来实现一个通配的工具,可以让所有人都可以使用爬虫来批量获取自己想要的数据。
难点:
- 新人对页面元素汲取(Xpath和Jsoup的语法不是很清楚)
- 碰到需要滚动下拉和点击换页的站点,新人感觉到乏力
那么今天我要介绍的这款chrome插件很好的帮助新人来实现一个简单的爬虫,你要做的仅仅是几个普通的配置。
webscraper
使用我们的扩展程序,您可以创建一个计划(站点地图)如何遍历网站以及应该提取的内容。 使用这些站点地图,Web Scraper将相应地导航站点并提取所有数据。 爬取结果的数据可以导出为CSV。
webscraper安装教程
webscraper是一个Chrome插件,Chrome插件下载链接。
附上一个离线下载的Chrome插件如何在Chrome中安装的教程:
怎么在谷歌浏览器中安装.crx扩展名的离线Chrome插件?
创建一个站点爬虫
创建站点地图时需要做的第一件事是指定起始网址。 这是从其开始的URL。 如果从多个地方开始爬取,也可以指定多个起始网址。 例如,如果要分别爬取多个搜索结果,则可以为每个搜索结果创建一个单独的起始网址。
创建动态的站点起始URL
在网站使用页面网址编号的情况下,创建范围启动网址要比创建链接选择器来导航网站要简单得多。 要使用范围定义 - [1-100]指定范围网址替换起始网址的数字部分。 如果网站在网址中使用零填充,则将零填充添加到范围定义 - [001-100]。 如果你想跳过一些url,那么你也可以指定这样的增量[0-100:10]。
比如:
http://example.com/page/[1-3]这样的配置会得到:
比如:
http://example.com/page/[001-100]这样的配置会得到:
比如:
http://example.com/page/[0-100:10]这样的配置会得到:
创建抽取器Selectors
比如如下一个新闻网站:

解释: 首先通过 Link selector 获取当前页面下的link,然后每个link下都配置一个Text selector,这样就可以得到新闻的url链接 和 新闻的标题。
实例展示
安装好插件后,打开chrome 控制台:
选择Web Scrapy菜单,即可开始你的表演。

树形结构的理解

红色区域包裹的是父节点 Element,然后每个Element又包含Title 和 Description。
树形图如下:
爬取结果展示:

可以导出文件到Excel