不写代码的爬虫

简介

做爬虫很久了，一直愁于如何来实现一个通配的工具，可以让所有人都可以使用爬虫来批量获取自己想要的数据。
难点：

新人对页面元素汲取（Xpath和Jsoup的语法不是很清楚）
碰到需要滚动下拉和点击换页的站点，新人感觉到乏力

那么今天我要介绍的这款chrome插件很好的帮助新人来实现一个简单的爬虫，你要做的仅仅是几个普通的配置。

webscraper

使用我们的扩展程序，您可以创建一个计划（站点地图）如何遍历网站以及应该提取的内容。使用这些站点地图，Web Scraper将相应地导航站点并提取所有数据。爬取结果的数据可以导出为CSV。

webscraper安装教程

webscraper是一个Chrome插件，Chrome插件下载链接。
附上一个离线下载的Chrome插件如何在Chrome中安装的教程：
怎么在谷歌浏览器中安装.crx扩展名的离线Chrome插件？

创建一个站点爬虫

创建站点地图时需要做的第一件事是指定起始网址。这是从其开始的URL。如果从多个地方开始爬取，也可以指定多个起始网址。例如，如果要分别爬取多个搜索结果，则可以为每个搜索结果创建一个单独的起始网址。

创建动态的站点起始URL

在网站使用页面网址编号的情况下，创建范围启动网址要比创建链接选择器来导航网站要简单得多。要使用范围定义 - [1-100]指定范围网址替换起始网址的数字部分。如果网站在网址中使用零填充，则将零填充添加到范围定义 - [001-100]。如果你想跳过一些url，那么你也可以指定这样的增量[0-100：10]。
比如：
http://example.com/page/[1-3]这样的配置会得到：

比如：
http://example.com/page/[001-100]这样的配置会得到：

比如：
http://example.com/page/[0-100:10]这样的配置会得到：