Gooseeker,亦叫集搜客。
我少量数据抓取时的首选爬虫软件!
目前,我接触过的爬虫工具包括:火车头、Gooseeker、八爪鱼、神箭手。
少量数据采集一般用Gooseeker,大量数据采集用火车头,另外两款工具使用得比较少。
这篇文章重点结合我抓取拉钩上产品经理职位的实例,说一下Gooseeker的使用。
使用前说明
Gooseeker,一般适用少量数据的抓取。
免费版,每条规则可以采集10000条数据,并不支持iP代理,这也注定了基本上很难使用其进行大量数据的采集。
前期准备
1.注册Gooseeker账号
注册地址:https://www.gooseeker.com/register_default.html
2.下载Gooseeker软件
下载地址:
https://www.gooseeker.com/pro/product.html
3.学习Gooseeker软件知识
教程:
https://www.gooseeker.com/tuto/tutorial.html
设置一级规则
1.进入采集页,选择好要采集下的状态
2.设置名称,标记内容
3.设置好样例映射
4.设置好翻页
5.设置好下级线索
6.测试
7.保存规则
设置二级规则
这里需要注意二级规则的名称需要与一级规则设置的下级线索一致。
设置并启动爬虫
直接设置好相关内容,然后启动爬虫即可。
数据导出
这里直接导出了二级线索的数据。
数据整理
如果涉及到多个表格的合并则需要用到Excel的VLOOKUP函数。
语法为:
=VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)
以上就是整个Gooseeker的使用过程,将数据整理后,可以放入BDP进行数据的分析,这里就不不展开叙述了。
PS:整个过程写得比较糟,算是记录一个整个事情,并未想写出一个教程性的文章,Gooseeker我是好几年的用户了,记录一下最近的一个操作。
赶紧存下来