1.爬虫管理
1.1 爬虫主界面
1.2 文件夹管理
默认包含一个主文件夹,可自行增加文件夹。(文件夹之间没有上下级关系)
1.3 任务管理
增加任务:添加爬虫任务/自动化测试任务到指定文件夹中。
复制任务:复制选中的任务到当前文件夹中。
导出任务:导出并下载选中的任务到指定的路径。
导入任务:导入任务文本文件到指定文件夹中。
显示日志:查看当前任务的执行情况和截图。
2.爬虫设计
2.1 爬虫流程设计
通过拖动控件到面板,完成任务流程的爬取逻辑设计。
(1)拖动控件
每个控件功能不一样,需要拖动,做逻辑连接。
构建逻辑:拖动到面板上。
控件之间的逻辑
拖动一个新的控件,覆盖到面板的控件上,当有蓝色框后,就松开左键。
按照数据的采集步骤构建控件逻辑。
(2)填写控件信息
2.2 爬虫控件设置
(1)打开网页
输入需要访问的网页页面地址。
(2)循环动作
根据循环逻辑,选择需要的循环方式、执行类型,并录入循环路径。
设置完成后,将需要循环的动作拖拽到循环动作框中。
(3)选取元素
设置步骤,根据需要选择采集数据的类型,并设置采集路径。
注:以下三个开关,其他动作也可通用,根据实际情况自行选择是否启用。
调试暂停:调试暂停如果开启,运行到此任务节点时将暂停不往下执行,暂停期间关闭将继续往下执行。
禁用:开启将跳过执行此动作,执行下一个动作。
失败中断:开启后,如果此动作执行失败,将中断整个任务的执行。默认开启。
(4)存储元素
设置采集数据的存储表,如表不存在,采集数据时会自动新建。创建的表在BI支撑库所在连接下的powerbiexcel_1数据库内。
(5)点击操作
点击页面元素的操作。
如需做双击动作,可录入二次点击路径,路径和点击路径一致。
需跟随新页面时,可开启跟随新页面。
(6)输入操作
输入文本到指定路径的文本框中,并可设置输入完成后是否回车。
(7)验证码动作
针对实际的验证码类型进行对应的设置。
注:验证码平台类型仅支持超级鹰,如需使用验证码动作,请根据以下操作步骤完成超级鹰平台注册和BI参数设置。
①注册用户
进入超级鹰官网http://www.chaojiying.com注册用户。
关注公众号会赠送部分账户题分可用于测试。
每种验证码类型扣分明细如下https://www.chaojiying.com/price.html
②录入用户信息
从超级鹰用户中心-软件ID页获取软件ID和软件KEY。
进入系统管理-系统配置-系统管理-爬虫设置页面,在超级鹰平台信息设置窗口录入用户信息,完成验证码动作参数配置。
(8)断言动作
常用于数据准确性验证,判断采集内容和期望值是否相同。
确认需要采集的数据类型,并设置断言取值路径、运算符和期望值。
如执行时实际值和期望值不一致,会弹出错误,提示断言失败。
(9)删除动作
需要删除的动作,并点击删除动作按钮,可将该动作从设计面板上移除。
(10)添加变量
如果是直接在输入内容上填写日期,则就相当于把日期给写成固定的了,在现实的应用场景中,一般都是查询动态时间范围的数据,日期都是会跟随时间的变化而发生自动改变的,这时就需要引入BI中的变量。
①新增变量
前往etl设置界面,点击变量管理并添加,设置变量信息后点击保存,计算变量确保设置符合实际需求。
②新增变量
在需要使用变量的输入动作,将变量录入到输入路径中,格式为?变量名?
2.3 爬虫任务执行
(1)开始执行
完成爬虫任务的设计后,并设置了数据采集的存储表,可点击开始执行,系统会根据设置的爬取流程进行作业。
如提示出错中断,请根据日志中提示的对应任务进行自检。
(2)查看表
任务执行完成后,可点击查看表,查看抽取的数据情况。
(3)结束执行
如需中断爬虫任务的执行,点击结束执行,并点击中断,并弹出执行日志。