双击此处添加文字
爬虫基础功能介绍
来源: | 作者:佚名 | 发布时间: 2024-03-26 | 538 次浏览 | 分享到:

1.爬虫管理
1.1  爬虫主界面

1.2  文件夹管理

    默认包含一个主文件夹,可自行增加文件夹。(文件夹之间没有上下级关系)

1.3  任务管理

    增加任务:添加爬虫任务/自动化测试任务到指定文件夹中。

    复制任务:复制选中的任务到当前文件夹中。

    导出任务:导出并下载选中的任务到指定的路径。

    导入任务:导入任务文本文件到指定文件夹中。

    显示日志:查看当前任务的执行情况和截图。


2.爬虫设计


2.1 爬虫流程设计


    通过拖动控件到面板,完成任务流程的爬取逻辑设计。

    (1)拖动控件

    每个控件功能不一样,需要拖动,做逻辑连接。

    构建逻辑:拖动到面板上。

    控件之间的逻辑

    拖动一个新的控件,覆盖到面板的控件上,当有蓝色框后,就松开左键。

    按照数据的采集步骤构建控件逻辑。

    (2)填写控件信息

2.2  爬虫控件设置

    (1)打开网页

    输入需要访问的网页页面地址。

    (2)循环动作

    根据循环逻辑,选择需要的循环方式、执行类型,并录入循环路径。

    设置完成后,将需要循环的动作拖拽到循环动作框中。

    (3)选取元素

    设置步骤,根据需要选择采集数据的类型,并设置采集路径。

    注:以下三个开关,其他动作也可通用,根据实际情况自行选择是否启用。

    调试暂停:调试暂停如果开启,运行到此任务节点时将暂停不往下执行,暂停期间关闭将继续往下执行。

    禁用:开启将跳过执行此动作,执行下一个动作。

    失败中断:开启后,如果此动作执行失败,将中断整个任务的执行。默认开启。


    (4)存储元素

    设置采集数据的存储表,如表不存在,采集数据时会自动新建。创建的表在BI支撑库所在连接下的powerbiexcel_1数据库内。

    (5)点击操作

    点击页面元素的操作。

    如需做双击动作,可录入二次点击路径,路径和点击路径一致。

    需跟随新页面时,可开启跟随新页面。

    (6)输入操作

    输入文本到指定路径的文本框中,并可设置输入完成后是否回车。

    (7)验证码动作

    针对实际的验证码类型进行对应的设置。

    注:验证码平台类型仅支持超级鹰,如需使用验证码动作,请根据以下操作步骤成超级鹰平台注册和BI参数设置。

    ①注册用户

    进入超级鹰官网http://www.chaojiying.com注册用户。

    关注公众号会赠送部分账户题分可用于测试。

    每种验证码类型扣分明细如下https://www.chaojiying.com/price.html

②录入用户信息

    从超级鹰用户中心-软件ID页获取软件ID和软件KEY。

    进入系统管理-系统配置-系统管理-爬虫设置页面,在超级鹰平台信息设置窗口录入用户信息,完成验证码动作参数配置。

    (8)断言动作

    常用于数据准确性验证,判断采集内容和期望值是否相同。

    确认需要采集的数据类型,并设置断言取值路径、运算符和期望值。

    如执行时实际值和期望值不一致,会弹出错误,提示断言失败。

    (9)删除动作

    需要删除的动作,并点击删除动作按钮,可将该动作从设计面板上移除。

    (10)添加变量

    如果是直接在输入内容上填写日期,则就相当于把日期给写成固定的了,在现实的应用场景中,一般都是查询动态时间范围的数据,日期都是会跟随时间的变化而发生自动改变的,这时就需要引入BI中的变量。

    ①新增变量

    前往etl设置界面,点击变量管理并添加,设置变量信息后点击保存,计算变量确保设置符合实际需求。





    ②新增变量

    在需要使用变量的输入动作,将变量录入到输入路径中,格式为?变量名?


2.3  爬虫任务执行

    (1)开始执行

    完成爬虫任务的设计后,并设置了数据采集的存储表,可点击开始执行,系统会根据设置的爬取流程进行作业。

    如提示出错中断,请根据日志中提示的对应任务进行自检。

    (2)查看表

    任务执行完成后,可点击查看表,查看抽取的数据情况。

    (3)结束执行

    如需中断爬虫任务的执行,点击结束执行,并点击中断,并弹出执行日志。