爬虫实例-爬取外部数据(循环动作)

双击此处添加文字

奥威BI帮助文档

爬虫实例-爬取外部数据(循环动作)

来源: | 作者:佚名 | 发布时间: 2024-03-28 | 1855 次浏览 | 🔊 点击朗读正文 ❚❚ ▶ | 分享到:

1.爬虫场景与需求

设计一个爬取数据的任务，目标是从某网站，获取到2022年304不锈钢的现货价格记录。

1.1 确认设计流程

访问网页-选取材料类型-输入起始日期-输入结束日期-点击查询-获取表头（数据类型）-获取表列数据-翻页（循环）直至每页的数据抽取完成

1.2 爬虫流程设计

（1）创建爬虫任务

（2）打开网页

拖拽打开网页动作至设计看板，并录入访问网页的页面URL。

参考地址：https://www.exbxg.com/sjzx.jhtml

（3）选择材料类型

拖拽点击动作至设计看板，形成流程，并完善动作名称和点击路径。

路径获取方式：

①在对应网页上，按F12弹出开发者工具。

②点击选择和跟踪元素按钮（快捷键：Ctrl+Shift+C），并点击需要获取路径的元素，右侧窗口即可定位到对应元素。

③选择相应元素，右键复制-选择复制XPath或复制完整的XPath。

④将获取到的Xpath路径粘贴到爬虫动作的路径。

参考路径：/html/body/div[2]/div[2]/div[2]/ul/li[2]

（4）输入开始日期/结束日期

拖拽输入动作至设计看板，形成流程，并完善动作名称和点击路径。

开始日期参考路径：/html/body/div[2]/div[2]/div[3]/div[1]/div/input[1]

结束日期参考路径：/html/body/div[2]/div[2]/div[3]/div[1]/div/input[2]

（5）点击查询

拖拽点击动作至设计看板，形成流程，并完善动作名称和点击路径。

参考路径：/html/body/div[2]/div[2]/div[3]/div[2]/div[1]/button

（6）设置循环动作

添加循环动作，循环类型设置为翻页点击循环，下一页的翻页路径来源如图所示。

根据来源代码中属性的类别和其名称，添加后缀[contains(@class,"next")]

参考路径：//*[@id="pagination"]/a[contains(@class,"next")]

（7）获取表头和数据

添加选取元素动作至循环动作内，获取表头和数据，采集路径需要进行加工，并调整字段类型。

表头：将采集路径中的后缀”[数字]“移除掉，收集类型选择fields。

参考路径：//*[@id='tablelist']/thead/tr/th

数据：将采集路径中的tr和td的后缀”[数字]“均移除掉，收集类型选择tabeltext。

参考路径：//*[@id='tablelist']/tbody/tr/td

（8）存取数据动作

添加存取数据动作至循环动作内，将采集的数据写入到存储表中。

1.3 执行爬虫

（1）点击执行

（2）查看表数据

执行成功，点击完成，并查看表数据，验证循环次数符合实际页数，采集的数据行和列没有缺漏，完成外部数据的循环爬取任务。