爬虫实例-爬取外部数据(从下载的excel中提取数据)

来源: | 作者:佚名 | 发布时间: 2024-04-02 | 1210 次浏览 | 分享到:

1.爬虫场景与需求

设计一个爬取数据的任务，目标是从某网站，获取到2022年到至今的304不锈钢的现货价格记录，从下载的excel中抽取字段和数据到数据表中。

1.1 确认设计流程

访问网页-选取材料类型-输入起始日期-输入结束日期-点击查询-下载excel-提取元素-存取excel表数据

1.2 爬虫流程设计

（1）创建爬虫任务

（2）打开网页

拖拽打开网页动作至设计看板，并录入访问网页的页面URL。

参考地址：https://www.exbxg.com/sjzx.jhtml

（3）选择材料类型

拖拽点击动作至设计看板，形成流程，并完善动作名称和点击路径。

路径获取方式：

①在对应网页上，按F12弹出开发者工具。

②点击选择和跟踪元素按钮（快捷键：Ctrl+Shift+C），并点击需要获取路径的元素，右侧窗口即可定位到对应元素。

③选择相应元素，右键复制-选择复制XPath或复制完整的XPath。

④将获取到的Xpath路径粘贴到爬虫动作的路径。

参考路径：/html/body/div[2]/div[2]/div[2]/ul/li[2]

（4）输入开始日期/结束日期

拖拽输入动作至设计看板，形成流程，并完善动作名称和点击路径。

开始日期参考路径：/html/body/div[2]/div[2]/div[3]/div[1]/div/input[1]

结束日期参考路径：/html/body/div[2]/div[2]/div[3]/div[1]/div/input[2]

注：此例使用了变量代替输入内容，详情可查看爬虫基础功能介绍部分。

（5）点击查询

拖拽点击动作至设计看板，形成流程，并完善动作名称和点击路径。

参考路径：/html/body/div[2]/div[2]/div[3]/div[2]/div[1]/button

（6）下载Excel文件动作

添加点击动作，设置点击路径，并开启“下载文件”。

（7）添加选取元素动作

添加选取元素动作，无需设置其他内容。

（8）存取数据动作

添加存取数据动作，将下载的excel数据写入到存储表中。

1.3 执行爬虫

（1）点击执行

（2）查看表数据

执行成功，点击完成，并查看表数据，和下载的excel文件数据进行对比，验证采集的字段和数据行没有缺漏，完成外部数据的爬取任务。