1.爬虫场景与需求
设计一个爬取数据的任务,目标是从某网站,获取到2022年到至今的304不锈钢的现货价格记录,从下载的excel中抽取字段和数据到数据表中。
1.1 确认设计流程
访问网页-选取材料类型-输入起始日期-输入结束日期-点击查询-下载excel-提取元素-存取excel表数据
1.2 爬虫流程设计
(1)创建爬虫任务
(2)打开网页
拖拽打开网页动作至设计看板,并录入访问网页的页面URL。
参考地址:https://www.exbxg.com/sjzx.jhtml
(3)选择材料类型
拖拽点击动作至设计看板,形成流程,并完善动作名称和点击路径。
路径获取方式:
①在对应网页上,按F12弹出开发者工具。
②点击选择和跟踪元素按钮(快捷键:Ctrl+Shift+C),并点击需要获取路径的元素,右侧窗口即可定位到对应元素。
③选择相应元素,右键复制-选择复制XPath或复制完整的XPath。
④将获取到的Xpath路径粘贴到爬虫动作的路径。
参考路径:/html/body/div[2]/div[2]/div[2]/ul/li[2]
(4)输入开始日期/结束日期
拖拽输入动作至设计看板,形成流程,并完善动作名称和点击路径。
开始日期参考路径:/html/body/div[2]/div[2]/div[3]/div[1]/div/input[1]
结束日期参考路径:/html/body/div[2]/div[2]/div[3]/div[1]/div/input[2]
注:此例使用了变量代替输入内容,详情可查看爬虫基础功能介绍部分。
(5)点击查询
拖拽点击动作至设计看板,形成流程,并完善动作名称和点击路径。
参考路径:/html/body/div[2]/div[2]/div[3]/div[2]/div[1]/button
(6)下载Excel文件动作
添加点击动作,设置点击路径,并开启“下载文件”。
(7)添加选取元素动作
添加选取元素动作,无需设置其他内容。
(8)存取数据动作
添加存取数据动作,将下载的excel数据写入到存储表中。
1.3 执行爬虫
(1)点击执行
(2)查看表数据
执行成功,点击完成,并查看表数据,和下载的excel文件数据进行对比,验证采集的字段和数据行没有缺漏,完成外部数据的爬取任务。