1.概述
1.1 爬虫是什么
用自动化程序把网页数据放到本地,同时能将网络中非结构化数据转化为结构化数据。
过程:向浏览器发送请求(打开网页获取网页代码)---> 提取有用的数据--->存放于数据库或文件中。
1.2 能抓到什么样的数据
网页文本:如 HTML 文档, Ajax加载的 Json 格式文本等;
图片,视频等:可以获取到二进制文件,保存为图片或视频的格式;
1.3 怎么用爬虫
简单来说就是在网页上设定需要获取哪些信息和加上一些操作步骤比翻页。
一句话:把手动操作的步骤固定在爬虫页面步骤上。
1.4 流程图
2.操作步骤
2.1 爬虫界面
2.2 文件夹与文件管理
目前没有二级目录:
2.3 任务管理
移动任务:可以拖动任务到其他文件夹内
2.4 控件操作
爬取逻辑的设置,主要是拖动控件操作
(1)拖动控件
每个控件功能不一样,需要拖动,做逻辑连接。
构建逻辑:
拖动到面板上
控件之间的逻辑
拖动一个新的控件,覆盖到面板的控件上,当有蓝色框后,就松开左键
按照采集步骤构建控件逻辑
(2)填写控件信息
2.5 控件设置
(1)打开网页
可以手动输入多个链接,或者从数据库获取链接
(2)循环翻页
过滤规则:
url:整串url判断,或者url包含的参数,满足则进行爬取内容
Databasedata: 目前过滤数据库保存的时间是否满足爬取的内容
Webelement: 页面元素是否满足存在或满足其他要求
并发数要求:是点击后产生新当页面或者是有多个链接循环时设置才生效
(3)选取元素
注意特殊格式的采集
等待时间:是在抓取数据前的等待时间
(4)存储元素
(5)点击操作
点击页面元素的操作,会自动跟随新开页面
(6)删除
删除控件—选择控件,点击删除
(7)查看表
查看该账户历史存储数据的表
(8)结束
终止爬虫