当前位置: 首页 > news >正文

[运维] 可视化爬虫易采集-EasySpider(笔记)

一、下载

​下载地址

下滑到Assets页面,选择下载
在这里插入图片描述

二、解压运

​解压压缩包,打开文件夹

在此文件夹下打开Linux Terimal, 并输入以下命令运行软件:
./easy-spider.sh
注意软件运行过程中不要关闭terminal。

三、使用

1.开始

首先点击【设计任务】,设计完成后才可以进行爬虫任务。

选择浏览器设计模式,根据爬取网站是否需要登陆来判断用哪个模式。不需要登陆选【纯净版浏览器设计】,需要登陆则选择【带用户信息浏览器设计】即可。

2.新建任务

​ 点击【创建新任务】->输入目标完整网址-点击【开始设计】

在这里插入图片描述

3.进入设计页面

设计页面包含两个窗口,流程设计界面:
在这里插入图片描述

目标网站,包含操作提示框:
在这里插入图片描述

设计完成后点击【保存任务】,关闭即可。

在这里插入图片描述

4.执行任务

点击【任务信息】

在这里插入图片描述

点击【调用任务】

在这里插入图片描述

点击【本地直接执行】,等待程序执行完成即可。

在这里插入图片描述

四、输出结果

爬取结果放在安装目录下的Data文件夹中:EasySpider_Linux_x64/Data,txt文件为程序运行日志,csv文件为爬取结果。

在这里插入图片描述

五、中国地震台网-案例

1.点击设计任务

在这里插入图片描述

2.纯净浏览器模式

在这里插入图片描述

3.创建任务

在这里插入图片描述

输入网址,点击【开始设计】
在这里插入图片描述

4.输入文字

右键选中元素,然后左键点击【输入文字】

在这里插入图片描述

输入值,点击确认:

在这里插入图片描述

5.设计流程变化

新增输入文字流程
在这里插入图片描述

6.点击链接

右键点击【查询】,左键点击【点击该链接】

在这里插入图片描述

7.选择采集数据

右键点击第一行第一列,然后点击第二行第二列。然后左键点击【选中全部】。

在这里插入图片描述

点击【采集数据】

在这里插入图片描述

8.翻页

右键点击翻页按钮,然后左键点击【点击该链接】

在这里插入图片描述

9.采集数据

在这里插入图片描述

10.设计流程图

得出的设计流程图,点击【保存任务】,随后运行即可。

在这里插入图片描述

相关文章:

  • CSS案例-2.简单版侧边栏练习
  • 通过dbeaver链接dm8数据库
  • redis优化token校验主动失效
  • 基于UDP的网络聊天室
  • rtt的io设备框架面向对象学习-内部调用流程
  • Linux相关命令(2)
  • jackson:JSON字符串(String)类型的成员序列化和反序列化
  • 【运维笔记】VM 记录一次centos虚拟机和宿主机之间ping不通的问题
  • 基于 HBase Phoenix 构建实时数仓(5)—— 用 Kafka Connect 做实时数据同步
  • 【Redis知识点总结】(七)——缓存雪崩、缓存穿透、缓存击穿、Redis高级用法
  • ReaLTaiizor开源.NET winform控件库学习使用
  • Redis 不再“开源”,对中国的影响及应对方案
  • docker仓库登录及配置insecure-registries的方法
  • python基础——数据容器总结、通用方法和相互转换
  • (一)Linux+Windows下安装ffmpeg
  • 【Golang星辰图】创造美丽图表,洞察数据:解析Go语言中的数据可视化和数据分析库
  • 一次完整的 HTTP 请求所经历的步骤
  • node.js中常用的命令及示例
  • 「Linux系列」Shell 流程控制if-else/for循环/While循环/until循环/case语句/跳出循环break、continue
  • How to install mongodb on redhat 7.7
  • 湖南省职业病防治院通报3岁女童确诊“铊中毒”:去年病例,编辑误写为“近日”
  • 上海“世行对标改革”的税务样本:设立全国首个税务审判庭、制定首个税务行政复议简易程序
  • 悬疑推理联合书单|虫神山事件
  • 前4个月我国货物贸易进出口同比增长2.4%,增速较一季度加快1.1个百分点
  • 牛市早报|国家发改委:今年将推出约3万亿元优质项目,支持民营企业参与
  • 港理大研究揭示:塑胶废物潜藏微生物群落或引发生态危机