当前位置: 首页 > news >正文

[运维] 可视化爬虫易采集-EasySpider(笔记)

一、下载

​下载地址

下滑到Assets页面,选择下载
在这里插入图片描述

二、解压运

​解压压缩包,打开文件夹

在此文件夹下打开Linux Terimal, 并输入以下命令运行软件:
./easy-spider.sh
注意软件运行过程中不要关闭terminal。

三、使用

1.开始

首先点击【设计任务】,设计完成后才可以进行爬虫任务。

选择浏览器设计模式,根据爬取网站是否需要登陆来判断用哪个模式。不需要登陆选【纯净版浏览器设计】,需要登陆则选择【带用户信息浏览器设计】即可。

2.新建任务

​ 点击【创建新任务】->输入目标完整网址-点击【开始设计】

在这里插入图片描述

3.进入设计页面

设计页面包含两个窗口,流程设计界面:
在这里插入图片描述

目标网站,包含操作提示框:
在这里插入图片描述

设计完成后点击【保存任务】,关闭即可。

在这里插入图片描述

4.执行任务

点击【任务信息】

在这里插入图片描述

点击【调用任务】

在这里插入图片描述

点击【本地直接执行】,等待程序执行完成即可。

在这里插入图片描述

四、输出结果

爬取结果放在安装目录下的Data文件夹中:EasySpider_Linux_x64/Data,txt文件为程序运行日志,csv文件为爬取结果。

在这里插入图片描述

五、中国地震台网-案例

1.点击设计任务

在这里插入图片描述

2.纯净浏览器模式

在这里插入图片描述

3.创建任务

在这里插入图片描述

输入网址,点击【开始设计】
在这里插入图片描述

4.输入文字

右键选中元素,然后左键点击【输入文字】

在这里插入图片描述

输入值,点击确认:

在这里插入图片描述

5.设计流程变化

新增输入文字流程
在这里插入图片描述

6.点击链接

右键点击【查询】,左键点击【点击该链接】

在这里插入图片描述

7.选择采集数据

右键点击第一行第一列,然后点击第二行第二列。然后左键点击【选中全部】。

在这里插入图片描述

点击【采集数据】

在这里插入图片描述

8.翻页

右键点击翻页按钮,然后左键点击【点击该链接】

在这里插入图片描述

9.采集数据

在这里插入图片描述

10.设计流程图

得出的设计流程图,点击【保存任务】,随后运行即可。

在这里插入图片描述


文章转载自:
http://algebrist.dmyyro.cn
http://brushability.dmyyro.cn
http://aquiprata.dmyyro.cn
http://ai.dmyyro.cn
http://baboosh.dmyyro.cn
http://characterless.dmyyro.cn
http://behar.dmyyro.cn
http://breed.dmyyro.cn
http://chalcedony.dmyyro.cn
http://aga.dmyyro.cn
http://aerostat.dmyyro.cn
http://childish.dmyyro.cn
http://belize.dmyyro.cn
http://beachscape.dmyyro.cn
http://chewy.dmyyro.cn
http://agency.dmyyro.cn
http://breathed.dmyyro.cn
http://abdication.dmyyro.cn
http://cattegat.dmyyro.cn
http://anyhow.dmyyro.cn
http://cast.dmyyro.cn
http://chechia.dmyyro.cn
http://beatlemania.dmyyro.cn
http://athena.dmyyro.cn
http://bulletproof.dmyyro.cn
http://cathar.dmyyro.cn
http://charmeuse.dmyyro.cn
http://beamingly.dmyyro.cn
http://chlorinity.dmyyro.cn
http://acidosis.dmyyro.cn
http://www.dtcms.com/a/9548.html

相关文章:

  • CSS案例-2.简单版侧边栏练习
  • 通过dbeaver链接dm8数据库
  • redis优化token校验主动失效
  • 基于UDP的网络聊天室
  • rtt的io设备框架面向对象学习-内部调用流程
  • Linux相关命令(2)
  • jackson:JSON字符串(String)类型的成员序列化和反序列化
  • 【运维笔记】VM 记录一次centos虚拟机和宿主机之间ping不通的问题
  • 基于 HBase Phoenix 构建实时数仓(5)—— 用 Kafka Connect 做实时数据同步
  • 【Redis知识点总结】(七)——缓存雪崩、缓存穿透、缓存击穿、Redis高级用法
  • ReaLTaiizor开源.NET winform控件库学习使用
  • Redis 不再“开源”,对中国的影响及应对方案
  • docker仓库登录及配置insecure-registries的方法
  • python基础——数据容器总结、通用方法和相互转换
  • (一)Linux+Windows下安装ffmpeg
  • 【Golang星辰图】创造美丽图表,洞察数据:解析Go语言中的数据可视化和数据分析库
  • 一次完整的 HTTP 请求所经历的步骤
  • node.js中常用的命令及示例
  • 「Linux系列」Shell 流程控制if-else/for循环/While循环/until循环/case语句/跳出循环break、continue
  • How to install mongodb on redhat 7.7
  • 《论文阅读》带边界调整的联合约束学习用于情感原因对提取 ACL 2023
  • IDEA 下载依赖包源码报错 Cannot download sources Sources not found for:XXX
  • 云原生相关知识
  • HTML5+CSS3小实例:具有悬停效果的3D闪耀动画
  • 工业相机采图方式、图像格式(BYTE、HObject和Mat)转换
  • 【技术栈】Spring Cache 简化 Redis 缓存使用
  • 入门【网络安全/黑客】启蒙教程
  • 部署dagu_1.12.10+replicadb0.15.1+sqlline1.12
  • Grok-1:参数量最大的开源大语言模型
  • 基于Java+SpringMvc+vue+element实现上海汽车博物馆平台