当前位置: 首页 > news >正文

采集需要登录网站的教程

有些网站需要用户登录才能显示相关信息,如果要采集这类网站,有以下几个方法:

    1. 写发布模块来抓包获取post的数据;

    2. 有些采集器内置浏览器获取这些信息,但是经常获取的不准确,可靠性太低;

    3. 获取到登录后网站cookie ,用采集器模拟用户登录来采集;

简数采集器使用第3种方法,操作相对简单,可靠性高。

详细步骤如下:

 一、获取登录网站后的cookie方法

方式1---最简单的方法是通过现代浏览器来获取,以chrome为例:

1. F12或右键检查进入开发者模式界面;

2. 点击NetWork,F5重新加载页面;

3. 选择对应页面名称的html文件;

4. 获取cookie;

方式2---还可以使用fiddler工具来进行抓取

fiddler是介于客户端和服务器端的HTTP代理,也是常用的http抓包工具之一 。 它可以记录下客户端和服务器之间的所有HTTP请求,也可以针对指定的HTTP请求,进分析请求数据、设置断点、修改请求的数据,甚至还可以修改服务器返回的数据,功能十分强大,是网站调试的得力助手。

fiddler官网下载: Download Fiddler Web Debugging Tool for Free by Telerik

下载安装完成后,按照以下流程来操作:(本文章是基于Fiddler 4版本)

1.  右侧显示页面中先选择Inspectors栏;

        

2. 由于左侧显示页面已有许多访问网站的信息,我们接下先清空一下,方便接下来寻找指定的网页;

可以用快捷键ctrl+x或者在左侧显示页面右键Remove------>>all sessions;

            

           

3.  接下来登陆上需要抓取cookie的网站或者刷新已经登录的网页,就可以在左侧显示栏轻松找到网站的Host(网站域名)+ URL,以我这个

例子,选取的就是这一条,注意URL内容是斜杠 /  的那一条信息;

             

4. 右边显示栏选择raw栏,这时能看到获取的cookie了;

          

5. 为了获取完整的cookie,我们点击右侧显示栏中间的view in Notepad,即打开记事本来获取完整的cookie;

          


 

二、获取的cookie填写入简数

最后把获取的cookie和user-engent信息拷贝到采集器中,再打开详情提取器即可查看到之前隐藏的内容;

简数采集器有三处入口可填写cookie:

I、新建任务时,高级选项处:

II、点击  “启动 | 定时采集 ”  ,在网络配置中填上相关信息;

III、打开提起器左侧列表下方的网络配置:

相关文章:

  • [每日一题] 3355. 零数组变换 i
  • [ 计算机网络 ] 深入理解TCP/IP协议
  • MySQL 8.0 OCP 1Z0-908 161-170题
  • C++23 新增扁平化关联容器详解
  • 数据挖掘:从数据堆里“淘金”,你的数据价值被挖掘了吗?
  • 题海拾贝:P2285 [HNOI2004] 打鼹鼠
  • Linux线程互斥与同步(上)(29)
  • vue3 + echarts(5.6.0)实现渐变漏斗图
  • Rocketmq broker 是主从架构还是集群架构,可以故障自动转移吗
  • Android Edge-to-Edge
  • C++ Pimpl(Pointer to Implementation)设计思想
  • 香港科技大学广州香港科技大学硕博士研究生学位项目宣讲会(智能制造硕博士物理学硕士)—深圳大学专场
  • TuyaOpen横空出世!涂鸦智能如何用开源框架重构AIoT开发范式?
  • PostgreSQL简介安装
  • 分频电路设计
  • WIFI信号状态信息 CSI 深度学习之数据集
  • taro 小程序 CoverImage Image src无法显示图片的问题
  • 顶级流媒体服务商 Spotify 2025.04 故障复盘报告,吃他人的堑长自己的智
  • Python + moviepy:根据图片或数据高效生成视频全流程详解
  • mac .zshrc:1: command not found: 0 解决方案
  • 联合国妇女署:超过2.8万名妇女和女童在加沙战火中丧生
  • 可显著提高公交出行率,山东、浙江多县常态化实施城区公交免费
  • 香港油麻地旧警署将向游客开放
  • “集团结婚”:近百年前革新婚俗的尝试
  • 住建部:2019年至2024年,全国累计开工改造老旧小区28万个
  • 每一笔都是对的!再读周碧初画作有感