当前位置: 首页 > news >正文

爬虫的云服务器代理

代理是网络请求的 “中转站”,客户端(如 Python 脚本)发请求时,不直接连目标服务器,先把请求给代理服务器,代理再转发给目标,目标响应也经代理回传给客户端。这样做能隐藏真实客户端 IP(目标服务器看到的是代理 IP)、突破网络限制(如公司 / 学校网络屏蔽部分站点,代理可绕过)、做请求转发 / 缓存(提升重复请求效率) 。

准备

首先购买一台云服务器,这里我选择使用腾讯云购买的一台2GB*2的windows云服务器测试

关于代理我使用云服务器做测试

首先在云服务器中安装CCProxy代理工具,然后CCProxy的设置中端口为云服务器安全组允许通过的端口。

切记要在安全组中允许指定端口的放行,这里我选择的是5173端口

这里我设置为 5173 端口 (已经配置安全组允许5173畅通)

CCProxy 工具配置解析(文中代理服务器搭建)

  1. 功能定位:CCProxy 是常见代理服务器软件,能在局域网内搭建代理环境,让多设备共享代理上网,还能对代理访问做规则管控(如限制端口、协议、访问时间等)。
  2. 核心配置(对应文中截图)
    • 代理服务协议 & 端口:列表里配置了多种协议(HTTP、HTTPS、FTP 等)及对应端口(如 HTTP 设 5173 端口),代理服务器会监听这些端口,接收客户端协议请求。
    • “允许请求来源”:“自动检测” 或手动填 IP 段,决定哪些客户端能连代理(如填10.206.36.4,仅该 IP 段设备可借代理上网)。
    • “安全组 / 防火墙适配”:文中提 “先云服务器安装 CCProxy,设端口为 5173(已配安全组全允许 5173 端口)”,意思是云服务器要在安全组 / 防火墙放通 5173 端口,否则代理请求会被拦截,无法对外转发。

然后使用python爬虫进行代理配置

import urllib.requesturl = 'https://ip.900cha.com/'  # 代理后访问的目标网址
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/139.0.0.0 Safari/537.36 Edg/139.0.0.0',
}# 设置代理服务器
proxies = {'http': 'http://云IP:5173', 'https': 'http://云IP:5173'}# 创建代理处理器
handler = urllib.request.ProxyHandler(proxies)
opener = urllib.request.build_opener(handler)# 定制请求)
request = urllib.request.Request(url, headers=headers)try:response = opener.open(request, timeout=10)  # 增加超时,避免卡壳content = response.read().decode('utf-8')with open('yunfuwudaili.html', 'w', encoding='utf-8') as fp:fp.write(content)print("请求成功,已保存页面")
except Exception as e:print(f"请求失败:{e}")  # 捕获错误,方便排查

该爬虫模拟使用 云服务器代理,访问网络查询ip工具,如果查询的ip是云服务器的ip而不是自身本地的ip则说明代理成功

测试

1,不做代理直接访问

显示在中国河南,也就是我真实所在地

2,使用南京的云服务器做代理

显示在江苏南京,也就是云服务器所在地。

代理的典型应用场景

  1. 爬虫突破反爬:目标网站限制单个 IP 访问频率,用代理换不同 IP 发请求,降低被封概率(但别恶意爬取,遵守网站 robots.txt 规则和法律 )。
  2. 访问受限资源:如公司内网屏蔽某些站点,通过代理(代理服务器能访问外网),员工可借代理打开受限页面。
  3. 数据抓包调试:开发 / 测试时,用代理工具(如 CCProxy 配合浏览器代理设置),抓包分析客户端 - 服务器请求细节,排查接口、网络问题。

代理是网络请求的 “中间人”,文中借 CCProxy 搭代理环境,Python 代码用 urllib 走代理发请求,核心是让请求经代理转发,实现隐藏真实 IP、突破限制等效果,实操中多留意代理服务状态、目标网站规则,就能灵活用代理解决网络访问需求

http://www.dtcms.com/a/326334.html

相关文章:

  • Linux中DNS系统搭建与配置指南(配实验步骤与注释)
  • 车型销售数据爬虫代码详细解释
  • MySQL入门基础
  • 【排序算法】⑥快速排序:Hoare、挖坑法、前后指针法
  • UE 保存游戏
  • 牛客.空调遥控二分查找牛客.kotori和气球(数学问题)力扣.二叉树的最大路径和牛客.主持人调度(二)
  • 数集相等定义凸显解析几何几百年重大错误:将无穷多各异点集误为同一集
  • 免费好用的数字人API
  • 使用dockge 安装 photoprism
  • 最短路问题从入门到负权最短路
  • elasticsearch的高可用
  • 【van-field 会记录上次选择并以悬浮弹窗再次展示】
  • 18.5 BERT评估指标终极指南:HuggingFace实战提升文本分类效果
  • office卸载不干净?Office356卸载不干净,office强力卸载软件下载
  • 爬虫与数据分析结合案例学习总结
  • Note4:Self-Attention
  • AI Agent平台大PK:Dify与开源Coze的差异化对比分析
  • 机器学习-决策树(DecisionTree)
  • Hot100合集
  • 金蝶云星空 × SRM 深度集成实战(附完整接口清单)
  • 关于线性DP模板
  • 《汇编语言:基于X86处理器》第13章 高级语言接口(1)
  • [Ubuntu] xrdp共享连接 Ubuntu 屏幕 | xfce4
  • 建筑兔零基础python自学记录119|数据处理(4)-23
  • 需求列表如何做层级结构
  • Redis类型之Hash
  • 重学前端009 --- 响应式网页设计 CSS 伪选择器
  • 订单簿价格冲击模型与机器学习在大单策略中的融合
  • 元数据管理与数据治理平台:Apache Atlas 基本搜索 Basic Search
  • Apache Ignite分片线程池:高并发保序新方案