当前位置: 首页 > news >正文

爬虫:IP代理

  • 什么是代理

    • 代理服务器

  • 代理服务器的作用

    • 就是用来转发请求和响应

  • 在爬虫中为何需要使用代理?

    • 有些时候,需要对网站服务器发起高频的请求,网站的服务器会检测到这样的异常现象,则会讲请求对应机器的ip地址加入黑名单,则该ip再次发起的请求,网站服务器就不在受理,则我们就无法再次爬取该网站的数据。

    • 使用代理后,网站服务器接收到的请求,最终是由代理服务器发起,网站服务器通过请求获取的ip就是代理服务器的ip,并不是我们客户端本身的ip。

  • 代理的匿名度

    • 透明:网站的服务器知道你使用了代理,也知道你的真实ip

    • 匿名:网站服务器知道你使用了代理,但是无法获知你真实的ip

    • 高匿:网站服务器不知道你使用了代理,也不知道你的真实ip(推荐)

  • 代理的类型(重要)

    • http:该类型的代理服务器只可以转发http协议的请求

    • https:可以转发https协议的请求

  • 如何获取代理?

    • 携趣代理:ip代理_长短效动静态ip代理_优质高速在线ip代理_携趣网络代理ip服务商

  • 如何使用代理?

    • 测试:访问如下网址,返回自己本机ip

import requests
from lxml import etree
headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36',
}
url = 'http://www.cip.cc/'

page_text = requests.get(url,headers=headers).text
tree = etree.HTML(page_text)
text = tree.xpath('/html/body/div/div/div[3]/pre/text()')[0]
print(text.split('\n')[0])
  • 使用代理发起请求,查看是否可以返回代理服务器的ip
import requests
from lxml import etree
headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36',
}
url = 'http://www.cip.cc/'

page_text = requests.get(url,headers=headers,proxies={'http':'121.234.12.62:4246'}).text
tree = etree.HTML(page_text)
text = tree.xpath('/html/body/div/div/div[3]/pre/text()')[0]
print(text.split('\n')[0])
  •  代理池

最新问政-阳光热线问政平台

import request
from lxml import etree
import random
headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36',
}

def get_proxy_pool():
    p_url = '代理提取的url'
    page_text = requests.get(p_url).text
    proxy_list = page_text.split('\r\n')
    return proxy_list
proxy_list = get_proxy_pool() #获取了代理池(列表)

for page in range(1,100):
    url = 'https://wz.sun0769.com/political/index/politicsNewest?id=1&page=%d'%page
    page_text = requests.get(url,headers=headers,proxies={'https':random.choice(proxy_list)}).text
    tree = etree.HTML(page_text)
    ret = tree.xpath('/html/body/div[2]/div[3]/ul[2]/li[1]/span[3]/a/text()')[0]
    print(ret)

 

相关文章:

  • HTTP 1.1 比 HTTP1.0 多了什么?(详尽版)
  • Arm CPU安全通告:基于TrustZone的Cortex-M系统面临多重故障注入攻击
  • linux多线(进)程编程——(5)虚拟内存与内存映射
  • 14、nRF52xx蓝牙学习(串口 UART 和 UARTE 外设应用)
  • 【Linux】what is pam?PAM模块学习笔记
  • CTF-WEB排行榜制作
  • JavaWeb 课堂笔记 —— 10 MySQL DML + DQL
  • Node.js介绍
  • vue入门:函数式组件
  • 实现一个动态验证码生成器:Canvas与JavaScript的完美结合
  • 《C语言中的形参与实参:理解函数调用的核心概念》
  • NVIDIA AI Aerial
  • docker 安装 jenkins
  • SpringBoot实战2
  • 【强化学习-蘑菇书-3】马尔可夫性质,马尔可夫链,马尔可夫过程,马尔可夫奖励过程,如何计算马尔可夫奖励过程里面的价值
  • 奇怪的电梯——DFS算法
  • linux多线(进)程编程——(4)进程间的传音术(命名管道)
  • Android envsetup与Python venv使用指南
  • CST1017.基于Spring Boot+Vue共享单车管理系统
  • 【软考系统架构设计师】软件工程知识点
  • 天问二号探测器顺利转入发射区,计划5月底择机发射
  • 特写|银耳种植“北移”到沧州盐山,村民入伙可年增收4万元
  • 雅典卫城上空现“巨鞋”形状无人机群,希腊下令彻查
  • 浙江省委金融办原副主任潘广恩被“双开”
  • 英德宣布开发射程超2000公里导弹,以防务合作加强安全、促进经济
  • 新片|《碟中谍8:最终清算》定档5月30日