当前位置: 首页 > wzjs >正文

萧山做网站学seo需要学什么专业

萧山做网站,学seo需要学什么专业,网站开发项目团队,怎样用网站模板做网站Python 第二阶段 - 爬虫入门 🎯 今日目标 理解常见反爬虫机制掌握 Headers / Cookies 设置学会使用 requests.Session() 保持登录状态初步体验验证码处理和 User-Agent 伪装 📘 学习内容详解 ✅ 1. 常见反爬机制有哪些? 类型说明应对方式…

Python 第二阶段 - 爬虫入门

🎯 今日目标

  • 理解常见反爬虫机制
  • 掌握 Headers / Cookies 设置
  • 学会使用 requests.Session() 保持登录状态
  • 初步体验验证码处理和 User-Agent 伪装

📘 学习内容详解

✅ 1. 常见反爬机制有哪些?
类型说明应对方式
UA 检测拒绝非浏览器请求设置 User-Agent
Referer 检测限定来源页面添加 Referer
Cookies 检测检查登录状态使用 requests.Session()
JavaScript 动态渲染页面数据不在源代码中Selenium / Playwright
滑块验证码图形验证阻止爬虫OCR、打码平台
频率限制 / IP封锁请求频繁导致封禁加延迟 / IP代理池

✅ 2. 设置请求头 headers(模拟浏览器)
headers = {"User-Agent": "Mozilla/5.0","Referer": "https://quotes.toscrape.com"
}
response = requests.get(url, headers=headers)

✅ 3. 使用 requests.Session() 保持会话(模拟登录)
import requestssession = requests.Session()# 第一步:登录表单提交
login_url = "http://httpbin.org/post"  # 示例用
data = {"username": "test", "password": "123456"}
session.post(login_url, data=data)# 第二步:访问登录后的页面
resp = session.get("http://httpbin.org/cookies")
print(resp.text)

多数登录站点都依赖 Cookie、Token,Session 自动帮你管理。


✅ 4. 检查响应状态、调试技巧
res = requests.get(url)
print(res.status_code)
print(res.headers)
print(res.cookies)

💻 今日练习任务

  1. 模拟一个表单登录(可使用 httpbin.org)

  2. 抓取并打印 cookies 信息

  3. 修改 headers 中的 UA,观察服务器响应变化

  4. 尝试添加 referer 和 headers 伪装成浏览器访问 quotes.toscrape.com

    import requests# 创建 Session(用于保持登录状态和 Cookies)
    session = requests.Session()# ========== 1. 模拟一个表单登录(使用 httpbin.org) ==========
    login_url = "https://httpbin.org/post"
    login_data = {"username": "test_user","password": "123456"
    }
    login_response = session.post(login_url, data=login_data)print("=== 模拟登录响应内容 ===")
    print(login_response.json())  # httpbin.org 会原样返回你提交的数据# ========== 2. 抓取并打印 cookies 信息 ==========
    # 先设置一些 Cookies(模拟服务器设置)
    session.cookies.set("sessionid", "abc123456", domain="httpbin.org")# 获取并打印当前 Cookies
    cookies_response = session.get("https://httpbin.org/cookies")
    print("\n=== 当前 Cookies ===")
    print(cookies_response.json())  # 返回 {"cookies": {"sessionid": "..."}}# ========== 3. 修改 headers 中的 User-Agent ==========
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/120.0",
    }
    ua_response = session.get("https://httpbin.org/user-agent", headers=headers)
    print("\n=== 当前 User-Agent ===")
    print(ua_response.json())# ========== 4. 添加 referer 和 UA,伪装访问 quotes.toscrape.com ==========
    quotes_url = "https://quotes.toscrape.com/page/1/"headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 Chrome/122.0.0.0 Safari/537.36","Referer": "https://www.google.com"
    }
    quotes_response = session.get(quotes_url, headers=headers)print("\n=== 模拟浏览器访问 quotes.toscrape.com 状态码 ===")
    print(quotes_response.status_code)# 如果成功,打印前500个字符(页面 HTML)
    if quotes_response.status_code == 200:print("\n页面前500字符预览:")print(quotes_response.text[:500])
    

🧪 示例:模拟访问 quotes.toscrape.com 登录页

from bs4 import BeautifulSoupsession = requests.Session()
login_page = session.get("https://quotes.toscrape.com/login")
soup = BeautifulSoup(login_page.text, "html.parser")
csrf_token = soup.find("input", {"name": "csrf_token"}).get("value")# 模拟登录
payload = {"username": "test","password": "test","csrf_token": csrf_token
}
response = session.post("https://quotes.toscrape.com/login", data=payload)
print("登录是否成功:", "Logout" in response.text)

✍️ 今日总结

  • 了解了反爬虫的主要手段及对应策略
  • 掌握了 UA、Referer、Cookies 设置技巧
  • 学会使用 requests.Session() 保持登录状态
  • 为后续模拟更复杂登录和 JS 渲染页面打下基础
http://www.dtcms.com/wzjs/266505.html

相关文章:

  • 在网站上做视频培训系统多少钱武汉关键词seo排名
  • 哈尔滨网站建设哪家好推广引流网站
  • 现在流行的网站开发语言百度指数搜索热度大学
  • 创意包装设计网站百度关键词优化方法
  • 怎样制作做实景的网站外贸网站推广服务
  • 沈阳网约车公司哪家好福州短视频seo方法
  • 网站免费建站黄软文推广发布平台
  • 通化seo招聘seo运营
  • 深圳哪里可以做网站百度总部地址
  • 信计专业动态网站开发技术爱站网关键词挖掘机
  • 可以做图片视频的网站网站及搜索引擎优化建议
  • 鸡西市法院的网站建设公司营销软文网站
  • 怎么看网站用什么代码做的网络推广营销公司
  • 导航仪企业网站源码自媒体培训
  • 国内手机网站建设优秀的营销策划案例
  • 常州网站推广方法太原网站推广公司
  • 天津做网站首选津坤科技b网站搜索引擎推广
  • 公司域名备案怎么弄深圳seo优化
  • icp网站备案号查询网站排名优化外包公司
  • 设计新闻发布网站模板百度推广一天烧多少钱
  • 周易八字排盘系统网站建设百度竞价排名的优缺点
  • 佛山网站建设服务器抖音seo软件工具
  • 怎样接做网站和软件的活长春网站建设方案优化
  • 找快照网站查询线上营销策略都有哪些
  • 新闻门户网站建设热搜榜上2023年热搜
  • 小程序网站开发网络营销教案ppt
  • 捷信做单网站seo推广公司招商
  • 网上做家教哪个网站安卓手机优化软件哪个好
  • 网站建设中主页指的是竞价排名适合百度这样的网络平台吗
  • wordpress的文章插件百度seo 站长工具