当前位置: 首页 > wzjs >正文

西安网站建设开发查派贵阳利于优化的网站

西安网站建设开发查派,贵阳利于优化的网站,采购网站有哪些,代码转wordpress一、背景介绍:你被自动化检测拒之门外了吗? 在使用 Selenium 或 Playwright 等浏览器自动化工具爬取数据时,经常会遇到「被检测」问题,尤其像 Amazon 这样反爬策略严密的网站。常见的检测机制之一就是检查 JavaScript 中的 navig…

爬虫代理


一、背景介绍:你被自动化检测拒之门外了吗?

在使用 Selenium 或 Playwright 等浏览器自动化工具爬取数据时,经常会遇到「被检测」问题,尤其像 Amazon 这样反爬策略严密的网站。常见的检测机制之一就是检查 JavaScript 中的 navigator.webdriver 属性:

console.log(navigator.webdriver); // true:表明是自动化工具

因此,本文将带你深入了解如何在浏览器中底层修改该属性,并结合代理、Cookie、User-Agent 技术,实现一个能顺利爬取 Amazon 网站商品信息的反检测爬虫。


二、环境准备

1. 安装依赖

pip install undetected-chromedriver selenium requests

我们使用 undetected-chromedriver 代替原生 Selenium 驱动,内置多种反检测机制,更适合应对大型网站的反爬。

2. 爬虫代理信息(请替换为你的真实账户信息)

# 配置代理 亿牛云爬虫代理 www.16yun.cn
proxy_host = "proxy.16yun.cn"
proxy_port = "8010"
proxy_user = "16YUN"
proxy_pass = "16IP"

三、核心步骤

✅ 第一步:配置无痕浏览器并隐藏 webdriver

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import timedef create_stealth_driver(proxy_host, proxy_port, proxy_user, proxy_pass, user_agent, cookies):options = Options()options.add_argument(f"user-agent={user_agent}")options.add_argument("--disable-blink-features=AutomationControlled")# 配置爬虫代理options.add_argument(f'--proxy-server=http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}')# 启动无头浏览器(也可以关闭无头方便调试)# options.add_argument('--headless')# 创建驱动import undetected_chromedriver as ucdriver = uc.Chrome(options=options)# 修改 webdriver 属性(核心)driver.execute_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")# 设置 cookiedriver.get("https://www.amazon.com")for cookie in cookies:driver.add_cookie(cookie)return driver

✅ 第二步:模拟搜索关键词并采集信息

def scrape_amazon(keyword):user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"cookies = []  # 可以从浏览器复制一组,也可通过登录获取driver = create_stealth_driver(proxy_host, proxy_port, proxy_user, proxy_pass, user_agent, cookies)driver.get(f"https://www.amazon.com/s?k={keyword}")time.sleep(3)products = driver.find_elements(By.XPATH, "//div[@data-component-type='s-search-result']")for product in products[:10]:  # 只取前10条数据举例try:title = product.find_element(By.TAG_NAME, "h2").textprice_whole = product.find_element(By.CLASS_NAME, "a-price-whole").textprice_frac = product.find_element(By.CLASS_NAME, "a-price-fraction").textprice = f"{price_whole}.{price_frac}"reviews = product.find_element(By.XPATH, ".//span[@class='a-size-base']").textprint(f"名称: {title}")print(f"价格: ${price}")print(f"评论: {reviews}")print("=" * 30)except Exception as e:continuedriver.quit()

四、完整代码汇总

# 请整合以上两个函数并在此调用
if __name__ == "__main__":keyword = "wireless earbuds"scrape_amazon(keyword)

五、常见错误分析

错误提示原因解决方案
selenium.common.exceptions.WebDriverException驱动不匹配使用 undetected-chromedriver 自动管理版本
网页元素找不到页面尚未完全加载time.sleep() 或 WebDriverWait
显示“访问过于频繁”IP 被封更换代理 IP,使用优质高匿代理
无法设置 Cookie页面未打开或未加载完成先访问目标页面,再添加 Cookie

六、总结与提升

本文以 Amazon 网站为例,讲解了如何通过底层 JS 技巧对抗自动化检测,关键点在于:

  • 使用 undetected-chromedriver 替代传统 Selenium;
  • 修改 navigator.webdriver 属性隐藏自动化痕迹;
  • 配合代理、User-Agent 和 Cookie 构建可信环境;
  • 页面加载等待 + XPath 精准提取实现结构化采集。

文章转载自:

http://bqMlJ6xc.pcshb.cn
http://aTAAV7V3.pcshb.cn
http://wKzgfguo.pcshb.cn
http://KAjQvwkd.pcshb.cn
http://YfSoGM74.pcshb.cn
http://4dqoVppA.pcshb.cn
http://IOtqRh08.pcshb.cn
http://lgICPJ3s.pcshb.cn
http://NNPPeAdW.pcshb.cn
http://WCksiFK8.pcshb.cn
http://AzL56unl.pcshb.cn
http://ZoY8K6SI.pcshb.cn
http://vTqID7bl.pcshb.cn
http://RPjzr8HD.pcshb.cn
http://32vPglhc.pcshb.cn
http://0uL34Dzw.pcshb.cn
http://gG3w2Kmp.pcshb.cn
http://kezG8io0.pcshb.cn
http://BUoKmqgp.pcshb.cn
http://0kZk6oQ8.pcshb.cn
http://tL4FRlY3.pcshb.cn
http://lwEaHxeW.pcshb.cn
http://1ADP8R8O.pcshb.cn
http://oiSVoOD6.pcshb.cn
http://mjkWyJLT.pcshb.cn
http://DI5ZTLvn.pcshb.cn
http://jQJGOQve.pcshb.cn
http://0vhu3hBa.pcshb.cn
http://e0C4ilBx.pcshb.cn
http://VkkdzkeB.pcshb.cn
http://www.dtcms.com/wzjs/738983.html

相关文章:

  • 高端网站建设的小知识wordpress打不开自定义
  • wordpress子分类模板站长工具seo综合查询引流
  • 谷歌网站推广策略方案深圳做网站的公司
  • 西安网站建设推荐求几个好看的关键词
  • 提供网站制作公司地址下载百度2023最新版安装
  • 广东外贸网站推广公司汕头企业网页设计
  • 淄博圻谷网站建设制作网站定位与建设
  • 陕西交通建设集团网站体检wordpress小工具 样式
  • 上海网站制作福州wordpress删除管理站点链接
  • 快速建站网站啦手机兼职软件推荐app
  • 常德网站建设的策划方案网站建设 英文版
  • 专业一元夺宝网站建设如何分析网站开发语言
  • 中国网站设计模板网站开发详细流程
  • 四大门户网站创始人做风投要关注哪些网站
  • 西平企业网站建设网站图片验证码出不来
  • 如何建立网站视频开发一亩地多少钱
  • 深圳罗湖网站开发房产获客软件
  • 信息门户网站建设合同网站seo优化检测
  • 网页设计模板网站免费下载电商网站建设小兔仙
  • 网站建设费用账务处理网站备案ftp密码
  • 郑州外贸网站建设公司排名django个人博客网站开发部署源码
  • 修改wordpress后台文字seo优化方案
  • 网站备案转服务器网页设计与制作 pdf
  • iss服务器上部署的网站怎么打开专业做网站优化需要多久
  • 网站建设 微信营销昌乐网站制作
  • 深圳网站建设加q5299丶14602推广wordpress 网址导航 主题
  • 个人虚拟机做网站怎么做起泡胶
  • 查询网站备案建设企业网站哪个好
  • 网站优化前景公司网站建设推进表
  • 万网一个ip建立多个网站网站推广的案例