当前位置：首页 > news >正文

用Cursor与Chrome插件爬取网页数据

news 2025/8/4 23:11:06

当我们使用Cursor（一个基于AI的代码编辑器）结合Chrome插件来爬取网页数据。正常情况下，我们可以使用Python的库如requests和BeautifulSoup，因为有时网页是动态加载的（通过JavaScript），这就需要我们我们用Selenium来模拟浏览器操作。

然而，之前有提过使用Chrome插件。这里可能指的是使用浏览器插件（如爬虫插件）或者使用Chrome的开发者工具来辅助爬取。但结合Cursor（一个代码编辑器），我们更可能是在编写代码。

在这里插入图片描述

要使用 Cursor 编辑器配合 Chrome 插件爬取网页数据，通常有两种主流方案：直接使用 Python 爬虫库或结合浏览器自动化工具。以下是我例举的两个详细步骤和代码示例：

方案一：Python 爬虫库（Requests + BeautifulSoup）

适合静态网页（无需 JS 渲染）

import requests
from bs4 import BeautifulSoupurl = "https://example.com"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}# 发送请求
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')# 示例：提取所有标题
titles = soup.select('h1.title')  # 根据实际CSS选择器修改
for title in titles:print(title.text.strip())

方案二：浏览器自动化（Selenium）

适合动态网页（需要 JS 渲染）

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By# 配置 Chrome 选项
chrome_options = Options()
chrome_options.add_argument("--headless")  # 无头模式
chrome_options.add_argument("--disable-gpu")# 启动浏览器（需下载 chromedriver）
driver = webdriver.Chrome(options=chrome_options)
driver.get("https://example.com")# 等待元素加载（示例）
driver.implicitly_wait(10)# 提取数据
items = driver.find_elements(By.CSS_SELECTOR, ".product-item")
for item in items:name = item.find_element(By.CSS_SELECTOR, ".name").textprice = item.find_element(By.CSS_SELECTOR, ".price").textprint(f"{name}: {price}")driver.quit()

配合 Chrome 插件辅助爬取

SelectorGadget（提取 CSS 选择器）
- 安装链接：Chrome Web Store
- 用法：点击页面元素生成 CSS 选择器
XPath Helper（提取 XPath）
- 安装链接：Chrome Web Store
JSON Viewer（解析 API 数据）
- 用于抓取通过 AJAX 加载的数据（查看 Network 中的 XHR 请求）

进阶技巧：直接调用 Chrome DevTools

使用 undetected-chromedriver 避免反爬：

import undetected_chromedriver as ucdriver = uc.Chrome(headless=True)
driver.get("https://example.com")
# ...操作同 Selenium...

注意事项

遵守 robots.txt 和网站使用条款
添加延时避免频繁请求（import time; time.sleep(2)）
使用代理 IP 应对反爬机制
动态网站优先检查是否有隐藏 API（通过 Network 面板）

提示：在 Cursor 中运行 Selenium 需要先安装依赖：
pip install selenium beautifulsoup4 requests undetected-chromedriver

最后我要提醒大家，我们在选择方案时候需要考虑目标网站的复杂度选择，静态页面用方案一更高效，动态内容用方案二更可靠。

查看全文

http://www.dtcms.com/a/234964.html

windows上的visual studio2022的项目使用jenkins自动打包

使用 Docker Compose 部署 Jenkins（LTS 版）持续集成环境

基于深度强化学习的Scrapy-Redis分布式爬虫动态调度策略研究

常用枚举技巧：基础（一）

Go 并发编程基础：通道（Channel）的使用

在golang中如何将已安装的依赖降级处理，比如：将 go-ansible/v2@v2.2.0 更换为 go-ansible/@v1.1.7

Go 中的 Map 与字符处理指南

LangChainGo入门指南：Go语言实现与OpenAI/Qwen模型集成实战

【Go语言基础【9】】字符串格式化与输入处理

元图CAD：一键解锁PDF转CAD，OCR技术赋能高效转换

关于dropbear ssh服务

基于ReAction范式的问答系统实现demo

【动手学MCP从0到1】2.5 MCP中的Context日志输出、进度汇报和服务端调用客户端的大模型项目实现步骤详解

【人工智能】神经网络的优化器optimizer（二）：Adagrad自适应学习率优化器

视频监控平台建设方案

精益数据分析（95/126）：Socialight的定价转型启示——B2B商业模式的价格策略与利润优化

智能制造数字孪生全要素交付一张网：智造中枢，孪生领航，共建智造生态共同体

大模型安全测试报告：千问、GPT 全系列、豆包、Claude 表现优异，DeepSeek、Grok-3 与 Kimi 存在安全隐患

yolo 训练中间可视化

视频监控管理平台EasyCVR与V4分析网关对接后告警照片的清理优化方案

Fullstack 面试复习笔记：Spring / Spring Boot / Spring Data / Security 整理

本地部署企业邮箱，让企业办公更安全高效

华为云Flexus+DeepSeek征文｜基于华为云Flexus X和DeepSeek-R1打造个人知识库问答系统

Github 2025-06-06 Java开源项目日报Top10

[BIOS]VSCode zx-6000 编译问题

（一）上市企业实施IPD成功案例分享之——方太

OpenCV 图像色彩空间转换与抠图

网络流学习笔记 - 最大流最小割

JVM——打开JVM后门的钥匙：反射机制

Javascript 编程基础（5）面向对象 | 5.1、构造函数实例化对象

方案一：Python 爬虫库（Requests + BeautifulSoup）

方案二：浏览器自动化（Selenium）

配合 Chrome 插件辅助爬取

进阶技巧：直接调用 Chrome DevTools

注意事项

相关文章：