当前位置: 首页 > news >正文

网站h1标签用在哪里建设网站纳什么税

网站h1标签用在哪里,建设网站纳什么税,广州做餐饮的招聘网站,服装定制公司文章目录 前言一、Requests BeautifulSoup(基础组合)二、Scrapy(高级框架)三、PySpider(可视化爬虫)四、Selenium(浏览器自动化)五、Playwright(新一代浏览器自动化&…

文章目录

  • 前言
  • 一、Requests + BeautifulSoup(基础组合)
  • 二、Scrapy(高级框架)
  • 三、PySpider(可视化爬虫)
  • 四、Selenium(浏览器自动化)
  • 五、Playwright(新一代浏览器自动化)


前言

Python 提供了多种强大的爬虫框架,适用于不同场景和需求。以下是主流框架的详细介绍及对比分析:


一、Requests + BeautifulSoup(基础组合)

特点:

  • Requests:HTTP 请求库,简单易用
  • BeautifulSoup:HTML/XML 解析库,灵活强大
  • 适合场景:中小型网站、结构规则的页面
    示例代码:
import requests
from bs4 import BeautifulSoupurl = "https://example.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')# 提取所有链接
links = [a['href'] for a in soup.find_all('a', href=True)]# 提取特定元素
title = soup.find('h1').text

二、Scrapy(高级框架)

特点:

  • 全功能爬虫框架,支持异步、分布式
  • 内置调度器、下载器、解析器
  • 自动处理 cookies、会话、重试等
  • 适合场景:大型网站、高性能需求
    示例代码:
import scrapyclass ExampleSpider(scrapy.Spider):name = "example"start_urls = ["https://example.com"]def parse(self, response):# 提取数据for item in response.css('div.item'):yield {'title': item.css('h2::text').get(),'link': item.css('a::attr(href)').get(),}# 跟进链接next_page = response.css('a.next-page::attr(href)').get()if next_page:yield response.follow(next_page, self.parse)
运行命令:
bash
scrapy startproject myproject
scrapy genspider example example.com
scrapy crawl example -o items.json

三、PySpider(可视化爬虫)

特点:

  • 可视化界面,支持 Web 端操作
  • 支持 JavaScript 渲染(PhantomJS/Selenium)
  • 内置任务队列和结果存储
  • 适合场景:需要可视化监控的爬虫
    安装与启动:
pip install pyspider
pyspider all

示例代码:

from pyspider.libs.base_handler import *class Handler(BaseHandler):@every(minutes=24 * 60)def on_start(self):self.crawl('https://example.com', callback=self.index_page)@config(age=10 * 24 * 60 * 60)def index_page(self, response):for each in response.doc('a[href^="http"]').items():self.crawl(each.attr.href, callback=self.detail_page)def detail_page(self, response):return {"url": response.url,"title": response.doc('title').text(),}

四、Selenium(浏览器自动化)

特点:

  • 控制真实浏览器,支持 JavaScript 渲染
  • 适用于需要用户交互的场景
  • 性能较低,适合小规模数据采集
    示例代码:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service# 设置 ChromeDriver 路径
service = Service('/path/to/chromedriver')
driver = webdriver.Chrome(service=service)driver.get('https://example.com')# 等待元素加载
element = driver.find_element(By.CSS_SELECTOR, 'button.submit')
element.click()# 提取数据
data = driver.find_element(By.CSS_SELECTOR, 'div.result').text
driver.quit()

五、Playwright(新一代浏览器自动化)

特点:

  • 由 Microsoft 开发,支持多浏览器
  • 自动化操作高效,支持无头模式
  • 内置等待、断言等功能
    示例代码:
from playwright.sync_api import sync_playwrightwith sync_playwright() as p:browser = p.chromium.launch(headless=False)page = browser.new_page()page.goto('https://example.com')# 填写表单page.fill('input[name="search"]', 'Python')page.click('button[type="submit"]')# 等待结果page.wait_for_selector('div.result-item')# 提取数据results = page.query_selector_all('div.result-item')for result in results:print(result.text_content())browser.close()
http://www.dtcms.com/a/552510.html

相关文章:

  • 网站开发背景 目的青海培训网站建设公司
  • 彩票网站招代理广告怎么做企业网站的制作周期
  • 温州做网站软件动漫设计工作室网站制作公司
  • 电商网站开发ppt龙岗区建设局网站
  • 做的电影网站很卡centos6.8 wordpress
  • 网站建设的架构设计中山 五金 骏域网站建设专家
  • wordpress 做音乐网站做商城网站哪里买
  • 在哪个网站订酒店做申根签证网页用什么软件做
  • 网站开发是否用html5制作wordpress文章模板
  • 做网站毕设答辩问题自己做的网站怎么给别人访问
  • 做网站行业现状重庆做营销网站
  • 中国小康建设网 是个什么网站阿里云做网站选什么主机
  • 内蒙和城乡建设部网站dede静态网站
  • 中文网站建设技术解决方案重庆公司注销的流程及需提供的材料
  • 制作一个网站需要多久网络赣州
  • 广州天河建网站做网站江门
  • 北京网站建设问问q778925409霸屏网站空间价格
  • 做网站为什么可以自学wordpress设置导航栏
  • 如何做网站刷题怎样做网站首页
  • html编辑器安卓版下载seo管理与优化期末试题
  • 一个网站的建设需要什么网站导航菜单兰
  • 熊掌号网站改造绑定织梦网站wordpress强大用户中心
  • 设计网站大全网站代理浏览器插件
  • 怎么做一个购物网站wordpress网站在哪
  • 凡客建网站如何搭建内网网站
  • SUPERW上海网站建设工作室建筑公司企业愿景与使命
  • 模板网站的建设建立网站要钱吗?
  • 吉林网站建设哪家有上海公司注册核名
  • app要有网站做基础wordpress更新翻译
  • ps做图下载网站推推蛙seo顾问