当前位置: 首页 > news >正文

大型网站制作费用表南昌网站建设模板技术公司

大型网站制作费用表,南昌网站建设模板技术公司,电商网站的多选菜单插件,小程序 wordpress绑定一、网络爬虫介绍 网络爬虫(Web Crawler)是一种自动抓取互联网信息的程序,它能够高效地从海量网页中提取有价值的数据。作为数据采集的利器,爬虫技术在数据分析、搜索引擎、价格监控等领域有着广泛应用。本文将带你全面了解Pytho…

一、网络爬虫介绍

网络爬虫(Web Crawler)是一种自动抓取互联网信息的程序,它能够高效地从海量网页中提取有价值的数据。作为数据采集的利器,爬虫技术在数据分析、搜索引擎、价格监控等领域有着广泛应用。本文将带你全面了解Python网络爬虫的开发。

robots.txt规则

robots.txt 是网站与网络爬虫沟通的标准协议文件,它规定了哪些内容可以被爬取,哪些应该被禁止。作为爬虫开发者,理解并遵守 robots.txt 规则是合法合规爬取的基础。

通过在网站后加上robots.txt就可以查看当前网站的robots规则

完全开放

User-agent: * Disallow:

完全禁止

User-agent: * Disallow: /

部分限制

User-agent: * Disallow: /admin/ Disallow: /private/ Allow: /public/ Crawl-delay: 2

针对特定爬虫

User-agent: Googlebot Disallow: /nogoogle/ User-agent: * Disallow: /noothers/

掌握robots.txt规则是每个爬虫开发者的必修课。通过合理遵守这些规则,我们既能获取所需数据,又能维护良好的网络生态。记住,负责任的爬虫开发是技术可持续发展的基础。

二、requests库 

requests 是 Python 中最流行的 HTTP 客户端库,以其简洁优雅的 API 设计著称。本文将全面介绍 requests 库的使用方法和最佳实践。

1、安装requests库

在开始之前,确保你已经安装了requests库。如果尚未安装,可以通过pip轻松安装:

pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple

2、网页的源代码

如果通常我们想获取网页的内容我们是查看页面里的内容,但是我们使用代码去获取资源时就需要用到网页的源代码。

我们通过右击网页空白处点击查看源代码选项

但是通过这种方法无法获得全部信息,通过JavaScript脚本语言可以查看更多信息。

点击检查选项可以查看到脚本代码

3、获取网页资源

  • get()函数

requests.get(url, params=None, **kwargs)

url请求的 URL(必需)
params查询参数字典或字节序列,会自动附加到 URL
**kwargs其他可选参数(headers, timeout, auth 等)

 

import requestsresponse = requests.get('https://api.github.com')
print(response.status_code)  # 打印状态码
print(response.text)         # 打印响应内容
params = {'key1': 'value1', 'key2': 'value2'}
response = requests.get('https://httpbin.org/get', params=params)
print(response.url)  # 查看实际请求的URL
response.status_codeHTTP 状态码
response.text响应内容(字符串形式)
response.content响应内容(字节形式)
response.json()将 JSON 响应解析为 Python 对象
response.headers响应头字典
response.cookies响应 cookies
response.elapsed请求耗时
response.raise_for_status()如果请求失败(状态码非200),抛出异常
  • post()函数

requests.post(url, data=None, json=None, **kwargs)

参数说明
url请求的目标 URL(必需)
data表单数据(字典、字节或文件对象)
jsonJSON 可序列化的 Python 对象
**kwargs其他可选参数(headers, files, auth 等)
import requestspayload = {'key1': 'value1', 'key2': 'value2'}
response = requests.post('https://httpbin.org/post', data=payload)print(response.status_code)
print(response.json())  # 查看服务器返回的JSON响应

 三、selenium库

Selenium 是一个能让你「用代码操作浏览器」的开源工具。
常见用途:

  • 自动化功能测试

  • 重复性任务脚本(抢票、签到、填表)

  • 抓取需要执行 JS 的页面数据


1、环境搭建

  1. 安装 Python(https://www.python.org 下载 3.7+)。

  2. 安装 Selenium 

    pip install selenium ​-i https://pypi.tuna.tsinghua.edu.cn/simple
  3. Chrome内核的浏览器

    Chrome 驱动镜像:CNPM Binaries Mirror
    • 把解压后的 chromedriver.exe 放到
      – 任意目录,并记录路径;或
      – 直接丢进 Python 安装目录的 Scripts 文件夹(已在系统 Path 中)。

             2.验证:命令行输入 chromedriver 不报错就 OK。

      4. Edge内核的浏览器

  • 访问官方镜像:Microsoft Edge WebDriver | Microsoft Edge Developer

  • 驱动版本必须与 Edge 浏览器版本一致

  • 下载后解压,得到 msedgedriver.exe(建议重命名为 edgedriver.exe 方便记忆)。

在浏览器的关于浏览器选项就可以看到浏览器的内核版本、

 2、驱动浏览器

在selenium库中通过以下代码可以查看支持的浏览器类型

webdriver.浏览器类型名()

 通过以上方法我们也可以加载浏览器的驱动使用形式如下如下

webdriver.浏览器类型名(executable_path,options,service,keep_alive

executable_path指定驱动路径webdriver.Chrome(executable_path='chromedriver.exe')
options浏览器选项对象webdriver.Chrome(options=chrome_options)
service驱动服务配置webdriver.Chrome(service=service)
keep_alive保持连接webdriver.Chrome(keep_alive=True)

服务配置参数

from selenium import webdriver# 基本初始化
driver = webdriver.Chrome()# 带选项初始化
from selenium.webdriver.chrome.options import Optionschrome_options = Options()
chrome_options.add_argument('--headless')  # 无头模式
chrome_options.add_argument('--disable-gpu')  # 禁用GPU加速
chrome_options.add_argument('--window-size=1920x1080')  # 设置窗口大小driver = webdriver.Chrome(options=chrome_options)

 通过以下方法就可以的读取浏览器内容

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time# 方案 A:驱动已加入 PATH
driver = webdriver.Edge()# 方案 B:手动指定驱动路径(取消下一行注释)
# driver = webdriver.Edge(executable_path=r"C:\path\to\edgedriver.exe")driver.get("https://www.baidu.com")
driver.find_element(By.ID, "kw").send_keys("Edge Selenium", Keys.RETURN)
time.sleep(3)
driver.save_screenshot("baidu_result.png")
driver.quit()

send_keys() 是 Selenium WebDriver 中用于向网页元素输入内容的核心方法,主要用于文本框、文本域等可输入元素的交互操作。

from selenium import webdriver
from selenium.webdriver.common.by import Bydriver = webdriver.Chrome()
driver.get("https://www.example.com/login")# 定位用户名输入框并输入文本
username = driver.find_element(By.ID, "username")
username.send_keys("testuser")# 定位密码输入框并输入文本
password = driver.find_element(By.NAME, "password")
password.send_keys("securepassword123")

 

from selenium.webdriver.common.keys import Keyssearch_box = driver.find_element(By.NAME, "q")
search_box.send_keys("selenium")  # 输入文本
search_box.send_keys(Keys.RETURN)  # 模拟回车键
Keys.RETURN回车键element.send_keys(Keys.RETURN)
Keys.TABTab键element.send_keys(Keys.TAB)
Keys.ESCAPEEsc键element.send_keys(Keys.ESCAPE)
Keys.BACK_SPACE退格键element.send_keys(Keys.BACK_SPACE)
Keys.CONTROLCtrl键element.send_keys(Keys.CONTROL + 'a')
Keys.SHIFTShift键element.send_keys(Keys.SHIFT + 'hello')
Keys.ARROW_UP上箭头element.send_keys(Keys.ARROW_UP)

 

http://www.dtcms.com/a/414019.html

相关文章:

  • 网站怎样做301温州科技网站建设
  • 网站可信品牌推广广告
  • 网站建设技术和销售工资北京网站建设公司哪家实惠
  • 做网站要会写什么软件电商网站的建设案例
  • 做黄金的网站未来做那个网站能致富
  • vue做门户网站用什么ui公众号如何制作
  • 张梅 合肥网站建设办公网站建设方案
  • 创造力网站设计怎么申请自己的小程序
  • 网站建设项目分析报告wordpress的标签设置
  • 数码产品在哪里做网站牛商网网站建设
  • 在别的公司做的网站可以转走吗郑州前端培训机构
  • 推广网站的作用做网站官网
  • 网站招聘怎么做wordpress 如何从新安装
  • 可以设计什么网站网站收录入口
  • 购物网站建设咨询国外设计网站怎么进入
  • ps怎么做网站分隔线上海集团网站建设
  • 做网站维护价格关于网站的毕业设计
  • 茂名市建设局网站登录名修改wordpress
  • 吉安网站建设343000wordpress网站加载过慢
  • vip域名做网站好不好动漫设计专业就业前景
  • 信誉好的电商网站建设wordpress企业建站视频教程
  • 湘潭网站建设 沟通磐石网络专业分销电商平台
  • 类似源码之家的网站住房和建设执业资格注册中心网站
  • 福建省建设厅网站职业资格数字营销名词解释
  • 洛阳网站公司哪家好网上购物系统源代码
  • 个人网站备案备注信息岳阳房地产信息网
  • jsp网站建设项目查询学校信息的网站
  • 淮南网站建设科技有限公司怎样设计网站首页
  • 河南郑州网站建设吕凡科技宁波网站免费建设服务平台
  • 深圳专业医疗网站建设锡林郭勒盟网站建设