当前位置: 首页 > wzjs >正文

wordpress 锚点的设计seo的基本步骤包括哪些

wordpress 锚点的设计,seo的基本步骤包括哪些,建设网站需要购买数据库吗,网页游戏排行榜前十微信小程序selenium学习实战【Python爬虫】 文章目录 selenium学习实战【Python爬虫】一、声明二、学习目标三、安装依赖3.1 安装selenium库3.2 安装浏览器驱动3.2.1 查看Edge版本3.2.2 驱动安装 四、代码讲解4.1 配置浏览器4.2 加载更多4.3 寻找内容4.4 完整代码 五、缺陷和不足 一、声明…

selenium学习实战【Python爬虫】

在这里插入图片描述

文章目录

  • selenium学习实战【Python爬虫】
    • 一、声明
    • 二、学习目标
    • 三、安装依赖
      • 3.1 安装selenium库
      • 3.2 安装浏览器驱动
      • 3.2.1 查看Edge版本
      • 3.2.2 驱动安装
    • 四、代码讲解
      • 4.1 配置浏览器
      • 4.2 加载更多
      • 4.3 寻找内容
      • 4.4 完整代码
    • 五、缺陷和不足

一、声明

本爬虫项目仅用于学习用途。严禁将本项目用于任何非法目的,包括但不限于恶意攻击网站、窃取用户隐私数据、破坏网站正常运营、商业侵权等行为。

二、学习目标

1.爬取网站链接:https://report.iresearch.cn;
2.爬取不付费的报告信息,标题、行业、作者、摘要和报告原件;

三、安装依赖

3.1 安装selenium库

只介绍主要的,别的库百度自行安装。
打开vscode终端,运行下面命令:

pip install -i https://pypi.douban.com/simple selenium

3.2 安装浏览器驱动

针对不同的浏览器,需要安装不同的驱动。下面列举了常见的浏览器与对应的驱动程序下载链接,部分网址需要 “科学上网” 才能打开哦(dddd)。

Firefox 浏览器驱动:https://github.com/mozilla/geckodriver/releases
Chrome 浏览器驱动:https://chromedriver.storage.googleapis.com/index.html
IE 浏览器驱动:http://selenium-release.storage.googleapis.com/index.html
Edge 浏览器驱动:https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
PhantomJS 浏览器驱动:https://phantomjs.org/
Opera 浏览器驱动:https://github.com/operasoftware/operachromiumdriver/releases

我用的时Edge浏览器,所以安装Edge驱动

3.2.1 查看Edge版本

点击三个点,再点击设置
在这里插入图片描述
点击左侧最下面关于Edge
在这里插入图片描述

3.2.2 驱动安装

下载好双击安装就行。

四、代码讲解

4.1 配置浏览器

# 创建 EdgeOptions 对象,用于配置浏览器选项
edge_options = Options()
# 添加参数忽略证书错误
edge_options.add_argument('--ignore-certificate-errors')
# 添加参数禁用扩展
edge_options.add_argument('--disable-extensions')
# 添加参数禁用沙盒模式
edge_options.add_argument('--no-sandbox')
# 添加参数禁用 GPU 加速
edge_options.add_argument('--disable-gpu')# 创建 Edge 浏览器驱动实例
driver = webdriver.Edge(options=edge_options)

4.2 加载更多

打开艾瑞网的报告页面,我们会发现加载更多这个按钮,我们可以用代码点击按钮加载,直到自己需要的数量,我这里设置加载10次
在这里插入图片描述

鼠标右键点击页面–>点击检查,加载更多按钮定义在这里

在这里插入图片描述

# 打开指定 URL 的网页
driver.get(url)try:# 用于保存找到的元素信息found_elements_info = []found_links = []wait = WebDriverWait(driver, 10)# 1. 点击"加载更多"按钮10次load_count = 0while load_count < 10:try:# 定位"加载更多"按钮load_more_btn = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, 'button#loadbtn')  # 根据实际页面调整选择器))# 点击按钮load_more_btn.click()load_count += 1print(f"已点击加载更多 {load_count}/10 次")# 等待新内容加载(根据页面加载速度调整)time.sleep(2)except Exception as e:print(f"点击加载更多失败: {e}")break# 2. 等待所有内容加载完成print("等待内容加载完成...")time.sleep(3)  # 额外等待确保所有内容加载完成

4.3 寻找内容

在这里插入图片描述

4.4 完整代码

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.edge.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time# 创建 EdgeOptions 对象,用于配置浏览器选项
edge_options = Options()
# 添加参数忽略证书错误
edge_options.add_argument('--ignore-certificate-errors')
# 添加参数禁用扩展
edge_options.add_argument('--disable-extensions')
# 添加参数禁用沙盒模式
edge_options.add_argument('--no-sandbox')
# 添加参数禁用 GPU 加速
edge_options.add_argument('--disable-gpu')# 创建 Edge 浏览器驱动实例
driver = webdriver.Edge(options=edge_options)url = 'https://report.iresearch.cn/'# 打开指定 URL 的网页
driver.get(url)try:# 用于保存找到的元素信息found_elements_info = []found_links = []wait = WebDriverWait(driver, 10)# 1. 点击"加载更多"按钮10次load_count = 0while load_count < 10:try:# 定位"加载更多"按钮load_more_btn = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, 'button#loadbtn')  # 根据实际页面调整选择器))# 点击按钮load_more_btn.click()load_count += 1print(f"已点击加载更多 {load_count}/10 次")# 等待新内容加载(根据页面加载速度调整)time.sleep(2)except Exception as e:print(f"点击加载更多失败: {e}")break# 2. 等待所有内容加载完成print("等待内容加载完成...")time.sleep(3)  # 额外等待确保所有内容加载完成# 3. 遍历所有找到的元素(包括初始加载和点击加载的)elements = driver.find_elements(By.CSS_SELECTOR, 'li[id^="freport."]')print(f"共找到 {len(elements)} 个元素")if elements:for elem in elements:element_text = elem.text# 提取链接(处理可能的异常)try:a_element = elem.find_element(By.CSS_SELECTOR, 'a')element_link = a_element.get_attribute('href')found_links.append(element_link)except:element_link = "未找到链接"# 保存信息found_elements_info.append(f"文本内容: {element_text}, 链接: {element_link}")print("找到元素:", element_text[:30] + "...")  # 只打印前30个字符避免刷屏# 4. 将找到的元素信息保存到文件with open('found_elements.txt', 'w', encoding='utf-8') as f:for info in found_elements_info:f.write(info + '\n')print("已将找到的元素信息保存到 found_elements.txt")# 5. 将找到的链接信息保存到文件with open('found_links.txt', 'w', encoding='utf-8') as f:for link in found_links:f.write(link + '\n')print("已将找到的链接信息保存到 found_links.txt")else:print("未找到符合条件的元素。")except Exception as e:print("定位元素失败:", e)# 获取页面源代码,用于调试page_source = driver.page_sourcewith open('page_source.html', 'w', encoding='utf-8') as f:f.write(page_source)print("已将页面源代码保存到 page_source.html,请查看分析")
finally:# 确保浏览器最终会被关闭time.sleep(2)  # 可根据需要调整等待时间,方便观察页面driver.quit()

五、缺陷和不足

目前不能爬取报告原文,不能区分收费付费,后续持续更新


文章转载自:

http://YsKBg4v0.hdpcn.cn
http://xcN25Mvn.hdpcn.cn
http://5NI7gzpQ.hdpcn.cn
http://Qvi61mpM.hdpcn.cn
http://aCkLqqX7.hdpcn.cn
http://hdvpRVWS.hdpcn.cn
http://5gp1tp7j.hdpcn.cn
http://y0kV6uHF.hdpcn.cn
http://f2os91M2.hdpcn.cn
http://9rLL7GqK.hdpcn.cn
http://q4ZNaOS6.hdpcn.cn
http://EJu9NsSY.hdpcn.cn
http://SR9RC9Dv.hdpcn.cn
http://p7X1c4v8.hdpcn.cn
http://0gcMcmLF.hdpcn.cn
http://xWusV80Y.hdpcn.cn
http://7lZvdefC.hdpcn.cn
http://3uIhIij1.hdpcn.cn
http://IDBjnWxS.hdpcn.cn
http://PGJN8SXY.hdpcn.cn
http://LvUQuM6h.hdpcn.cn
http://87L0A4B0.hdpcn.cn
http://lV2cDx8C.hdpcn.cn
http://3vb13PkQ.hdpcn.cn
http://X40QoLPL.hdpcn.cn
http://0BMf6m2V.hdpcn.cn
http://VqtqFg1r.hdpcn.cn
http://PzQonunv.hdpcn.cn
http://xWD6KhpT.hdpcn.cn
http://72UYjrqk.hdpcn.cn
http://www.dtcms.com/wzjs/743431.html

相关文章:

  • 企业网站搜索优化wordpress 统计代码添加
  • 织梦做社交网站合适吗怎样把产品放到网上销售
  • 建网站要多少钱呢动易网络 官方网站
  • 大型网站建设一般多少钱建设厅网站突然显示不全
  • 东海网站建设做网站需要监事吗
  • 网站域名试用期土巴兔网站开发技术
  • 郑州一建集团工程建设有限公司网站建设网站怎么建设分类
  • 做机网站北京商场skp
  • 攀枝花住房和城乡建设厅官方网站emlog文章转wordpress
  • 怎么在网站后台做图片新闻网站设计的概述
  • 网站设计公司哪家好h5页面制作网站
  • 网站运营工作具体做啥深圳网站建设提供服务公司
  • 网站开发业务好做吗深圳市建设工程造价信息
  • 丰台网站建设联系方式如何上传织梦做的网站
  • 网站建设的条件分析企业文化经典句子
  • 平台网站开发是什么意思东莞百姓网免费发布信息网
  • 广州天河区做网站的公司郑州网站建设白杨网络
  • 中山网站建设哪家强2345网址导航官网
  • 杭州临安网站建设公司管理系统数据库
  • 接网站建设 网站设计黄山建设网站公司电话
  • 织梦网站图标怎么开设网站 优帮云
  • 第三方网站系统建设WordPress登录效果
  • 信誉好的大良网站建设小程序模板下载了怎么用
  • 电子商务的网站设计龙华网站建设的公司
  • 公司的网站建设注意点wordpress模板文件介绍
  • 曲阜住房和城乡建设局网站有没有可以做app的网站
  • 网站域名注册哪个好小游戏网站怎么做
  • 国外做健康的网站小困网络科技泰安有限公司
  • 免费行情软件网站下载ww开发移动网站
  • 东莞网站优化电话上传网站教程