当前位置: 首页 > wzjs >正文

秒赞网站建设有质感的wordpress主题

秒赞网站建设,有质感的wordpress主题,上海网站建设领导品牌,教程建设网站今晚上一篇小说网站给我干难受了,先是五秒盾,还有页面page参数的不规则 直接请求 首先肯定是直接请求 直接请求的代码 import requestsurl"https://beqege.cc/2/21.html" headers{User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) …

今晚上一篇小说网站给我干难受了,先是五秒盾,还有页面page参数的不规则

直接请求

首先肯定是直接请求

直接请求的代码

import requestsurl="https://beqege.cc/2/21.html"
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/133.0.0.0 Safari/537.36'
}
response=requests.get(url,headers=headers)
print(response.text)

我们看一下返回值

image-20250303220403004

这里我打印了请求,正常是会返回空,none或者403相应的

可以看到返回值是一串我们看不懂的文字,然后还带一个just moment— 小说反爬还有五秒盾?

没办法,普通请求肯定是没办法了,对于五秒盾来说,换headers或者cookie都没有用,在这里使用一个过五秒盾的库就ok了


具体如下

过5s盾

代码如下

from curl_cffi import requests as cffi_requests
res = cffi_requests.get("https://www.beqege.cc/2/21.html", impersonate='chrome110', timeout=10,verify=False)
print("============cffi_requests的方式", res.status_code, res.cookies, res.text)

image-20250303220725987

提示以下这个库在使用的时候会查询整数,由于只是个人使用,直接禁用证书即可!

可以看到可以正常返回数据了,现在我们只需要对数据进行处理就行了


不对,不对,破案了,这本数的章节不是随着数字一直增加的,偶尔会有一个大跳!

image-20250303230324162

需要先找一下它大跳的规律

我说我刚才按照顺序请求的时候为什么不对!

我扒了一下,发现小说章节链接是这样一个规律:

#21-29
#210-299
#2100-2999
#21000-22455

image-20250303230739623

加到一块就是2456!再加上其余的彩蛋或者番外,就刚好!

代码如下(全本小说)

from bs4 import BeautifulSoup
import lxml
from curl_cffi import requests as cffi_requests
import os
#21-29
#210-299
#2100-2999
#21000-22455
data = [(21, 29),(210, 250),(2100, 2999),(21000, 22455)
]
for start, end in data:for i in range(start, end + 1):res = cffi_requests.get(f"https://www.beqege.cc/2/{i}.html", impersonate='chrome110', timeout=10, verify=False)res = res.textsoup = BeautifulSoup(res, "lxml")title = soup.find("div", id="content").texthead = soup.find("div", class_="bookname").texthead = head.replace("\n", "")folder_path = f"D:/小说/凡人修仙转"if not os.path.exists(folder_path):os.makedirs(folder_path)with open(f"{folder_path}/{head}.txt", "w", encoding="utf-8") as f:f.write(title)

可以正常处理了!~

image-20250303231936169

这个代码处理了一下空格,以至于正常创建文件夹

如果想爬取的更快一些,可以使用异步或者多线程,我这里使用的是异步

多线程(全本小说)

from bs4 import BeautifulSoup
from curl_cffi import requests as cffi_requests
import os
import random
import time
from concurrent.futures import ThreadPoolExecutor, as_completed# 定义章节范围列表 (包含起始和结束页码)
CHAPTER_RANGES = [(21, 29),(210, 299),# (2100, 2999),# (21000, 22455)
]def download_page(i, retries=3):"""下载单个页面并保存"""folder_path = "D:/小说/凡人修仙转"url = f"https://www.beqege.cc/2/{i}.html"# 随机延迟(0.5-3秒)time.sleep(random.uniform(0.5, 3))for attempt in range(retries):try:# 随机选择浏览器指纹browsers = ['chrome110', 'chrome107', 'edge101']res = cffi_requests.get(url,impersonate=random.choice(browsers),timeout=10,verify=False)# 检测Cloudflare验证if "Checking your browser before accessing" in res.text:raise Exception("触发Cloudflare验证")if res.status_code != 200:raise Exception(f"HTTP状态码异常: {res.status_code}")soup = BeautifulSoup(res.text, "lxml")content_div = soup.find("div", id="content")bookname_div = soup.find("div", class_="bookname")if not content_div or not bookname_div:raise Exception("关键元素未找到")title = content_div.get_text(strip=True)head = bookname_div.get_text(strip=True).replace("\n", "")# 保存文件os.makedirs(folder_path, exist_ok=True)  # 自动创建目录with open(f"{folder_path}/{head}.txt", "w", encoding="utf-8") as f:f.write(title)print(f"页码 {i} 下载成功")return Trueexcept Exception as e:print(f"页码 {i}{attempt + 1} 次尝试失败: {str(e)}")if attempt < retries - 1:# 指数退避+随机抖动wait_time = 2 ** attempt + random.uniform(0, 1)time.sleep(wait_time)print(f"页码 {i} 下载失败,已重试 {retries} 次")return Falsedef generate_page_numbers():"""生成所有需要爬取的页码"""for (start, end) in CHAPTER_RANGES:yield from range(start, end + 1)  # 包含结束页码def main():# 配置线程池 (建议4-8个线程)max_workers = 6total_pages = sum(end - start + 1 for (start, end) in CHAPTER_RANGES)with ThreadPoolExecutor(max_workers=max_workers) as executor:# 提交所有页码的下载任务futures = {executor.submit(download_page, page): pagefor page in generate_page_numbers()}# 进度跟踪completed = 0for future in as_completed(futures):completed += 1page = futures[future]try:future.result()status = "成功"except Exception as e:status = f"失败: {str(e)[:30]}"print(f"进度: {completed}/{total_pages} | 页码 {page} {status}")if __name__ == "__main__":# 随机初始化延迟(1-5秒)time.sleep(random.uniform(1, 5))main()
  1. 增加了多浏览器指纹随即切换
  2. 随机请求延迟
  3. 自动重试失败请求
    tr(e)[:30]}"
    print(f"进度: {completed}/{total_pages} | 页码 {page} {status}")

if name == “main”:
# 随机初始化延迟(1-5秒)
time.sleep(random.uniform(1, 5))
main()


>1. 增加了多浏览器指纹随即切换
>2. 随机请求延迟
>3. 自动重试失败请求
>4. 显示成功和错误日志
http://www.dtcms.com/wzjs/605883.html

相关文章:

  • 厦门免费网站建设21世纪上海人才网官网
  • wordpress建设企业网站宁波seo推广优化
  • 广州网站建设app开发百度站长工具综合查询
  • 套用网站模板企业网站导航下拉菜单怎么做
  • 武安网站建设哪些网站是用php编写的
  • 长治网站制作怎么做网站快照怎么更新
  • 为网站开发uwp应用企业网站建设后期维护费用
  • 建设flash网站四川城乡和住房建设厅网站首页
  • 宜昌市建设监理协会网站网站建设公司 2018
  • 找人做试管婴儿的网站个人如何做跨境电商?
  • 嘉兴企业做网站别人的做网站
  • 网站优化推广方法代理做网站
  • 检查网站死链接百度知道答题赚钱
  • 宁波智能模板建站南宁网站建设方案报价
  • 网站建设与管理模拟试卷企业网站html
  • 东莞 企业网站建设专门做餐厅设计的网站
  • 网站域名提交重庆建设人才网站
  • 拖拽式网站建设费用网站建设招聘兼职
  • 外贸建设网站制作怎样在内网建设一个网站
  • 广州机械网站开发永嘉专业网站设计公司
  • 枣阳网站定制网站开发规范有哪些
  • 自己用iis怎么建设网站照片做视频ppt模板下载网站
  • 如何在网站上做qq群链接移动宽带续费多少钱
  • 适合新手做网站的唯品会一家专门做特卖的网站
  • 网站开发及运营成本成都网站建设易维达好
  • 网站结构怎么优化网站维护一般怎么做
  • 做植物网站公司网站没有备案是不是违法的
  • 网站迁移后 后台进不去nginx伪静态 wordpress
  • 网站需要服务器网站开发工具 哪个好
  • 做门户网站好还是论坛好东阿县城市建设局网站