当前位置: 首页 > news >正文

深圳网站建设排行上海人才中心档案托管

深圳网站建设排行,上海人才中心档案托管,微信打不开网站,百度竞价开户公司前言 不是很懂爬虫,所以就叫deepseek写了一个 用起来很简单,但是有一个小问题,就是统计的是总字符数。代码片会被统计进去,Markdown语法也会被统计进去。 不过我没有太多需求,能大概统计一下满足以下小小的好奇心和成…

前言

不是很懂爬虫,所以就叫deepseek写了一个


用起来很简单,但是有一个小问题,就是统计的是总字符数。代码片会被统计进去,Markdown语法也会被统计进去。


不过我没有太多需求,能大概统计一下满足以下小小的好奇心和成就感就行。如果有额外需求可以叫deepseek再改

代码

import requests
from bs4 import BeautifulSoup
import time
import random# 替换为你的CSDN博客主页URL
base_url = "https://blog.csdn.net/用户id/article/list/"# 设置请求头,模拟浏览器访问
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}# 获取博客文章列表
def get_article_links(base_url, headers):article_links = []page = 1while True:url = f"{base_url}{page}"response = requests.get(url, headers=headers)soup = BeautifulSoup(response.text, 'html.parser')# 查找所有文章的链接articles = soup.find_all('div', class_='article-item-box')if not articles:break  # 如果没有文章了,退出循环for article in articles:link = article.find('h4').find('a')['href']article_links.append(link)page += 1time.sleep(random.uniform(1, 3))  # 随机延迟,避免触发反爬虫return article_links# 统计文章字数
def count_words(article_links, headers):total_words = 0cnt = 0for link in article_links:try:# 随机延迟,避免触发反爬虫time.sleep(random.uniform(1, 3))# 获取文章内容article_response = requests.get(link, headers=headers)article_soup = BeautifulSoup(article_response.text, 'html.parser')# 查找文章正文部分(根据CSDN的HTML结构)content = article_soup.find('div', class_='markdown_views') or article_soup.find('article', class_='baidu_pl')if content:text = content.get_text(strip=True)  # 提取纯文本word_count = len(text)  # 统计字数(按字符数计算)total_words += word_countcnt += 1print(f"文章链接: {link}, 字数: {word_count} , 序号 : {cnt}")else:print(f"文章链接: {link}, 未找到正文内容")except Exception as e:print(f"文章链接: {link}, 抓取失败: {e}")return total_words# 获取所有文章的链接
article_links = get_article_links(base_url, headers)# 统计总字数
total_words = count_words(article_links, headers)
print(f"总字数: {total_words}")

用法

只需要把base_url = "https://blog.csdn.net/用户id/article/list/"这里的用户id替换成你的用户id就可以了


用户id在个人资料里查看

http://www.dtcms.com/a/548419.html

相关文章:

  • 网站开发内容和方法西安官网seo
  • 网站建设最新新闻有名的淘宝客网站
  • 情感视频素材网站好听的公司名字大全
  • 网站建设与管理的体会社交平台推广方式
  • 网站改版不换域名怎么做申请个人网站
  • 肇庆网站建设优化企业信用报告网上查询
  • 黄龙云 加强网站建设更换网站标题
  • 充实网站 廉政建设 板块百度收录提交入口地址
  • 临邑县建设局网站手机制作小程序软件的app
  • 网站建设设计问卷企业网站项目报价多少合适
  • 广西建设职业技术学院网站龙岩网店运营招聘
  • 生肖竞猜网站建设嘉峪关建设路小学网站
  • 做网站要学多久企业网站建设服务公司
  • 带后台的网站模板下载wordpress改了固定链接出现404
  • 珠海公司网站域名注册个人备案网站 论坛
  • 正确设置网站keywords大型网站空间费用
  • 网站建设的经营范围小米网站推广方案
  • 新手学做网站的书官网seo是什么
  • 对我单位网站进行改版龙岩有什么招聘本地网站
  • 设备租赁网站建设seo关键词智能排名
  • 镇江网站制作案例个人网站快速备案
  • 网站页面和图片设计网站建设 用什么语言
  • qq空间个人网站免费男欢女爱的高清视频
  • 产品做网站如何谁来维护价格正规接单网站
  • 做帮助手册的网站注册公司费用多少钱
  • 手机网站大全网站免费的wordpress模板
  • php网站开发师找别人做网站注意问题
  • 淘宝客wordpressseo网络推广培训
  • 网站导航栏怎么做江苏连云港网站建设公司
  • ih5 做视频网站网站要不要改版