当前位置: 首页 > news >正文

企业网站备案名称要求物流信息网站有哪些

企业网站备案名称要求,物流信息网站有哪些,做网站是怎么赚钱的违法,wordpress主题qux_v7.1红楼梦》作为中国古典文学巅峰之作,其丰富的内涵和复杂的结构一直是文学研究和文本分析的重要对象。本文将详细介绍如何运用Python技术对《红楼梦》进行系统化的文本分析,包括分卷处理、分词技术、停用词过滤以及TF-IDF关键词提取等关键步骤。一、文本预…

红楼梦》作为中国古典文学巅峰之作,其丰富的内涵和复杂的结构一直是文学研究和文本分析的重要对象。本文将详细介绍如何运用Python技术对《红楼梦》进行系统化的文本分析,包括分卷处理、分词技术、停用词过滤以及TF-IDF关键词提取等关键步骤。

一、文本预处理:分卷处理

1.1 分卷逻辑实现

import os# 初始化计数器
b = 0# 打开红楼梦全文文件
with open('红楼梦.txt', 'r', encoding='utf-8') as file:for line in file:# 检查是否为分卷标题行if '卷 第' in line:# 创建分卷文件名name = line.strip() + '.txt'# 构建分卷文件路径path = os.path.join('.\\红楼梦\\分卷', name)print("正在创建分卷文件:", path)# 创建新分卷文件afile = open(path, 'w', encoding='utf-8')b = 1  # 标记进入正文部分continue# 跳过非正文内容if '手机电子书' in line or b == 0:continueelse:# 将正文内容写入分卷文件afile.write(line)

分卷内容如下

1.2 分卷语料库构建

import os
import pandas as pd# 初始化存储路径和内容的列表
paths = []
contents = []for (dirpath, dirnames, filenames) in os.walk('.\红楼梦\分卷'):for filename in filenames:# 构建完整文件路径filepath = os.path.join(dirpath, filename)paths.append(filepath)# 读取文件内容with open(filepath, 'r', encoding='utf-8') as f:contents.append(f.read())# 创建语料库DataFrame
corpus = pd.DataFrame({'filepath': paths,  # 文件路径列'content': contents  # 文件内容列

该部分代码:

  • 使用os.walk遍历分卷目录
  • 将每个分卷文件路径和内容存入DataFrame
  • 构建结构化语料库,便于后续分析

二、中文分词处理

1. 自定义词典与分词

import jieba# 加载自定义词典
jieba.load_userdict(r'红楼梦词库.txt')# 读取停用词表
stop_dict = pd.read_csv('StopwordsCN.txt',encoding='utf-8',engine='python',index_col=False)# 创建分词结果文件
with open('红楼梦\分词汇总.txt','w',encoding='utf-8') as file_to_jieba:for index, row in corpus.iterrows():space = ''  # 初始化分词结果字符串filepath = row['filepath']  # 获取文件路径content = row['content']  # 获取文件内容# 使用jieba进行分词seg_list = jieba.cut(content)# 过滤停用词和非空词for word in seg_list:if (word not in stop_dict.stopword.values and len(word.strip()) > 0):space += word + ' '  # 用空格分隔词语# 写入分词结果file_to_jieba.write(space + '\n')

  1. ​自定义词典​​:加载"红楼梦词库.txt"提高专有名词识别准确率  
  2. ​停用词过滤​​:去除无实际意义的虚词和常见词
  3. ​分词优化​​:确保每个有效词语用空格分隔

三、TF-IDF关键词提取

3.1 TF-IDF原理简介

F-IDF(词频-逆文档频率)通过两个维度的计算评估词语重要性:

  1. TF(词频):词语在当前文档中出现的频率

    • 计算公式:TF(t,d) = (t在d中出现的次数)/(d中所有词语的总数)
  2. IDF(逆文档频率):衡量词语在整个语料库中的普遍重要性

    • 计算公式:IDF(t) = log(总文档数/(包含t的文档数+1))
  3. TF-IDF值:TF × IDF

    • 值越高表示词语对当前文档越重要

 实现代码解析

from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd# 读取分词结果
with open('./红楼梦/分词汇总.txt', 'r', encoding='utf-8') as file:content = file.readlines()# 初始化TF-IDF向量器
vectorizer = TfidfVectorizer()# 计算TF-IDF矩阵
tfidf = vectorizer.fit_transform(content)# 获取特征词列表
vocabulary = vectorizer.get_feature_names()# 创建TF-IDF数据框
df = pd.DataFrame(data=tfidf.T.todense(),  # 转置并转换为密集矩阵index=vocabulary)  # 以词语作为行索引# 跳过前8行(可能是标点符号等)
df = df.iloc[8:]# 对每回进行TF-IDF排序并输出前10个关键词
for i in df.columns:# 按降序排序results = df.sort_values(by=i, ascending=False)# 输出当前回数和前10个关键词print(f'第{i+1}回:\n', results.iloc[:10,i])

运行上述代码后,我们将得到每个分卷的TF-IDF权重最高的前10个关键词。这些关键词可以反映:

  1. ​章节主题​​:高频关键词往往指向该章节的核心内容
  2. ​人物关系​​:主要人物的出现频率变化

  3. ​情节发展​​:关键事件和场景的分布

例如,某章节的关键词可能是"宝玉"、"黛玉"、"诗社"等,反映了该章节的主要内容。

http://www.dtcms.com/a/534202.html

相关文章:

  • 网站开发培训网站旅行志 wordpress
  • 购物网站详细设计在网站上做远程教育系统多少钱
  • 教育类门户网站长沙网上商城
  • 网站开发能进无形资产吗深圳网站建设交易
  • 沧州市建设局网站做网站美工要学什么
  • Acrobat js 数组操作与 splice 方法解决动态表单字段重复值问题
  • 用个人免费空间快速建立个人网站后方平台没有网站流量怎么办
  • 河北省网站备案步骤宣讲家网站做四讲四有模范
  • 重庆优化网站公司微网站微名片
  • 电子商务物流网站建设规划方案洛阳网站建设洛阳网站制作
  • 湖南住房和城乡建设部网站网站开发套餐
  • 做网站用的什么编程语言免费海报素材网站大全
  • 十分钟编码,两小时查错:调试效率革命
  • 网站优化招聘南通网页设计培训
  • 网页设计好的公司网络优化器下载
  • 建设一个会员积分网站主要给人家做网站的公司
  • 网络教学网站建设百度推广费用一年多少钱
  • 如何提高网站的收录量网站后台开发费用
  • 网站后台更新前台更新不门户型网站建设
  • 用jsp做网站一般会用到什么搜索引擎优化策略应该包括
  • seo网站优化服务商韩国时尚网站欣赏
  • 大连建设网站哪家好院校建设网站群的原因
  • 网站开发项目建设规范公司发展规划范文
  • 金融企业类网站模板软件最全网站
  • 用糖做的网站课程网站建设的设计报告
  • mooc网站开发案例在越南做一个网站怎么做
  • 北京政务服务官方网站免费快速网站
  • 网站一级域名申请网页设计师和ui设计师区别
  • 做情趣网站违法吗毕设网站
  • 搬瓦工 做网站学校网站首页设计