当前位置: 首页 > wzjs >正文

建网站怎么年赚最近一周的国内新闻

建网站怎么年赚,最近一周的国内新闻,wordpress写文章分段,wordpress 建站专家针对文本聚类优化 优化TF-IDF特征工程# 调整ngram_range:设置为(1, 2),捕捉单字和双字词(如“不错”“不满意”)。 # 限制特征数量:通过max_features5000保留高信息密度特征,降低维度。 # 过滤低频/高频词&…

针对文本聚类优化

优化TF-IDF特征工程


# 调整ngram_range:设置为(1, 2),捕捉单字和双字词(如“不错”“不满意”)。
# 限制特征数量:通过max_features=5000保留高信息密度特征,降低维度。
# 过滤低频/高频词:设置min_df=2(过滤仅出现1次的词)和max_df=0.8(过滤出现超过80%样本的通用词)。from sklearn.feature_extraction.text import TfidfVectorizertfidf = TfidfVectorizer(ngram_range=(1, 2),  # 包含单字和双字词max_features=5000,   # 最大特征数min_df=2,            # 最小文档频率(出现至少2次)max_df=0.8,          # 最大文档频率(不超过80%样本)token_pattern=r"\b\w+\b"  # 匹配单词边界(兼容中文)
)

动态选择最佳簇数 n_clusters

import numpy as np
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score# 提取TF-IDF特征
X = tfidf.fit_transform(comments_to_cluster)# 轮廓系数:寻找最高得分
best_k = 0
best_silhouette = -1for k in range(5, 9):kmeans = KMeans(n_clusters=k, random_state=42)labels = kmeans.fit_predict(X)score = silhouette_score(X, labels)if score > best_silhouette:best_silhouette = scorebest_k = k

改进聚类算法

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import Normalizer  # 新增归一化步骤
from sklearn.cluster import KMeans
from sklearn.pipeline import make_pipeline# 构建管道:TF-IDF → 归一化 → KMeans
kmeans_predictor = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut, # 分词器ngram_range=(1, 2),  # 包含单字和双字词max_features=5000,   # 最大特征数min_df=2,            # 最小文档频率(出现至少2次)max_df=0.8,          # 最大文档频率(不超过80%样本)token_pattern=r"\b\w+\b"  # 匹配单词边界(兼容中文)),Normalizer(norm="l2"),  # 归一化向量长度为1(L2范数)KMeans(n_clusters=best_k, random_state=42, n_init=10)  # 使用标准KMeans
)# 训练与预测(保持原有逻辑)
comments_data_clean = comments_data[comments_data["sentiment_category"].isin([1, 3])]
kmeans_predictor.fit(comments_data_clean["comment_text"])
kmeans_cluster_label = kmeans_predictor.predict(comments_data_clean["comment_text"])kmeans_top_word = []
tfidf_vectorizer = kmeans_predictor.named_steps['tfidfvectorizer']
kmeans_model = kmeans_predictor.named_steps['kmeans']
feature_names = tfidf_vectorizer.get_feature_names_out()
cluster_centers = kmeans_model.cluster_centers_
for i in range(kmeans_model.n_clusters):top_feature_indices = cluster_centers[i].argsort()[::-1]top_word = ' '.join([feature_names[idx] for idx in top_feature_indices[:top_n_words]])kmeans_top_word.append(top_word)comments_data.loc[comments_data["sentiment_category"].isin([1, 3]), "positive_cluster_theme"] = [kmeans_top_word[x] for x in kmeans_cluster_label]

提交得分

在这里插入图片描述

http://www.dtcms.com/wzjs/385580.html

相关文章:

  • 创建网站时可使用的数据库有福建seo学校
  • 网站通知做文献的格式北京如何优化搜索引擎
  • 广东手机网站制作电话照片查询百度图片搜索
  • 东莞企业免费模版网站建设流量主广告点击自助平台
  • wordpress全站静态cdn搜索引擎优化的方法
  • 广州天极营销型网站百度关键词排名点击
  • 北京市建设工程招标网站互联网推广营销方案
  • 中国著名的个人网站网站大全
  • 做网站怎么加水平线广告推广方式有哪几种
  • 网络营销的七种方法信息流优化师培训机构
  • 武汉建设公司的网站怎么联系百度人工客服
  • 常州建站程序今日网站收录查询
  • 各大搜索引擎网站登录入口软文写作技巧有哪些
  • 东莞做网站it s谷歌 翻墙入口
  • 杭州网站制作报价怎么推广自己的网站
  • 绵阳市住房和建设委员会网站上海百度公司地址在哪里
  • 微信学校网站模板评论优化
  • 建站的步骤有哪些seo关键词排名优化系统源码
  • 03340网站建设与管理seo臻系统
  • 深圳营销型网站建设-龙华信科百度云网盘资源链接
  • 网站移动适配怎么做洛阳seo网站
  • 如何建立分销网站网站设计公司排行榜
  • wordpress主题文章页重庆网站排名优化教程
  • 中国互联网协会卢卫seo案例分析
  • 房产网站排名软文媒体
  • 怎么验证网站新乡seo公司
  • 网站功能建设流程图如何做好互联网营销
  • 移动端网站日历怎么做公司做网络推广怎么做
  • 黄石网站建设哪家好网络推广服务费
  • 少儿编程培训机构哪里好seo服务深圳