当前位置: 首页 > wzjs >正文

建网站怎么年赚2024年最新时政热点

建网站怎么年赚,2024年最新时政热点,什么网站上做奥数题,大连装修公司哪家口碑最好针对文本聚类优化 优化TF-IDF特征工程# 调整ngram_range:设置为(1, 2),捕捉单字和双字词(如“不错”“不满意”)。 # 限制特征数量:通过max_features5000保留高信息密度特征,降低维度。 # 过滤低频/高频词&…

针对文本聚类优化

优化TF-IDF特征工程


# 调整ngram_range:设置为(1, 2),捕捉单字和双字词(如“不错”“不满意”)。
# 限制特征数量:通过max_features=5000保留高信息密度特征,降低维度。
# 过滤低频/高频词:设置min_df=2(过滤仅出现1次的词)和max_df=0.8(过滤出现超过80%样本的通用词)。from sklearn.feature_extraction.text import TfidfVectorizertfidf = TfidfVectorizer(ngram_range=(1, 2),  # 包含单字和双字词max_features=5000,   # 最大特征数min_df=2,            # 最小文档频率(出现至少2次)max_df=0.8,          # 最大文档频率(不超过80%样本)token_pattern=r"\b\w+\b"  # 匹配单词边界(兼容中文)
)

动态选择最佳簇数 n_clusters

import numpy as np
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score# 提取TF-IDF特征
X = tfidf.fit_transform(comments_to_cluster)# 轮廓系数:寻找最高得分
best_k = 0
best_silhouette = -1for k in range(5, 9):kmeans = KMeans(n_clusters=k, random_state=42)labels = kmeans.fit_predict(X)score = silhouette_score(X, labels)if score > best_silhouette:best_silhouette = scorebest_k = k

改进聚类算法

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import Normalizer  # 新增归一化步骤
from sklearn.cluster import KMeans
from sklearn.pipeline import make_pipeline# 构建管道:TF-IDF → 归一化 → KMeans
kmeans_predictor = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut, # 分词器ngram_range=(1, 2),  # 包含单字和双字词max_features=5000,   # 最大特征数min_df=2,            # 最小文档频率(出现至少2次)max_df=0.8,          # 最大文档频率(不超过80%样本)token_pattern=r"\b\w+\b"  # 匹配单词边界(兼容中文)),Normalizer(norm="l2"),  # 归一化向量长度为1(L2范数)KMeans(n_clusters=best_k, random_state=42, n_init=10)  # 使用标准KMeans
)# 训练与预测(保持原有逻辑)
comments_data_clean = comments_data[comments_data["sentiment_category"].isin([1, 3])]
kmeans_predictor.fit(comments_data_clean["comment_text"])
kmeans_cluster_label = kmeans_predictor.predict(comments_data_clean["comment_text"])kmeans_top_word = []
tfidf_vectorizer = kmeans_predictor.named_steps['tfidfvectorizer']
kmeans_model = kmeans_predictor.named_steps['kmeans']
feature_names = tfidf_vectorizer.get_feature_names_out()
cluster_centers = kmeans_model.cluster_centers_
for i in range(kmeans_model.n_clusters):top_feature_indices = cluster_centers[i].argsort()[::-1]top_word = ' '.join([feature_names[idx] for idx in top_feature_indices[:top_n_words]])kmeans_top_word.append(top_word)comments_data.loc[comments_data["sentiment_category"].isin([1, 3]), "positive_cluster_theme"] = [kmeans_top_word[x] for x in kmeans_cluster_label]

提交得分

在这里插入图片描述

http://www.dtcms.com/wzjs/64762.html

相关文章:

  • logo免费下载网站如何做百度免费推广
  • 网站的推广方案网络营销的基本方式有哪些
  • asp.net mvc 企业网站重庆seo黄智
  • 网站建设微信托管百度推广平台登录
  • 长治个人做网站kol推广是什么意思
  • 各种类型网站建设独立成都品牌推广
  • 校园网站系统建设需求百度一级代理商
  • 西宁市城东区住房和建设局网站天气预报最新天气预报
  • 新疆交通建设集团网站谷歌收录查询
  • 深圳市政府热线电话博客优化网站seo怎么写
  • 网站建设全包专业定制竞价托管一般要多少钱
  • 用word做网站个人博客网站
  • 南通网站建设外包搜索引擎竞价排名
  • 成年男女做羞羞视频网站网页制作app
  • 开发网站 语言杭州关键词排名工具
  • 网站建设120推广网络营销外包公司
  • 网站建设费用写创意软文网站平台
  • 附近做网站想做游戏推广怎么找游戏公司
  • 网站学做糕点的课程目录型搜索引擎有哪些
  • 家谱网站怎么做平台优化
  • 河北网站建设推广沧州seo推广
  • 建设银行电商网站腾讯新闻最新消息
  • Wordpress背景图覆盖搜外seo视频 网络营销免费视频课程
  • vue 做的pc端网站福州seo网站排名
  • 做淘宝必备的网站站长工具权重
  • 简述网站开发的工作流程百度seo建议
  • 济南模版网站产品推广渠道
  • wordpress webhookseo排名优化推广教程
  • 电脑做网站服务器需要什么网站优化 秦皇岛
  • 深圳企业做网站公杭州seo按天计费