当前位置: 首页 > news >正文

怎么做微信上的网站吗唐山seo优化

怎么做微信上的网站吗,唐山seo优化,腾讯微博做网站外链步骤,wordpress 翻页错误针对文本聚类优化 优化TF-IDF特征工程# 调整ngram_range:设置为(1, 2),捕捉单字和双字词(如“不错”“不满意”)。 # 限制特征数量:通过max_features5000保留高信息密度特征,降低维度。 # 过滤低频/高频词&…

针对文本聚类优化

优化TF-IDF特征工程


# 调整ngram_range:设置为(1, 2),捕捉单字和双字词(如“不错”“不满意”)。
# 限制特征数量:通过max_features=5000保留高信息密度特征,降低维度。
# 过滤低频/高频词:设置min_df=2(过滤仅出现1次的词)和max_df=0.8(过滤出现超过80%样本的通用词)。from sklearn.feature_extraction.text import TfidfVectorizertfidf = TfidfVectorizer(ngram_range=(1, 2),  # 包含单字和双字词max_features=5000,   # 最大特征数min_df=2,            # 最小文档频率(出现至少2次)max_df=0.8,          # 最大文档频率(不超过80%样本)token_pattern=r"\b\w+\b"  # 匹配单词边界(兼容中文)
)

动态选择最佳簇数 n_clusters

import numpy as np
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score# 提取TF-IDF特征
X = tfidf.fit_transform(comments_to_cluster)# 轮廓系数:寻找最高得分
best_k = 0
best_silhouette = -1for k in range(5, 9):kmeans = KMeans(n_clusters=k, random_state=42)labels = kmeans.fit_predict(X)score = silhouette_score(X, labels)if score > best_silhouette:best_silhouette = scorebest_k = k

改进聚类算法

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import Normalizer  # 新增归一化步骤
from sklearn.cluster import KMeans
from sklearn.pipeline import make_pipeline# 构建管道:TF-IDF → 归一化 → KMeans
kmeans_predictor = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut, # 分词器ngram_range=(1, 2),  # 包含单字和双字词max_features=5000,   # 最大特征数min_df=2,            # 最小文档频率(出现至少2次)max_df=0.8,          # 最大文档频率(不超过80%样本)token_pattern=r"\b\w+\b"  # 匹配单词边界(兼容中文)),Normalizer(norm="l2"),  # 归一化向量长度为1(L2范数)KMeans(n_clusters=best_k, random_state=42, n_init=10)  # 使用标准KMeans
)# 训练与预测(保持原有逻辑)
comments_data_clean = comments_data[comments_data["sentiment_category"].isin([1, 3])]
kmeans_predictor.fit(comments_data_clean["comment_text"])
kmeans_cluster_label = kmeans_predictor.predict(comments_data_clean["comment_text"])kmeans_top_word = []
tfidf_vectorizer = kmeans_predictor.named_steps['tfidfvectorizer']
kmeans_model = kmeans_predictor.named_steps['kmeans']
feature_names = tfidf_vectorizer.get_feature_names_out()
cluster_centers = kmeans_model.cluster_centers_
for i in range(kmeans_model.n_clusters):top_feature_indices = cluster_centers[i].argsort()[::-1]top_word = ' '.join([feature_names[idx] for idx in top_feature_indices[:top_n_words]])kmeans_top_word.append(top_word)comments_data.loc[comments_data["sentiment_category"].isin([1, 3]), "positive_cluster_theme"] = [kmeans_top_word[x] for x in kmeans_cluster_label]

提交得分

在这里插入图片描述

http://www.dtcms.com/a/497526.html

相关文章:

  • 湖北网站建设xiduyun企业网站和信息化建设金蝶
  • 重庆网站制作那家好银川网站建站
  • 网站倒计时代码怎样做内网网站
  • 模板网站不可以做seo优化吗电脑做服务器上传网站
  • 织梦网站搭建哪里有竞价推广托管
  • 公司网站建设哪个最好嵌入式培训机构
  • wordpress 开发商城河南网站推广优化
  • 天眼查河南建设网站公司游戏登录器列表更新网站建设
  • 做网站和网页沈阳关键词优化电话
  • 制作手机软件电商运营seo是什么
  • 游戏币网站建设能上国外网站的dns
  • 莱芜网站设计公司公司网站设计 上海
  • 海南网站建设多少钱怎么用模板做网站
  • 专业模板建站公司数字创意设计包括哪些方面
  • 手机网站设计尺寸新闻类软文
  • 青海和城乡建设厅网站如何申请个人网站
  • 网站搭建南京产品外观设计流程
  • 网站备案号省份网站优化排名价格
  • 建设电子商务网站的花费企业为什么要并购
  • 织梦 手机网站模板门户网站建设和运行保证的磋商文件
  • php会了 怎么做网站小语种网站制作
  • 深入理解操作系统内存管理
  • 哈尔滨快速建站公司推荐网站开发下人员配置
  • 企业网站建设目的选择题php怎样做网站
  • 广州 seo的网站怎么上传网站程序
  • 多语言网站怎么做如何做网站管理维护
  • 刚建的网站百度搜不到开通小程序要钱吗
  • 华贸中心网站谁做的手机网站域名哪里注册时间
  • 做网站在哪儿买空间北京展厅设计公司
  • 最好的网站建设机构北京建设门户网站