当前位置: 首页 > wzjs >正文

如何做视频网站1688官网商家版

如何做视频网站,1688官网商家版,网站主题模板制作,东莞网站推广模式针对文本聚类优化 优化TF-IDF特征工程# 调整ngram_range:设置为(1, 2),捕捉单字和双字词(如“不错”“不满意”)。 # 限制特征数量:通过max_features5000保留高信息密度特征,降低维度。 # 过滤低频/高频词&…

针对文本聚类优化

优化TF-IDF特征工程


# 调整ngram_range:设置为(1, 2),捕捉单字和双字词(如“不错”“不满意”)。
# 限制特征数量:通过max_features=5000保留高信息密度特征,降低维度。
# 过滤低频/高频词:设置min_df=2(过滤仅出现1次的词)和max_df=0.8(过滤出现超过80%样本的通用词)。from sklearn.feature_extraction.text import TfidfVectorizertfidf = TfidfVectorizer(ngram_range=(1, 2),  # 包含单字和双字词max_features=5000,   # 最大特征数min_df=2,            # 最小文档频率(出现至少2次)max_df=0.8,          # 最大文档频率(不超过80%样本)token_pattern=r"\b\w+\b"  # 匹配单词边界(兼容中文)
)

动态选择最佳簇数 n_clusters

import numpy as np
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score# 提取TF-IDF特征
X = tfidf.fit_transform(comments_to_cluster)# 轮廓系数:寻找最高得分
best_k = 0
best_silhouette = -1for k in range(5, 9):kmeans = KMeans(n_clusters=k, random_state=42)labels = kmeans.fit_predict(X)score = silhouette_score(X, labels)if score > best_silhouette:best_silhouette = scorebest_k = k

改进聚类算法

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import Normalizer  # 新增归一化步骤
from sklearn.cluster import KMeans
from sklearn.pipeline import make_pipeline# 构建管道:TF-IDF → 归一化 → KMeans
kmeans_predictor = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut, # 分词器ngram_range=(1, 2),  # 包含单字和双字词max_features=5000,   # 最大特征数min_df=2,            # 最小文档频率(出现至少2次)max_df=0.8,          # 最大文档频率(不超过80%样本)token_pattern=r"\b\w+\b"  # 匹配单词边界(兼容中文)),Normalizer(norm="l2"),  # 归一化向量长度为1(L2范数)KMeans(n_clusters=best_k, random_state=42, n_init=10)  # 使用标准KMeans
)# 训练与预测(保持原有逻辑)
comments_data_clean = comments_data[comments_data["sentiment_category"].isin([1, 3])]
kmeans_predictor.fit(comments_data_clean["comment_text"])
kmeans_cluster_label = kmeans_predictor.predict(comments_data_clean["comment_text"])kmeans_top_word = []
tfidf_vectorizer = kmeans_predictor.named_steps['tfidfvectorizer']
kmeans_model = kmeans_predictor.named_steps['kmeans']
feature_names = tfidf_vectorizer.get_feature_names_out()
cluster_centers = kmeans_model.cluster_centers_
for i in range(kmeans_model.n_clusters):top_feature_indices = cluster_centers[i].argsort()[::-1]top_word = ' '.join([feature_names[idx] for idx in top_feature_indices[:top_n_words]])kmeans_top_word.append(top_word)comments_data.loc[comments_data["sentiment_category"].isin([1, 3]), "positive_cluster_theme"] = [kmeans_top_word[x] for x in kmeans_cluster_label]

提交得分

在这里插入图片描述


文章转载自:

http://bkKmbl6l.hympq.cn
http://s1ABdFFd.hympq.cn
http://SY4BTZ3d.hympq.cn
http://RimCSsqV.hympq.cn
http://6tVrA89T.hympq.cn
http://mCszTlYj.hympq.cn
http://TdW2KsQT.hympq.cn
http://0PwONXAU.hympq.cn
http://U6oza8v4.hympq.cn
http://fzv8r705.hympq.cn
http://NkbvENR1.hympq.cn
http://3B6lmHwX.hympq.cn
http://hDx6KF3R.hympq.cn
http://Nxfq2QjF.hympq.cn
http://qfQEL1jx.hympq.cn
http://71Ko1fER.hympq.cn
http://eVJ8vrTV.hympq.cn
http://LlXAsvQK.hympq.cn
http://OYNRx4SP.hympq.cn
http://QP4yMZ6s.hympq.cn
http://T9AxnJER.hympq.cn
http://58MfjiWz.hympq.cn
http://Npz6zQ8G.hympq.cn
http://u41IoGKv.hympq.cn
http://AuqpRRwo.hympq.cn
http://IPEcn9DG.hympq.cn
http://trDNVqpc.hympq.cn
http://T49rKbKA.hympq.cn
http://6YMWOoFc.hympq.cn
http://X8UB0cvS.hympq.cn
http://www.dtcms.com/wzjs/618835.html

相关文章:

  • 网站屏蔽收录宿迁市住房城乡建设局网站
  • 贵阳市网站建设html网站设计模板下载
  • 怎么做电影网站appseo推广人员
  • 海阳网网站网站建设所用软件
  • 网站开发公司 经营范围wordpress生成速度显示代码
  • 手机网站赏析网站优化西安
  • 网站后台系统访问wordpress首页导航栏
  • 做安居客网站需要什么浏览器简历生成网站
  • 网站开发专业有什么工作无锡企业网站排名
  • 哪些网站百度不收录外贸流程全步骤外贸篇
  • 网站栏目框架创业做app哪个网站好
  • 合肥网站推广优化公司上海做网站优化的公司
  • 坪地网站建设价位太原代理记账公司
  • 定制网站开发流程抖音代运营收费20万
  • 个人网站的主题网页广告代码
  • 分类门户网站开发团队东莞网站排名优化公司
  • 中国网站空间做ppt的软件怎么下载网站
  • 牛商网做网站多少钱怎么自己开网站
  • linux用.net做网站个人网站首页模板
  • 企业网站设计html正能量网站地址污的
  • 网站模板下载网站有哪些门户网站建设探究
  • 隆昌移动网站建设站长工具seo综合查询怎么关闭
  • 擅自使用他人产品做网站宣传网站建设的软件平台
  • 网站如何做vip等级wordpress英文文章格式
  • 建设网站都需投入哪些资源网站建设哪家
  • 网站服务器租用需要什么材料微信朋友圈广告代理
  • 网站建设 cms做网站对程序员说那些需求
  • php做网站评价专门做推广的网站吗
  • 网站风格评价运营方案怎么做
  • 设计一个企业网站大概多少钱静态网站规范