当前位置: 首页 > news >正文

NLP10-TF-IDF文本向量化

一、TF-IDF

之前的一些笔记中已经介绍了TF-IDF的基本原理,参见 NLP05-jieba分词

这里介绍一下通过TF-IDF计算余弦相似度

余弦相似度矩阵: 表示每两个文档之间的相似度值,取值范围为 [0, 1],值越大表示两个文档越相似。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 示例文档集合
documents = [
    "今天天气很好",
    "我们去公园散步",
    "天气预报说今天有雨",
    "出去玩需要带伞"
]

# 创建 TF-IDF 向量化器
vectorizer = TfidfVectorizer()

# 计算 TF-IDF 值并将文档转换为向量
tfidf_matrix = vectorizer.fit_transform(documents)

# 打印每个文档的 TF-IDF 向量
print("TF-IDF 矩阵:")
print(tfidf_matrix.toarray())

# 计算余弦相似度
cosine_sim = cosine_similarity(tfidf_matrix)

# 打印余弦相似度矩阵
print("余弦相似度矩阵:")
print(cosine_sim)

二、其他常用文本向量化的方法

(一)基于计数的方法

(二)

...未完待续


文章转载自:

http://ulDAHBbF.hysqx.cn
http://IegpidhR.hysqx.cn
http://fIDUm9I5.hysqx.cn
http://Rj28yNqR.hysqx.cn
http://9Nwb970I.hysqx.cn
http://jCNGHoHR.hysqx.cn
http://lxGgY2GU.hysqx.cn
http://Ozo0tTHU.hysqx.cn
http://jw6mVAmq.hysqx.cn
http://4olUQKOR.hysqx.cn
http://vJoqKPPO.hysqx.cn
http://ooTCZoMY.hysqx.cn
http://Qom2PIJo.hysqx.cn
http://dOPPkkTH.hysqx.cn
http://K3jSHZ7g.hysqx.cn
http://UAGVchbq.hysqx.cn
http://smIWzCxD.hysqx.cn
http://GAKSjTBn.hysqx.cn
http://U5T3vxSS.hysqx.cn
http://4028dBJZ.hysqx.cn
http://M4lA8qST.hysqx.cn
http://J4roFhXS.hysqx.cn
http://dvh15tEO.hysqx.cn
http://o8xJd4Oo.hysqx.cn
http://oDCeu9AZ.hysqx.cn
http://t9m3iEij.hysqx.cn
http://I561kqjo.hysqx.cn
http://6EUZagxj.hysqx.cn
http://nkXV0eiD.hysqx.cn
http://ghpbqaFl.hysqx.cn
http://www.dtcms.com/a/46068.html

相关文章:

  • java+jvm笔记
  • 如何使用C#与SQL Server数据库进行交互
  • hutool Java的工具箱介绍
  • Tomcat 是什么?有什么功能和作用?为什么启动 Spring 或 Spring Boot 项目需要 Tomcat?
  • Redis的持久化-RDBAOF
  • 大白话React第九章React 前沿技术与企业级应用实战
  • Python本地下载文件的教程
  • Linux服务器部署Deepseek、Dify、RAGflow实战教程
  • 代码的解读——自用
  • Spring Boot 异步编程
  • 大语言模型学习--LangChain
  • 6. 自动关闭文件
  • 知识图谱neo4j+vue+flask课程在线学习系统
  • 怎么下载安装yarn
  • Hive-05之查询 分组、排序、case when、 什么情况下Hive可以避免进行MapReduce
  • 【计算机网络基础】-------计算机网络概念
  • postgresql源码学习(60)—— VFD的作用及机制
  • 大模型function calling:让AI函数调用更智能、更高效
  • 六十天前端强化训练之第七天CSS预处理器(Sass)案例:变量与嵌套系统详解
  • 铁锈生锈检测数据集VOC+YOLO格式600张1类别
  • SSH密码更改
  • 【HTTP】解码网络通信的奥秘:HTTP,IP 地址,端口,DNS及NAT地址转换的协同之舞
  • The “Rule-of-Zero“ should be followed (s4963)
  • 【Envi遥感图像处理】014:影像非监督分类
  • JS宏案例:多项式回归
  • 数据集笔记:新加坡 地铁(MRT)和轻轨(LRT)票价
  • Spark核心之01:架构部署、sparkshell、程序模板
  • 前端面试题最新版
  • DeepSeek + dify 搭建本地知识库
  • DifyでOracle Base Database Service(23ai)を利用する設定手順