当前位置: 首页 > news >正文

[特殊字符] Word2Vec:将词映射到高维空间,它到底能解决什么问题?

一、在 Word2Vec 之前,我们怎么处理语言?

在 Word2Vec 出现之前,自然语言处理更多是“工程方法”,例如字符串匹配、关键词提取、正则规则...。但这些表示通常缺乏语义,词与词之间看不出任何联系以及非常浅显。当然,技术没有好坏,只有适合的场景。例如:

关键词匹配非常快速和结果可控,算法层面例如AC自动机、Trie等。但同时也取决于用的人,例如早前“在港台电影中,刘德华为什么很少演反派?”会出现“华为”相关内容,有网友指出是因为触发了关键词“华为”。

TF-IDF的升级版BM25,广泛应用于搜索引擎,例如ElasticSearch。

这些技术的共同点是依赖字面匹配、同义词库,出现频率等,但很难捕捉“词与词之间的联系”,例如:

  • “登录”和“登陆”是否同义?

  • “香蕉”和“苹果”是否都是水果,计算机怎么看得出来,巨大的词库?

  • “你好吗” 和 “最近怎么样” 听起来很像,但关键词

相关文章:

  • 深入解析OkHttp与Retrofit:Android网络请求的黄金组合
  • 蓝桥杯1447 砝码称重
  • Python 实例传递的艺术:四大方法解析与最佳实践
  • 用 RefCounted + WeakPtr 构建线程安全的异步模块
  • 【OpenCV基础2】图像运算、水印、加密、摄像头
  • 如何在 Windows 11 或 10 上安装 FlutterFire CLI
  • CSS提高性能的方法有哪些
  • C++面试4-sizeof解析
  • RabbitMQ的简介
  • C 语言学习笔记(函数2)
  • AI在网络安全中的应用之钓鱼邮件检测
  • Python列表 vs 元组:全面对比解析(新手友好版)
  • MYSQL8.0常用窗口函数
  • input组件使用type=“number“的时候,光标自动跳到首位
  • 【Tools】VMware Workstation 17.6 Pro安装教程
  • 在 CentOS 7.9 上部署 node_exporter 并接入 Prometheus + Grafana 实现主机监控
  • PyMOL命令行和脚本
  • 精益数据分析(70/126):MVP迭代中的数据驱动决策与功能取舍
  • AI神经网络降噪 vs 传统单/双麦克风降噪的核心优势对比
  • 公网ip是固定的吗?动态ip如何做端口映射?内网ip怎么让外网远程访问?
  • 出生于1991年,石秀清拟提名为铜陵市辖县(区)政府副县(区)长人选
  • 国家发改委:系统谋划7方面53项配套举措,推动民营经济促进法落地见效
  • 研究显示:肺活量衰减始于20至25岁
  • 韦尔股份拟更名豪威集团:更全面体现公司产业布局,准确反映未来战略发展方向
  • 上海蝉联全国中小企业发展环境评估综合排名第一
  • 陈龙带你观察上海生物多样性,纪录片《我的城市邻居》明播出