当前位置: 首页 > news >正文

【bag of n-grams】 N-gram词袋模型 简介

Bag of n-grams是Bag of Words的扩展,它的核心思想是:

忽略语序,只统计各个 N-gram 在文本中出现的次数或是否出现

以 bigram 为例

我们有两个句子:

S1: I love NLP  
S2: I love deep learning

方法

提取所有句子的 bigrams,得到词表(vocabulary),并进行统计:
在这里插入图片描述
于是,S1的对应向量就是[1,1,0,0];S2的对应向量就是[1,0,1,1]。

相关文章:

  • 已情感分析入门学习大模型-初级篇
  • 进程与线程:09 进程同步与信号量
  • QLineEdit增加点击回显功能
  • Python 字典键 “三变一” 之谜
  • WebGIS 开发中的数据安全与隐私保护:急需掌握的要点
  • 带格式的可配置文案展示
  • 典籍指数问答模块回答格式修改
  • 深入浅出:C++数据处理类与计算机网络的巧妙类比
  • 嵌入式学习--江协51单片机day5
  • PostgreSQL 配置设置函数
  • SQL Server中delete table和truncate table删除全表数据哪个快?
  • 文件操作: File 类的用法和 InputStream, OutputStream 的用法
  • 基于SSM实现的健身房系统功能实现十六
  • 操作系统导论——第29章 基于锁的并发数据结构
  • 代理IP的核心原理:从请求转发到匿名性实现
  • 如何界定合法收集数据?
  • 消息~组件(群聊类型)ConcurrentHashMap发送
  • 嵌入式学习笔记 - 头文件重复包含问题
  • React百日学习计划——Deepseek版
  • C++ 基础知识
  • 当代科技拟召开债券持有人会议 ,对“H20科技2”进行四展
  • 巴方:印度上周导弹袭击造成至少40名平民死亡
  • 经济日报整版聚焦:上海构建法治化营商环境,交出高分答卷
  • 睡觉总做梦是睡眠质量差?梦到这些事,才要小心
  • 多元史料下的“西狩”叙事——《“庚子西狩”中外资料六种》解题
  • 姚洋将全职加盟上海财经大学,担任滴水湖高级金融学院院长