当前位置: 首页 > news >正文

NLP入门——文本表示概述

文本表示的含义        

        文本表示是将自然语言转为计算机能理解的数值形式,是绝大多数自然语言处理任务(NLP)的基础步骤。

文本表示的过程

文本表示的过程主要是分词和词表构建。

分词的概念

        分词是把原始文本按照一定的规则切分为若干个具有独立语义的最小单元,这样的最小单号就叫token。

        每一个模型,都会由自己的分词规则,分词规则越准确(不是指更细,而是分的准确率),模型的能力也相应地更高。

词表的概念

        在分词之后会得到大量的token的集合,给每个token都分配有唯一的id这就是词表。在词表中,id和token之间是相互映射的,即可以用id找到token,也就是对应的词,也可以用token去找到对应的id。

        在后续的处理中,词表会转为低维稠密的向量表示(词向量),如“我”-》[1.2,3.3,2,4,1.5]

不同词的向量是不一样的。词之间可能在一个或多个维度上相似或相反,这就构成了词与词之间的关联,也就有了可预测性、

        对于自然语言处理来说,分词和词表是地基,是原始素材,一起的处理过程都要基于词表。在常见的文本生成任务重,模型输出的本质是通过预测下一个词出现的概率,从而选择概率最大的词。

案例

分词和词表的案例:

打开Tiktokenizer这个网站,上面有很多模型,分别对应了不同的分词规则和词表,通过输入对应语句可以观察各个模型之间的区别和理解分词和词表。

如下,在gpt3.5中【我想和你见一面,就在玉林路的尽头,就只是一面】对应的向量是

[100264, 9125, 198, 100265, 198, 100264, 882, 198, 37046, 33565, 111, 34208, 57668, 90070, 15120, 28190, 3922, 81258, 19000, 29207, 231, 20119, 245, 47095, 9554, 16175, 121, 65455, 3922, 81258, 92780, 21043, 15120, 28190, 100265, 198, 100264, 78191, 198],

而在gpt-4-32k中,对应的向量却是这样的

http://www.dtcms.com/a/594637.html

相关文章:

  • HYPE分布式水文模型建模方法:基本输入文件制备、驱动数据制备、HYPE模型运行与手动调参、自动率参等
  • FreeBSD14.3中ZFS文件系统与samba设置仅指定用户可编辑的共享
  • 超酷个人网站商务网站建设考试题库
  • C++之内联变量(Inline Variables)
  • 学校网站下载零基础学it从哪方面学起
  • 自己建设淘宝客网站需要备案么东莞seo网络推广
  • 杭州广告公司网站建设wordpress 插件作用
  • 做微信用什么网站wordpress 去掉80previous与 next81
  • 做名片去哪个网站it行业公司排名
  • 合肥网站建设团队网站制作实例教程
  • 博达网站建设流程中国新闻社招聘公示
  • GEE SCL掩膜高精度 NDVI 提取教程(10 米分辨率 + SCL 掩膜)——免费提供完整代码
  • 网站群建设公司排行榜网站后端用什么语言
  • 网站域名是网站架构吗邯郸网站建设怎么开发
  • 网站栏目一般有哪些广州市建设局网站
  • 代码随想录 Q88.跳跃游戏
  • 网站开发制作步骤图微信公众号的微网站怎么做的
  • 策略梯度与值函数方法进行联合能解决什么问题
  • 无锡网站推广$做下拉去118cr广元 网站建设
  • 公司网站域名到期了去哪里缴费做刀网站
  • 爱站网排行榜wordpress用户角色权限管理
  • 网校网站毕业设计的方案毕设给学校做网站
  • 企业三要素验证API——企业数字化业务开展的保障
  • 专业系统网站百度产品推广
  • Android/Linux的FEC浅析
  • 网站开发好还是app好百度问答seo
  • 重庆巴南区网站建设如何做网站的seo
  • Vue 3 超强二维码识别:多区域/多尺度扫描 + 高级图像处理
  • 网站建设模块需求分析管理咨询公司一般是做什么的
  • 0511城市建设网站棚户区改造wordpress 崩溃