当前位置: 首页 > news >正文

怎么做淘宝客网站备案网站后台的形成

怎么做淘宝客网站备案,网站后台的形成,同城分类网站建设,下载图片的网站建设目录 一、语言中的词汇 1、词的形态学 2、词的词性 二、词语规范化 1、词语切分 2、词形还原 3、词干提取 三、中文分词 1、概述 2、基于最大匹配的中文分词 3、基于线性链条件随机场的中文分词 4、基于感知器的中文分词 词序列预测 模型参数学习 特征定义 5、…

目录

一、语言中的词汇

1、词的形态学

2、词的词性

二、词语规范化

1、词语切分

2、词形还原

3、词干提取

三、中文分词

1、概述

2、基于最大匹配的中文分词

3、基于线性链条件随机场的中文分词

4、基于感知器的中文分词

词序列预测

模型参数学习

特征定义

5、基于双向长短期记忆网络的中文分词

6、中文分词评价方法

7、中文分词语料库

四、词性标注

1、基于规则的词性标注

2、基于隐马尔可夫模型的词性标注

3、基于卷积神经网络的词性标注

4、词性标注评价方法

5、词性标注语料库​


        自然语言处理算法中词通常也是基本单元,词的处理也是自然语言处理中重要的底层任务,是句法分析、文本分类、语言型等任务的基础。

一、语言中的词汇

         词(word)是形式和意义相结合的单位,也是语言中能够独立运用的最小单位掌握一个词汇意味着知道其读音和语义。

1、词的形态学

·       词的形式具有服从于某种规则的内在结构。研究单词的内部结构和其构成方式的学科称为形态学(Morphology),又称构词学。

2、词的词性

二、词语规范化

        词语规范化(Word Normalization)任务是将单词或词形转化为标准形式,针对有多种形式的单词使用一种单一的形式进行表示。

        词语切分是前提,为词形还原和词干提取提供处理对象;词形还原和词干提取则是词语规范化的核心手段,目的都是将同一单词的不同形式统一为更简洁的表示

1、词语切分

        将连续的文本序列按照一定规则分割成有意义的词语单元。例如:中文句子 “我爱自然语言处理” 经切分后为 “我 / 爱 / 自然 / 语言 / 处理”

        word 是语言自然存在的表意单位,而 token 是为了计算需求对文本进行切分后的最小单元。token 可以是一个完整的 word,也可以是 word 的一部分(如子词、字符序列)

2、词形还原

        将单词的各种变形形式(如时态、语态、单复数、词性变化等)还原为其基本形式(即 “词根” 或 “原型”),且还原后的形式需是语言中实际存在的合法单词。

  • 动词 “running”“ran” 还原为原型 “run”;
  • 名词 “mice” 还原为原型 “mouse”;
  • 形容词 “better” 还原为原型 “good”。

3、词干提取

        指通过去除单词的词缀(如前缀、后缀)等方式,提取出单词的核心部分(即 “词干”),但词干可能并非语言中实际存在的完整单词。最简单的词干提取算法可以通过查询词表的方法获得
另外一种方法是后缀剥离(Suffix-stripping),通过定义一组规则,将特定的后缀从词形中删除

  • “running”“runner” 去除后缀 “-ing”“-er” 后,词干为 “run”;
  • “happiness” 去除后缀 “-ness” 后,词干为 “happi”(非完整单词

三、中文分词

1、概述

        中文分词(Chinese Word Segmentation,CWS)是指将连续字序列转换为对应的词序列的过程,也可以看做在输入的序列中添加空格或其他边界标记的过程。

   主要困难来自以下三个方面:分词规范、歧义切分和未登录词【生词】识别。

2、基于最大匹配的中文分词

        最大匹配(Maximum Matching)分词算法,核心思想是 “从词典中找出最长的词来匹配当前文本片段”,通过贪心策略确定词边界。主要包含前向最大匹配、后向最大匹配以及双向最大匹配等三类。

3、基于线性链条件随机场的中文分词

  • 先给每个字贴标签,再按标签切分

        将分词过程转换为对字的分类问题,对于输入句子中的每一个字c;,根据它在分词结果中的位置赋予不同的标签。

怎么让机器准确地给每个字贴 B/I/E/S 标签?线性链条件随机场(CRF)就是干这个的 “聪明工具”。给每个字贴标签时,不会只看单个字,而是会看这个字本身的特点、看上下文的关系、遵守标签之间的 “规矩”

  • 如何学习的呢?
  1. 用 BIES 标签将分词转化为序列标注;
  2. 设计转移特征(约束标签合法性)和状态特征(捕捉汉字与标签的关联);
  3. 通过训练学习特征权重,使模型符合语言规律;
  4. 用 Viterbi 算法快速找到最优标签序列,实现分词。

4、基于感知器的中文分词


  • 词序列预测

  • 模型参数学习

  • 特征定义

5、基于双向长短期记忆网络的中文分词

        核心是利用神经网络自动学习汉字的上下文特征,将分词转化为序列标注任务

        BiLSTM 是 LSTM(长短期记忆网络)的双向扩展,能同时捕捉文本的 “左→右” 和 “右→左” 上下文信息

6、中文分词评价方法

        中文分词的评价核心是衡量 “系统切分结果” 与 “人工标注的标准答案(gold standard)” 的一致性,常用指标包括准确率、召回率、F1 值,辅以其他辅助指标。

7、中文分词语料库

分词语料库是人工标注了正确词边界的中文文本集合,是训练和评价分词模型的基础.

公开语料库:PKU、MSR 等可通过学术平台(如 LDC、SIGHAN 官网)免费获取

四、词性标注

        词性是词语的基本属性,根据其在句子中所扮演的语法角色以及与周围词的关系进
行分类
。词性标注(Part-of-speech Tagging,POs Tagging)是指在给定的语境中确定句子中各词的词性。

        词性标注的主要难点在于歧义性,即一个词可能在不同的上下文中具有不同的词性。也没有一个被广泛认可的统一词性划分标准。

1、基于规则的词性标注

利用词典和搭配规则针对词语和上下文进行分析,从而得到句子中每个词语词性。

例如:补丁规则“NN VB   PREV-TAG TO”表示,如果一个单词被标注为了NN(名词并且它前面的单词标注为了TO(不定式“to”),那么将这个单词的词性转换为VB(动词)

2、基于隐马尔可夫模型的词性标注

3、基于卷积神经网络的词性标注

 输入层:词嵌入(Word Embedding)

卷积层:提取局部上下文特征 

池化层:聚合局部特征 

全连接层与输出层:预测词性标签

4、词性标注评价方法

5、词性标注语料库

http://www.dtcms.com/a/439089.html

相关文章:

  • wordpress安装后查看站点失败河北平台网站建设
  • 网站专题页制作网站备案关闭影响排名
  • Python Flask框架深度解析:从入门到高级
  • 网站销售的优势生鲜做的好的网站
  • 中企动力做的网站怎么登陆运城市住房与城乡建设厅网站
  • 香橙派RK3588s部署大模型
  • 【自记】数据开发中分区表、事务表、分区事务表:特性相似处与区别
  • ATMS课程管理系统 - 从零构建的MySQL实战之旅
  • 广东东莞自己建站教程做网站设计的公司叫什么
  • 网站站外引流怎么做西安动力无限网站建设
  • 智能交通顶刊TITS论文分享|一种可以提高车辆轨迹预测精度和稳定性的稀疏时空Transformer模型
  • 福州专业网站设计团队seo排名优化公司
  • 进入WSL2 Ubuntu环境的完整指南
  • 龙岗网站建设公司效果河南建筑官网首页
  • 网站前置审批怎么进网站源码的后台
  • 电商网站建设考试题网站头部优化文字怎么做
  • php做网站有哪些好处界面官方网站
  • perror与stderr:错误处理的“诊断专家“与“急诊通道“
  • 小公司做网站需要什么条件绿茶直播
  • import-route direct 概念及题目
  • K230基础-图像绘制
  • 鲜花网站设计php 企业网站 后台图片上传
  • 帮人做非法网站oa信息化管理系统平台
  • 君正T32开发笔记之固件烧写
  • MCP模型上下文协议实战:使用TKinter构建桌面AI助手
  • 网络培训视频如何快速完成网站优化托管方案文库
  • 从0-1建设数据仓库
  • 【玩泰山派】4、制作ubuntu镜像-(5)总结制作镜像流程
  • 红帽Linux-1.访问命令行
  • 永久免费建个人网站优秀个人网站推荐