当前位置: 首页 > wzjs >正文

中山百度网站排名怎么创建网站的快捷方式

中山百度网站排名,怎么创建网站的快捷方式,wordpress爱视频,免费网站设计作业1.1 认识⽂本预处理学习⽬标⽂本预处理及其作⽤⽂本语料在输送给模型前⼀般需要⼀系列的预处理⼯作, 才能符合模型输⼊的要求, 如: 将⽂本转化成模型需要的张量, 规范张量的尺⼨等, ⽽且科学的⽂本预处理环节还将有效指导模型超参数的选择, 提升模型的评估指标.⽂本预处理中包含…

1.1 认识⽂本预处理

学习⽬标

⽂本预处理及其作⽤

⽂本语料在输送给模型前⼀般需要⼀系列的预处理⼯作, 才能符合模型输⼊的要求, 如: 将⽂本转化成模型需要的张量, 规范张量的尺⼨等, ⽽且科学的⽂本预处理环节还将有效指导模型超参数的选择, 提升模型的评估指标.

⽂本预处理中包含的主要环节

  • ⽂本处理的基本⽅法
  • ⽂本张量表示⽅法
  • ⽂本语料的数据分析
  • ⽂本特征处理
  • 数据增强⽅法

⽂本处理的基本⽅法

  • 分词
  • 词性标注
  • 命名实体识别

⽂本张量表示⽅法

  • one-hot编码
  • Word2vec
  • Word Embedding

⽂本语料的数据分析

  • 标签数量分布
  • 句⼦⻓度分布
  • 词频统计与关键词词云

⽂本特征处理

  • 添加n-gram特征
  • ⽂本⻓度规范

数据增强⽅法

  • 回译数据增强法

重要说明

在实际⽣产应⽤中, 我们最常使⽤的两种语⾔是中⽂和英⽂, 因此, ⽂本预处理部分的内容都
将针对这两种语⾔进⾏讲解.

1.2 ⽂本处理的基本⽅法

学习⽬标

  • 了解什么是分词, 词性标注, 命名实体识别及其它们的作⽤.
  • 掌握分词, 词性标注, 命名实体识别流⾏⼯具的使⽤⽅法

什么是分词

分词就是将连续的字序列按照⼀定的规范重新组合成词序列的过程。我们知道,在英⽂的⾏⽂中,单词之间是以空格作为⾃然分界符的,⽽中⽂只是字、句和段能通过明显的分界符来简单划界,唯独词没有⼀个形式上的分界符, 分词过程就是找到这样分界符的过程.
举个例子:
⼯信处⼥⼲事每⽉经过下属科室都要亲⼝交代24⼝交换机等技术性器件的安装⼯作
==> 
['⼯信处', '⼥⼲事', '每⽉', '经过', '下属', '科室', '都', '要', '亲⼝', '交代','24', '⼝', '交换机', '等', '技术性', '器件', '的', '安装', '⼯作']

分词的作⽤:

词作为语⾔语义理解的最⼩单元, 是⼈类理解⽂本语⾔的基础. 因此也是AI解决NLP领域⾼阶任务, 如⾃动问答, 机器翻译, ⽂本⽣成的重要基础环节.

流⾏中⽂分词⼯具jieba:

愿景: “结巴”中⽂分词, 做最好的 Python 中⽂分词组件.

jieba的特性:

  • ⽀持多种分词模式
  • 1.精确模式
  • 2.全模式
  • 3.搜索引擎模式
  • ⽀持中⽂繁体分词
  • ⽀持⽤户⾃定义词典

jieba的安装:

pip install jieba

jieba的使⽤:

  • 精确模式分词:
    • 试图将句⼦最精确地切开,适合⽂本分析.
    • jieba.lcut(content) 默认精确模式
    • jieba.lcut(content, cut_all=False)
>>> import jieba
>>> content = "⼯信处⼥⼲事每⽉经过下属科室都要亲⼝交代24⼝交换机等技术性器件的安装⼯作"
>>> jieba.cut(content, cut_all=False) # cut_all默认为False
# 将返回⼀个⽣成器对象
<generator object Tokenizer.cut at 0x7f065c19e318># 若需直接返回列表内容, 使⽤jieba.lcut即可
>>> jieba.lcut(content, cut_all=False)
['⼯信处', '⼥⼲事', '每⽉', '经过', '下属', '科室', '都', '要', '亲⼝', '交代',
'24', '⼝', '交换机', '等', '技术性', '器件', '的', '安装', '⼯作']

  • 全模式分词:
    • 把句⼦中所有的可以成词的词语都扫描出来, 速度⾮常快,但是不能消除 歧义.
    • jieba.cut(content, cut_all=True) # cut_all默认为False
>>> import jieba
>>> content = "⼯信处⼥⼲事每⽉经过下属科室都要亲⼝交代24⼝交换机等技术性器件的安装⼯作"
>>> jieba.cut(content, cut_all=True) # cut_all默认为False
# 将返回⼀个⽣成器对象
<generator object Tokenizer.cut at 0x7f065c19e318>
# 若需直接返回列表内容, 使⽤jieba.lcut即可
>>> jieba.lcut(content, cut_all=True)
['⼯信处', '处⼥', '⼥⼲事', '⼲事', '每⽉', '⽉经', '经过', '下属', '科室', '都',
'要', '亲⼝', '⼝交', '交代', '24', '⼝交', '交换', '交换机', '换机', '等', '技
术', '技术性', '性器', '器件', '的', '安装', '安装⼯', '装⼯', '⼯作']

  • 搜索引擎模式分词:
    • 精确模式的基础上,对⻓词再次切分,提⾼召回率,适合⽤于搜索引擎分词.
    • jieba.lcut_for_search(content)
>>> import jieba
>>> content = "⼯信处⼥⼲事每⽉经过下属科室都要亲⼝交代24⼝交换机等技术性器件的安装⼯作"
>>> jieba.cut_for_search(content)
# 将返回⼀个⽣成器对象
<generator object Tokenizer.cut at 0x7f065c19e318>
# 若需直接返回列表内容, 使⽤jieba.lcut_for_search即可
>>> jieba.lcut_for_search(content)
['⼯信处', '⼲事', '⼥⼲事', '每⽉', '经过', '下属', '科室', '都', '要', '亲⼝',
'交代', '24', '⼝', '交换', '换机', '交换机', '等', '技术', '技术性', '器件',
'的', '安装', '⼯作']
# 对'⼥⼲事', '交换机'等较⻓词汇都进⾏了再次分词.

  • 中⽂繁体分词:
    • 针对中国⾹港, 台湾地区的繁体⽂本进⾏分词.
>>> import jieba
>>> content = "煩惱即是菩提,我暫且不提"
>>> jieba.lcut(content)
['煩惱', '即', '是', '菩提', ',', '我', '暫且', '不', '提']

  • 使⽤⽤户⾃定义词典:
    • 添加⾃定义词典后, jieba能够准确识别词典中出现的词汇,提升整体的识别准确率.
    • 词典格式: 每⼀⾏分三部分:词语、词频(可省略)、词性(可省略),⽤空格隔开,顺序不可颠倒.
    • 词典样式如下, 具体词性含义请参照附录: jieba词性对照表, 将该词典存为userdict.txt, ⽅便之后加载使⽤.
云计算 5 n
李⼩福 2 nr
easy_install 3 eng
好⽤ 300
韩⽟赏鉴 3 nz
⼋⼀双⿅ 3 nz
>>> import jieba
>>> jieba.lcut("⼋⼀双⿅更名为⼋⼀南昌篮球队!")
# 没有使⽤⽤户⾃定义词典前的结果:
>>> ['⼋', '⼀双', '⿅', '更名', '为', '⼋⼀', '南昌', '篮球队', '!']>>> jieba.load_userdict("./userdict.txt")
>>> jieba.lcut("⼋⼀双⿅更名为⼋⼀南昌篮球队!")
# 使⽤了⽤户⾃定义词典后的结果:
['⼋⼀双⿅', '更名', '为', '⼋⼀', '南昌', '篮球队', '!']

什么是命名实体识别

命名实体: 通常我们将⼈名, 地名, 机构名等专有名词统称命名实体. 如: 周杰伦, ⿊⼭县, 孔⼦学院, 24辊⽅钢矫直机.
顾名思义, 命名实体识别(Named Entity Recognition,简称NER)就是识别出⼀段⽂本中可能存在的命名实体.
举个例子:
鲁迅, 浙江绍兴⼈, 五四新⽂化运动的重要参与者, 代表作朝花夕拾.
==>
鲁迅(⼈名) / 浙江绍兴(地名)⼈ / 五四新⽂化运动(专有名词) / 重要参与者 / 代表作 / 朝花
夕拾(专有名词)

命名实体识别的作⽤:

同词汇⼀样, 命名实体也是⼈类理解⽂本的基础单元, 因此也是AI解决NLP领域⾼阶任务的重要基础环节.

什么是词性标注

  • 词性: 语⾔中对词的⼀种分类⽅法,以语法特征为主要依据、兼顾词汇意义对词进⾏划分的结果, 常⻅的词性有14种, 如: 名词, 动词, 形容词等.
  • 顾名思义, 词性标注(Part-Of-Speech tagging, 简称POS)就是标注出⼀段⽂本中每个词汇的词性.
举个例子:
我爱⾃然语⾔处理
==>
我/rr, 爱/v, ⾃然语⾔/n, 处理/vn
rr: ⼈称代词
v: 动词
n: 名词
vn: 动名词

词性标注的作⽤:

词性标注以分词为基础, 是对⽂本语⾔的另⼀个⻆度的理解, 因此也常常成为AI解决NLP领域⾼阶任务的重要基础环节.
使⽤jieba进⾏中⽂词性标注:
>>> import jieba.posseg as pseg
>>> pseg.lcut("我爱北京天安⻔")
[pair('我', 'r'), pair('爱', 'v'), pair('北京', 'ns'), pair('天安⻔', 'ns')]
# 结果返回⼀个装有pair元组的列表, 每个pair元组中分别是词汇及其对应的词性, 具体词性含义请
参照[附录: jieba词性对照表]()

⼩节总结

  • 学习了什么是分词:
    • 分词就是将连续的字序列按照⼀定的规范重新组合成词序列的过程。我们知道,在英⽂的⾏⽂中,单词之间是以空格作为⾃然分界符的,⽽中⽂只是字、句和段能通过明显的分界符来简单划界,唯独词没有⼀个形式上的分界符, 分词过程就是找到这样分界符的过程.
  • 学习了分词的作⽤:
    • 词作为语⾔语义理解的最⼩单元, 是⼈类理解⽂本语⾔的基础. 因此也是AI解决NLP领域⾼阶任务, 如⾃动问答, 机器翻译, ⽂本⽣成的重要基础环节.
  • 学习了流⾏中⽂分词⼯具jieba:
  • ⽀持多种分词模式: 精确模式, 全模式, 搜索引擎模式
  • ⽀持中⽂繁体分词
  • ⽀持⽤户⾃定义词典
http://www.dtcms.com/wzjs/106459.html

相关文章:

  • 广西建设厅考试网站首页南宁关键词优化软件
  • 上海哪家网站建设比较好推广神器
  • 网站做留言板怎么清空源码网络推广引流有哪些渠道
  • 淮南市建设委员会网站网站信息查询
  • 北京软件外包公司排行榜商品关键词优化的方法
  • 怎么样才能把网站关键词做有排名建立网站费用大概需要多少钱
  • 上海代办网站备案如何在外贸平台推广
  • 网页设计公司网站设计百度指数的特点
  • 南京网站建设企业微信公众号软文怎么写
  • 网站设计内容seo关键词推广多少钱
  • 广州市外贸网站建设服务机构深圳抖音推广
  • 北京个人网站开发制作石家庄百度seo
  • 公司做网站的费用的会计分录线上营销怎么做
  • 用rp怎么做网站导航菜单东莞seo黑帽培训
  • 有哪些简单的网站关键词首页排名优化平台
  • 企业邮箱在哪里查看无锡seo网站排名
  • 有没有做美食的视频网站手机如何创建网站
  • 福州企业建站服务百度营销推广登录平台
  • 外贸代理公司seo自然排名
  • b2b电子商务网站 建设培训行业seo整站优化
  • 公司注册域名怎么申请无锡seo公司哪家好
  • 郑州网站建设找智巢长沙建站seo公司
  • php制作wap网站开发企业培训方案
  • 新手怎样学校做网站bt磁力bt天堂
  • 杭州网站建设开发惠州seo博客
  • 万网网站开发靠谱的免费建站
  • 安阳淘宝网站建设网站测试的内容有哪些
  • 爱站攻略seo排名的方法
  • 乐清网站建设费用手机网站seo免费软件
  • 校园微网站建设抖音seo关键词优化怎么做