当前位置: 首页 > wzjs >正文

网站建设工作策划方案谷歌paypal下载

网站建设工作策划方案,谷歌paypal下载,wordpress 菜单 标题属性,小程序制作用华网天下推荐当无数个自己离去,我便日益坦然 —— 25.2.9 一、jieba分词器 Jieba 是一款优秀的 Python 中文分词库,它支持多种分词模式,其中全切分方式会将句子中所有可能的词语都扫描出来。 1.原理 全切分方式会找出句子中所有可能的词语组合。对于一…

当无数个自己离去,我便日益坦然

                                                —— 25.2.9

一、jieba分词器

Jieba 是一款优秀的 Python 中文分词库,它支持多种分词模式,其中全切分方式会将句子中所有可能的词语都扫描出来。

1.原理

全切分方式会找出句子中所有可能的词语组合。对于一个输入的句子,它会尝试将句子按照不同的方式进行切分,只要在词典中存在对应的词语,就会将其作为一个分词结果输出。这种方式会输出所有可能的分词组合,因此可能会产生较多的分词结果。


2.使用方法

在 Jieba 中,导入jieba分词库,使用 jieba.cut 函数并将 cut_all 参数设置为 True 即可实现全切分。

jieba.cut():是 Python 中文分词库 jieba 的核心函数,用于将中文文本切分成独立的词语。

参数名类型默认值是否必填说明
sentencestr需要分词的中文字符串。
cut_allboolFalse控制分词模式:
False精确模式(默认),返回最合理的分词结果。
True全模式,输出所有可能的词语组合。
HMMboolTrue是否使用隐马尔可夫模型(HMM)识别未登录词(新词)。
True:启用新词发现(推荐)。
False:关闭新词发现。
use_paddleboolFalse是否使用 PaddlePaddle 深度学习框架加速分词。
- 需先安装 PaddlePaddle 库(pip install paddlepaddle)。

join():join() 是 Python 字符串的内置方法,用于将一个可迭代对象(如列表、元组、生成器等)中的元素用指定的字符串连接成一个新字符串。在处理中文分词结果时,常用它来将分词后的词语列表转换为特定格式的字符串(例如用斜杠分隔)。

  • 参数:

    • 可迭代对象: 包含多个元素(必须为字符串类型)的列表、元组、生成器等。

    • 分隔符: 用于连接元素的字符串(可以是空字符串 "")。

  • 返回值: 返回一个由分隔符连接元素后的新字符串。

与其他方法的对比

方法特点示例
str.join()高效连接字符串,支持任意可迭代对象。"/".join(["A", "B", "C"])
+ 运算符拼接每次拼接生成新字符串,效率低(不推荐循环中使用)。"A" + "/" + "B" + "/" + "C"
f-string 格式化适合少量固定元素的拼接,可读性强但灵活性差。f"{a}/{b}/{c}"
import jieba# 待分词的句子
sentence = "我爱自然语言处理"# 使用全切分方式进行分词
words = jieba.cut(sentence, cut_all=True)# 输出分词结果
print("全切分结果:", "/ ".join(words))

3.Jieba内部分词实现细节

len():返回对象的长度或元素个数,适用于字符串、列表、元组、字典、集合等可迭代对象。

range():生成一个不可变的整数序列,常用于循环遍历。

append():向列表末尾添加一个元素(直接修改原列表)。

def calc_dag(sentence):DAG = {}    #DAG空字典,用来存储DAG有向无环图N = len(sentence)for k in range(N):tmplist = []i = kfrag = sentence[k]while i < N:if frag in Dict:tmplist.append(i)i += 1frag = sentence[k:i + 1]if not tmplist:tmplist.append(k)DAG[k] = tmplistreturn DAG


4.对Jieba分词结果序列进行解码

pop():移除列表中指定位置的元素并返回该元素的值。若不指定位置,默认移除并返回列表的最后一个元素

参数名类型默认值是否必填说明
indexint-1要移除元素的索引(支持负数索引)。

pop() 和 append() 可共同实现**栈(LIFO)**结构 

#将DAG中的信息解码(还原)出来,用文本展示出所有切分方式
class DAGDecode:#通过两个队列来实现def __init__(self, sentence):self.sentence = sentenceself.DAG = calc_dag(sentence)  #使用了上方的函数self.length = len(sentence)self.unfinish_path = [[]]   #保存待解码序列的队列self.finish_path = []  #保存解码完成的序列的队列#对于每一个序列,检查是否需要继续解码#不需要继续解码的,放入解码完成队列#需要继续解码的,将生成的新队列,放入待解码队列#path形如:["经常", "有", "意见"]def decode_next(self, path):path_length = len("".join(path))if path_length == self.length:  #已完成解码self.finish_path.append(path)returncandidates = self.DAG[path_length]new_paths = []for candidate in candidates:new_paths.append(path + [self.sentence[path_length:candidate+1]])self.unfinish_path += new_paths  #放入待解码对列return#递归调用序列解码过程def decode(self):while self.unfinish_path != []:path = self.unfinish_path.pop() #从待解码队列中取出一个序列self.decode_next(path)     #使用该序列进行解码

二、模仿jieba分词器对输入的句子进行全切分

递归迭代进行分词

def segmentation(sentence, word_dict):result = []if sentence == "":return [[]]for end in range(1, len(sentence) + 1):word = sentence[:end]if word in word_dict:# 递归获取剩余字符串的切分结果sub_results = segmentation(sentence[end:], word_dict)for sub_result in sub_results:result.append([word] + sub_result)return result


文章转载自:

http://mrJWgk20.dwztj.cn
http://y1rCZ9FP.dwztj.cn
http://0qCpwle1.dwztj.cn
http://JYRkxr2n.dwztj.cn
http://SZqzEZKN.dwztj.cn
http://lWG34i0I.dwztj.cn
http://NVXTF5Vu.dwztj.cn
http://XWhagoUt.dwztj.cn
http://wJaEDNBq.dwztj.cn
http://M0duxnkj.dwztj.cn
http://8MLQyIJJ.dwztj.cn
http://yacgyUNJ.dwztj.cn
http://8u0HrcwD.dwztj.cn
http://NGudN1Go.dwztj.cn
http://FENOnR7V.dwztj.cn
http://QgLVrSHG.dwztj.cn
http://mf0JMW36.dwztj.cn
http://GiqihVLx.dwztj.cn
http://b22abw63.dwztj.cn
http://eciMIZZQ.dwztj.cn
http://x9VJtRPU.dwztj.cn
http://Bi6quYqC.dwztj.cn
http://cWfe86SM.dwztj.cn
http://tlFNfHGZ.dwztj.cn
http://qtzwWznF.dwztj.cn
http://eop7v3qV.dwztj.cn
http://bznvSUF4.dwztj.cn
http://uVmhKzAx.dwztj.cn
http://tGF7sxCJ.dwztj.cn
http://dP54icMm.dwztj.cn
http://www.dtcms.com/wzjs/664245.html

相关文章:

  • 重庆建网站 私单国内网站建设流程
  • 就有公司域名怎么建设网站简单网页制作素材
  • 太仓住房与城乡建设部网站如何用个门户网站做销售
  • 做钓鱼网站会被抓判刑吗宿迁网站建设宿迁
  • 做与食品安全有关的网站如何用云指做自己的网站
  • 公司网站年费申请个网站
  • 连接品硕网线做怎么弹网站引导交互 网站
  • 网站建设平台皆往乐云践新专家phpwind wordpress
  • 信用网站建设是国家统一部署免费广州网站开发维护
  • 实训小结网站建设网站备案信息查询
  • php网站开发cms重庆网站线上推广
  • 济南专业网站设计西安招标信息网官网
  • 用mcu做灯光效果网站门户网站做等保需要备案哪些
  • 有没有网站可以做试卷全网seo优化电话
  • 网站建设手机端官网推广 高端网站建设
  • 济南网站优化推广西安做建站的公司
  • 做移门配件的网站网站建设需要什么硬件和软件有哪些方面
  • 成都集团网站设计推荐wordpress显示登录注册
  • 网站品质wordpress 子网站重命名
  • 北京网站推广怎么做搜索企业的软件
  • 有帮忙做ppt的网站或人吗免费网站托管
  • 国际空间站vs中国空间站免费素材网站mixkit
  • 政务网站建设依据国家网站皮肤样板
  • 西安网络营销学习网站做网站设计答辩问题
  • 云尚网站建设网站一级导航怎么做
  • 网站制作五个界面wordpress hotnews
  • 文登做网站的公司优化企业网站
  • 北京做网站的公司有哪些WordPress仿百度百家主题
  • 网站地图 wordpress动画设计与制作主要学什么
  • seo网站沙盒期如何选择网站改版公司