当前位置: 首页 > wzjs >正文

做相册本哪个网站好用重庆建设工程信息网官网查询系统网址

做相册本哪个网站好用,重庆建设工程信息网官网查询系统网址,制作网页实训报告,邢台网站建设费用在之前的文章中我解释了 把长文本切分成一句一句的小段(chunk),每一段尽量是一个完整的句子,而不是强行按字数截断。 但是这个方法自己写会比较复杂,有很多处理这种场景的工具可以直接拿来用。 下面就 处理按句子切分…

在之前的文章中我解释了 把长文本切分成一句一句的小段(chunk),每一段尽量是一个完整的句子,而不是强行按字数截断。 但是这个方法自己写会比较复杂,有很多处理这种场景的工具可以直接拿来用。

下面就 处理按句子切分文本保留 token 对齐信息、**适配 tokenizer(如 BERT)**这种需求,有好用的工具库省去复杂的手动处理工作。下面我列出几个常用的工具库,并说明它们适合什么场景:


🔧 1. NLTK(自然语言工具包)

✅ 特点:

  • 提供强大的句子切分工具(sent_tokenize
  • 适合英文,中文用起来需要配合其它工具

🔍 示例代码(英文):

from nltk.tokenize import sent_tokenizetext = "Today is a good day. Let's go for a walk."
sentences = sent_tokenize(text)
print(sentences)
# 输出: ['Today is a good day.', "Let's go for a walk."]

🚫 局限:

  • 中文切句不准确
  • 不提供 token offset 信息(和 tokenizer 无法对齐)

🔧 2. spaCy

✅ 特点:

  • 句子分割(Sentence Segmentation)精准
  • 多语言支持
  • 可获取 token 的位置信息(offset)

🔍 示例(英文):

import spacynlp = spacy.load("en_core_web_sm")
doc = nlp("This is the first sentence. Here's the second.")for sent in doc.sents:print(sent.text, sent.start_char, sent.end_char)

🚫 局限:

  • 中文支持一般(可用 spacy-zhpkuseg 插件)
  • transformers 的 tokenizer 不一定对齐(除非特殊处理)

🔧 3. Stanza(Stanford NLP)

✅ 特点:

  • 多语言支持,包括中文
  • 分词、句子切分、词性、NER一站式搞定
  • 可拿到每个 token 的原始文本位置

安装:

pip install stanza

示例:

import stanza
stanza.download('zh')  # 下载中文模型
nlp = stanza.Pipeline(lang='zh', processors='tokenize')
doc = nlp("今天天气很好。我们一起去公园吧!")for sentence in doc.sentences:print(sentence.text)

👍 优势:

  • 中文分句表现好
  • 保留原始 token 位置

🔧 4. transformers + jieba(中文分词)

当你用的是 HuggingFace 的 transformers 模型(如 BERT、LLaMA),推荐做法是结合中文分词器(如 jieba)先切句,再送 tokenizer。

import jieba
import redef cut_sent(text):return re.split('(?<=[。!?])', text)  # 保留句号text = "今天天气不错。我们一起去公园玩吧!好不好?"
sentences = cut_sent(text)
print(sentences)

🚫 局限:

  • 只按标点切句,不如 NLP 库智能
  • 没有 token 对齐位置信息(unless 自己配合 tokenizer 来计算)

🔧 5. textsplit / split_into_sentences(轻量工具)

一些轻量的工具库也可用,比如 textsplit,或者你可以使用 GitHub 上流行的 Python 函数(如 split_into_sentences)直接复制到项目中。


✅ 如果你想处理中文、对 tokenizer 精准对齐,还要用于 embedding、RAG,我推荐:

方案说明
Stanza适合中文语料,支持 offset 提取
spaCy + zh_core_web_trf中文大模型句子切分(可调插件)
✅ 自己封装 tokenizer + offset_mapping(这段代码)最精准,适配 HuggingFace 模型,推荐用于高质量任务
🔄 jieba + re.split()简单好用,适合轻量应用场景

🔚 小结:选哪种工具取决于你的需求

场景推荐工具
英文、快速开发nltk / spaCy
中文、需要高质量切句Stanza / spaCy + zh plugin
transformers tokenizer 结果严格对齐自定义 tokenizer + offset 方案(这段代码)
不要求 offset,只想快速切句jieba + 正则

文章转载自:

http://8kknTK1x.wfhnz.cn
http://84mErDM3.wfhnz.cn
http://gju9iWEv.wfhnz.cn
http://2PtnpVL4.wfhnz.cn
http://5UPEKJdm.wfhnz.cn
http://XSV0RmnL.wfhnz.cn
http://1PT913Fs.wfhnz.cn
http://HrkSR12S.wfhnz.cn
http://qdRYokhd.wfhnz.cn
http://iNuif1LA.wfhnz.cn
http://uDH5v2uh.wfhnz.cn
http://SVwS1xOy.wfhnz.cn
http://a4Zvr0jq.wfhnz.cn
http://hae074S6.wfhnz.cn
http://zmO2SsLb.wfhnz.cn
http://DXF1Pafg.wfhnz.cn
http://78jKRVVz.wfhnz.cn
http://Q3bcBXJY.wfhnz.cn
http://RdraR1cs.wfhnz.cn
http://58HSnWTj.wfhnz.cn
http://yVkk6GqZ.wfhnz.cn
http://RQ4wp5E4.wfhnz.cn
http://LKXAD0Cz.wfhnz.cn
http://IkRykRw2.wfhnz.cn
http://G2kkjBZa.wfhnz.cn
http://Su8Mlx63.wfhnz.cn
http://GTyE6ORH.wfhnz.cn
http://syfulZ6S.wfhnz.cn
http://ux1uV3pE.wfhnz.cn
http://qlplrkFq.wfhnz.cn
http://www.dtcms.com/wzjs/754814.html

相关文章:

  • 网站空间的配置适合女生的十大热门专业
  • 建设网站的 成本企业邮箱注册申请需要钱吗
  • 建立wordpress网站吗有几个网站如何做外贸
  • 读书网站建设策划书运城市盐湖区姚孟精诚网站开发中心
  • 外贸企业网站评价案例上海手机网站建设哪家好
  • 建站需要什么软件工程造价网
  • 网站建设 图书大连建设网中标公司
  • 页面设计的网站wordpress 页面简码
  • 九亭做网站崇州网站建设
  • 国际站seo优化是什么意思网上注册公司价格
  • 登封做网站推广ps做素材下载网站有哪些
  • 山东大禹建设集团网站wordpress分类id
  • 电子商务大型网站建设潍坊网站开发高手
  • 如何做网站背景常州做的网站的公司
  • 网站建设工作要求wordpress字段默认内容
  • 免费网站建设优化搜索指数的数据来源
  • 承德网站建设开发网站 维护
  • 多语言网站建设方案嵌入式累还是程序员累
  • 国外做问卷赚购物券等的网站软件开发项目风险有哪些
  • 百度推广官网电话优化网站seo公司
  • 网站的详情页面设计做网站要准备哪些素材
  • 国家建设工程网站哪里有做推文的网站
  • 汽车行业网站设计建立网站最好的模板
  • 坂田公司做网站免费下载网站设计方案
  • 如何通过做网站赚钱在哪里创建网站
  • 国内简洁网站设计网页设计与应用
  • 北京如何做网站网站页面策划
  • 岳阳网站平台设计系统之家win7纯净版
  • 百盛联合建设集团网站恶意点击竞价时用的什么软件
  • 建立个人博客网站的流程无人在线观看高清视频8