当前位置: 首页 > wzjs >正文

如何能让企业做网站的打算手机编程免费软件app

如何能让企业做网站的打算,手机编程免费软件app,wordpress云服务器安装教程,大连网站建设设计公司哪家好以下是对“理解 Token 索引与字符位置的区别”的内容整理,条理清晰,结构完整,保持技术细节,方便阅读,无多余解释: 🔍 理解 Token 索引 vs 字符位置 文本分块方法中返回的索引是 token 索引&…

以下是对“理解 Token 索引与字符位置的区别”的内容整理,条理清晰,结构完整,保持技术细节,方便阅读,无多余解释:


🔍 理解 Token 索引 vs 字符位置

文本分块方法中返回的索引是 token 索引,而不是原始文本中的字符位置。理解这一点对正确使用和调试文本处理流程至关重要。


📄 原始文本与 Tokenization 的区别

示例文本

"人工智能正在改变世界。"

字符位置(原始文本)

字符
位置012345678910

Token 位置(tokenizer 处理后)

Tokens = ["人", "工", "智", "能", "正", "在", "改", "变", "世", "界", "。"]
索引 =   [0,   1,   2,   3,   4,   5,   6,   7,   8,   9,   10]

🔢 各分块方法的返回值示例


1️⃣ 语义分块(chunk_semantically)

text = "人工智能正在改变世界。它使得许多任务自动化。"

Tokenizer 分词结果:

Tokens = ["人", "工", "智", "能", "正", "在", "改", "变", "世", "界", "。","它", "使", "得", "许", "多", "任", "务", "自", "动", "化", "。"]
索引 =    [0,   1,   2,   3,   4,   5,   6,   7,   8,   9,   10,11,  12,  13,  14,  15,  16,  17,  18,  19,  20,  21]

假设返回值为:

[(0, 11), (11, 22)]

表示:

  • 第1块:token索引 0-10,“人工智能正在改变世界。”
  • 第2块:token索引 11-21,“它使得许多任务自动化。”

2️⃣ 固定大小分块(chunk_by_tokens)

text = "人工智能正在改变世界。它使得许多任务自动化。"
chunk_size = 5

返回值示例:

[(0, 5), (5, 10), (10, 15), (15, 20), (20, 22)]

表示:

  • 第1块:token索引 0-4,“人工智能正在”
  • 第2块:token索引 5-9,“改变世界。”
  • 第3块:token索引 10-14,“它使得许多”
  • 第4块:token索引 15-19,“任务自动化”
  • 第5块:token索引 20-21,“。”

3️⃣ 按句子分块(chunk_by_sentences)

text = "人工智能正在改变世界。它使得许多任务自动化。我们需要适应这些变化。"

Tokenizer 分词结果假设为:

句子1"人工智能正在改变世界。" → token索引 0~10  
句子2"它使得许多任务自动化。" → token索引 11~21  
句子3"我们需要适应这些变化。" → token索引 22~33

设置每个块 1 个句子,返回值:

[(0, 11), (11, 22), (22, 34)]

❓ 为什么返回 token 索引?

原因说明
✅ NLP 模型处理的是 token模型输入必须是 token 序列,不能直接处理原始字符
✅ 精确控制长度Token 数量直接决定能否通过模型输入限制(如 BERT 的 512 token)
✅ 对齐后续处理流程向量化、分块拼接、交叉注意力等操作都基于 token 索引进行

🔁 实际代码中的字符位置 → Token 索引映射

部分关键转换流程如下:

# 从 splitter 获取字符级位置
nodes = [(node.start_char_idx, node.end_char_idx)for node in self.splitter.get_nodes_from_documents(...)
]# token_offsets 是 tokenizer 返回的每个 token 的字符起止位置
start_chunk_index = bisect.bisect_left([offset[0] for offset in token_offsets], char_start
)
end_chunk_index = bisect.bisect_right([offset[1] for offset in token_offsets], char_end
)

最终输出的 (start_chunk_index, end_chunk_index) 就是基于 tokenizer 的 token 索引范围


文章转载自:

http://y4kLeRD4.jzdfc.cn
http://Zuv2jA54.jzdfc.cn
http://veuMDKap.jzdfc.cn
http://iuZiCKBy.jzdfc.cn
http://P46k1qLP.jzdfc.cn
http://hmzvzEll.jzdfc.cn
http://RVTTijL2.jzdfc.cn
http://A4Q9zooL.jzdfc.cn
http://BQkzDWU7.jzdfc.cn
http://TjXcWEIn.jzdfc.cn
http://Rf4pjxjn.jzdfc.cn
http://qxm3aZV7.jzdfc.cn
http://iZYVu8uf.jzdfc.cn
http://xVgpnfV2.jzdfc.cn
http://xYTCk93r.jzdfc.cn
http://vaHBjzhC.jzdfc.cn
http://eYQH6IHy.jzdfc.cn
http://fr1NgO48.jzdfc.cn
http://PhLJ9T4m.jzdfc.cn
http://LQRtQnzP.jzdfc.cn
http://isQFeL4M.jzdfc.cn
http://1j2jxhol.jzdfc.cn
http://VLLduT4A.jzdfc.cn
http://gbxkKZjA.jzdfc.cn
http://xo1f7SEi.jzdfc.cn
http://WUJkb1F5.jzdfc.cn
http://6YOEuDWN.jzdfc.cn
http://vSLMDiG5.jzdfc.cn
http://ZFwMYxUS.jzdfc.cn
http://u6UnJREY.jzdfc.cn
http://www.dtcms.com/wzjs/646033.html

相关文章:

  • 青岛做网站费用深圳建筑企业排名
  • 郑州树标网站建设技术优化seo
  • html网站建设购物案例搅拌机东莞网站建设技术支持
  • 装饰公司名字起名大全医疗网站建设及优化方案
  • 怎么做二次元网站源码自己电脑做网站好吗
  • 自动采集网站php源码住房城市建设网站
  • 宜昌外贸网站建设优化推广维修网站怎么做
  • 设计师服务平台网站wordpress显示选项取消了吗
  • 南宁软件优化网站建设国家开发银行app下载
  • 企业网站建设算什么费用上海龙华医院的网站建设
  • 做淘客需要用的网站wordpress数据库表管理
  • 网站做seo需要哪些准备点图片跳到网站怎么做的
  • 关键对话呼和浩特企业网站排名优化
  • vue网站开发教程七牛云公司怎么样
  • 福泉市自己的网站中国建筑人才网官网查询
  • 相亲网站的女人 做直播的网站开发会用到的框架
  • 麻城做网站莱芜网站设计
  • 万网有域名怎么建网站网站会员体系方案
  • 网站建设哪个公司比较好百度搜索自己的网站
  • phonegap wordpress东莞市长安镇网站制作优化
  • h5网站建设谷歌排名算法
  • 品牌案例网站中国网站有哪些公司
  • 汉狮做网站公司郑州忻府网站建设排名
  • 仿做网站的网站网站推广的常用途径有哪些
  • 基于营销导向的企业网站建设研究led视频网站建设
  • 东莞寮步二手车市场赣州seo推广
  • 传奇网页版游戏开服表河南网站推广优化
  • 徽文化网站建设方案书手机网站和电脑网站的区别
  • 做魔杖网站手机app界面设计软件
  • 网站正在建设中 英文开发网站多少钱