当前位置: 首页 > news >正文

大模型开源的工具包有哪些特殊符号可以使用;SEP 是什么

大模型开源的工具包有哪些特殊符号可以使用

目录

    • 大模型开源的工具包有哪些特殊符号可以使用
      • 自定义特殊token:special_tokens=True
      • 一、**对话轮次分隔符(必选)**
      • 二、**系统提示标记(提升指令理解)**
      • 三、**中文特色分隔符(贴合书写习惯)**
      • 四、**开源模型专属符号(按文档适配)**
      • 五、**小样本训练自定义符号(灵活扩展)**
      • 六、**符号使用避坑指南(针对中文特性)**
      • 七、**总结:中国特色符号的3大价值**
    • 大模型微调中 SEP 分隔符是什么
      • 一、<SEP>的典型应用场景与案例
        • 1. 问答对分隔(最常见)
        • 2. 多轮对话分隔
        • 3. 混合任务数据分隔
      • 二、<SEP>的核心价值
      • 三、实践建议(结合大模型微调)
      • 四、反例:缺乏<SEP>的风险
      • 🔍 **为什么需要<SEP>?**
      • 📝 **你的业务场景示例**
      • 🔧 **技术实现细节(你的代码适配)**
      • 📌 **与其他分隔符的区别**
      • ✅ **总结(针对你的微调任务)**

自定义特殊token:special_tokens=True

tokenizer.add_tokens([“[症状]”, “[诊断]”], special_tokens=True)

一、对话轮次分隔符(必选)

符号 全称/含义 适用模型 场景示例(客服对话)
`< User >` 用户输入起始
`< Bot >` 助理回复起始
【用户】 中文方括号角色标记 悟道、书生模型 【用户】单号123<SEP>【客服】已加急处理

代码适配(ChatGLM训练):

tokeni
http://www.dtcms.com/a/63285.html

相关文章:

  • GitLab的Dockerfile 追踪
  • linunx ubuntu24.04.02装libfuse2导致无法开机进不了桌面解决办法
  • 版本控制器Git(1)
  • 虚幻C++插件胚胎级入门 | Slate Widget开发
  • Excel多级联动下拉菜单设置
  • YOLOv12:以注意力为中心的实时目标检测器
  • mac部署GPT-SoVITS,生成粤语踩坑点及使用记录
  • Spring框架中的单例Bean是线程安全的吗
  • 《Android应用性能优化全解析:常见问题与解决方案》
  • 自动化领域零部件企业研究
  • windows上传uniapp打包的ipa文件到app store构建版本
  • OpenManus-通过源码方式本地运行OpenManus,含踩坑及处理方案,chrome.exe位置修改
  • 小肥柴慢慢手写数据结构(C篇)(4-3 关于栈和队列的讨论)
  • CentOS 8 更换软件源
  • Ubuntu 22.04 无法进入图形界面的解决方法
  • 浅谈大语言模型(LLM)的微调与部署
  • centos 安装 php gmp 模块
  • YashanDB认证,YCA证书认证教程,免费证书,内含真题考试题库及答案——五分钟速成
  • 设备物联网无线通信,ESP32-C3芯片模组方案,智能化联动控制
  • 003-SpringCloud Alibaba-Nacos(配置中心)
  • python读取word文档 | AI应用开发
  • 22. 备忘录模式
  • 爬虫中一些有用的用法
  • 【ISP】对于ISP的关键算法补充
  • Python第十七课:卷积神经网络 | 计算机视觉之眼
  • Vue3接入谷歌邮箱登录功能
  • 打造智能钉钉机器人:借助智谱GLM-4-Flash实现高效智能回复(文末附源码)
  • 决策树,Laplace 剪枝与感知机
  • K8S学习之基础二十三:k8s的持久化存储之nfs
  • 【CXX】6 内置绑定