当前位置: 首页 > news >正文

LLM 学习2

https://zhuanlan.zhihu.com/p/678196390

LLM context 长度,是模型在保障准确性的前提下,支持的最大输入长度。

一般来说,训练时用4k长度训练,那么推理时,4k以内的长度效果肯定是有保障的。8k以内的话,可以通往一些技术,如位置编码扩展等技术,让准确性基本不降低,或者降低幅度较小。超过训练长度太多,准确性就降低比较大了。

另外,一般情况下,训练和推理的运算量与长度的平方成正比例。有一些技术可以改善这方面。

重点要理解,LLM的结构参数中,是不包含context长度的,所以不够输入token多少,都是可以计算的。只是对运算量和准确性有影响。

此外,4000 token ,相当于 3000 个英文单词或者 2000 个汉字

http://www.dtcms.com/a/26168.html

相关文章:

  • 服务器创建conda环境并安装使用jupyter
  • ChromeDriver下载
  • 2.19c++练习
  • 鸿蒙5.0实战案例:关于图像撕裂、掉帧等异常现象的原理以及优化方案
  • express-validator 数据校验详解
  • Redis未授权访问漏洞原理
  • 《Real-IAD: 用于基准测试多功能工业异常检测的真实世界多视角数据集》学习笔记
  • 【NLP算法面经】字节跳动算法岗四面详细面经(★附面题总结★)
  • 《GB∕T 43206-2023 信息安全技术 信息系统密码应用测评要求》介绍,4月1日起正式施行
  • pandas连接mysql数据库
  • JavaScript 异步编程:Promise 与 await 的关联与使用
  • Zookeeper和Kafka的依赖关系
  • Android studio如何把新项目上传到svn仓库
  • ubuntu22.4搭建单节点es8.1
  • 一个前端,如何同时联调多个后端
  • Python 库自制 Cross-correlation 算法
  • 【强化学习】随机策略的策略梯度
  • python 变量类型注释
  • 自己安装一台DeepSeek的服务器
  • 基于python实现机器学习的心脏病预测系统
  • 导出指定文件夹下的文件结构 工具模块-Python
  • PostgreSQL的学习心得和知识总结(一百六十九)|深入理解PostgreSQL数据库之 Group By 键值消除 的使用和实现
  • 【Pandas】pandas Series reindex
  • MySQL 的存储引擎简介
  • “深入浅出”系列之C++:(21)C++23
  • 使用 Ansys HFSS 对植入式医疗设备进行无线电力传输和 SAR 仿真
  • Day41 移除链表元素
  • 查询计算每一天的累计销售金额以及与前一天相比的销售金额增长额
  • 编译linux SDK
  • html网络安全工具源码 网络安全前端