当前位置: 首页 > news >正文

LLM论文笔记 12: Teaching Arithmetic to Small Transformers

  • Arxiv日期:2023.7.7
  • 机构:University of Wisconsin-Madison / Princeton University

关键词

  • 算数运算推理
  • 长度泛化
  • 实验结论

核心结论

1. 算数运算NTP中数据格式使用reverse或者scratchpad格式(CoT)可以显著提高精确度,cot可以显著减小需要的训练数据量

2. 数据平衡和采样策略:平衡不同位数和进位的sample显著提高性能

3. 泛化能力:对训练中未见的数值表现出一定的泛化能力,但对未训练的更长位数加法的泛化能力有限(基本没有长度泛化)-> 学习的是一种有限的函数映射,而非灵活的算法

4. 混合数据训练(文本+算术)+ few shot 显著提高精度

5. 精心设计的数据格式可以在小模型上提到极高的性能

主要方法

观察到算数运算(加减乘除开根)上简单微调NTP是次优的(如加法123+456=579第一个预测的结果位是5,但是5由7和9决定),提出算数运算上的结构化数据(reverse / scratchpad即cot),以加法为例建模为低秩矩阵补全并提出一定数据量产生性能跃迁。

还发现了平衡不同位数和进位的sample显著提高性能。局限性在于长度泛化几乎不出现。

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

相关文章:

  • Linux-C/C++《C/7、字符串处理》(字符串输入/输出、C 库中提供的字符串处理函数、正则表达式等)
  • WordPress Ai插件:支持提示词生成文章和chat智能对话
  • 深入解析 Flutter Bloc:从原理到实战
  • python1
  • 零基础入门机器学习 -- 第九章机器学习项目实战
  • 数据结构_前言
  • 【基础架构篇二】《DeepSeek容器化部署:Docker+Kubernetes集群实战》
  • 【DL】浅谈深度学习中的知识蒸馏 | 输出层知识蒸馏
  • Spring中Bean的生命周期
  • React中如何处理高阶组件中的错误
  • WebGPU 命令编码机制解析:GPUCommandEncoder 与 GPURenderPassEncoder 的协作
  • 开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B-LoRA微调-LLaMA-Factory-单机单卡-V100(一)
  • 调用deepseek接口
  • DeepSeek接入大数据能做什么
  • c# —— StringBuilder 类
  • three.js+WebGL踩坑经验合集(8.2):z-fighting叠面问题和camera.near的坑爹关系
  • C语言:在主函数中输入十个等长的字符串。用另一函数对它们排序,然后在主函数输出这10个已排好序的字符串。
  • 数据结构-栈、队列、哈希表
  • PyTorch与TensorFlow的对比:哪个框架更适合你的项目?
  • 什么是动态IP?静态IP和动态IP有什么区别?
  • 新时代,新方志:2025上海地方志论坛暨理论研讨会举办
  • 昆明公布3起经济犯罪案例:一人持有820余万假美元被判刑十年
  • 新片|《碟中谍8:最终清算》定档5月30日
  • 中国青年报:为见义勇为者安排补考,体现了教育的本质目标
  • 河南:响鼓重锤对违规吃喝问题露头就打、反复敲打、人人喊打
  • 张涌任西安市委常委,已卸任西安市副市长职务