当前位置: 首页 > news >正文

NLP高频面试题(三十五)——LLaMA / ChatGLM / BLOOM的区别

一、LLaMA

训练数据

LLaMA由Meta开发,拥有多个参数规模的版本:7B、13B、33B和65B。其中,较小的7B和13B版本采用了约1万亿tokens进行训练,而更大的33B和65B版本使用了约1.4万亿tokens进行训练。

模型结构特点

LLaMA采用与GPT类似的causal decoder-only Transformer结构,在细节上进行了一些重要改进:

  • Layer Normalization:采用了前置的RMS Norm(均方根Norm)以提高训练稳定性,并去除了传统的layer norm中的偏置项。
  • 激活函数:选用了SwiGLU激活函数,相比传统FFN多出一个权重矩阵,提升了模型的表达能力。
  • 位置编码:使用了旋转位置编码(RoPE),去除了传统的绝对位置编码,更好地处理序列长度变化。

Tokenizer特性

LLaMA主要以英文数据训练,使用SentencePiece tokenizer,词表仅有32,000个tokens,对中文支持有限,中文编码效率较低。

二、ChatGLM-6B

训练数据

ChatGLM-6B由智谱AI开发,训练语料包含约1万亿tokens,中文与英文数据比例各占50%,相比GLM-130B(40

http://www.dtcms.com/a/111231.html

相关文章:

  • AI + 慢病逆转 1
  • USB传输(Transaction)过程简介
  • swift-oc和swift block和代理
  • ElasticSearch JavaRestClient查询之高亮显示
  • JS用ES6和ES5分别实现:8字节长整数和字节数组的互转
  • 软考系统架构师 — 4 嵌入式软件
  • H.266/VVC SCC技术学习:块差分脉冲编码调整(block differential pulse coded modulation, BDPCM)
  • 生信入门:专栏概要与内容目录
  • AI算法大全初见面
  • Redisson使用详解
  • 《Maven高级应用:继承聚合设计与私服Nexus实战指南》
  • 嵌入式学习笔记——SPI协议
  • “一路有你”公益行携手《东方星动》走进湖南岳阳岑川镇中心小学
  • AI Agent设计模式二:Parallelization
  • 【新能源汽车整车动力学模型深度解析:面向MATLAB/Simulink仿真测试工程师的硬核指南】
  • PyTorch:解锁AI新时代的钥匙
  • Python基于时间序列分析的降雨量预测系统的设计与实现【附源码、文档说明】
  • 一周学会Pandas2 Python数据处理与分析-Jupyter Notebook安装
  • C++类的特殊成员函数:构造、拷贝构造与析构函数详解
  • F#语言的折线图
  • Prolog语言的强化学习
  • MySQL 知识点详解(索引、存储引擎、事务、锁机制、优化)
  • 当机器学习遇见购物车分析:FP-Growth算法全解析
  • 对模板方法模式的理解
  • WPF设计学习记录滴滴滴6
  • 池化技术的深度解析与实践指南【大模型总结】
  • 【51单片机】2-6【I/O口】电动车简易防盗报警器实现
  • Python循环控制语句
  • 幻觉抵抗优化大模型:teapotllm
  • Linux 线程1-线程的概念、线程与进程区别、线程的创建、线程的调度机制、线程函数传参