NLP高频面试题(三十五)——LLaMA / ChatGLM / BLOOM的区别
一、LLaMA
训练数据
LLaMA由Meta开发,拥有多个参数规模的版本:7B、13B、33B和65B。其中,较小的7B和13B版本采用了约1万亿tokens进行训练,而更大的33B和65B版本使用了约1.4万亿tokens进行训练。
模型结构特点
LLaMA采用与GPT类似的causal decoder-only Transformer结构,在细节上进行了一些重要改进:
- Layer Normalization:采用了前置的RMS Norm(均方根Norm)以提高训练稳定性,并去除了传统的layer norm中的偏置项。
- 激活函数:选用了SwiGLU激活函数,相比传统FFN多出一个权重矩阵,提升了模型的表达能力。
- 位置编码:使用了旋转位置编码(RoPE),去除了传统的绝对位置编码,更好地处理序列长度变化。
Tokenizer特性
LLaMA主要以英文数据训练,使用SentencePiece tokenizer,词表仅有32,000个tokens,对中文支持有限,中文编码效率较低。
二、ChatGLM-6B
训练数据
ChatGLM-6B由智谱AI开发,训练语料包含约1万亿tokens,中文与英文数据比例各占50%,相比GLM-130B(40