视觉语言,轻量且开源-Gemma 3
谷歌更新了其开源权重的大语言模型家族,发布了 Gemma 3 多语言大语言模型,包含 10 亿、40 亿、120 亿和 270 亿参数等不同版本。其中最小的 10 亿参数版本仅处理文本,其他三个版本为视觉语言模型,可在消费级硬件上运行。这一发布标志着谷歌在大语言模型领域的进一步拓展,尤其是在视觉语言结合方面的努力。
强大的输入输出能力
在输入输出方面,各版本的Gemma 3表现出色。1B版本支持高达32,000个文本token的输入,输出则可达8,192个文本token。而4B、12B和27B版本能力更为强大,它们能够接受文本、图像或视频作为输入,输入token上限拓展至128,000个,输出能力与1B版本一致,同样为8,192个文本token。以27B版本为例,其输出速度可达每秒24.61个token,生成第一个token仅需0.68秒,这样的速度在处理复杂任务时,能够快速给出响应,极大地提高了应用的效率。
先进架构,奠定性能基石
架构设计是Gemma 3性能卓越的关键因素之一。1B版本采用经典的Transformer架构,这种架构在自然语言处理领域已经被广泛应用并证明了其有效性。而4B、12B和27B版本在此基础上,创新性地引入了SigLIP视觉编码器,使其具备了处理视觉信息的能力,从而实现了视觉与语言的融合。通过这种架构,模型能够理解图像和视频中的内容,并将其与文本信息相结合,为用户提供更加全面和智能的服务。