当前位置：首页 > news >正文

视觉语言，轻量且开源-Gemma 3

news 2025/10/26 5:53:22

谷歌更新了其开源权重的大语言模型家族，发布了 Gemma 3 多语言大语言模型，包含 10 亿、40 亿、120 亿和 270 亿参数等不同版本。其中最小的 10 亿参数版本仅处理文本，其他三个版本为视觉语言模型，可在消费级硬件上运行。这一发布标志着谷歌在大语言模型领域的进一步拓展，尤其是在视觉语言结合方面的努力。

强大的输入输出能力

在输入输出方面，各版本的Gemma 3表现出色。1B版本支持高达32,000个文本token的输入，输出则可达8,192个文本token。而4B、12B和27B版本能力更为强大，它们能够接受文本、图像或视频作为输入，输入token上限拓展至128,000个，输出能力与1B版本一致，同样为8,192个文本token。以27B版本为例，其输出速度可达每秒24.61个token，生成第一个token仅需0.68秒，这样的速度在处理复杂任务时，能够快速给出响应，极大地提高了应用的效率。

先进架构，奠定性能基石

架构设计是Gemma 3性能卓越的关键因素之一。1B版本采用经典的Transformer架构，这种架构在自然语言处理领域已经被广泛应用并证明了其有效性。而4B、12B和27B版本在此基础上，创新性地引入了SigLIP视觉编码器，使其具备了处理视觉信息的能力，从而实现了视觉与语言的融合。通过这种架构，模型能够理解图像和视频中的内容，并将其与文本信息相结合，为用户提供更加全面和智能的服务。