当前位置: 首页 > news >正文

视觉语言,轻量且开源-Gemma 3

谷歌更新了其开源权重的大语言模型家族,发布了 Gemma 3 多语言大语言模型,包含 10 亿、40 亿、120 亿和 270 亿参数等不同版本。其中最小的 10 亿参数版本仅处理文本,其他三个版本为视觉语言模型,可在消费级硬件上运行。这一发布标志着谷歌在大语言模型领域的进一步拓展,尤其是在视觉语言结合方面的努力。

强大的输入输出能力

在输入输出方面,各版本的Gemma 3表现出色。1B版本支持高达32,000个文本token的输入,输出则可达8,192个文本token。而4B、12B和27B版本能力更为强大,它们能够接受文本、图像或视频作为输入,输入token上限拓展至128,000个,输出能力与1B版本一致,同样为8,192个文本token。以27B版本为例,其输出速度可达每秒24.61个token,生成第一个token仅需0.68秒,这样的速度在处理复杂任务时,能够快速给出响应,极大地提高了应用的效率。

先进架构,奠定性能基石

架构设计是Gemma 3性能卓越的关键因素之一。1B版本采用经典的Transformer架构,这种架构在自然语言处理领域已经被广泛应用并证明了其有效性。而4B、12B和27B版本在此基础上,创新性地引入了SigLIP视觉编码器,使其具备了处理视觉信息的能力,从而实现了视觉与语言的融合。通过这种架构,模型能够理解图像和视频中的内容,并将其与文本信息相结合,为用户提供更加全面和智能的服务。

丰富功能,拓展

相关文章:

  • nut-ui下拉选的实现方式:nut-menu
  • 快速入手-基于Django-rest-framework的第三方认证插件(SimpleJWT)权限认证扩展返回用户等其他信息(十一)
  • 闭包与作用域的理解
  • Linux操作系统下离线安装nginx
  • 嵌入式学习第三十天--队列
  • 【区块链安全 | 第二十篇】类型之运算符
  • Docker 拉取镜像部分成功部分失败?
  • TDengine 核心概念与时序数据模型深度解析(二)
  • 从TRPO到GRPO
  • scikit-surprise 智能推荐模块使用说明
  • 简单视图函数
  • (BFS)题解:P9425 [蓝桥杯 2023 国 B] AB 路线
  • 智能打印预约系统:微信小程序+SSM框架实战项目
  • 机器学习的一百个概念(6)最小最大缩放
  • Codeforces Round #1014 (Div. 2)
  • 三路排序算法
  • 本科lw指导
  • 鸿蒙NEXT开发Base64工具类(ArkTs)
  • 消息队列--RocketMQ
  • DeepSeek 助力 Vue3 开发:打造丝滑的表格(Table)之添加行拖拽排序功能示例13,TableView16_13 键盘辅助拖拽示例
  • 做酒的网站/百度健康人工客服电话24小时
  • 西安专业网站开发公司/查指数
  • wordpress jfinal/外包seo公司
  • 专业培训/seo综合查询站长工具关键词
  • 会员网站开发/百度网站站长工具
  • 哪个网站可以查蛋白互做/腾讯云服务器