当前位置: 首页 > news >正文

基于Gemini 生成 Gemini Embedding

在本报告中,我们介绍了Gemini Embedding,这是一款基于谷歌功能最强大的大型语言模型Gemini的先进嵌入模型。借助Gemini的多语言和代码理解能力,Gemini Embedding能够为多种语言和文本模态的文本生成高度通用的嵌入表示。Gemini Embedding生成的表示可以预先计算并应用于多种下游任务,包括分类、相似性分析、聚类、排序和检索。

在包含250多种语言、超过一百个任务的Massive Multilingual Text Embedding Benchmark(MMTEB)上进行评估时,Gemini Embedding显著超越了之前的最先进模型,展示了嵌入质量的显著提升。在MMTEB的多语言、英语和代码基准测试中均取得了最先进水平的表现,证明了我们的统一模型在广泛任务中的强大能力,并超越了专门的领域特定模型。

1 Introduction

背景与重要性

嵌入模型将输入转换为密集向量表示,对于捕捉不同领域和模态中的语义信息至关重要。文本嵌入模型将单词和句子表示为向量,将语义相似的文本定位在嵌入空间中。近期研究重点在于开发能够在多种下游任务中表现出色的通用嵌入模型,包括信息检索、聚类和分类。大型语言模型(LLMs)已成为构建此类通用嵌入模型的有前途的途径,利用其庞大的预训练知识,有可能显著提升广泛应用程序的性能

LLMs在嵌入模型开发中的作用

通过两种主要方法,LLMs的集成彻底变革了高质量嵌入模型的开发:

  • 改进训练数据集:LLMs用于生成更高质量的示例,通过困难负样本挖掘和合成数据生成等技术,将LLM知识蒸馏到更小、更高效的嵌入模型中,带来显著的性能提升。

  • 初始化嵌入模型参数:直接利用LLM参数进行初始化,尽管这种方法增加了计算需求,但实证证据表明,利用强大的LLMs进行初始化可以获得显著的性能提升。

Gemini Embedding的介绍

在这项工作中,推出了Gemini Embedding,这是一种从强大的Gemini大型语言模型初始化的新型嵌入模型。利用Gemini的多样化能力,在一系列嵌入任务上训练Gemini Embedding。为了构建高质量、异构的训练数据集,使用Gemini进行数据筛选、确定检索的相关正负段落以及生成丰富的合成数据集。这个策展数据集促进了基于对比学习目标的训练,使Gemini Embedding能够学习鲁棒的语义表示。

训练方法的创新

在Gecko的成功基础上,引入任务提示和预微调阶段以提升性能。最后,使用Model Soup,一种简单而有效的参数平均技术,来组合多个微调检查点,从而产生更优的最终嵌入模型。

评估与结果

为了严格评估Gemini Embedding的能力,在各种任务和语言上进行了广泛评估。主要使用MMTEB,这是一个全面的测试套件,涵盖250多种语言的100多个嵌入评估任务。Gemini Embedding在MTEB(多语言)上实现了最先进水平的性能,显著超越了之前的最佳模型。它在公共排行榜上基于

相关文章:

  • 学习笔记之注册用户如何防止缓存穿透
  • 365天之第P10周:Pytorch实现车牌识别
  • OceanBase 4.3.3 AP 功能解析:物化视图
  • 嵌入式开发之STM32学习笔记day06
  • C语言:编程设计猜数游戏
  • 【Dify平台】Function Call 模式模式和ReAct模型有什么不同?
  • 大数据技术链路详解
  • 什么是数学建模?数学建模是将实际问题转化为数学问题
  • C++学习笔记(二十一)——文件读写
  • 蓝桥杯 阶乘约数
  • 使用matlab求伴随矩阵
  • 图像处理篇:图像预处理——从数据到模型的桥梁
  • SSH反向隧道
  • 2025年渗透测试面试题总结-某四字大厂面试复盘 一面(题目+回答)
  • 【AI学习从零至壹】Pytorch神经⽹络
  • RAGFlow部署与使用(开源本地知识库管理系统,包括kibana配置)
  • 消息队列导致数据库数据读取不一致解决方案
  • 【协作开发】低成本一键复刻github的gitea
  • Leetcode 3483. Unique 3-Digit Even Numbers
  • 第四十八篇——数学和其它学科:为什么数学是更底层的工具?
  • 韩国法院将重审李在明案,韩德洙入局能否为大选带来变数?
  • 剑指3000亿产业规模,机器人“武林大会”背后的无锡“野望”
  • 山西太原一处居民小区发生爆炸,现场产生大量浓烟
  • 中信银行一季度净利195.09亿增1.66%,不良率持平
  • 中国人寿一季度净利润288亿增39.5%,营收降8.9%
  • 暗蓝评《性别打结》丨拆解性别之结需要几步?