当前位置: 首页 > news >正文

BGE:智源研究院的通用嵌入模型家族——从文本到多模态的语义检索革命

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

1. 背景与演进历程

BGE是由**北京智源人工智能研究院(BAAI)**主导研发的开源向量模型系列,旨在为文本、代码、图像等多模态数据提供统一的语义嵌入表示。其发展可分为三个阶段:

  • 文本嵌入阶段(2023)
    初始版本聚焦中英文文本向量化,登顶Hugging Face榜单,成为首个登顶该榜的中国模型,累计下载超6亿次。
  • 多语言扩展(2024)
    推出多语言版本(如BGE-M3),支持100+语言,在MTEB、MIRACL等基准刷新SOTA。
  • 多模态突破(2025)
    发布代码向量模型BGE-Code-v1、多模态模型BGE-VL-v1.5及视觉文档模型BGE-VL-Screenshot,解决代码与视觉检索瓶颈。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

往期文章推荐:

  • 20.TF-IDF:信息检索与文本挖掘的统计权重基石
  • 19.HumanEval:代码生成模型的“黄金标尺”
  • 18.稠密检索:基于神经嵌入的高效语义搜索范式
  • 17.Haystack:面向大模型应用的模块化检索增强生成(RAG)框架
  • 16.CodePlan:基于代码形式规划的大模型结构化推理新范式
  • 15.CodeGen:面向多轮程序合成的开源代码大语言模型
  • 14.束搜索(Beam Search):原理、演进与挑战
  • 13.RAGFoundry:面向检索增强生成的模块化增强框架
  • 12.TyDi QA:面向语言类型多样性的信息检索问答基准
  • 11.BBH详解:面向大模型的高阶推理评估基准与数据集分析
  • 10.RepoCoder:仓库级代码补全的迭代检索生成框架解析与应用前沿
  • 9.RAGAS:检索增强生成系统的无参考评估框架与技术解析
  • 8.Self-RAG:基于自我反思的检索增强生成框架技术解析
  • 7.DocBench:面向大模型文档阅读系统的评估基准与数据集分析
  • 6.哲学中的主体性:历史演进、理论范式与当代重构
  • 5.FLAN-T5:大规模指令微调的统一语言模型框架
  • 4.Do-Calculus:因果推断的演算基础与跨领域应用
  • 3.同质无向加权图:理论基础、算法演进与应用前沿
  • 2.大模型智能体(Agent)技术全景:架构演进、协作范式与应用前沿
  • 1.GraphRAG:基于知识图谱的检索增强生成技术解析
2. 核心模型与技术突破
2.1 文本嵌入:BGE-M3
  • 指令感知嵌入:在查询端注入任务指令(如“为以下问题查找相关文档”),提升多任务泛化性。
  • 三模态融合:支持稠密检索、稀疏检索与多向量交互,兼顾效率与精度。
  • 性能:MTEB基准平均得分64.8,超越OpenAI text-embedding-3-large(63.5)。
2.2 代码向量:BGE-Code-v1
  • 架构:基于Qwen2.5-Coder-1.5B,采用课程学习策略,融合代码-文本合成数据与多语言语义数据。
  • 创新
    • 代码拓扑解析:保留函数依赖与上下文结构;
    • 跨语言对齐:支持14种编程语言与自然语言的混合检索。
  • 性能:在CoIR(覆盖14种语言)、CodeRAG-Bench基准全面领先谷歌、Salesforce等模型。
2.3 多模态向量:BGE-VL-v1.5
  • 架构:以LLaVA-1.6(7.5B参数)为基座,集成400万图文对齐数据。
  • 关键技术
    • 双向注意力机制:捕捉图文模态关联;
    • 层次化特征融合:整合局部与全局语义。
  • 性能
    • Zero-shot版BGE-VL-v1.5-zs登顶MMEB zero-shot榜单;
    • 微调版BGE-VL-v1.5-MMEB在检索任务得分72.16(SOTA)。
2.4 视觉文档向量:BGE-VL-Screenshot
  • 问题定义:解决“可视化信息检索(Vis-IR)”任务(如网页/文档截图中的图文混合理解)。
  • 训练数据:1300万截图 + 700万截图问答样本,覆盖新闻、论文、商品等七类场景。
  • 评估基准:团队推出MVRB基准(4任务20数据集),模型以60.61综合分刷新SOTA。
3. 性能对比与权威验证

表1:BGE模型在核心基准的表现

模型基准得分超越对手
BGE-Code-v1CodeRAG-BenchSOTAGoogle, Voyage AI, Jina
BGE-VL-v1.5-MMEBMMEB-Retrieval72.16CLIP-ViT, OpenAI Embeddings
BGE-VL-ScreenshotMVRB60.61多模态基线模型30%↑
BGE-M3MTEB64.8OpenAI text-embedding-3-large

数据来源:智源官方论文及基准榜单

4. 应用场景与开源生态
4.1 典型应用
  • RAG系统:为LLM提供精准代码/文档检索(如GitHub Copilot增强);
  • 多模态搜索:电商平台图文混合检索(如“红色连衣裙+蕾丝细节”);
  • 工业编程:百万行级代码库的语义搜索与补全。
4.2 开源资源
# 模型与代码库
- BGE-Code-v1:• 模型地址: https://huggingface.co/BAAI/bge-code-v1• 训练代码: https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Coder
- BGE-VL-Screenshot:• 基准榜单: https://huggingface.co/spaces/BAAI/MVRB_leaderboard
5. 与同名技术的区分

需区分两类同名“BGE”:

  • 智源BGE:面向语义嵌入的向量模型家族(本文核心);
  • 阿里BGE(2018):图嵌入算法(Billion-scale Commodity Embedding),用于电商推荐;
  • 字节BGE(2024):图数据库ByteGraph的执行引擎(非嵌入模型)。

核心论文

  1. BGE-Code-v1
    BAAI. (2025).
    BGE-Code-v1: A Unified Code-Text Embedding Model for 14 Programming Languages.
    arXiv preprint arXiv:2505.12697.
    → 论文地址: https://arxiv.org/abs/2505.12697

💎 总结

BGE系列通过模块化设计多模态扩展,定义了语义嵌入新范式:

  1. 技术突破
    • 代码向量模型解决程序语义鸿沟(BGE-Code-v1);
    • 多模态模型统一图文表示(BGE-VL-v1.5);
    • 视觉文档模型攻克复杂结构理解(BGE-VL-Screenshot)。
  2. 开源引领:6亿次下载、全面开放模型权重,推动RAG技术民主化。
  3. 持续演进:从文本到多模态,BGE正构建“万物可嵌入”的通用语义基础设施 🌐。

随着AGI对复杂知识的处理需求增长,BGE的结构化语义表示高效检索能力将成为大模型落地核心引擎 🔧。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

http://www.dtcms.com/a/330155.html

相关文章:

  • 模型驱动的自动驾驶AI系统全生命周期安全保障
  • C++入门自学Day10-- Vector类的自实现
  • Nginx学习与安装
  • Docker(springcloud笔记第三期)
  • docker 将本地python环境(有系统依赖)进行打包移到另一个服务器进行部署
  • 飞算AI:企业智能化转型的新引擎——零代码重塑生产力
  • sql查询优化方式常见情况总结
  • TLSv1.2协议与TCP/UDP协议传输数据内容差异
  • 【Redis】Sentinel (哨兵)
  • 深度学习实战114-基于大模型的深度研究(DeepResearch)架构:从自主信息探索到洞察生成的革命
  • games101 第三讲 Transformation(变换)
  • RK3568项目(十五)--linux驱动开发之进阶驱动
  • Linux应用层开发--进程处理
  • 【完整源码+数据集+部署教程】医学报告图像分割系统源码和数据集:改进yolo11-HGNetV2
  • @Linux进程管理工具 - PM2全面指南
  • 理财 - 基金
  • 【React】use-immer vs 原生 Hook:谁更胜一筹?
  • PromptPilot — AI 自动化任务的下一个环节
  • 云蝠智能 Voice Agent 多模型接入技术架构与实践
  • 微信小程序实现导航至目的地
  • 腾讯位置商业授权微信小程序关键词输入提示
  • python自学笔记7 可视化初步
  • 并发编程(八股)
  • epoll模型解析
  • 数据科学与计算:从基础到实践的全面探索
  • 深度学习(6):参数初始化
  • 动画相关 属性动画+animateToImmediately+ImageAnimator帧动画组件+模态转场
  • 【C++】哈希表的实现
  • EUDR的核心内容,EUDR认证的好处,EUDR意义
  • web开发,在线%射击比赛管理%系统开发demo,基于html,css,jquery,python,django,三层mysql数据库