当前位置：首页 > news >正文

YOLOE详解【浅显易懂！】

news 2025/9/23 21:55:10

针对“新类别”或“开放世界场景”的模型。

使用案例

零样本推理

在LVIS数据集上进行零样本推理。LVIS的类别以文本提示的形式提供。

使用定制化的文本提示

YOLOE能够适应通用和特定的文本提示，以实现灵活的使用。

使用视觉输入作为提示

YOLOE展示了通过各种视觉提示引导识别物体的能力。视觉提示还可以应用于跨图像。

架构解析

在这里插入图片描述

在 YOLO 的基础之上，YOLOE：

（1）通过 RepRTA 支持文本提示

Re-parameterizable Region-Text Alignment（可重参数化区域-文本对齐）
【右下角】

训练时通过重参数化 trick，提升学习表达能力；

Auxiliary Network $f θ$

将 Prompt Embedding $\in \mathbb{R}^{D \times H \times W}$ 压缩为 $f\_\theta(P) \in \mathbb{R}^{C \times D}$ 。也就是使用一个辅助网络将提示嵌入映射成新的空间。

Re-parameterization

通过与可训练参数 $\in \mathbb{R}^{D \times D' \times 1 \times 1}$ 结合进行变换，用于区域-文本对齐。

Text Encoder

预训练文本编码器（如 CLIP）将类别名称（text prompts）转为向量形式用于对齐。

Classification

分类模块对检测框进行类别预测。推理时也可以使用离线的文本嵌入。

（2）通过 SAVPE 支持视觉提示

Semantic-Activated Visual Prompt Encoder【左下角】

用于将视觉特征转换为语义感知的视觉 prompt embedding。对视觉提示进行语义增强，使提示嵌入不仅是感知信息，更带有语义引导。

包含两个分支：Activation Branch、Semantic Branch。

Activation Branch（激活分支）

根据视觉提示（Visual prompt）生成提示相关的注意力权重 $\in \mathbb{R}^{A \times H \times W}$

Semantic Branch（语义分支）

提取语义特征 $\in \mathbb{R}^{D \times H \times W}$ 。

Aggregation（聚合）

上述两分支融合后，生成视觉提示嵌入P。

（3）使用 LRPC 支持无提示场景——右上角

Lazy Region-Prompt Contrast（懒惰式区域-Prompt对比）

Prompt-Free 设置下：

利用内建词汇（built-in vocabulary）和 anchor points。
通过对比机制对每个区域选择最匹配的类别名称，实现零-shot 类别分配（无需明确 prompt 输入）。
模型使用内置词汇表中的嵌入，与候选区域特征进行对比，实现对象命名（零样本检索能力）。

实例分割部分的关键设计思想

1、Prompt-aware 分割增强

YOLOE 使用的 SAVPE（Semantic-Activated Visual Prompt Encoder）模块可以输出一组 prompt-aware 权重和语义特征图：

它为每个候选目标区域生成一个语义增强的区域特征向量，再将其输入到分割模块；

这样做的好处是：分割模块不仅知道“这里有一个物体”，还知道“这个物体大致属于哪种语义范畴”，使掩膜更加准确。

效果：提升 mask 质量、让分割结果更好地对齐语义标签，尤其在 zero-shot 类别上。

2、可重参数化区域-文本对齐对分割的加持

YOLOE 引入了一个创新模块叫 Re-parameterizable Region-Text Alignment：

原本该机制用于目标分类（将视觉区域与文本类别向量进行对齐）；

在分割中也发挥作用：通过 prompt 感知的特征，引导掩膜关注目标本身而非背景或邻近目标。

3、Lazy Region-Prompt Contrast 的 Prompt-Free 分割机制

在无明确 prompt 情况下，YOLOE 使用一种 “懒惰式”区域与内建 prompt 的对比机制：

它为每个检测到的区域自动选择最匹配的内建类别；

然后基于选中的类别，在分割模块中引入对应语义向量，生成掩膜。

优势：无需显式提供 prompt，仍然可以生成语义一致、结构清晰的分割掩膜。

查看全文

http://www.dtcms.com/a/252667.html

【前端基础】摩天之建的艺术：html（下）

二十四、【用户管理与权限 - 篇六】前端动态展现：基于权限的菜单与按钮控制

上传本地项目至github

KingPortal2.0安装步骤

机器学习监督学习实战七：文本卷积神经网络TextCNN对中文短文本分类（15类）

CppCon 2016 学习:I Just Wanted a Random Integer

流体力学×深度学习：当Fluent遇到神经网络，计算效率提升300%的奥秘！

Leetcode 刷题记录 19 —— 动态规划

3分钟搭建LarkXR实时云渲染PaaS平台，实现各类3D/XR应用的一键推流

氧化镱：稀土科技的“夜视高手”

dify私有化部署到ubuntu22.04（腾讯云为例）

前缀二叉树（Trie树）详解

django基于Spark的国漫推荐系统

Early End是什么

Cesium快速入门到精通系列教程十：实现任意多个蜂巢似六边形组合

数据结构----排序（3）

接口联调阶段的移动端调试实践：从实际问题到流程协同（含WebDebugX）

MySQL 默认连接数

在 HTTP 请求返回的状态码不为 200 时，重新发送请求

数据库系统概论（十九）详细讲解关系查询处理与查询优化

设计模式-依赖倒置原则（Dependency Inversion Principle, DIP）

Spring Boot(九十一)：Spring Boot实现防盗链功能

WPS 和 office (word/excel/ppt) 找到模板所在位置以及更改模板的方式（公文写作格式要求、字体安装、模板下载）

Maven高级学习笔记

常见哈希格式类型及其在CTF与渗透测试中的爆破与伪造策略（PBKDF2、bcrypt...)

Spring Boot分布式锁深度优化：彻底解决达梦数据库高并发死锁问题

【C++11】智能指针——unique_ptr, shared_ptr和weak_ptr

DBeaver数据库管理工具的简介、下载安装与优化配置

【Dify精讲】第10章：会话管理与上下文保持【知识卡片】

Nginx入门篇