当前位置：首页 > news >正文

Flamingo

news 2025/8/17 15:57:36

网络结构

在这里插入图片描述

Perceiver Resampler 感知重采样器
图像特征经过 encoder之后得到的embedding维度比较大，如果直接和 text embedding做 cross attention，会计算量爆炸，所以这里通过引入一个低维的可学习queries, 从视觉的embedding中学习视觉信息，得到一个比较短的视觉token (可学习queries) 。将高维视觉特征（如 196 个图像 patch）压缩为固定数量的视觉标记（如 64 个）

在这里插入图片描述

门控注意力
把学习到的视觉token 怎么融合到语言模型中呢？因为LLM是冻住不训练的，所以得像个办法讲视觉token融合语言模型中，这里采用了一个门控的 Cross Attention, 即用一个 tanh函数，把Cross Attention的输出乘以 tanh(α)，其中α是一个可学习的参数，初始化为0，再此基础上进行残差连接，一步步慢慢融合视觉信息。

在这里插入图片描述

参考：https://www.bilibili.com/video/BV1pu411G7ce/?spm_id_from=333.337.search-card.all.click&vd_source=a671b6c09bdc87f50b8d9fbbf85c6245

http://www.dtcms.com/a/335276.html

相关文章：

KingbaseES主备读写分离集群安装教程

字节数据流

北汽新能源半年报：双品牌战略拉动销量增长，多元布局促进转化

PIDGen!DecodeProdKey函数分析之四个断点

【大模型应用开发 3.RAG技术应用与Faiss向量数据库】

【leetcode】12. 整数转罗马数字

关于“双指针法“的总结

【Python】Python爬虫学习路线

“openfeign“调用接口上传文件报错：Failed to deleted temporary file used for part [file]

c++11扩展（c++11并发库）

在职老D渗透日记day18:sqli-labs靶场通关（第26关）get报错注入过滤or和and基础上又过滤了空格和注释符 ‘闭合手动注入

echarts 画一个饼图，并且外围有一个旋转动画

linux下程序运行一段时间无端崩溃/被杀死，或者内存占用一直增大。linux的坑

11.web api 2

模式匹配自动机全面理论分析

AI短视频爆火？记录AIGC在影视制作场景的实践教程

大模拟 Major

随机整数列表处理：偶数索引降序排序

jd-hotkey探测热点key

流量分析服务一审构成非法经营罪二审改判：数据服务的法律边界

电路方案分析（二十二）适用于音频应用的25-50W反激电源方案

ethernet_input到应用层处理简单分析

5 索引的操作

K8s核心组件全解析

如何使用嵌入模型创建本地知识库Demo

三、memblock 内存分配器

深入理解文件硬链接、软链接与引用计数的那些事

机器学习相关算法：回溯算法贪心算法回归算法(线性回归) 算法超参数多项式时间朴素贝叶斯分类算法

超详细yolo8/11-pose人体姿态全流程概述：配置环境、数据标注、训练、验证/预测、onnx部署(c++/python)详解

8.16、8.17 JavaWeb（MyBatis P116-P134）