当前位置: 首页 > news >正文

Flamingo

网络结构

在这里插入图片描述

  1. Perceiver Resampler 感知重采样器
    图像特征经过 encoder之后得到的embedding维度比较大, 如果直接和 text embedding做 cross attention, 会计算量爆炸, 所以这里通过 引入一个低维的 可学习queries, 从视觉的embedding中学习视觉信息,得到一个比较短的视觉token (可学习queries) 。 将高维视觉特征(如 196 个图像 patch)压缩为固定数量的视觉标记​(如 64 个)

在这里插入图片描述

  1. 门控注意力
    把学习到的视觉token 怎么融合到 语言模型中呢? 因为LLM是冻住不训练的,所以得像个办法讲视觉token融合语言模型中,这里采用了一个门控的 Cross Attention, 即用一个 tanh函数, 把Cross Attention的输出乘以 tanh(α), 其中α是一个可学习的参数,初始化为0, 再此基础上进行残差连接,一步步慢慢融合视觉信息。

在这里插入图片描述

参考:https://www.bilibili.com/video/BV1pu411G7ce/?spm_id_from=333.337.search-card.all.click&vd_source=a671b6c09bdc87f50b8d9fbbf85c6245

http://www.dtcms.com/a/335276.html

相关文章:

  • KingbaseES主备读写分离集群安装教程
  • 字节数据流
  • 北汽新能源半年报:双品牌战略拉动销量增长,多元布局促进转化
  • PIDGen!DecodeProdKey函数分析之四个断点
  • 【大模型应用开发 3.RAG技术应用与Faiss向量数据库】
  • 【leetcode】12. 整数转罗马数字
  • 关于“双指针法“的总结
  • 【Python】Python爬虫学习路线
  • “openfeign“调用接口上传文件报错:Failed to deleted temporary file used for part [file]
  • c++11扩展(c++11并发库)
  • 在职老D渗透日记day18:sqli-labs靶场通关(第26关)get报错注入 过滤or和and基础上又过滤了空格和注释符 ‘闭合 手动注入
  • echarts 画一个饼图,并且外围有一个旋转动画
  • linux下程序运行一段时间无端崩溃/被杀死,或者内存占用一直增大。linux的坑
  • 11.web api 2
  • 模式匹配自动机全面理论分析
  • AI短视频爆火?记录AIGC在影视制作场景的实践教程
  • 大模拟 Major
  • 随机整数列表处理:偶数索引降序排序
  • jd-hotkey探测热点key
  • 流量分析服务一审构成非法经营罪二审改判:数据服务的法律边界
  • 电路方案分析(二十二)适用于音频应用的25-50W反激电源方案
  • ethernet_input到应用层处理简单分析
  • 5 索引的操作
  • K8s核心组件全解析
  • 如何使用嵌入模型创建本地知识库Demo
  • 三、memblock 内存分配器
  • 深入理解文件硬链接、软链接与引用计数的那些事
  • 机器学习相关算法:回溯算法 贪心算法 回归算法(线性回归) 算法超参数 多项式时间 朴素贝叶斯分类算法
  • 超详细yolo8/11-pose人体姿态全流程概述:配置环境、数据标注、训练、验证/预测、onnx部署(c++/python)详解
  • 8.16、8.17 JavaWeb(MyBatis P116-P134)