当前位置: 首页 > news >正文

视觉大模型

技术路线

智能交互-语音识别,认知推理-大语言模型LLM

        大模型浪潮爆发后,机器人领域经历了两个阶段:从利用基础模型进行机器人研究(leveraging foundation models in robotics)到为机器人预训练基础模型(pretraining foundation models for robotics)

        第一阶段:利用基础模型进行机器人研究 ,机器人传统三板块:Planning+Perception+Actuation(规划+感知+执行)

        第一步,用LLM(Large Language Model,大语言模型)替代Planning 

         第二步,用VLM(Vision-Language Models,视觉语言模型)替代Perception

        第三步,想把Actuation进一步自动化,用Code LM(专门用于代码相关任务的大型语言模型)来替代Actuation

第二阶段:为机器人预训练基础模型 38:36 VLA端到端模型(Vision-Language-Action Model,视觉语言动作模型)——“人是很智能的VLA Agent”

NLP大模型特别大,需要很大算力,CV领域还可以

智能涌现

自监督学习

https://www.bilibili.com/video/BV1hwLEzZEnS?spm_id_from=333.788.player.switch&vd_source=d31e5014a01dd0e66e50092730d3cc5c&p=2

C=1024 维度大小

N=batchsize

K=4096 最多可以存储负样本数量

Masked Image Modeling

视觉大模型

VIT

切割patch 

q k v  权重

MoCo V3

DINO

self distillation

为啥用ema?如果直接将学生网络的参数拷贝到教师网络作为参数,训练过程中很难收敛

直接使用交叉熵损失,未考虑负样本,只需将学生网络学习到的特征接近教师网络。

centering让学习到的特征更有泛华性

最后一层特征层可视化,class token

MAE

SAM

point bbox使用坐标表示,mask使用一个小网络编码,文本-预训练模型CLIP

image encoder - MAE

decoder - MAE  轻量化

多模态视觉

CLIP-分类

GLIP-目标检测-有监督bbox label

Flamingo

image embedding k and v, text embeddig q

image 10 Billion param, text 70 Billion param

LLaVA

LLaMA

从GPT4语言模型拿多模态数据训练自己的模型

下游任务迁移和视觉提示

Adapter需要引入新的模块,而且需要训练。

实战迁移PandaGPT

输入图像、文本、音频、视频。

LLaMA  --> Vicuna

LoRA

Hugging Face 模型存放

8*A100(40G)batchsize=64,可以将batchsize=4,micro_batchsize=2变小,在单张RTX3090上训练

参考

2.1自监督学习与前置任务_哔哩哔哩_bilibili2.1自监督学习与前置任务是AI视觉大模型教程(LLM+多模态+SAM+视觉Prompt+CV+学习路线图)从入门到实战简直配享太庙!的第2集视频,该合集共计40集,视频收藏或关注UP主,及时了解更多相关视频内容。https://www.bilibili.com/video/BV1hwLEzZEnS?spm_id_from=333.788.player.switch&vd_source=d31e5014a01dd0e66e50092730d3cc5c&p=2

myCobot 320 机械臂   教育

基于3D视觉的水果分拣_哔哩哔哩_bilibili    遨博机械臂应用案例

copilot 自动补全

服务器上运行demo结果URL,在本地上看,端口映射

大象机器人mycobot 280 pi  6轴 吸泵 摄像头 8000元 上位机主控板树莓派4B ubuntu20.04

AppBuilder-SDK语音识别 输入麦克风录制好的wav音频文件输出文字,然后把文字输入给Agent智能体(大语言模型,文心一言、kimi、chat、cloud3)paddlespeech-tts语音合成算法

大语言模型API调用

抓取物体:机械变成俯视姿态,拍摄一张图,俯视姿态用nvidia机器人仿真软件lsaac sim试出来的,发送给多模态大模型

视觉语言多模态大模型 零一万物 通义千问

http://www.dtcms.com/a/294751.html

相关文章:

  • Linux基本命令
  • 【读代码】Facebook Denoiser:开源端到端语音降噪系统原理与实战
  • 主流软件开发方法综述:从敏捷到开源
  • 表征工程与置信度增强:表征工程是提取隐藏层状态表征,LLM的置信度增强是优化的logist数值
  • 第一章:Go语言基础入门之Hello World与Go程序结构
  • 基于vue框架的服装店管理系统tma7v(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
  • FastGPT + Kymo:解锁企业专属知识库与智能体开发新体验
  • M3066ANL网络变压器,常用于NEC方案机顶盒等网络设备M3066AN实现网络信号的稳定传输与电气隔离保护
  • MybatisPlus操作方法详细总结
  • ar景区导航导览开发方案:核心技术架构与功能设计
  • 阶段1--域名服务器
  • Ceph残留磁盘清理与格式化
  • lesson22:Python的魔法方法
  • irf实验
  • 常用的正则表达式
  • 陷波频率处的相位补偿:相角超前矫正原理深度拆解
  • 综合实验(2)
  • QGraphicsScene导出为PDF
  • 大模型就业方向
  • 系统思考:经济反馈的循环
  • VRRP技术(虚拟路由器冗余协议)
  • VU2 学习笔记4 计算属性、监视属性
  • 使用 QLExpress 构建灵活可扩展的业务规则引擎
  • C++ Primer(第5版)- Chapter 7. Classes -005
  • 用 Phi-3 Mini 4K Instruct 实现轻量级模型量化与加载
  • 本地一键部署 Spark-TTS,支持Mac和Windows
  • etcd安装使用
  • OceanBase 混合检索解读:向量+标量,应该优先查哪个
  • electron自动化,webview中通过a标签跳过弹框自动下载文件
  • JavaWeb_Servlet复习