当前位置: 首页 > news >正文

【每天一个知识点】多模态信息(Multimodal Information)

常用的多模态信息(Multimodal Information)指的是来源于多种感知通道/数据类型的内容,这些信息可以被整合处理,以提升理解、推理与生成能力。在人工智能和大模型系统中,典型的多模态信息主要包括以下几类:


✅ 常用多模态信息类型

模态类型内容举例特征常用模型/技术
文本(Text)问答、对话、文章、代码、标签等结构清晰,语义明确,语义表达最强BERT、GPT、T5、BGE、BART
图像(Image)照片、图表、插画、截图、表单等空间结构强,信息直观,但不具结构化标签ViT、CLIP、BLIP、ResNet
音频(Audio)语音、音乐、环境声音、机器噪音等时间连续性强,可携带情绪与说话人信息Wav2Vec2、Whisper、CLAP
视频(Video)动画、监控、电影片段、教学视频等空间+时间信息结合,处理复杂ViViT、Video-BERT、VideoPrism
语音(Speech)人类对话、播报、讲解音频子类,携带语义、情绪和音色等信息Whisper、SpeechT5、VALL-E
结构化数据(Structured Data)表格、CSV、数据库记录、传感器数据有明确字段和关系,可计算性强TAPAS、TaBERT、AutoML 表格
代码(Code)Python、HTML、SQL 等逻辑严谨、结构化明确,可直接执行CodeT5、Codex、StarCoder
图(Graph)知识图谱、社交网络图、流程图等具有节点-边结构,表达实体关系GNN、GraphBERT、KG-BERT
位置信息(Geo/Spatial)经纬度、地图、路径轨迹、卫星图像等地理或空间依赖性强GeoBERT、BEVFusion
传感器数据(Sensor/IoT)温度、电流、震动、PM2.5等实时数据流高频、实时、离散时间序列LSTM、Informer、Transformer-TS
网页与界面信息(Web UI)HTML 页面、App 界面、网页截图多模信息融合,如图+文+按钮+链接WebGPT、UI2Code、Screen2Vec

🔄 多模态信息融合方式(常见形式)

融合方式示例说明
文本+图像图文问答、图像描述生成图像理解 + 自然语言生成
文本+语音智能助理、语音翻译语音识别 → 文本 → 回答
文本+视频视频内容问答、字幕生成视频内容分析 + 文本交互
文本+表格报表问答、结构化摘要基于表格内容进行语义分析
文本+代码编程助手、代码生成解释自然语言 ↔ 编程语言
图像+语音视障辅助导航、图像朗读图像转描述 + 语音输出
文本+图+结构化数据多源数据决策支持融合多个信息维度进行分析与生成

🚀 多模态信息的应用场景

场景描述
图文问答(VQA)用户上传一张图,问“这是什么动物?”
视频分析给定一段视频,生成文字摘要或动作识别
医疗诊断输入医疗图像 + 病历记录,辅助医生决策
教育内容生成输入幻灯片或视频讲解,自动生成测试题
工业监控结合图像、传感器数据、文字报警,实现故障识别
智能客服用户语音 + 文本对话,结合知识库实时应答
机器人导航输入地图图像 + 语音指令,实现路径规划


文章转载自:
http://babul.tmizpp.cn
http://annoyance.tmizpp.cn
http://cascade.tmizpp.cn
http://anhistous.tmizpp.cn
http://bullous.tmizpp.cn
http://cannikin.tmizpp.cn
http://aeromodelling.tmizpp.cn
http://achievement.tmizpp.cn
http://accessorius.tmizpp.cn
http://brocatelle.tmizpp.cn
http://bename.tmizpp.cn
http://broodmare.tmizpp.cn
http://bicentric.tmizpp.cn
http://arkansan.tmizpp.cn
http://abm.tmizpp.cn
http://bdst.tmizpp.cn
http://admittance.tmizpp.cn
http://bioscience.tmizpp.cn
http://chengchow.tmizpp.cn
http://cajeput.tmizpp.cn
http://antheridium.tmizpp.cn
http://adagietto.tmizpp.cn
http://brummagem.tmizpp.cn
http://baedeker.tmizpp.cn
http://annals.tmizpp.cn
http://aperiodicity.tmizpp.cn
http://amphiaster.tmizpp.cn
http://bib.tmizpp.cn
http://bicrural.tmizpp.cn
http://calfhood.tmizpp.cn
http://www.dtcms.com/a/280856.html

相关文章:

  • 【知识扫盲】tokenizer.json中的vocab和merges是什么?
  • 【机器学习】第二章 Python入门
  • 【Unity】MiniGame编辑器小游戏(十四)基础支持模块(游戏窗口、游戏对象、物理系统、动画系统、射线检测)
  • 数学中的教学思想
  • MySQL 8.0 OCP 1Z0-908 题目解析(24)
  • P3842 [TJOI2007] 线段
  • Sharding-JDBC 分布式事务实战指南:XA/Seata 方案解析
  • sqli-labs靶场通关笔记:第18-19关 HTTP头部注入
  • 【C++】初识C++(1)
  • 课题学习笔记1——文本问答与信息抽取关键技术研究论文阅读(用于无结构化文本问答的文本生成技术)
  • Java 大视界 -- Java 大数据机器学习模型在金融风险传染路径分析与防控策略制定中的应用(347)
  • QT——QList的详细讲解
  • Redis的下载安装+基础操作+redis客户端的安装
  • 使用 1Panel PHP 运行环境部署 WordPress
  • 辨析git reset三种模式以及和git revert的区别:回退到指定版本和撤销指定版本的操作
  • 零样本轴承故障诊断SC - GAN模型
  • 【PCIe 总线及设备入门学习专栏 5.1.2 -- PCIe EP core_rst_n 与 app_rst_n】
  • React-router
  • 未来大模型在中小型企业如何实现普及
  • PG备份一(逻辑备份)
  • Kafka——生产者消息分区机制原理剖析
  • Java基础教程(009): Java 的封装
  • Samba配置使用
  • 算法学习笔记:23.贪心算法之活动选择问题 ——从原理到实战,涵盖 LeetCode 与考研 408 例题
  • 重学前端005 --- 响应式网页设计 CSS 盒子模型
  • Python函数进阶
  • python 基于 httpx 的流式请求
  • 封装---统一处理接口与打印错误信息
  • Linux下调试器gdb/cgdb的使用
  • Linux系统调优和工具