当前位置：首页 > news >正文

多模态学习大纲笔记（未完成）

news 2025/10/27 18:42:57

一、基础预训练模型与能力

1.1 主流预训练模型（文本/多模态）

文本模型：BERT、GPT、T5
多模态模型：CLIP、ALBEF、BLIP-2、Flamingo（多模态学习核心基础模型，原内容未提及，需补充以覆盖多模态场景）

1.2 模型泛化能力描述

零样本学习（zero-shot）
少样本学习（Few-shot，原“excellent few-shot”修正为标准术语）
上下文学习（in-context learning ability）
模型缩放规律（Scaling Law）

二、模型训练与参数高效微调范式

2.1 训练阶段划分

预训练（Pretrain）
后训练（Post-training，原“后训练”补充标准英文对应，介于预训练与微调之间，用于领域适配）
微调（Finetune，传统全参数微调）

2.2 参数高效微调技术

增量微调（Delta Tuning，含多种轻量级微调方法的统称）
低秩适配（LoRA）
提示学习（Prompt-learning）
指令微调方法（Self-Instruct methods，通过模型自生成指令提升泛化能力）

三、检索增强生成（RAG）技术体系

3.1 RAG核心技术框架

核心技术：RAG技术（Retrieval-Augmented Generation，检索增强生成）
关联模型（RAG代表性工作）：REALM、KNN-LM、FLARE、IRCOT

3.2 RAG基础组件

3.2.1 表示学习：Embedding模型

传统词嵌入：Word2vec
现代稠密Embedding模型（补充）：Sentence-BERT、E5、bge-base（原内容仅提及Word2vec，需补充多模态/句子级Embedding模型以适配RAG场景）

3.2.2 检索模型体系

稀疏检索模型：TF-IDF、BM25
稠密检索模型
向量检索模型（含稠密向量检索，与上述稠密检索模型存在应用重叠，侧重工程实现）
重排序模型（Retrieval Reranking，对初检索结果二次优化）

3.2.3 知识图谱（补充关联）

知识图谱（可作为RAG的结构化知识源，与非结构化文本检索协同，原内容未明确其与RAG的关联，需补充定位）

四、高效注意力机制与模型架构

4.1 注意力机制优化

全注意力（Full-attention，传统Transformer注意力，计算复杂度高）
稀疏注意力（Sparse attention，如Longformer的滑动窗口注意力、BigBird的随机注意力）
线性注意力（Linear attention，如Performer，将注意力计算复杂度从O(n²)降为O(n)）
记忆增强注意力（Memory-based attention，引入外部记忆模块存储长程信息）
状态空间模型（SSM，如Mamba，通过线性递归替代注意力，实现长序列高效处理）

4.2 高效模型架构设计

混合专家模型（MoE，Mixture of Experts，原“混合专家模型”补充标准英文缩写）
稀疏结构化设计（SSD，Sparse Structured Design，如稀疏Transformer架构）

4.3 工程优化方向

高效实现（Efficient Implementation）
- 上下文长度外推（Context Length Extrapolation，如ALiBi、FlashAttention等技术，解决长文本处理问题）

五、多模态关键补充技术

5.1 多模态融合模块

早期融合（如模态嵌入拼接）、晚期融合（如结果级融合）
跨模态注意力（Cross-modal Attention，多模态模型核心融合机制）

5.2 多模态评估指标

模态对齐度（如CLIP的图像-文本相似度）
跨模态生成质量（如CIDEr、SPICE for 图文生成）
检索准确率（如R@1、R@5 for 跨模态检索）

http://www.dtcms.com/a/528370.html

相关文章：

组织学习障碍：自我证明的陷阱

【数据结构】顺序表的实现

可以做兼职的网站质量好网站建设多少钱

无声的战争：自动驾驶系统中的资源抢占、调度与生存法则

30-机器学习与大模型开发数学教程-3-4 矩阵的逆与伪逆

【大语言模型 104】LLM推理服务架构：从单机到分布式的演进之路

Rust所有权机制解析：内存安全的基石与实战指南

个人做商业网站需要什么如何判断网站数据库类型

Spring容器进化论：从BeanFactory到ApplicationContext

20.7 零样本多模态实战：CLIP模型如何让ChatPPT图像识别吞吐量飙升406%

可以做平面设计兼职的网站佛山市网站建设分站哪家好

win11系统下配置c++机器学习库mlpack

[人工智能-大模型-72]：模型层技术 - 模型训练六大步：①数据预处理 - 基本功能与对应的基本组成函数

java基础-13 : 双列集合(Map)

【十年后台管理系统】Redis的使用

SSM框架-MyBatis2

深入理解JVM垃圾回收机制：从原理到实践

Spring的后处理器

本地佛山顺德网站设计深圳市宝安区西乡街道

监控 Linux 系统上的内存使用情况

湖北省住房与建设厅网站高品质的网站开发

智慧校园建设方案-6PPT(32页)

Spring的@Cacheable取缓存默认实现

MySQL-TrinityCore异步连接池的学习(七)

2020应该建设什么网站建网站的论坛

华为OD机考双机位A卷 - Excel单元格数值统计 (C++ Python JAVA JS GO)

SpringBoot集成Elasticsearch | Elasticsearch 7.x专属HLRC（High Level Rest Client）

广东省住房城乡建设厅门户网站免费下载手机app

信创入门指南：一文掌握信息技术应用创新的核心要点

基于鸿蒙UniProton的物联网边缘计算：架构设计与实现方案