各种医学方面大模型总结——自用
人工神经网络技术所使用的模型主要有4大类别:
a. 多层感知器(MLP,MultiLayer Perceptron)
b. 卷积神经网络(CNN,Convolutional Neural Network)
c. 循环神经网络(RNN,Recurrent Neural Network)
d. Transformer(可以意译为“变换器”,这个名字表示从数据的语义变换的角度去看待其中的数学运算)
1.SAM大模型
简介
SAM(Segment Anything Model)是由Meta推出的一种人工智能大模型,专注于图像分割任务。它通过创新的设计和训练方法,能够在零样本(zero-shot)条件下快速适应新的图像分布和任务,展现出与完全监督模型相媲美甚至更优的性能。
SAM的核心特点:
强大的零样本能力:
SAM能够在没有特定任务训练数据的情况下,完成图像分割任务。例如,它可以通过单点 提示或文本提示生成掩码(mask),并在边缘检测、对象提议等任务中表现出色。
大规模数据集支持:
SAM的训练基于一个包含1100万张图像和超过10亿个分割掩码的数据集,这是迄今为止最大的分割数据集之一。
开源与轻量化:
SAM模型体积仅为2.4GB,采用Apache 2.0许可证开源,便于研究者和开发者使用和扩展。
SAM的应用领域:
机器人技术:SAM的对象识别能力可提升机器人在复杂环境中的感知能力。
医学研究:在医学图像分析中,SAM的分割能力有助于病灶检测和诊断。
增强现实:SAM能够快速生成精确的掩码,为AR应用提供技术支持。
SAM的技术优势:
1.简单可扩展的架构
SAM的设计注重简洁性和可扩展性,使其能够高效处理多种任务。
2.直观的人工注释流程
通过人工注释与模型训练的紧密结合,SAM能够不断优化性能。
3.数据飞轮效应
SAM的开源特性和大规模数据集推动了计算机视觉领域的创新,形成了良性循环。
2 Transformer模型
是一种基于自注意力机制的深度学习架构,由Google在2017年的论文《Attention Is All You Need》中首次提出,彻底改变了自然语言处理(NLP)领域的游戏规则。
核心特点:
并行计算:与RNN的顺序计算不同,Transformer的架构设计支持并行计算,显著提高了训练效率。
自注意力机制:Transformer通过自注意力机制(Self-Attention)直接关注输入序列中的任意位置,快速捕捉长距离的语义关联,解决了传统RNN模型在处理长序列时的梯度消失或梯度爆炸问题。
Encoder-Decoder架构:Transformer由编码组件和解码组件组成,编码器负责将输入序列转换为特征表示,解码器则生成输出序列。
模型组成
编码器:由多层编码器堆叠而成,每层包含自注意力层和前馈神经网络(FFN)。
解码器:结构与编码器类似,但额外增加了Encoder-Decoder Attention层,用于关注输入序列的相关部分。
应用领域
NLP任务:Transformer在机器翻译、文本分类、情感分析等任务中表现出色,显著提升了准确率和效率。,
生成式AI:如ChatGPT等生成式AI工具基于Transformer架构,能够更好地理解上下文并生成连贯的文本。
3 Vision Transformer (ViT)
Vision Transformer (ViT) 是一种基于Transformer架构的深度学习模型,专门用于计算机视觉任务,如图像分类。它首次将Transformer从自然语言处理(NLP)领域成功迁移到视觉领域,打破了传统卷积神经网络(CNN)在视觉任务中的主导地位。
ViT的核心思想
1.图像分块与序列化
ViT将输入图像划分为固定大小的图像块(patches),例如16x16像素。这些图像块被展平为向量序列,类似于NLP中的词序列。
2.Transformer编码器
这些向量序列通过一个Transformer编码器进行处理。Transformer编码器由多层自注意力机制和前馈神经网络组成,能够捕捉图像中不同位置的全局依赖关系。
3.分类标记与位置编码
ViT在序列的开头添加一个可学习的分类标记(CLS token),用于聚合整个图像的信息。同时,为了保留图像块的位置信息,ViT引入了可学习的位置编码。
ViT的优势
全局注意力机制:与CNN的局部感受野不同,ViT通过自注意力机制能够捕捉图像中的全局上下文信息。
扩展性强:ViT的架构简单且易于扩展,适用于大规模数据集和复杂任务。
跨领域迁移:ViT的成功证明了Transformer架构在视觉任务中的潜力,为跨领域模型设计提供了新思路。
ViT的局限性
数据需求高:ViT需要大量训练数据才能达到最佳性能,在小数据集上表现可能不如CNN。
计算成本高:由于自注意力机制的计算复杂度较高,ViT的训练和推理成本相对较高。
总结
ViT是一种创新的视觉模型,通过将Transformer架构引入计算机视觉领域,实现了对图像数据的全局建模。尽管存在一些局限性,但其在多个视觉任务中的表现已经证明了其潜力,并为未来的研究提供了新的方向。
注:
NLP自然语言处理( Natural Language Processing, NLP)是人工智能领域的重要研究方向, 融合了语言学、计算机科学、机器学习、数学、认知心理学等多个学科领域的知识,是一门集计算机科学、人工智能和语言学于一体的交叉学科,它包含自然语言理解和自然语言生成两个主要方面, 研究内容包括字、词、短语、句子、段落和篇章等多种层次,是机器语言和人类语言之间沟通的桥梁。它旨在使机器理解、解释并生成人类语言,实现人机之间有效沟通,使计算机能够执行语言翻译、情感分析、文本摘要等任务。
自然语言认知和理解是让计算机把输入的语言变成有意义的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。
自然语言处理的任务包括研制表示语言能力和语言应用的模型, 建立计算框架来实现并完善语言模型,根据语言模型设计各种实用系统及探讨这些系统的评测技术。
术语“dropout”是指在神经网络中丢弃单元(包括隐藏的和可见的)。
简单来说,dropout 是指随机选择的某组神经元在训练阶段忽略单元(即神经元)。 “忽略”是指在特定的前向或后向传递过程中不考虑这些单元。
详细的就是,在每个训练阶段,单个节点要么以 1-p 的概率退出网络,要么以 p 的概率保留,这样就剩下一个缩小的网络;也删除了到丢弃节点的传入和传出边。
本文为一些大模型的总结,部分内容来自百度百科。