当前位置: 首页 > news >正文

【深度学习新浪潮】近三年零样本图像分类研发进展调研

在这里插入图片描述

近三年(2022-2025年),零样本图像分类任务在技术创新和应用拓展上取得了显著进展,核心突破主要体现在以下几个方面:

一、预训练模型与多模态对齐的深化

  1. CLIP家族的持续进化
    CLIP(Contrastive Language-Image Pretraining)作为零样本分类的基石,其后续模型通过架构优化和训练策略改进实现了性能跃升。例如,2025年发布的FG-CLIP(Fine Grained CLIP)采用显式双塔结构和双阶段训练策略:首阶段通过全局对比学习实现图文粗粒度对齐,次阶段引入区域对比学习与难细粒度负样本学习,显著提升了对局部特征的感知能力。在FG-OVD等评测中,FG-CLIP在开放词汇对象检测任务上的准确率较原始CLIP提升超过15%,尤其在处理“浅蓝色夹克”与“草绿色夹克”等细微语义差异时表现突出。

  2. 大语言模型(LLMs)与CLIP的深度融合
    2024年提出的LLM2CLIP方法将LLMs(如Llama-3.1-70B)作为教师模型,通过对比学习微调提升CLIP的文本辨别能力。该方法整合长文本描述(如“一只红翼黑鸟栖息在公园的树枝上”),使CLIP的视觉表征包含更丰富的语义信息,在ImageNet等数据集上的零样本分类准确率提升6.8%。此外,多模态大语言模型(如GPT-4)通过生成复杂文本提示(如结合颜色

http://www.dtcms.com/a/315370.html

相关文章:

  • mongodb 和 mysql 相关操作
  • 【C++】语法基础篇
  • 厄米系统(Hermitian System)
  • 【大模型05】Embedding和向量数据库
  • 【测试】⾃动化测试概念篇
  • 用户与组管理命令
  • python算法【楼梯数量计算】
  • Hadoop HDFS 3.3.4 讲解~
  • linux的用户操作(详细介绍)
  • 牛客笔试题错题整理(1)
  • Field and wave electromagnetics 复习
  • 【编程实践】点云曲率计算与可视化
  • Pimpl惯用法
  • 【秋招笔试】2025.08.03虾皮秋招笔试-第二题
  • [GYCTF2020]FlaskApp
  • 0804 进程
  • 【笔记】重学单片机(51)(下)
  • 数据结构——并查集及C++实现
  • Javascript面试题及详细答案150道(046-060)
  • 5天从0到1!用阿里Qwen3-Coder开发故障调度指挥室系统,运维也能搞定开发
  • 嵌入式 C 语言入门:函数指针基础笔记 —— 从计算器优化到指针本质
  • 文本转语音(TTS)脚本
  • 【项目实践】在系统接入天气api,根据当前天气提醒,做好plan
  • C语言的控制语句
  • 16day-人工智学习-机器学习-特征工程
  • 【世纪龙科技】虚拟技术助力职教汽车自动变速器拆装虚拟实训软件
  • RFID技术在汽车倍速链中的应用:驱动智能制造的隐形引擎
  • Windows/Linux入侵排查
  • CPP学习之多态
  • Python高频元素分析技术:高效找出序列中出现次数最多的元素