当前位置: 首页 > news >正文

[2025CVPR-图象分类]ProAPO:视觉分类的渐进式自动提示优化

研究背景与问题

  1. 视觉语言模型(VLMs)的局限性​:

    • VLMs(如CLIP)在图像分类中依赖提示词(prompt)质量,传统方法存在以下问题:
      • 人工设计模板需领域知识,难以扩展且缺乏细粒度区分(如“a photo of a {class}”)。
      • 提示微调方法​(prompt tuning)引入可学习参数,但需额外训练且可解释性差。
      • LLM生成的描述可能因幻觉产生不准确或非视觉内容(如将食物描述为“feet”),且缺乏类间区分性(如不同海鸟的相同描述)。
  2. 核心问题​:

    如何在无人工干预、最小监督下,为细粒度分类任务生成视觉区分性强的类特定提示?​


方法:ProAPO框架

1. 渐进式优化流程
  • 阶段1:任务特定模板优化

    • 初始化模板库(如CLIP的80个预定义模板),通过演化算法迭代优化模板集合。
    • 操作符​:
      • 编辑操作​(添加、删除、替换模板元素)。
      • 演化操作​(交叉融合高分模板,变异引入随机性)。
    • 保留适应度得分(fitness score)最高的top-k模板
http://www.dtcms.com/a/304382.html

相关文章:

  • java基础面试题(6)--Object
  • Jenkins 节点连接故障定位及解决方案总结 - PKIX path validation failed
  • 如何创建一个 Solana 钱包?
  • 在 Ubuntu 下测试单目与双目相机
  • ubuntu 25.04 自带JS引擎gjs运行GTK with JavaScript 应用
  • B+树高效实现与优化技巧
  • 微服务 01
  • FastAPI后台任务:异步魔法还是同步噩梦?
  • Spring Boot with RabbitMQ:四大核心模式指南
  • 代码随想录算法训练营第三十天|0/1背包问题
  • 如何保证DoIP的网络安全?
  • rtp、rtcp、rtsp、rtmp协议详解
  • 嵌入式学习日志(十一)
  • 【windows系统服务端ssh免密登录配置坑】
  • 低空经济应用-无人机拉格朗日粒子追踪技术
  • 阿里云上进行k8s集群的配置
  • 电脑没有声音了怎么恢复 快速解决音频故障
  • 使用 Databend Cloud 归档 OceanBase 数据数据库
  • ElasticStack技术栈概述及Elasticsearch8.2.2集群部署并更换JDK版本为openjdk-17
  • 路由器路由协议详解:从 RIP 到 OSPF 的技术演进
  • TRACERT命令
  • 迅为RK3588开发板安卓GPIO调用-APP运行测试
  • HarmonyOS-ArkUI Web控件基础铺垫6--TCP协议- 流量控制算法与拥塞控制算法
  • LeetCode Hot 100 搜索二维矩阵
  • 抽象工厂模式 Abastract Factory Pattern
  • 从本地 Docker 部署的 Dify 中导出知识库内容(1.6版本亲测有效)
  • 设计一个高可用、可拓展、监控报警系统,使用普罗米修斯和grafana,并给出go实现
  • 无穿戴动作捕捉技术:驱动历史活化、乐园叙事与教育沉浸的文旅利器
  • JVM知识点(2)
  • 从协议栈到ath12k_mac_op_tx的完整调用路径