【valse2025】CV与ML领域重要进展
文章目录
- 背景介绍
- 十六个热门方向
- 一、Al for Science(Al4S)成为科研新范式,正推动科学发现领域迈向新高度
- 二、具身智能和空间智能持续火热,世界模拟加速落地推动具身智能进化
- 三、DeepSeek-R1点燃复杂推理大模型热潮,迅速拓展至视觉领域
- 四、在语言模型驱动下,视觉理解与生成架构趋于统一
- 五、可控图像/视频生成方法百花齐放
- 六、垂直领域大模型稳步发展,百花齐放
- 七、长视频理解任务受到善遍关注,成为多模态理解的重要课题
- 八、世界模型雏形涌现,成为推动智能体迈向更高层次通用智能的关键引擎
- 九、多模态基础大模型成为业界“标准配置”
- 在这里插入图片描述
- 十名往后
背景介绍
几大进展的标题来源于:
- 1.评选2024年5月-2025年4月之间,世界范围内视觉与学习领域的重要学术进展。
- 2.责任AC提名候选进展共16个,通过组委会评议;VALSE2024-2025全体AC投票(选择6-12个进展)。截止5月18日,共收集有效选票128份,超过2/3的AC参与了投票。
- 3.加权计算得分:若某个AC投票N个进展,则该AC为其投票的每个进展贡献1/N投票分。
- 4.每个候选项总得分等于所有AC投票分之和,得票率等于总得分除以最大可能投票分。
十六个热门方向
一、Al for Science(Al4S)成为科研新范式,正推动科学发现领域迈向新高度
来源:“东方理工大学”-金鑫。AI重构整个科学研究领域。
二、具身智能和空间智能持续火热,世界模拟加速落地推动具身智能进化
中科院计算所-高林。具身智能视角下的时间、空间、物理感知力。CV是光学物理,实际客观世界还有力学、热学
三、DeepSeek-R1点燃复杂推理大模型热潮,迅速拓展至视觉领域
来源于“港中文”-岳翔宇
四、在语言模型驱动下,视觉理解与生成架构趋于统一
来源于“微软亚洲研究院”-元玉慧
五、可控图像/视频生成方法百花齐放
来源“北航”-于茜。与世界模型一脉相承
六、垂直领域大模型稳步发展,百花齐放
利物浦大学-程光亮。类似于教育的研究生与博士阶段,专用领域模型。
七、长视频理解任务受到善遍关注,成为多模态理解的重要课题
来源于“华为”谢凌曦。从图像、短视频,到长视频的理解是很自然的趋势。
八、世界模型雏形涌现,成为推动智能体迈向更高层次通用智能的关键引擎
数据来源于“彭程实验室”-杨文瀚。SORA的发布被认为是世界模型的雏形。世界模型主要用于建模,预测,具有重要应用空间。
九、多模态基础大模型成为业界“标准配置”
此资料收集于“南京大学”叶翰嘉。
十名往后
视觉就是语言: