当前位置: 首页 > news >正文

计算机视觉的四项基本任务辨析

计算机视觉是使计算机能理解采集设备采集的图像视频的一门学科,目的是让计算机实现人的视觉功能——对客观世界的三维场景的感知、识别和理解。换句话说,要让计算机具备通过二维图像认识三维环境的能力。

目录

三个阶段

视觉层级

基本任务 

技术难点


三个阶段

计算机视觉研究图像包括图像处理、图像分析、图像理解三个阶段。

视觉层级

计算机视觉可以划分为初级视觉、中级视觉、高级视觉三个层级:

初级视觉图像修复、超分辨率重建
中级视觉图像分割、物体检测
高级视觉图像描述、动作识别

基本任务 

计算机视觉包括四项基本任务:分类、定位、检测和分割

  • 分类:解决“图像是什么”的问题,即给定一张图或一段视频,判断图片或视频所属的类别
  • 定位:解决“目标在哪里”的问题,即判断图像中的目标具体在图像的什么位置,位置通常以包围盒的形式表示,通常面向单一或给定数目的目标。
  • 检测:解决“哪里有哪些哪种类别的目标”的问题,即发现图片中的目标并判断目标种类,检测任务面向的图像中出现的目标种类和数目都不定。
  • 分割:解决“每个像素属于哪个目标/场景”的问题,分为。检测只需要框出每个目标的包围盒,分割则需要进一步判断图像中哪些像素属于哪个目标。分割包括语义分割、实例分割和全景分割,语义分割不区分属于相同类别的不同实例,实例分割则需要区分出哪些像素属于相同类别的不同实例。全景分割可以认为是实例分割和语义分割的结合。

技术难点

难点示例
平面内旋状物品正放、倒放、侧放的检测
超平面旋转肢体等三维动作的检测
背景干扰复杂场景下的目标检测
光照变化图片过曝或图片过暗

http://www.dtcms.com/a/317016.html

相关文章:

  • HPE磁盘阵列管理01——MSA和SMU
  • OpenLayers学习(一)-基础
  • 赛灵思ZYNQ官方文档UG585自学翻译笔记:Quad-SPl Flash 闪存控制器
  • 《Python基础》第3期:使用PyCharm编写Hello World
  • 【力扣 Hot100】 刷题日记
  • linux定时器管理 timer_*系统调用及示例
  • LeetCode 112. 路径总和解题思路详解(BFS算法深入理解)
  • AI模型整合包上线!一键部署ComfyUI,2.19TB模型全解析
  • ES(Elasticsearch)进程掉线(节点脱离集群)问题
  • 协同过滤基础——基线预测器(Baseline Predictors)
  • 深入理解 Ext 系列文件系统:从磁盘物理到文件系统原理
  • QtPromise第三方库的介绍和使用
  • STM32学习笔记2-GPIO的输出模式
  • 宠智灵宠物AI大模型聚焦医疗核心场景,提升临床决策能力
  • Bilateral Reference for High-Resolution Dichotomous Image Segmentation
  • mmsegmentation·数据结构
  • 《零基础入门AI:传统机器学习进阶(从拟合概念到K-Means算法)》
  • 力扣刷题日常(15-16)
  • 深信服GO面试题及参考答案(下)
  • MCP与Function Calling
  • 三极管基本放大电路静态及动态参数计算
  • 【C++】类和对象2
  • nfs(网络文件系统)+autofs(自动挂载服务)
  • 创维智能融合终端DT741_移动版_S905L3芯片_安卓9_线刷固件包
  • I6328A 蓝牙模块 做 串口透传 操作记录
  • pipeline方法关系抽取--课堂笔记
  • 海信IP810N/海信IP811N_海思MV320-安卓9.0主板-TTL烧录包-可救砖
  • 检索召回率优化探究四:基于LangChain0.3集成Milvu2.5向量数据库构建的智能问答系统
  • 【基础】第八篇 Java 位运算符详解:从基础到实战应用
  • 数据结构:双向链表、循环链表、内核链表