当前位置: 首页 > news >正文

【第五章:计算机视觉-项目实战之图像分类实战】1.经典卷积神经网络模型Backbone与图像-(8)多标签图像分类理论

第五章:计算机视觉(Computer Vision)- 项目实战之图像分类

第一部分:经典卷积神经网络模型 Backbone 与图像

第八节:多标签图像分类理论


1. 多标签图像分类简介

在传统的图像分类任务中,我们通常假设每张图片只属于一个类别(如“猫”或“狗”)。这种任务称为 单标签分类(Single-Label Classification)。
然而在许多实际应用场景中,一张图片往往会同时包含多个语义概念或对象。例如:

  • 一张街景图像可能同时包含“行人”“汽车”“建筑”“交通灯”等多个类别。

  • 一张自然风景图像可能同时被标注为“森林”“湖泊”“蓝天”。

这种任务被称为 多标签分类(Multi-Label Classification)。区别在于:

  • 单标签分类:模型预测的类别是 互斥的(只能选一个)。

  • 多标签分类:模型预测的类别是 非互斥的(可以选多个)。


2. 多标签分类与单标签分类的区别

特征单标签分类多标签分类
输出空间Softmax 概率分布(总和为 1)独立的 Sigmoid 概率(每类独立 0~1)
标签形式独热编码(One-hot,例如 [0,0,1,0]多热编码(Multi-hot,例如 [1,0,1,1]
任务场景猫 vs 狗 vs 马(互斥)图像中同时有猫和狗(非互斥)
损失函数交叉熵损失(Cross Entropy Loss)二进制交叉熵损失(Binary Cross Entropy, BCE)

3. 多标签分类的数学建模

假设数据集有 C 个类别:

  • 单标签分类输出:

    y \in \{0,1,...,C-1\}
  • 多标签分类输出:

    y \in \{0,1\}^C

其中,向量 y = [y_1, y_2, ..., y_C],若第 i 个类别存在,则 y_i=1,否则 y_i=0

模型输出层通常采用 Sigmoid 激活函数:

\hat{y}_i = \sigma(z_i) = \frac{1}{1+e^{-z_i}}

训练时使用 二进制交叉熵损失(BCE Loss)

\mathcal{L} = - \frac{1}{C} \sum_{i=1}^C \Big[ y_i \cdot \log(\hat{y}_i) + (1-y_i) \cdot \log(1-\hat{y}_i) \Big]


4. 多标签分类的评估指标

由于多标签分类涉及多个类别,评价指标比单标签更复杂,常见的指标包括:

  1. 准确率(Accuracy)

    • 严格标准:所有标签完全预测正确才算对。

    • 缺点:过于严格,实际应用中不常用。

  2. 精确率(Precision)、召回率(Recall)、F1-score

    • 按类别统计:

      Precision = \frac{TP}{TP+FP}, \quad Recall = \frac{TP}{TP+FN}
    • F1-score 为两者的调和平均,更平衡。

  3. mAP(mean Average Precision)

    • 多标签分类中常用,衡量不同类别下的平均精度。


5. 多标签分类的挑战

  • 类别相关性:不同标签之间可能存在逻辑关系(如“雨伞”和“雨天”常共现),但传统独立 Sigmoid 预测忽略了这种关系。

  • 类别不平衡:部分标签出现频率高(如“天空”),部分标签极少出现(如“彩虹”)。

  • 阈值选择:Sigmoid 输出概率需要设定阈值(如 0.5)来决定是否判为该类,不同类别阈值可能不同。


6. 多标签分类的应用场景

  • 自动图像标注(如相册自动生成标签:人物、风景、美食等)

  • 视频内容理解(多标签描述场景和动作)

  • 医学图像分析(一张 CT 扫描图像可能有多个病灶)

  • 自动驾驶(同一帧画面中检测车道线、红绿灯、行人等)


小结

  • 多标签分类允许一张图片同时属于多个类别,区别于单标签分类。

  • 模型输出层通常用 Sigmoid,损失函数用 BCE Loss

  • 常用评估指标包括 Precision、Recall、F1 和 mAP。

  • 在实际应用中,标签相关性和类别不平衡是主要挑战。


文章转载自:

http://W6yYBFLB.chfxz.cn
http://zSTNVjsL.chfxz.cn
http://gTcsfRj8.chfxz.cn
http://ddzq6j8x.chfxz.cn
http://Z2RSMGIi.chfxz.cn
http://Be1MsYF6.chfxz.cn
http://Yu4pqfMW.chfxz.cn
http://AtKr8JgA.chfxz.cn
http://hkN1d7Jf.chfxz.cn
http://dp07ME4O.chfxz.cn
http://ZlFeKUVD.chfxz.cn
http://dAE6a4Jc.chfxz.cn
http://txB0XVxI.chfxz.cn
http://Vh2hkynf.chfxz.cn
http://qxtdEs6H.chfxz.cn
http://BfOi4aC5.chfxz.cn
http://0j11qdDm.chfxz.cn
http://yiKLhZ3Q.chfxz.cn
http://eEw8u6ih.chfxz.cn
http://hh68bQ9b.chfxz.cn
http://KtJIP9G2.chfxz.cn
http://GLBwPlJO.chfxz.cn
http://Sj8XNk3h.chfxz.cn
http://bsv8dgJj.chfxz.cn
http://Pvn2vvJf.chfxz.cn
http://VVrI4Ydw.chfxz.cn
http://CpjvZHLp.chfxz.cn
http://ODjWQ3Y0.chfxz.cn
http://o3I6w5lN.chfxz.cn
http://cjDdZcMI.chfxz.cn
http://www.dtcms.com/a/387948.html

相关文章:

  • 认知语义学中的意象图式对人工智能自然语言处理深层语义分析的影响与启示
  • [ffmpeg] 时间基总结
  • 数据结构排序入门(3):核心排序(归并排序,归并非递归排序,计数排序及排序扫尾复杂度分析)+八大排序源码汇总
  • 计算机网络七层模型理解
  • 同步与互斥学习笔记
  • 命令行方式部署OceanBase 集群部署
  • 小迪安全v2023学习笔记(八十四讲)——协议安全桌面应用hydra爆破未授权检测
  • MAC-简化版枚举工具类
  • Science Robotics 美国康奈尔大学开发的新型触觉显示器
  • Java 零基础学习指南
  • 音频剪辑总出错?音视频分割工具免费功能实测 音视频分割工具新手怎么用?4步搞定音视频分割 音视频分割工具常见问题解决:新手避坑参考
  • 线性回归与 Softmax 回归总结
  • 文字一键生成视频软件哪家比较靠谱?
  • Android,Jetpack Compose,坦克大战游戏案例Demo(随机生成地图)
  • Unity 笔记:构建AAB包大小超过谷歌商店上限
  • 在idea中git修改用户名和邮箱/切换账号
  • 设计模式(C++)详解——组合模式(Composite Pattern)(1)
  • 103、23种设计模式之外观模式(12/23)
  • 依赖注入基础
  • 代码随想录二刷之“图论”~GO
  • 基础数学转金融数学考研:一场需要清醒规划的转型
  • Alpha World携手非小号Talking Web3,海上ALPHA WEB3派对启航
  • Vue3钩子,路由拦截实现
  • 数据结构七大排序算法模拟实现性能分析
  • vue+react笔记
  • springboot获取wav文件音频长度
  • 【Redis】-- 缓存
  • 鸿蒙高效数据处理框架全攻略:缓存、并行与流式实战
  • 全网首发! Nvidia Jetson Thor 128GB DK 刷机与测评(五)常用功能测评 - RealtimeSTT 音频转文本 同声传译
  • OpenHarmony 之生态规则管控服务(Ecological Rule Manager Service)源码深度解读