全监督、半监督、弱监督、无监督
- 全监督学习(Fully Supervised Learning)
- 数据标注:使用的数据集包含大量的输入数据(特征)以及与之对应的准确标注信息(标签)。
- 学习目标:通过学习输入和输出之间的映射关系,建立一个模型,使其能够对新的、未见过的输入数据进行准确的预测。
- 半监督学习(Semi-Supervised Learning)
- 数据标注:结合了少量的有标注数据和大量的无标注数据。在实际应用中,获取大量准确的标注数据可能成本很高或耗时很长,而半监督学习可以利用未标注数据中的信息来辅助学习。
- 学习目标:利用有标注数据来学习基本的模式和特征,同时借助无标注数据来发现数据的分布结构、聚类信息等,以提高模型的泛化能力和性能。
- 应用场景:在数据标注成本较高的领域,如医学图像分析(标注医学图像需要专业知识和时间)、自然语言处理(标注大量文本数据困难)等有广泛应用。
- 弱监督学习(Weakly Supervised Learning)
- 数据标注:使用的标注信息相对较弱或不精确。标注可能是粗粒度的(如只标注图像中是否存在某类物体,而不标注具体位置)、不完整的(部分数据有标注,部分没有)或不准确的(存在一定的标注误差)。例如在图像目标检测中,只知道图像中存在某些物体,但没有详细的物体边界框标注。
- 学习目标:从这些弱标注数据中学习有效的模型,通过各种技术(如多实例学习、标签传播等)来推断出更准确的预测结果。例如在弱监督的图像分割中,利用图像级别的标注信息来推断出图像中物体的具体分割区域。
- 应用场景:适用于难以获取精确标注数据的场景,如视频行为分析(精确标注视频中的行为动作困难)、遥感图像分析(标注大规模遥感图像的细节信息不易,就可以利用现成模型生成为标签来训练新模型,这时只需要加入极少量的真是标签,模型就能达到不错的效果)等。
- 无监督学习(Unsupervised Learning)
- 数据标注:处理的数据集**完全没有标注信息,只有输入数据。**视觉领域代表性算法:MAE。
- 学习目标:旨在发现数据中的内在结构、模式和关系。常见的任务包括聚类、降维和异常检测(发现数据中与正常模式不同的异常点)等。
- 应用场景:用于探索性数据分析、数据预处理、发现数据中的潜在规律等。如在市场细分中,通过聚类分析将客户群体划分为不同的细分市场,以便制定针对性的营销策略。