有哪些任务可以使用无监督的方式训练深度学习模型?
下面是一份按“任务 → 方法 → 神经网络结构 → 输入/输出 → 数据来源”展开的系统化整理。也把“自监督学习”纳入广义“无监督学习”(不依赖人工标签,标签由数据本身构造)来介绍,便于覆盖现代主流做法。希望对你选型和落地都有帮助 😊
快速术语提示
- 无监督 vs 自监督:二者都不需要人工标注;自监督是无监督的一种,通过数据内在结构构造训练目标(如掩码重建、对比学习、预测下一个token)。
- “输入来源”既包含公开数据集,也包含企业/项目中常见的无标签数据采集渠道。
总览(任务家族与代表方法)
任务家族 | 代表无监督/自监督方法 | 常见网络结构 | 主要输入/输出 | 常见数据来源 |
---|---|---|---|---|
表征学习(视觉/文本/音频/时间序列/图) | 对比学习(SimCLR/MoCo/BYOL/DINO/SimCSE/GRACE)、掩码建模(MAE/BEiT/BERT/wav2vec2/GraphMAE) | CNN/ViT/Transformer、Siamese/双塔、GNN | 输入原始样本或掩码版本;输出嵌入或被掩码部分 | 无标注图像、文本语料、音频、时间序列、图结构数据 |
生成建模 | VAE、GAN(DCGAN/StyleGAN)、扩散模型(DDPM/LDM/UNet)、自回归(PixelCNN/WaveNet/GPT)、流模型(Glow/RealNVP) | 编码器-解码器、生成器-判别器、UNet、Transformer、可逆网络 | 输入x或噪声z;输出重建x、生成x或噪声估计 | 大规模无标签图像/文本/音频/视频 |
聚类/分布估计/降维 | DeepCluster、SwAV、DEC/IDEC、DGI、GAE/VGAE、Flow/EBM、Autoencoder | CNN/ViT、GNN、AE/VAE、可逆流 | 输入x;输出聚类分配、低维嵌入或密度 | 同上(无需标签) |
异常检测 | AE/VAE重建误差、Deep SVDD、流模型密度阈值、CPC/TS2Vec特征偏离 | AE/VAE、CNN/Transformer、Flow | 输入正常样本;输出重建/密度/距离 | 传感器/日志/行为数据 |
时间序列建模 | CPC、TS2Vec、TNC、Masked TS(MTM)、PatchTST预训练 | CNN/Transformer/混合 | 输入序列窗口或掩码序列;输出未来/掩码值或嵌入 | 传感器、IoT、金融、运维 |
图与网络 | DeepWalk/Node2Vec(+Skip-gram)、GraphSAGE(unsup)、DGI、GRACE、GAE/VGAE、GraphMAE | GCN/GAT/GraphSAGE、对比/掩码 | 输入图结构与节点特征;输出节点/图嵌入或重建 | 社交/商品共现/知识图谱/OGB |
多模态对齐 | CLIP/ALIGN(图文对比)、FLAVA/BEiT-3(掩码多模态) | 双塔编码器、跨模态Transformer | 输入多模态对(图-文/视-音);输出对齐嵌入/掩码预测 | 网络抓取的配对数据(自然弱标签) |
强化学习的无监督预训练 | CURL、DrQ、World Models(PlaNet/Dreamer)、I-D预训练 | 编码器+对比头、世界模型(时序VAE/Transformer) | 输入轨迹;输出潜在状态、重建/预测 | 代理与环境交互生成 |
一、哪些任务可以用无监督方式训练?
- 学习通用表征(embedding):用于下游分类/检索/分割/实体识别/推荐。
- 生成与合成:图像/文本/音频/视频的生成、修复、去噪、超分等。
- 聚类、密度估计与异常检测:发现群组、评估样本罕见性、检测异常。
- 降维与可视化:将高维数据映射到低维以便理解与可视化。
- 时间序列建模:自监督预训练提升预测、异常检测与表示质量。
- 图/网络分析:节点/边/子图表示学习、社区发现、链路预测。
- 多模态对齐:图文、视听等跨模态语义对齐与检索。
- 强化学习表征:无奖励或弱奖励场景下通过自监督提升策略学习。
二、这些任务分别可以使用哪些无监督训练方法(含结构、输入/输出、数据来源)
A. 计算机视觉(图像/视频)
- 表征学习
- 对比学习:SimCLR、MoCo v2、BYOL、DINO/DINOv2、SwAV
- 结构:Siamese/双塔编码器(ResNet/ViT)+ 投影MLP;MoCo含动量编码器与队列;SwAV含原型/聚类头。
- 输入:同一图像的两种增强视图(随机裁剪、颜色抖动、翻转、遮挡)。
- 输出:图像嵌入;训练用对比/聚类损失,不需标签。
- 数据来源:无标签图像(ImageNet不看标签、OpenImages、LAION、COCO、Places365、公司图片库/相册/拍照/抓取图片)。
- 掩码重建:MAE、BEiT、I-JEPA
- 结构:ViT编码器只看未掩码patch;轻量解码器重建图像像素或视觉token;I-JEPA用预测嵌入而非像素。
- 输入:随机掩码后的图像patch序列。
- 输出:重建的像素/视觉token或目标区域嵌入。
- 数据来源:同上。
- 生成建模
- 扩散模型:DDPM/UNet、Latent Diffusion(LDM,Stable Diffusion背后的思路)
- 结构:UNet噪声预测器 + 时间步嵌入;LDM在VAE潜空间上做扩散(更省算)。
- 输入:加噪后的图像和时间步t(可无条件,也可加文本/类条件)。
- 输出:噪声估计(或去噪后的样本);采样时逐步去噪生成图像。
- 数据来源:无标签大规模图像(LAION、COCO、公司图库)。
- GAN:DCGAN、StyleGAN2/3
- 结构:生成器(反卷积/Style MLP注入风格)+ 判别器(CNN)。
- 输入:随机噪声z;判别器输入为真/假图像。
- 输出:生成的图像;判别器输出真伪概率。
- 数据来源:同上。
- VAE / Autoregressive(PixelCNN/PixelRNN)
- 结构:VAE为编码器-解码器;PixelCNN为像素级自回归卷积。
- 输入:图像x。
- 输出:重建或逐像素条件分布。
- 数据来源:同上。
- 流模型:Glow、RealNVP
- 结构:可逆耦合层,精确似然。
- 输入/输出:x ↔ z一一可逆。
- 数据来源:同上。
- 聚类与降维
- DeepCluster / SwAV:交替k-means或在线原型分配作为伪标签进行训练。
- 结构:CNN/ViT + 原型层/聚类步骤。
- 输入:图像增强视图。
- 输出:特征和聚类指派。
- DEC/IDEC:先AE预训练,再用KL散度细化聚类中心。
- 结构:Autoencoder + 聚类中心优化。
- 输入:图像。
- 输出:聚类分配。
- 数据来源:无标签图像库。
- 异常检测
- AE/VAE重建误差、流模型密度、Deep SVDD(最小化到超球中心的距离)
- 结构:AE/VAE/CNN或ViT编码器;Flow;一类分类网络。
- 输入:主要为正常样本。
- 输出:重建误差/密度/距离作为异常分数。
- 数据来源:生产线质检图、设备巡检图、监控图像等。
B. 自然语言处理(文本)
- 表征预训练与生成
- 自回归语言模型:GPT系列
- 结构:Transformer Decoder-only。
- 输入:token序列(字/词/子词)。
- 输出:下一token的概率分布;生成文本。
- 数据来源:Wikipedia、BookCorpus、Common Crawl(C4/The Pile)、新闻/论坛/文档库(注意版权与合规)。
- 掩码语言模型:BERT/roBERTa
- 结构:Transformer Encoder-only。
- 输入:掩码后的token序列。
- 输出:被掩码token的分布。
- 数据来源:同上。
- 句向量(无监督):SimCSE(unsup)、ConSERT
- 结构:Siamese Transformer + 投影头。
- 输入:同一句通过dropout/增强得到的两个视图。
- 输出:句向量;对比损失。
- 数据来源:大规模句子/段落语料。
- 主题聚类/检索
- 方法:BERT/SimCSE等嵌入 + k-means/HDBSCAN;或Top2Vec、BERTopic(无监督主题模型)。
- 结构:Encoder + 聚类/主题建模。
- 输入:文档/句子。
- 输出:聚类标签/主题词。
- 数据来源:企业文档库、客服工单、论坛/评论爬取。
C. 语音/音频
- 自监督表征
- wav2vec 2.0、HuBERT、data2vec、CPC
- 结构:CNN特征编码器 + Transformer上下文;量化器(w2v2),或伪标签聚类(HuBERT)。
- 输入:原始波形(掩码时间步)。
- 输出:被掩码位置的离散码/伪标签预测或对比目标。
- 数据来源:LibriSpeech、LibriLight、VoxCeleb、CommonVoice、YouTube播客/有声书(合规抓取)。
- 生成与增强
- WaveNet/HiFi-GAN、扩散音频模型(DiffWave)
- 结构:自回归卷积/UNet扩散。
- 输入:噪声或条件(谱、文本)。
- 输出:波形或谱。
- 数据来源:同上。
D. 时间序列(传感器/IoT/运维/金融)
- 表征与预测预训练
- CPC、TS2Vec、TNC、Masked Time-Series Modeling、PatchTST预训练
- 结构:CNN/Transformer/时序ViT + 对比/掩码任务。
- 输入:时序片段、不同增广视图或掩码片段。
- 输出:未来步/掩码值预测或时序嵌入。
- 数据来源:设备传感器、工业控制、日志、KPI、交易数据;公开集:UCR/UEA、ETT、电力/交通数据等。
- 异常检测
- AE/VAE/Flow重建与密度、One-Class(Deep SVDD)、对比方法(TS2Vec偏离)
- 结构:与上类似。
- 数据来源:NAB、Yahoo A1、NASA SMAP/MSL、SMD、服务器监控。
E. 图数据/网络与推荐
- 节点/图表征与聚类
- DeepWalk/Node2Vec + Skip-gram(传统但强大)、GraphSAGE(unsup损失)、DGI/InfoGraph(互信息最大化)、GRACE/GCL(图对比)、GAE/VGAE(图自编码)、GraphMAE(掩码节点)
- 结构:GNN(GCN/GAT/GraphSAGE)或随机游走 + 词向量。
- 输入:图的邻接与节点特征;图增广(删边/扰动/掩码)。
- 输出:节点/图嵌入、重建邻接或特征、对比相似度。
- 数据来源:社交网络、知识图谱、商品共现图、日志构建的点击/会话图;公开OGB(ogbn-arxiv/products/papers100M)、Reddit。
- 链路预测与推荐预训练
- GAE/VGAE重建边、对比学习增强鲁棒性;BPR是弱监督,纯无监督可用共现、序列自监督构造目标。
- 结构:GNN或序列模型(SASRec式自监督)+ 对比目标。
- 输入/输出:用户-物品图或序列;输出嵌入/重建边。
- 数据来源:站内行为日志、交易/浏览/播放记录。
F. 多模态对齐(图文/视听)
- 图文对比:CLIP、ALIGN
- 结构:双塔编码器(图像CNN/ViT + 文本Transformer),InfoNCE对比。
- 输入:成对的图像-文本(天然弱标签:同一网页中的图文对)。
- 输出:跨模态对齐的嵌入空间。
- 数据来源:LAION-5B/400M、CC12M、WIT、公司商品图-标题、稿件-配图(合规抓取/清洗)。
- 多模态掩码建模:FLAVA、BEiT-3、data2vec-multimodal
- 结构:单模态编码器 + 跨模态Transformer/对齐模块。
- 输入:图像+文本(含掩码)。
- 输出:掩码token/patch预测与跨模态一致性。
- 数据来源:同上,外加视频-语音/字幕(HowTo100M等)。
G. 强化学习中的无监督/自监督表征
- 对比与重建:CURL、DrQ-v2
- 结构:视觉编码器 + 对比头;数据来自回放缓冲。
- 输入:观测帧增广视图。
- 输出:状态嵌入,相似视图对齐。
- 数据来源:代理与环境交互数据(无奖励或弱奖励)。
- 世界模型:PlaNet、Dreamer
- 结构:编码器 + 潜在动态模型(RNN/Transformer)+ 解码器(时序VAE风格)。
- 输入:观测序列(图像/状态)。
- 输出:重建、预测下一个潜在状态/观测。
- 数据来源:同上。
三、典型方法的“结构/输入/输出/来源”要点清单
- Autoencoder(AE)
- 结构:Encoder-Decoder(CNN/MLP/Transformer)。
- 输入:x;输出:重建x。
- 来源:任何无标签数据(图像/文本向量化/时序/图特征)。
- Variational Autoencoder(VAE)
- 结构:Encoder产生q(z|x)参数,重参数化采样,Decoder生成p(x|z)。
- 输入:x;输出:重建x并学习潜变量z。
- 来源:同上。
- 对比学习(SimCLR/MoCo/GRACE/SimCSE)
- 结构:Siamese编码器 + 投影头;可能有动量编码器/记忆队列。
- 输入:同一实例的两种增广视图。
- 输出:嵌入;最大化正样相似、最小化负样。
- 来源:对应模态的无标签大数据。
- 掩码建模(MAE/BERT/wav2vec2/GraphMAE)
- 结构:编码器只看未掩码部分,解码器/预测头复原掩码区域。
- 输入:掩码后的序列/patch/节点。
- 输出:掩码内容预测。
- 来源:同上。
- GAN
- 结构:生成器G、判别器D对抗训练。
- 输入:G接噪声z,D接真/假样本。
- 输出:生成样本与真伪判别。
- 来源:无标签样本集合。
- 扩散模型(DDPM/LDM)
- 结构:UNet噪声预测器,时间嵌入;可在潜空间操作(LDM)。
- 输入:加噪样本和时间步。
- 输出:噪声/残差估计。
- 来源:同上。
- 正则化密度估计(Flow/EBM)
- 结构:可逆耦合层(Flow)或能量函数(EBM)。
- 输入:x(或z)。
- 输出:精确似然/能量。
- 来源:同上。
- 图自编码/对比(GAE/VGAE/DGI/GRACE)
- 结构:GNN编码器,重建邻接/特征或对比全局-局部。
- 输入:图与增广图。
- 输出:节点/图嵌入、重建或对比目标。
- 来源:图数据。
四、无监督训练的数据来源建议(按模态列举一些公开集)
- 图像/视频
- 图像:ImageNet(不用标签)、OpenImages、LAION-400M/5B、COCO、Places365、CelebA、FFHQ。
- 视频:Kinetics、YouTube-8M、Something-Something、HowTo100M(含文本弱标签)。
- 企业:产品图、质检图、监控画面、用户上传图。
- 文本
- Wikipedia、BookCorpus、Common Crawl(C4/The Pile)、OpenWebText2、新闻/论坛(合规)。
- 企业:客服对话、日志消息、工单、知识库。
- 语音/音频
- LibriSpeech、LibriLight、Common Voice、VoxCeleb、AudioSet、GigaSpeech。
- 企业:呼叫中心录音、设备声音、播客/课程(合规)。
- 时间序列
- UCR/UEA、ETT(电力变压器温度)、M4/M5、Yahoo A1、NAB、SMAP/MSL、SMD。
- 企业:设备传感器、运维KPI、APM日志、金融指标。
- 图/网络
- OGB(ogbn-arxiv/products/papers100M)、Reddit、citation/co-purchase/知识图谱。
- 企业:用户-物品、好友关系、点击/会话构图。
- 多模态
- LAION、CC12M、WIT、Conceptual Captions、HowTo100M。
- 企业:商品图-标题/描述、新闻图-稿、视频-字幕/旁白。
五、落地小贴士
- 数据清洗很关键:去重、格式统一、质量/安全过滤(敏感信息、版权)。
- 增广策略决定上限:视觉(裁剪/颜色/遮挡)、语音(时频遮挡/速度扰动)、文本(dropout/截断)、图(删边/特征扰动)、时序(裁剪/抖动/遮挡)。
- 评估方式:线性探测(冻结特征做线性分类)、k-NN、下游微调、检索mAP、异常AUC等。
- 选择建议:
- 视觉通用表征:MAE/DINOv2;极致生成:扩散模型。
- 文本:BERT(理解)、GPT式LM(生成)、SimCSE(句向量)。
- 语音:wav2vec 2.0/HuBERT。
- 时间序列:TS2Vec/CPC + PatchTST预训练。
- 图:GRACE/DGI + GAE/VGAE或GraphMAE。
- 跨模态检索:CLIP。
如果你告诉我你的具体场景(数据类型、规模、算力、目标任务),我可以帮你挑选最合适的一两种方法,并给出更具体的网络配置和训练细节 😉
🌟 无监督深度学习全景图
下面按照「可做的任务 → 典型方法 → 结构/输入输出/数据来源」的顺序,层层展开。为了避免信息轰炸,先给一张总览表,随后逐项详细解释。
任务 | 典型无监督方法 | 代表网络结构 | 输入 → 输出 | 数据来源示例 |
---|---|---|---|---|
表示学习 / 预训练(图像) | AutoEncoder、SimCLR、MoCo、BYOL、MAE | CNN / Vision Transformer (ViT) / Siamese 双塔 | 原图 → 重构图或对比特征 | ImageNet (只用图像,不看标签)、LAION-400M、自己爬取 |
语言模型 | GPT (自回归)、BERT/ERNIE (掩码)、RoBERTa | Transformer Encoder / Decoder | 文本片段 → 下一个词 or 掩码词 | Wikipedia、CommonCrawl、书籍语料 |
语音表示 / 合成 | CPC、HuBERT、Wav2Vec 2.0, VQ-VAE | 1D CNN + Transformer | 原始音频 → 未来帧/量化码本 | LibriSpeech、YouTube Audio |
图像生成 | VAE、GAN、Diffusion | 卷积VAE、DCGAN、StyleGAN、UNet(扩散) | 噪声 / 随机向量 → 图像 | CelebA、FFHQ、场景照片 |
图像到图像 | CycleGAN, Denoising, Colorization | 生成对抗网络、U-Net | 单通道图 → 彩色图 等 | BW 图书扫描件、历史照片 |
聚类 / 分割 | DeepCluster, DEC, SwAV | CNN + 聚类头 | 原图 → 聚类中心 or 伪标签 | 未标注图片 |
异常检测 | AE、VAE、One-Class GAN | 卷积AE / VAE | 输入 → 重构 | 生产线传感器图片、日志 |
时序预测 | TCN / 自回归变体、Masked Transformer | TCN / Transformer | 历史序列 → 未来序列 | 股票、IoT 传感器 |
图学习 | Graph AutoEncoder, DGI, Graph Contrastive | GCN / GAT | 邻接 & 特征 → 图嵌入 | 引文网络、社交图 |
多模态对齐 | CLIP, ALIGN | ViT + 文本 Transformer 双塔 | 图像 / 文本 → 对齐向量 | alt-text 图文对,网络抓取 |
其他 (强化式预训练) | World Models (VAE + RNN) | VAE + RNN | 观测 → 潜在状态 | 游戏画面、机器人传感器 |
1️⃣ 表示学习 / 预训练(图像)
1.1 AutoEncoder (AE / VAE)
- 结构:Encoder (CNN) + Bottleneck (潜在向量 z) + Decoder (反卷积)
- 输入→输出:原图 → 重构图
- 数据来源:只要是无标注图像即可,ImageNet 原图常用。
1.2 对比学习 SimCLR / MoCo / BYOL
- 结构:Siamese 双塔 (共享 CNN / ViT) + 投影头 (MLP)
- 输入→输出:同一张图的两种随机增广 → 特征向量;损失为 NT-Xent/InfoNCE
- 数据来源:同上,大规模抓图就行,无须标签。
1.3 MAE(Masked Autoencoder)
- 结构:ViT Encoder 只看 25% patch,Decoder 复原全部 patch
- 输入→输出:被随机 mask 的 patch 序列 → 原始 patch 像素
- 数据来源:任意无标注图。
2️⃣ 语言模型 (NLP)
2.1 自回归 GPT 系列
- 结构:Transformer Decoder 堆叠
- 输入→输出:前 n 个 token → 预测第 n+1 个 token
- 数据来源:CommonCrawl、书籍语料、维基百科。数据只需文本文件即可。
2.2 掩码语言模型 (BERT, RoBERTa)
- 结构:Transformer Encoder
- 输入→输出:加了 [MASK] 的句子 → 预测被 mask 的 token
- 数据来源:同上。
3️⃣ 语音表示 / 合成
3.1 Contrastive Predictive Coding (CPC)
- 结构:1D CNN Encoder → GRU/Transformer Autoregressor
- 输入→输出:过去音频帧 → 对比未来 k 帧 表征
- 数据来源:LibriSpeech 原始 wav、YouTube 无字幕音频。
3.2 Wav2Vec 2.0
- 结构:CNN 特征提取 → Transformer → Contrastive 量化
- 输入→输出:掩码的 latent → 预测真实 latent
- 数据来源:大量未标注语音 (100h–60k h)
4️⃣ 图像生成
4.1 VAE
- 结构:CNN Encoder → 均值/方差 → 采样 z → CNN Decoder
- 输入→输出:随机抽样或图像 → 新图 / 重构图
- 数据来源:CelebA 人脸、手写数字。
4.2 GAN / StyleGAN
- 结构:Generator (Deconv or Style blocks) + Discriminator (CNN)
- 输入→输出:随机向量 z → 逼真图像
- 数据来源:同上。
4.3 Diffusion Model (DDPM, Stable Diffusion)
- 结构:UNet + 时间嵌入 + Attention
- 输入→输出:高斯噪声 → 清晰图像 (通过反向扩散)
- 数据来源:大规模高清图 + 文本 (若做文本条件扩散)。
5️⃣ 图像到图像(自监督)
5.1 CycleGAN
- 结构:两个 GAN + cycle consistency
- 输入→输出:域 A 图 → 域 B 图 (反之亦然)
- 数据来源:两批未配对数据,如 马↔斑马、夏天↔冬天。
5.2 Denoising / Colorization
- 结构:U-Net
- 输入→输出:加噪 / 灰度图 → 干净 / 彩色图
- 数据来源:任意彩色图像,训练时自己加噪声或转灰阶。
6️⃣ 聚类 / 分割
6.1 DeepCluster
- 结构:CNN Backbone → k-means 聚类 → 把聚类ID当伪标签再训练
- 输入→输出:图像 → 伪标签重复迭代
- 数据来源:未标注图像集合。
6.2 SwAV
- 结构:多视角 + Prototypes (聚类中心) + online clustering
- 输入→输出:多增强图 → 相同 prototype
- 数据来源:同上。
7️⃣ 异常检测
7.1 Reconstruction-based AutoEncoder
- 结构:CNN AE 或 VAE
- 输入→输出:正常样本 → 重构样本;用重构误差判断异常
- 数据来源:只需「正常」数据,如工厂良品照片。
7.2 One-Class GAN
- 结构:GAN but only normal data; discriminator score → 异常度
- 输入→输出:噪声 → 重构;D分数高则异常
- 数据来源:同上。
8️⃣ 时序预测 / 增强
8.1 Masked Time-series Transformer
- 结构:Transformer + 时间编码
- 输入→输出:掩码的时间点 → 重建值 / 未来值
- 数据来源:金融 OHLCV、IoT 传感器流。
8.2 TCN 自回归
- 结构:Dilated 1D CNN (TCN)
- 输入→输出:过去窗口 → 未来窗口
- 数据来源:公开股票数据、气象观测数据。
9️⃣ 图学习 (Graph)
9.1 Graph AutoEncoder (GAE)
- 结构:GCN Encoder → inner product Decoder
- 输入→输出:节点特征+邻接 → 重建邻接
- 数据来源:Cora、PubMed 引文网络。
9.2 Deep Graph Infomax (DGI)
- 结构:GCN + 全局读出;对比原图 vs 打乱图
- 输入→输出:局部节点表征 → 全局向量,优化 InfoNCE
- 数据来源:同上或社交网络图。
🔟 多模态对齐
10.1 CLIP
- 结构:图像塔 ViT + 文本塔 Transformer;共享对比损失
- 输入→输出:图像/文本 → 共享向量空间
- 数据来源:网络图文对 (约4亿),alt-text 抓取。
1️⃣1️⃣ World Models (RL 前的无监督)
- 结构:VAE (观测编码) + RNN (动态) + Controller (后期强化)
- 输入→输出:游戏帧 → 潜在编码;预测下一帧潜在变量
- 数据来源:OpenAI Gym 视频帧、unity simulation。
📌 常见数据来源简表
模态 | 公开大规模无标签集 | 备注 |
---|---|---|
图像 | ImageNet-1k raw, LAION, YFCC100M | 可直接下载 |
文本 | Wikipedia dump, CommonCrawl, BooksCorpus | Crawl 前需清洗 |
音频 | LibriSpeech (无标签部分), VoxCeleb, YouTube crawl | 版权注意 |
视频 | Kinetics-700 (只看帧), YouTube-8M, HowTo100M | 适合自监督 |
图数据 | OGB 数据集, SNAP 社交图 | 研究常用 |
时间序列 | Yahoo S5, UCI 电力负荷, AlphaVantage API | 异常检测或预测 |
💡 小结
- 无监督 ≠ 没目标,而是利用「数据本身的结构」产生学习信号:重构、对比、预测、聚类、生成…
- 关键技巧:
• 数据增广 (Augmentation)
• 对比损失 (InfoNCE)
• 掩码 / 预测未来 (Mask & Predict)
• 循环伪标签 (DeepCluster) - 拿到原始数据 ➜ 设计自监督任务 ➜ 训练得到通用表征 ➜ 可迁移到下游监督任务或直接推断。
希望这份清单能给你一个系统的「无监督深度学习地图」🗺️!如果还想深入某个方法或代码实现,随时告诉我~