当前位置: 首页 > news >正文

高级机器学习

机器学习常见方法

涉及方法:

2.半监督学习

3.无监督学习

4.度量学习

5.迁移学习

6.多示例多标记学习

7.在线学习

8.元学习

9.联邦学习

10.强化学习

11.概率图模型

独立同分布

独立指的是,样本集包括训练集测试集的任意两个样本之间都是不相关的。在表示样本的特征确定后,训练样本集的分布是具体而确定的,成为基于训练样本的分布;样本全集,如果能够获取的话(通常无法获取),也对应着一个具体而确定的分布,称为基于样本全集的分布,同分布就是基于训练样本集的分布与基于样本全集的分布完全相同

2.半监督学习

训练数据中一部分有标签(xi,yi),一部分无标签(xj),学习一个映射f:X->Y

预测数据(xt)

未标记数据的优点:优化决策边界,提升泛化能力

假设

所有的无标记数据都属于有标记数据中的某一类

1.光滑性假设,如果高密度区域两个点x1x2很接近,那么相应输出y1y2很接近

2.聚类假设:如果在同一个簇中,很可能为同一类

3.流形假设:高维数据大致位于低维流形上,如果高维中属于一个类,那么低维也属于一个类

常见方法

自训练

1.假设:具有高置信度的预测是正确的

2.过程

用已有的有标记数据(xi,yi)训练f,预测未标记(xu,f(xu)),将预测的未标记数据加入已标记数据,继续训练,预测再加入

(全部加入|基于置信度分配权重全部加入|少量最自信的加入)

3.优点

易于理解

框架性思路:自训练+各种机器学习算法

4.缺点

对初始模型质量敏感

对数据分布敏感

伪标签错误累加

协同训练

1.假设

单独使用单个视图的数据可以训练一个好的分类器

不同视图数据相互独立

2.过程 

两个分类器f1,f2

分别对无监督数据标记,f1分类最自信的k个加入f2中,f2的加入f1中

3.优点 

互补信息

框架性思路

与自训练相比,对错误的伪标记不太敏感

4.缺点

在某些任务中不一定有多视图条件

5.风格

划分特征|划分数据集|划分模型

6.扩展

两个视角->三个视角

一致性正则化

1.数据增强

图片旋转裁剪放大缩小等

2.PI模型

输入有标签xi,无标签xu,进行随机数据增强,经过神经网络模型,计算损失(监督损失+无监督损失(无标签数据增强前后))

3.优点

使用简单

对噪音不敏感

4.缺点

训练时间长,效率低

3.无监督学习

最小化无监督损失函数

(k均值:样本间的相似度集|主成分分析:信息损失|自编码器:重构误差)

方法

K-means

1.过程

随机初始化k个点

计算其他数据点到这个k个的距离,选最近的中心点作为数据所在簇

在一个中心点的一个簇内,重新计算中心点的位置

重复n次

2.缺点

对初始点敏感

对噪声敏感

3.k-means++

初始化k个点的时候

先随机初始化一个中心点,算其他数据点离中心点的距离D(xi),选最远的点作为新的中心点加入,继续计算,直到得到k个中心点

主成分分析

自编码器

4.度量学习

方法

线性判别分析

最大化类间距离,最小化类内距离

深度度量学习

5.迁移学习

6.多标记多示例学习

单标记多示例

多标记单示例,包

7.在线学习

全信息在线学习,知道损失函数

只知道回报,老虎机

8.元学习

学习很多任务,元学习器,针对每个任务优化,每个任务最后验证的损失优化外层的参数

9.联邦学习

信息加密,串行并行

10.强化学习

11.概率图模型

贝叶斯

贝叶斯平均

基于后验概率的预测

http://www.dtcms.com/a/304645.html

相关文章:

  • Android 中 实现折线图自定义控件
  • BGP高级特性之ORF
  • spring 使用三级缓存解决循环依赖详解
  • 09 RK3568 Debian11 ES8388 模拟音频输出
  • 【腾讯云】EdgeOne免费版实现网站加速与安全防护
  • AI定义2025世界人工智能大会,腾讯/微美全息立足浪潮催生开源模型生态产业
  • 飞书 —— 多维表格 —— AI生成
  • 【术语扫盲】MCU与MPU
  • Spring框架中自定义标签的解析过程
  • 关于“高帧率放大了模型对位置噪声的敏感性”的理解
  • Kubernetes 全面解析:从基础设施变革到核心架构详解
  • Dify 从入门到精通(2/100 篇):Dify 的核心组件 —— 从节点到 RAG 管道
  • 利用 C# 实现 Word 文档多维度统计(字数、字符数、页数、段落数、行数)
  • 当 AI 重构审计流程,CISA 认证为何成为破局关键
  • 计算机视觉-图像基础处理
  • 双引擎驱动智能检索:混合搜索如何重构RAG系统底层逻辑
  • 智能健康项链专利拆解:ECG 与 TBI 双模态监测的硬件架构与信号融合
  • 算法提升之数论(矩阵+快速幂)
  • 隐藏文件行尾符CRLF
  • PostgreSQL缓冲区管理器
  • 2-verilog-基础语法
  • AI: 告别过时信息, 用RAG和一份PDF 为LLM打造一个随需更新的“外脑”
  • go install报错: should be v0 or v1, not v2问题解决
  • React图标库推荐与选择建议
  • 【Spring-cloud-OpenFegin源码解析】
  • VitePress学习笔记
  • 编程算法在金融、医疗、教育、制造业的落地应用。
  • 云服务器上基于lora微调Qwen2.5-VL-7b-Instruct模型之Lora微调代码讲解
  • Netty中InternalThreadLocalMap的作用
  • Rust实现GPU驱动的2D渲染引擎