当前位置：首页 > news >正文

【高级机器学习】1. Hypothesis 与 Objective Function

news 2025/8/28 10:49:00

Hypothesis 与 Objective Function

I. Hypothesis（假设）

1. 什么是 Hypothesis？

在机器学习/深度学习中，假设（Hypothesis） 指的是我们用来近似真实任务的函数。

记作：
$h_\theta(x) \in \mathcal{H}$
- $hθ(x)h_\theta(x)$ ：一个具体的模型，由参数 $θ\theta$ 控制。
- $H\mathcal{H}$ ：假设空间（Hypothesis Space），包含所有可能的模型。

2. 两个层次的 Hypothesis

宏观层次：模型结构（如线性回归、神经网络、Transformer…）【Hypothesis space】。
微观层次：具体的参数组合（每组参数就是一个具体的假设）。

因此，训练过程本质上是：在假设空间中寻找最佳假设。

II. Objective Function（目标函数）

1. 为什么需要 Objective Function？

提出 Hypothesis 后，我们需要判断：哪个假设更好？

答案：通过 目标函数（Objective Function） 来衡量。
它定义了“好”的标准。

2. 分类任务中的理想目标

给定一个分类任务，最佳分类器应该是：
$h^*(x) = \arg \min_{h \in \mathcal{H}} \mathbb{E}_{(X,Y)\sim D} [\ell(h(X), Y)]$

$ℓ(⋅)\ell(\cdot)$ ：损失函数。
$D$ ：数据分布（真实世界的概率分布）。

0-1 Loss（最直观的损失函数）
$\ell(h(x), y) = \begin{cases} 0, & h(x) = y \\ 1, & h(x) \neq y \end{cases}$

在这种定义下，最佳分类器就是分类错误率最小的分类器。

3. 问题：我们不知道真实分布 $D$

在理想情况，我们需要遍历“所有可能的数据点”。
但在现实中，我们无法直接知道 $D$ 。

4. 解决办法：经验风险最小化（ERM）

根据大数定律：

如果我们从分布 $D$ 中抽取足够多的数据样本 ${(X_1, Y_1), ..., (X_n, Y_n)\}$ ，
那么经验平均会逼近真实期望：
$\frac{1}{n}\sum_{i=1}^n \ell(h(X_i), Y_i) \;\;\xrightarrow[n\to\infty]{}\;\; \mathbb{E}_{(X,Y)\sim D}[\ell(h(X), Y)]$

于是我们定义经验风险（Empirical Risk）：
$R^(h)=1n∑i=1nℓ(h(Xi),Yi) \hat{R}(h) = \frac{1}{n}\sum_{i=1}^n \ell(h(X_i), Y_i)$

训练目标：
$h∗=arg⁡min⁡h∈HR^(h) h^* = \arg \min_{h \in \mathcal{H}} \hat{R}(h)$

这就是机器学习的核心思想：
用有限样本近似真实分布 → 最小化经验风险 → 找到最佳假设。

5. 实际挑战

0-1 Loss 不可导 → 无法直接用梯度优化。
Objective function 可能非凸、不光滑 → 优化难度大。
解决办法：使用可优化的 surrogate loss（替代损失函数），如交叉熵（Cross-Entropy）、均方误差（MSE）等。

III. 总结

Hypothesis（假设）
- 宏观上：模型结构。
- 微观上：参数组合。
- 训练 = 在假设空间里寻找最佳假设。
Objective Function（目标函数）
- 衡量假设好坏的标准。
- 理想：最小化真实分布下的期望损失。
- 实际：通过样本近似（经验风险最小化）。
大数定律的意义
- 样本量越大，经验风险越接近真实风险。
- 这解释了为什么 大数据对深度学习至关重要。

http://www.dtcms.com/a/353970.html

相关文章：

solidworks2024保姆级安装教程及解锁版安装包下载！

【编号478】美国土地利用数据本土、阿拉斯加、夏威夷岛土地利用数据

蛋白质残基 - 残基距离计算：单蛋白工具与批量处理方案

【目标检测】论文阅读5

记录一次内存问题排查

比赛竞猜算法设计思路

MySQL InnoDB vs MyISAM

【系统分析师】高分论文：论信息系统开发方法及应用

前端漏洞（下）- 会话固定漏洞

Databend 亮相 DTCC 2025：存算分离架构引领湖仓一体化

漫谈《数字图像处理》之霍夫变换

一文辨析编程语言的强类型与弱类型、静态类型与动态类型

【Java知识】Java线程相关对象全面解析与最佳实践

吴恩达机器学习（一）

盲埋孔在那里下单？猎板PCB盲埋孔制造优势

vue3 之异步轮训 hook 封装

深度解析BiTGAN：基于双向Transformer生成对抗网络的长期人体动作预测

S 3.1深度学习--卷积神经网络

JavaScript工厂模式

鸿蒙、安卓系统如何体验谷歌服务？实用方法分享

LangGraph - API多种访问方式

Docker 入门指南：从基础概念到常见命令及高级工具详解

Transformer 模型详解

[Sync_ai_vid] 唇形同步评判器 | 图像与视频处理器 | GPU测试

为什么 “int ” 会变成 “int”？C++ 引用折叠的原理与本质详解

nacos2.4.1版本开启鉴权

SmartMediakit视角构建低空经济的超低延迟视频基础设施

git学习分支管理（branching）合并分支

鸿蒙清楚本地缓存

AI大语言模型助力：国自然/省级基金项目撰写（如何高效准备申请材料？如何精准把握评审标准？从申请者和评审者的不同角度全解