当前位置：首页 > news >正文

机器学习（西瓜书）学习——绪论

news 2025/10/2 2:30:07

术语按照概念类别可分为五个表格：

1. 术语

1.1 基本概念与数据表示

中文术语	英文术语	符号表示	解释
机器学习	Machine Learning	–	通过计算手段利用经验改善系统自身性能的学科
模型	Model	–	由算法通过学习（训练）数据而创建出来的数学函数或程序
数据集	Dataset	$D$	一组记录的集合，每条记录描述一个事件或对象
样本/示例	Sample/Instance	$x$	数据集中的单条记录，描述事件或对象的特征
属性/特征	Attribute/Feature	–	描述样本的某个特性（如"色泽"、“重量”）
属性值	Attribute value	$x_i$	属性取到的具体值（如“青绿”、“浊响”）。
属性空间/样本空间	Attribute Space/Sample Space	$X\mathcal{X}$	由所有属性张成的多维空间
特征向量	Feature Vector	$x=(x1;x2;…;xd)\boldsymbol{x} = (x_1;x_2;\dots;x_d)$	样本在属性空间中的坐标表示形式
维数	Dimensionality	$d$	样本属性的个数（特征向量的维度）
标记	Label	$y$	样本的"结果"信息（如"好瓜"或"坏瓜"）
样例	Example	$(x,y)(\boldsymbol{x}, y)$	拥有标记信息的样本（即`(特征向量, 标记)`对）
标记空间/输出空间	Label Space/Output Space	$Y\mathcal{Y}$	所有可能标记的集合（如`{好瓜, 坏瓜}`）

1.2 学习过程与模型构建

中文术语	英文术语	符号表示	解释
学习/训练	Learning/Training	–	从数据中获取模型的过程
训练数据	Training Data	–	用于训练模型的数据集
训练样本	Training Sample	–	训练数据中的单个样本
训练集	Training Set	$D_{train}$	包含多个训练样本的集合
假设	Hypothesis	–	学习算法对数据内在规律的潜在描述
假设空间	Hypothesis Space	$H\mathcal{H}$	学习算法所有可能考虑的假设（函数）的集合
真相/真实	Ground Truth	–	数据中隐含的客观规律（理想模型）
学习器	Learner	–	学习算法的具体实现程序
独立同分布	Independent and Identically Distributed， i.i.d.	i.i.d.	样本独立且服从相同分布的基本前提

1.3 任务类型与学习范式

中文术语	英文术语	符号表示	解释
分类	Classification	–	预测离散标记的任务（如判断好瓜/坏瓜）
回归	Regression	–	预测连续数值标记的任务（如预测西瓜成熟度）
二分类	Binary Classification	–	仅两个类别的分类任务
多分类	Multi-Class Classification	–	类别多于两个的分类任务
正类 / 反类	Positive / Negative Class	–	二分类中的两个类别，通常称关注的类别为正类
聚类	Clustering	–	在无标记条件下将样本按相似性划分为若干个簇
监督学习	Supervised Learning	–	训练数据包含标记信息的学习范式
无监督学习	Unsupervised Learning	–	训练数据无标记信息的学习范式

1.4 模型评估与验证

中文术语	英文术语	符号表示	解释
测试	Testing	–	使用学得模型预测新样本的过程
测试样本	Test Sample	–	用于评估模型性能的未参与训练的新样本
泛化	Generalization	–	模型适用于新样本的能力（核心目标）
泛化误差	Generalization Error	–	模型在新样本上的预测误差

1.5 学习原理与偏好

中文术语	英文术语	符号表示	解释
归纳	Induction	–	从具体样本中总结出一般规律的过程
演绎	Deduction	–	从一般规律推导出具体样本结论的过程
归纳偏好	Inductive Bias	–	学习算法对特定类型假设的偏好
奥卡姆剃刀	Occam’s Razor	–	重要归纳偏好原则：优先选择"更简单"的模型
过拟合	Overfitting	–	模型过度拟合训练数据导致泛化能力下降
欠拟合	Underfitting	–	模型未能充分学习数据规律

2. 学习过程

http://www.dtcms.com/a/323637.html

相关文章：

编译技术的两条演化支线：从前端 UI 框架到底层编译器的智能测试

通过MQTT实现OTA升级方案

Linux-Redhat9.5静默安装Oracle19.25单实例教程【参照官方文档，超级详细】

【35】C#实战篇——StopRecordingTimer_Tick事件函数中，解绑函数自己，那么该函数会立即结束吗？还会继续执行该函数中剩余部分吗？

windows、linux应急响应入侵排查

Oracle数据库重启后打开异常状态的检查步骤

模拟人脑处理文本——从分句到分词，从段落到时间线叙事

MySQL时间类型

windows上LM-Studio下载安装教程

谷歌搜索 sg_ss 逆向分析

自闭和标签形式（self-closing tags）和标准标签形式

[概率 DP]808. 分汤

C++入门学习3

开漏和推挽模式的区别

QT第一讲- Qt初探

XSS攻击演示

常用信号深度解析(SIGINT、SIGPIPE、SIGALRM、SIGTERM等)

101-基于Python的个性化音乐推荐系统

码上爬第三题【协程+浏览器调试检测】

本文章分享一个本地录音和实时传输录音给app的功能（杰理）

[GPU]什么是“硬件TL”在UnityURP中的体现

疏老师-python训练营-Day40训练和测试的规范写法

并发编程基础：继承Thread vs 实现Runnable - 深入解析与最佳实践

Tob大客户销售面试经验

华为交换机进阶功能和场景化配置

最长回文子串（马拉车/Manacher‘s ）算法

P1053 [NOIP 2005 提高组] 篝火晚会

【C/C++】详解内存对齐问题，C语言内存对齐整理

vulhub-Beelzebub靶机

计算网络相关知识