当前位置: 首页 > news >正文

机器学习-回归分析之一元线性回归

📘 机器学习-回归分析之一元线性回归

一、模型定义

当研究某一现象时,如果主要关注的是一个自变量(X)对一个因变量(Y)的影响,并且两者具有较强的线性相关关系,可采用一元线性回归模型(Simple Linear Regression Model)

模型形式:Y=β0​+β1​X+ε

  • ( Y ):因变量(被解释变量)
  • ( X ):自变量(解释变量)
  • ( β0 β1 ):模型参数(待估计)
  • ( 𝜀):随机误差项

二、模型的主要假设

  1. 线性关系假设:Y与X呈线性关系。
  2. 独立性假设:各样本之间相互独立。
  3. 同方差性假设:误差项方差相同。
  4. 正态性假设:误差项服从均值为0、方差为σ²的正态分布。

三、参数估计方法

1. 最小二乘法(Ordinary Least Squares, OLS)

目标:通过样本数据,估计出最能代表总体规律的参数 β₀ 和 β₁。

  • 思想:通过观测样本数据,寻找能最小化“预测值与实际值之间偏差平方和”的参数 𝛽0,𝛽1
    在这里插入图片描述
  • 最小化问题求解过程:为了得到最佳参数,使得误差平方和最小化,
    对 𝛽0,𝛽1β0,β1分别求偏导,并令导数为0,求导 → 联立方程 → 解得:
    在这里插入图片描述

补充偏导数知识:
1)外层平方 → 用到导数公式 (g(x))^2’ = 2g(x)g’(x)
2)对 β₀ 求导时,β₁、Xᵢ、Yᵢ 都是常数

解这两个方程可得:
在这里插入图片描述


2、最大似然估计

最大似然估计(Maximum Likelihood Estimation, MLE)
是一种利用样本数据来估计总体分布参数的方法。
它基于“已知样本服从某种分布,但未知参数”的前提,通过选择使样本出现的概率最大化的参数值,作为参数估计结果。


  • 基本思想与直观理解

1️⃣ 假设样本来自某个分布族,例如:
在这里插入图片描述
其中 θ是未知参数。

2️⃣ 构建“似然函数”:
在这里插入图片描述
3️⃣ 取对数简化运算(对数似然函数):
在这里插入图片描述
4️⃣ 对参数 (θ ) 求导并令导数为0(寻找极值点):
在这里插入图片描述

求得的 在这里插入图片描述
就是最大似然估计值。


  • 举例:二项分布下的最大似然估计

假设掷硬币实验中,每次投掷成功(正面朝上)的概率为 ( p ),
观测到的成功次数 ( k ) 服从二项分布:
在这里插入图片描述
对应的似然函数为:
在这里插入图片描述
取对数求导:
在这里插入图片描述
求偏导并令为0:
在这里插入图片描述
最终得到:
在这里插入图片描述
即样本中“成功次数比例”就是最大似然估计值。✅


  • MLE 在回归模型中的意义

  • 在线性回归中,如果假设误差项服从正态分布 ,
    则最小二乘法(OLS)与最大似然估计(MLE)在数学上是等价的

  • 在逻辑回归中,因变量服从二项分布,因此不能使用最小二乘法,而是必须使用最大似然估计法


四、模型检验

1、参数估计:最小二乘估计(LSE)

已知两组数据 𝑥 和 𝑦,使用一元线性回归模型拟合两者之间的关系:
在这里插入图片描述

使用最小二乘法(LSE)估计回归方程的系数 ,得到最终回归方程。

已知:
在这里插入图片描述

计算得到:
在这里插入图片描述
最终回归方程:
在这里插入图片描述

2、回归系数是否显著:t 检验

1️⃣ 检验目的

判断因变量 ( y ) 与自变量 ( x ) 是否存在线性关系,即:
在这里插入图片描述

2️⃣ 检验水平

α=0.05或0.01

3️⃣ 构造统计量

若 (H0) 成立:
在这里插入图片描述

t 统计量定义为:
在这里插入图片描述

4️⃣ 判定规则

  • 查 t 分布表,自由度 n - 2 = 13
  • 双尾检验,显著性水平 α = 0.05
  • 临界值: 在这里插入图片描述

5️⃣ 结论

若 ( |t| > 2.16 ),拒绝 (H0),认为 x对 y有显著线性影响。
本次结果:拒绝原假设 (H0: β1​= 0),接受 (H1: β1​!=0)。


3、回归方程是否显著:F 检验

1️⃣ 检验目的

判断整个回归方程是否显著,即模型是否有统计意义。
根据平方和分解式

SST = SSR + SSE

  • (SST):总离差平方和(因变量的波动程度)
  • (SSR):回归平方和(由自变量 (x) 引起的波动)
  • (SSE):残差平方和(由其他因素引起的波动)

2️⃣ F统计量公式

在这里插入图片描述

3️⃣ 数据与计算结果

方差来源自由度平方和(SS)均方(MS)
回归1(即 (k-1))SSR = 841.65841.65
残差13(即 (T-k))SSE = 69.755.365
总和14(即 (T-1))SST = 911.51

计算统计量:
在这里插入图片描述

自由度 ((1, 13)),对应:
在这里插入图片描述


4️⃣ 检验结论

在这里插入图片描述


4、总结

检验方法目的结论
t 检验单个回归系数显著性β₁ 显著 ≠ 0
F 检验整体方程显著性回归方程显著有效

http://www.dtcms.com/a/554887.html

相关文章:

  • 外网专门做钙片的网站vs2013做网站
  • 征程 6 | 多任务 不同帧率 部署方案
  • 网站开发后台用什么语言精美网站
  • 做图客网站设计公司起名大全免费
  • 【论文精读/Survey】高效扩散模型:从原理到实践的全面解析
  • 天津市住房城乡建设部网站网络销售平台推广
  • 网站竞价怎么做wordpress页面添加分类
  • 厅网站建设项目背景福州网站建设个人兼职
  • 网站怎么做定位功能网站截图可以做证据吗
  • 杭州建设项目审批网站宁波跨境电商公司排名前十
  • 网站建设可以经营吗辽宁省营商建设监督局网站
  • 第二周:事件监听 + 用户交互
  • 镇江高端网站定制青海营销网站建设服务
  • SimPy入门实战:用离散事件仿真优化整车装配线人员配置
  • 青岛网站建设全包澄海网站建设
  • 做二手家具回收哪个网站好互联网大厂设计哪家口碑好
  • 建设局网站作用wordpress 下划线 快捷键
  • 金仓KES RAC架构深度解析:高可用数据库的实践与优化
  • 知乎网站开发用的语言商城网站建设计划书
  • 陕西省建设厅便民服务网站太原 招聘 网站建设 技术经理
  • 电影网站的建设目标青岛企业建站系统
  • 【蓝牙】Bluetooth LE Primer 摘要与导读
  • 深度探讨“云+智能计算”,智算新基础设施分论坛议程揭晓 | 2025 龙蜥大会
  • 电话销售网站建设网站标题在哪里修改
  • 安卓蛙、苹果蛙为什么难互通?
  • 做难而正确的事,安踏为中国体育用品产业注入创新DNA
  • 做会计题目的网站1688关键词怎么优化
  • 直流充电桩多枪计量系统集成指南:基于RS485总线与地址寻址的并联通信
  • iis网站重定向设置嘉定建站公司
  • 企业网站设计思路公司网站设计案例