当前位置: 首页 > news >正文

机器学习入门:线性回归详解与实战

线性回归(Linear Regression)是机器学习中最基础也最常用的算法之一,无论是初学者入门还是实际业务场景,都能看到它的身影。本文将从概念、原理到代码实现,带你全方位了解线性回归。

一、什么是线性回归?

简单来说,线性回归是一种用于预测自变量与因变量之间线性关系的算法。它假设因变量(需要预测的结果)与一个或多个自变量(影响因素)之间存在线性关联,通过构建数学模型来描述这种关系,从而实现对未知数据的预测。

举个生活中的例子:

  • 房价(因变量)与房屋面积、房龄、地段(自变量)的关系
  • 学生成绩(因变量)与学习时长、刷题量(自变量)的关系
  • 销售额(因变量)与广告投入(自变量)的关系

二、线性回归的数学原理

1. 模型表达式

单变量线性回归

当只有一个自变量时,模型表达式为:
y=wx+b
其中:

  • y 是因变量(预测值)
  • x 是自变量
  • w 是权重(斜率)
  • b 是偏置(截距)

三、线性回归核心代码(入门必看)

对于零基础入门者,线性回归的核心代码只有三行!以下是最简化版本:

# 极简线性回归示例(仅需3行核心代码)
import numpy as np
from sklearn.linear_model import LinearRegression# 准备数据(示例:学习时间与考试分数)
X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)  # 学习时间(小时)
y = np.array([60, 70, 80, 85, 90])             # 对应分数# 1. 创建模型
model = LinearRegression()# 2. 训练模型
model.fit(X, y)# 3. 预测
new_X = np.array([6]).reshape(-1, 1)  # 预测学习6小时的分数
print(f"预测分数: {model.predict(new_X)[0]:.2f}")# 查看模型参数
print(f"权重(斜率): {model.coef_[0]:.2f}")
print(f"偏置(截距): {model.intercept_:.2f}")

输出结果:

预测分数: 92.00
权重(斜率): 6.50
偏置(截距): 53.50

对应的数学模型就是:分数 = 6.5 × 学习时间 + 53.5

如果需要更详细的解释,可以看下面这版带注释的:

# 带注释的极简版
import numpy as np
from sklearn.linear_model import LinearRegression# 准备数据(学习时间与考试分数的关系)
# X必须是二维数组,所以用reshape(-1, 1)转换
X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)
y = np.array([60, 70, 80, 85, 90])# 创建线性回归模型对象
model = LinearRegression()# 用数据训练模型(核心!)
# 模型会自动找到最佳的权重(w)和偏置(b)
model.fit(X, y)# 用训练好的模型预测新数据
new_X = np.array([6]).reshape(-1, 1)  # 预测学习6小时的分数
prediction = model.predict(new_X)
print(f"学习6小时的预测分数: {prediction[0]:.2f}")# 查看模型学到的参数
# 数学模型:分数 = 权重 × 学习时间 + 偏置
print(f"模型学到的权重(斜率): {model.coef_[0]:.2f}")  # 每多学1小时,分数提高6.5分
print(f"模型学到的偏置(截距): {model.intercept_:.2f}")  # 基础分数53.5分

四、线性回归的完整实现(带可视化)

下面我们用 Python 的 Scikit-learn 库实现一个完整的线性回归示例,以房屋面积与房价的关系为例。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression# 生成模拟数据(房屋面积与房价)
np.random.seed(42)
x = np.random.rand(100, 1) * 10  # 房屋面积(0-100平米)
y = 2.5 * x + 3 + np.random.randn(100, 1) * 2  # 真实关系:y=2.5x+3,添加噪声# 创建并训练模型
model = LinearRegression()
model.fit(x, y)# 预测
y_pred = model.predict(x)# 输出参数
print(f"权重 w: {model.coef_[0][0]:.2f}")
print(f"偏置 b: {model.intercept_[0]:.2f}")# 可视化
plt.scatter(x, y, color='blue', label='真实数据')
plt.plot(x, y_pred, color='red', linewidth=2, label='拟合直线')
plt.xlabel('房屋面积(平米)')
plt.ylabel('房价(万元)')
plt.title('房屋面积与房价的线性回归')
plt.legend()
plt.show()

五、线性回归的优缺点

优点

  • 原理简单,解释性强(权重可直接反映特征影响)
  • 训练速度快,计算成本低
  • 可作为基础模型,为复杂模型提供参考

缺点

  • 只能捕捉线性关系,无法处理非线性数据
  • 对异常值敏感,需要预处理

六、总结

线性回归是机器学习的入门基石,掌握它不仅能解决简单的预测问题,更能帮助理解机器学习的基本思想:通过数据拟合模型,最小化误差来逼近真实规律。

如果觉得本文有帮助,欢迎点赞收藏,也欢迎在评论区交流你的学习心得~

http://www.dtcms.com/a/299511.html

相关文章:

  • Javaweb————HTTP的九种请求方法介绍
  • VTK交互——CallData
  • MySQL操作进阶
  • setsockopt函数概念和使用案例
  • python---字典(dict)
  • 瑞吉外卖学习笔记
  • 基于FPGA的SPI控制FLASH读写
  • 【C++高效编程】STL queue深度剖析:从底层原理到高级应用
  • 什么是ICMP报文?有什么用?
  • 以实时语音转文字项目为例,介绍一下如何手动部署python应用到Linux服务器(附脚本)
  • 根据ip获取地址库
  • 【Git】Git下载全攻略:从入门到精通
  • 如何在 Git 中控制某些文件不被提交?
  • 图解网络-小林coding笔记(持续更新)
  • 【2025最新】浏览器插件开发选型建议:WXT、Plasmo、原生TS/JS
  • 融合为体,AI为用:数据库在智能时代的破局之道
  • Maven之依赖管理
  • 《Java 程序设计》第 6 章 - 字符串
  • 智慧城市多目标追踪精度↑32%:陌讯动态融合算法实战解析
  • 【Canvas与旗帜】条纹版大明三辰旗
  • 神经网络中的反向传播原理:驱动智能的核心引擎
  • k8s:将打包好的 Kubernetes 集群镜像推送到Harbor私有镜像仓库
  • 电子电气架构 --- 高阶智能驾驶对E/E架构的新要求
  • Java操作Excel文档
  • Spring的深入浅出(6)--使用AOP的思想改造转账案例
  • 人形机器人指南(八)操作
  • 手动开发一个串口调试工具(二):Qt 串口类基本认识与使用
  • 基于 ThinkPHP 开发的垂直化网址导航
  • Linux进程地址空间:深入探索其结构与机制
  • 元宇宙新基建:重塑数字市场的“超大陆”边界