当前位置: 首页 > wzjs >正文

温州网站优化价格wordpress 登陆页面模板

温州网站优化价格,wordpress 登陆页面模板,墨星写作网站app下载,ps个人网页设计模板机器学习模型是进行预测和决策的强大工具。但是,构建有效且可靠的模型不仅仅是选择正确的算法或调整超参数;它还与如何准备和评估数据有关。此过程的一个重要步骤是训练-测试拆分。在本文中,我们将探讨训练-测试拆分在机器学习中的重要性、为什么重要、何…

机器学习模型是进行预测和决策的强大工具。但是,构建有效且可靠的模型不仅仅是选择正确的算法或调整超参数;它还与如何准备和评估数据有关。此过程的一个重要步骤是训练-测试拆分。在本文中,我们将探讨训练-测试拆分在机器学习中的重要性、为什么重要、何时执行以及为什么建议在应用各种转换或编码之前拆分数据。

1. 了解 Train-Test 拆分

1.1 什么是 Train-Test Split?

训练-测试拆分是机器学习中的一种基本数据准备技术。它涉及将数据集分为两个子集:训练集和测试集。训练集用于训练机器学习模型,而测试集用于评估其性能。

在监督式机器学习中,使用标记数据作为指导对模型进行训练。然后,该模型从数据中学习模式,并开发一个可用于预测新传入数据的通用版本。但是,我们如何确保该模型能够准确预测看不见的数据呢?这就是训练-测试拆分的概念发挥作用的地方。

训练-测试拆分简单地定义为将我们的数据集划分为训练数据和测试数据,如下图所示。

通常,我们将数据集拆分为不同的比率,例如 80% 的训练数据和 20% 的测试数据,或 70% 的训练数据和 30% 的测试数据,其中较大的部分分配给训练。训练集需要更多数据来确保模型有足够的信息进行学习,同时仍留下足够的测试数据进行无偏评估。

有两种常见的拆分方法:随机或分层。顾名思义,随机拆分会在不考虑目标标签分布的情况下划分数据,如果整个数据集不平衡,这可能会导致子集不平衡。相比之下,分层拆分可确保在训练集和测试集中保持目标标签的分布。

对于时间序列数据,需要一种独特的方法,因为时间序列数据的属性与其他数据集的属性不同。使用顺序拆分时,训练集包含较早的数据点,而测试集包含较晚的数据点。

1.2 为什么 Train-Test Split 很重要?

  • 模型评估:测试集充当看不见的真实世界数据的替代品。它允许您评估您的模型在面对新的、以前看不见的数据时可能表现如何。这种评估有助于估计模型的泛化能力。

  • 偏差和过拟合检测:当模型在训练数据上表现非常好但在测试数据上表现不佳时,它可能在过度拟合训练数据。训练-测试拆分有助于检测此问题,这可以通过调整模型的复杂性来解决。

  • 超参数优化:您可以使用测试集来优化模型的超参数,而不会污染评估。通过此迭代过程,您可以提高模型在处理未见数据时的性能。

2. 什么时候应该执行 train-test split?

训练-测试拆分应在机器学习工作流程的早期执行。这通常是数据收集和预处理后的第一步。拆分在任何数据转换、编码、扩展或特征工程之前完成。原因如下:

(1)数据泄漏预防:

数据预处理步骤(例如特征缩放或编码)涉及基于整个数据集的计算统计数据。如果您在这些转换之后拆分数据,则测试集中的信息可能会泄漏到训练集中。这会损害评估的完整性,因为您的模型在预处理期间已经看到了一些测试数据。

(2)现实的评估:

在预处理之前拆分数据可确保您的评估反映模型在新的、看不见的数据上的性能。它复制了模型遇到以前从未见过的数据的真实场景。

(3)后处理拆分的影响:

在数据预处理后执行 train-test split 可能会导致以下几个问题:

  • 数据泄漏:如前所述,来自测试集的信息可能会泄漏到训练集中,从而导致性能估计过于乐观。
  • 模型过拟合:模型可能会过度拟合到训练数据,因为它在预处理期间已经看到了测试数据。这可能会导致对新数据的泛化效果不佳。
  • 不切实际的评估:评估可能无法反映模型在新的、看不见的数据上的表现,因为预处理步骤已经将其暴露给一些测试数据。

3. 如何避免机器学习陷阱

学习预测函数的参数并在相同的数据上测试它是一个方法论上的错误:一个模型只会重复它刚刚看到的样本的标签,它可能会得到一个完美的分数,但对尚未看到的数据却无法预测任何有用的东西。这种情况被称为过拟合。为了避免这种情况,在执行(有监督的)机器学习实验时,通常的做法是将部分可用数据作为测试集X_test,y_test。下面是模型训练中典型的交叉验证工作流程图。通过网格搜索技术可以确定最佳参数。

因为可以调整参数,直到估计器达到最佳性能,所以测试仍然存在过拟合的风险。这样,有关测试集的知识可以“泄漏”到模型中并且评估指标不再报告泛化性能。为了解决这个问题,可以将数据集的另一部分作为所谓的“验证集”:训练在训练集上进行,之后对验证集进行评估,当实验似乎成功时,可以在测试集上进行最终评估。

但是,通过将可用数据划分为三个集合,我们大大减少了可用于学习模型的样本数量,并且结果可能取决于对(训练、验证)集的特定随机选择。

解决这个问题的方法是一个称为交叉验证(简称 CV)的程序。测试集仍应保留用于最终评估,但在执行 CV 时不再需要验证集。在模型训练期间使用,交叉验证将训练集拆分为更小的集,称为折叠。该模型使用除一个用于验证的折叠之外的所有折叠进行训练。在称为 k-fold CV 的基本方法中,训练集被分成 k 个更小的集合(其他方法如下所述,但通常遵循相同的原则)。对于每个 k 个“折叠”,都遵循以下过程:

  • 使用k−1折叠作为训练数据来训练模型;

  • 生成的模型在数据的剩余部分(即,它用作计算性能度量(例如准确性)的测试集。

k-fold 交叉验证报告的性能度量则是在循环中计算的值的平均值。这种方法的计算成本可能很高,但不会浪费太多数据(就像修复任意验证集时的情况一样),这在逆向推理等问题中是一个主要优势,其中样本数量非常少。

4. 结论

训练-测试拆分是机器学习管道中的关键步骤。它有助于模型评估、检测偏差和过度拟合,并有助于超参数优化。为了确保对模型进行真实且无偏见的评估,在进行任何数据预处理、编码、缩放或其他转换之前执行拆分至关重要。通过遵循这种做法,您可以构建不仅准确而且能够对新的、看不见的数据进行可靠预测的机器学习模型。

参考文献:

【1】The Significance of Train-Test Split in Machine Learning | by Ajay Verma | Artificial Intelligence in Plain English【2】Understanding Train-Test Splits
【3】2108.02497v1

【4】3.1. Cross-validation: evaluating estimator performance — scikit-learn 1.6.1 documentation

【5】Avoid machine learning pitfalls with train-test split | by Crystal Gould Perrott | Medium


文章转载自:

http://hqXnaIHP.npfkw.cn
http://dxJvTofl.npfkw.cn
http://dcm9DVgQ.npfkw.cn
http://iuopifA2.npfkw.cn
http://pOSo6giI.npfkw.cn
http://tTXo16c8.npfkw.cn
http://yAdpRjVC.npfkw.cn
http://FEtLyMbs.npfkw.cn
http://Jp0U2ANK.npfkw.cn
http://L9KsTiol.npfkw.cn
http://LJergN5E.npfkw.cn
http://tHAsHm5l.npfkw.cn
http://9jJZS3i8.npfkw.cn
http://l4OQImwi.npfkw.cn
http://vZdK6tpz.npfkw.cn
http://WUgMBhpW.npfkw.cn
http://IQ95qre1.npfkw.cn
http://nz4GQukN.npfkw.cn
http://dY3eLVKp.npfkw.cn
http://yJwXWb9Y.npfkw.cn
http://vbnk1S0R.npfkw.cn
http://sVhXeP3B.npfkw.cn
http://V81Y5xKf.npfkw.cn
http://XB07m6eg.npfkw.cn
http://2kPxG9P4.npfkw.cn
http://3GBGuYEZ.npfkw.cn
http://VqPlJxlY.npfkw.cn
http://vLdXZBSe.npfkw.cn
http://9MozgO1F.npfkw.cn
http://TFhbUpcT.npfkw.cn
http://www.dtcms.com/wzjs/725239.html

相关文章:

  • 网站制作 视频二级域名 wordpress
  • 为什么自己花钱做的网站竟然不是自己的?(哪些企业网站做的好
  • 律师事务所网站设计wordpress静态首页
  • 个人注什么域名的网站南宁老牌网站建设公司
  • 电子商务网站建设论文资料东坑仿做网站
  • iis下建多个网站郑州男科医院哪家治疗比较好
  • wordpress开通邮件注册安徽网络优化公司
  • 网站建设技术外文文献网站建设下载模板之后怎么修改
  • 网站怎么显示被k品牌建设与电商发展的关系
  • 设计师平台网站南京学习网站建设
  • 湛江做网站建设wordpress 素材站模板
  • 重庆万州网站建设多少钱好享购物官方网站购物
  • 云主机是不是可以搭建无数个网站网页游戏大厅下载
  • 制作网页网站公司wordpress链接亚马逊
  • 携程网网站推广方式沧州网站建设沧州
  • 建设银行亚洲官方网站个人网站备案名字不同
  • 徐州品牌网站建设免费下载百度到桌面
  • 网站风格有哪些类型安徽网站设计费用
  • 营销型网站建设步骤php+mysql网站开发技术与典型案例导航【源代码】
  • nodejs 网站开发模块在线优化网站
  • 网站开发并发处理如何申请一个网站
  • 长春建设厅官方网站网站建设电脑维修数据恢复
  • 茂名手机网站建设公司建房的网站
  • 泰州网站制作工具平面设计广告作品
  • 织梦做的网站怎么上传视频绍兴网站开发08keji
  • 网站建设企业类型是什么意思wordpress 广告代码
  • 北京网站定制价格表目前专业做水果的网站
  • 外贸网站制作哪家好可以做网站的公司有哪些
  • wordpress设置公众号东莞seo推广机构帖子
  • 做海报有哪些网站哔哩哔哩网站电子商务建设