当前位置: 首页 > news >正文

Day 22 复习日——泰坦尼克号人员生还预测

@浙大疏锦行

今日任务:

  1. 回顾前21天的内容
  2. 自行学习参考如何使用kaggle平台,写下使用注意点
  3. 对“泰坦尼克号人员生还预测”提交代码

简单回顾

在day 16 到day 21的学习中,主要涉及了以下内容:

  • numpy数组介绍:数据的维度,基本的操作(如创建)
  • 聚类算法:三种常见指标及意义,三种聚类算法的使用流程,寻找最佳K值的过程;对聚类后的标签赋予实际含义(明确过程以及AI辅助)
  • 特征筛选:特征筛选的含义;六种特征筛选方法的使用与优缺点
  • 特征降维:SVD奇异值分解、LDA、PCA及t-SNE降维方法的过程及适用场景

通过前15天的学习以及最近几天的学习后,可以基本上掌握机器学习基本流程 + 特征工程(筛选与降维)处理,也补全了无监督问题(聚类)的知识点。在这个过程中,也渐渐地体会到课堂上所说的半监督方法,具体是如何实现的,以及它的优势和应用。

Kaggle平台使用

kaggle平台提供了大量的数据集、免费的GPU计算资源以及各种比赛,并且可以学习别人的代码思路,去提升自己的能力。

首先注册完账号后,主要关注了以下四个区域:

  • Competitions:入门赛和奖金赛
  • Datasets:海量公开的数据集,可以下载数据集作为练习
  • Code:提供在线编程环境(Python和R),可fork代码进行学习、修改
  • Discussion:讨论区,学习思路、技巧等

进入比赛页面,发现页面有overview(概述)、data(数据下载)、code(代码,别人的方案)、discussion(讨论)以及leaderboard(排行榜)这几个部分。

泰坦尼克号数据集分析作为入门比赛,在overview中的介绍十分详细(包括平台的使用、数据集介绍、遇到问题等),按照它的说明,进行操作就好。

此外,还需要注意以下要点:

  • 从入门赛开始,学会使用“Fork and Learn”。学习并理解别人操作的思路,比如数据清晰、构造特征、模型选择等
  • 明确评估指标,每一个比赛可能不同
  • 重视数据预处理步骤:数据清洗和特征工程往往比模型本身更重要
  • 一个标准的机器学习项目流程通常是:数据加载 -> 探索性数据分析 -> 数据清洗与预处理 -> 特征工程 -> 模型选择与训练 -> 模型评估与调参 -> 生成预测结果并提交。
  • 积极提问:遇到问题,先在Discussion里搜索,99%的问题都有人问过。如果没找到,大胆地用英文发帖提问,社区非常友好。

泰坦尼克号人员生还预测

根据Titanic Tutorial完成代码编写、上传工作

代码链接:Get_started_titanic

简单地走了一个数据预处理的流程,发现准确率为0.7655,不如默认的随机森林0.7751,可能是选择删除某几列而不是选择去处理(’Name‘,'Cabin','Ticket'),后面还需优化

http://www.dtcms.com/a/524899.html

相关文章:

  • Linux串口应用编程
  • 微信连接微网站吗奉化网站关键词优化费用
  • 做网站要多大的画布婚庆网站建设需求分析
  • Java Record 详解
  • UVa 1635 Irrelevant Elements
  • 个人网站怎么做推广网站设计怎么收费
  • 做招聘网站需要多少钱网站建设需要工作计划
  • Java—继承
  • 开发网站需要什么硬件网站建设公司调研汇报ppt
  • SMDJ15CA双向TVS瞬态抑制二极管:15V双向电压SMC封装
  • 【基础复习2】过采样,欠采样与SMOTE:含代码示例
  • Spring/Spring Boot工程中Bean间歇性存在的问题
  • FactionTemplate.db2
  • AI 工具网站如何快速起量?一篇讲清新词、外链与选品逻辑
  • 坪洲网站建设惠济区建设局网站
  • UVa 13099 Tobby and the Line Game
  • bash的“进程替换 + 重定向”和“传统管道”
  • 4-ARM-PEG-Olefin(2)/Biotin(2),四臂聚乙二醇-烯烃/生物素多功能支链分子,多功能分子构建
  • 网站的建设与维护工资网站建设的原则有哪些内容
  • 日常推荐电脑小知识——1
  • 外贸网站建设及推广网站优化员seo招聘
  • PLM实施专家宝典:离散制造企业研发数据“数字基因”构建方案
  • 攻克 PCB 高低差字符检测痛点!维视自聚焦系统解锁电子制造智能新范式
  • 网站设计方案怎么写莱州人才网
  • 基于单片机的鱼缸监测与远程管理系统设计
  • ECSide标签<ec:table>表格对不齐问题处理
  • 南平住房和城乡建设部网站微信引流被加软件
  • 场馆预定系统小程序
  • Tauri 为什么仍未取代 Electron?
  • 个人网站做联盟营销网站集约化建设的优势