Day 22 复习日——泰坦尼克号人员生还预测
@浙大疏锦行
今日任务:
- 回顾前21天的内容
- 自行学习参考如何使用kaggle平台,写下使用注意点
- 对“泰坦尼克号人员生还预测”提交代码
简单回顾
在day 16 到day 21的学习中,主要涉及了以下内容:
- numpy数组介绍:数据的维度,基本的操作(如创建)
- 聚类算法:三种常见指标及意义,三种聚类算法的使用流程,寻找最佳K值的过程;对聚类后的标签赋予实际含义(明确过程以及AI辅助)
- 特征筛选:特征筛选的含义;六种特征筛选方法的使用与优缺点
- 特征降维:SVD奇异值分解、LDA、PCA及t-SNE降维方法的过程及适用场景
通过前15天的学习以及最近几天的学习后,可以基本上掌握机器学习基本流程 + 特征工程(筛选与降维)处理,也补全了无监督问题(聚类)的知识点。在这个过程中,也渐渐地体会到课堂上所说的半监督方法,具体是如何实现的,以及它的优势和应用。
Kaggle平台使用
kaggle平台提供了大量的数据集、免费的GPU计算资源以及各种比赛,并且可以学习别人的代码思路,去提升自己的能力。
首先注册完账号后,主要关注了以下四个区域:
- Competitions:入门赛和奖金赛
- Datasets:海量公开的数据集,可以下载数据集作为练习
- Code:提供在线编程环境(Python和R),可fork代码进行学习、修改
- Discussion:讨论区,学习思路、技巧等
进入比赛页面,发现页面有overview(概述)、data(数据下载)、code(代码,别人的方案)、discussion(讨论)以及leaderboard(排行榜)这几个部分。

泰坦尼克号数据集分析作为入门比赛,在overview中的介绍十分详细(包括平台的使用、数据集介绍、遇到问题等),按照它的说明,进行操作就好。
此外,还需要注意以下要点:
- 从入门赛开始,学会使用“Fork and Learn”。学习并理解别人操作的思路,比如数据清晰、构造特征、模型选择等
- 明确评估指标,每一个比赛可能不同
- 重视数据预处理步骤:数据清洗和特征工程往往比模型本身更重要
- 一个标准的机器学习项目流程通常是:数据加载 -> 探索性数据分析 -> 数据清洗与预处理 -> 特征工程 -> 模型选择与训练 -> 模型评估与调参 -> 生成预测结果并提交。
- 积极提问:遇到问题,先在Discussion里搜索,99%的问题都有人问过。如果没找到,大胆地用英文发帖提问,社区非常友好。
泰坦尼克号人员生还预测
根据Titanic Tutorial完成代码编写、上传工作
代码链接:Get_started_titanic
简单地走了一个数据预处理的流程,发现准确率为0.7655,不如默认的随机森林0.7751,可能是选择删除某几列而不是选择去处理(’Name‘,'Cabin','Ticket'),后面还需优化
