当前位置：首页 > news >正文

从零开始：Kaggle 竞赛实战入门指南

news 2025/8/2 17:00:17

一、Kaggle社区概述

Kaggle 是全球最大的数据科学和机器学习社区，由Anthony Goldbloom于2010年创立，2017年被Google收购。平台专注于数据科学竞赛、开源数据集共享、协作编程以及技能学习，吸引了从初学者到专业数据科学家的广泛用户群体。

1、核心功能

竞赛（Competitions）
Kaggle以举办数据科学竞赛闻名，企业和组织通过发布数据集和问题，邀请社区成员提交解决方案。优胜者通常获得奖金或职业机会，竞赛涵盖预测建模、自然语言处理、计算机视觉等领域。

数据集（Datasets）
平台提供超过50,000个开源数据集，涵盖医疗、金融、体育等多个领域。用户可上传、下载数据集，并通过版本控制和讨论功能协作优化数据质量。

代码笔记本（Notebooks）
集成Jupyter Notebook环境，支持Python和R语言。用户可编写、运行代码，并分享给社区。优秀笔记本常被标记为“Expert”或“Grandmaster”，提升个人影响力。

学习资源（Courses）
提供免费的数据科学课程，涵盖Python、机器学习、数据可视化等主题。课程以实践为导向，适合不同水平的学习者。

社区与协作
用户可通过论坛（Discussion）提问或分享见解，形成活跃的技术交流氛围。Kaggle还设有“团队”功能，允许成员组队参与竞赛。

2、用户等级体系

Kaggle通过贡献度划分用户等级，从Novice到Grandmaster。等级依据竞赛排名、笔记本投票、数据集和讨论质量等综合评定，激励用户持续参与。

4、影响力与价值

Kaggle不仅是技能提升平台，也是企业招聘的重要渠道。许多用户通过竞赛成绩和项目展示获得职业机会。此外，平台推动了开源文化，助力解决现实世界的数据问题。

二、注册 Kaggle 账号

https://kagglecn.com

1、注册验证码问题

Captcha must be filled out.

在注册 Kaggle 时，通常会因为网络问题导致提交表单时验证码报错：

在这里插入图片描述

2、解决方案

以谷歌浏览器为例，先下载插件 Header Editor 4.1.1.crx，然后打开拓展程序管理页面chrome://extensions/，开启开发者模式，直接把插件拖进来或者点击左上角的加载已解压的扩展程序：

在这里插入图片描述

此时启用拓展程序，进行配置：

在这里插入图片描述

切到导出和导入页签，在下载规则的 URL 栏位输入 https://azurezeng.com/static/HE-GoogleRedirect.json，点击下载按钮，等待导入结果刷新，最后点击保存：

在这里插入图片描述

以火狐浏览器为例，同样先下载插件header_editor-4.1.1.xpi，然后打开拓展管理页面about:addons，直接把插件拖进去，同样地启用配置插件：

在这里插入图片描述

刷新 Kaggle 注册页面，可以看到验证码正常显示了：

在这里插入图片描述

注册成功！

三、竞赛指南

Competitions->Getting Started，在竞赛页面开始部分，可以看到有一些较为容易上手的机器学习竞赛项目，我们选择其中的“泰坦尼克号生存者预测”作为开始。

在这里插入图片描述

1、赛事任务

使用机器学习创建一个模型来预测哪些乘客在泰坦尼克号沉船灾难中幸存下来。

在这里插入图片描述

2、数据集

在这里插入图片描述

该赛事一共提供了三个数据集：

训练集(train.csv)

核心用途：用于构建机器学习模型
关键特征：包含乘客性别、舱位等级等特征字段
特殊属性：提供每个乘客的生存结果
扩展功能：支持通过特征工程创建新特征

测试集(test.csv)

核心用途：评估模型在未知数据上的表现
关键差异：不提供乘客生存的真实结果
用户任务：需使用训练好的模型预测乘客生存状态
应用场景：模拟真实业务中的预测场景

示例文件(gender_submission.csv)

示范性质：展示标准提交文件的格式规范
设计目的：演示预测结果的文件结构，说明二分类问题的提交格式。

如果需要本地环境进行实验的话，可以点击 Download All 下载全部数据集：

在这里插入图片描述

3、代码教程

Titanic Tutorial 介绍了代码如何实现训练模型并提交第一个预测结果：

在这里插入图片描述

可以点进链接直接查看 notebook：

在这里插入图片描述

当然也可以复制一份 notebook：

在这里插入图片描述

四、上手实战

1、创建一个Notebook

在这里插入图片描述

自动创建的 Notebook 会自动生成一段代码，它引导我们如何读取文件输入。

2、导入数据集

我们可以在线导入竞赛数据集：

在这里插入图片描述

此时按下 [Shift] + [Enter] 执行代码，则对应输出三个文件路径。

除了在线导入数据集，我们也可以上传本地数据集：

在这里插入图片描述

3、加载数据

读取训练集数据，并查看前5行数据：

train_data = pd.read_csv("/kaggle/input/titanic/train.csv")
train_data.head()

在这里插入图片描述

读取测试集数据，并查看前5行数据：

test_data = pd.read_csv("/kaggle/input/titanic/test.csv")
test_data.head()

在这里插入图片描述

4、建立模型

Tutorial 中构建了一个名为随机森林的模型，该模型由多棵"决策树"组成，每棵树将独立分析每位乘客的数据，并对其是否幸存进行投票，最终，随机森林模型将通过‌民主决策‌确定结果：得票最高的结果即为预测结果。

Tutorial 代码通过分析数据中的四个字段（“Pclass”（舱位等级）、“Sex”（性别）、“SibSp”（同行兄弟姐妹/配偶数）和"Parch"（同行父母/子女数））来寻找规律，它将基于 train.csv 训练集文件中的数据规律构建随机森林模型中的决策树，随后对 test.csv 测试集中的乘客生成预测结果，同时，代码会将预测结果保存至 submission.csv 文件中。

from sklearn.ensemble import RandomForestClassifiery = train_data["Survived"]features = ["Pclass", "Sex", "SibSp", "Parch"]
X = pd.get_dummies(train_data[features])
X_test = pd.get_dummies(test_data[features])model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
model.fit(X, y)
predictions = model.predict(X_test)output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': predictions})
output.to_csv('submission.csv', index=False)
print("Your submission was successfully saved!")