当前位置: 首页 > news >正文

编程小白冲Kaggle每日打卡(13)--kaggle学堂:<机器学习简介>基础数据探索

Kaggle官方课程链接:Basic Data Exploration

本专栏旨在Kaggle官方课程的汉化,让大家更方便地看懂。

Basic Data Exploration

加载并理解您的数据。

使用Pandas熟悉您的数据

任何机器学习项目的第一步都是熟悉数据。您将使用Pandas库进行此操作。Pandas是数据科学家用来探索和操纵数据的主要工具。大多数人在代码中将pandas缩写为pd。

import pandas as pd

Pandas库最重要的部分是DataFrame。DataFrame包含您可能认为是表的数据类型。这类似于Excel中的工作表或SQL数据库中的表。

Pandas对于你想用这类数据做的大多数事情都有强大的方法。

例如,我们将查看澳大利亚墨尔本的房价数据。在实践练习中,您将把相同的过程应用于一个新的数据集,该数据集包含爱荷华州的房价。

示例(墨尔本)数据位于文件路径中/输入/墨尔本住房快照/melb_data.csv。

我们使用以下命令加载和浏览数据:

# save filepath to variable for easier access
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 
# print a summary of the data in Melbourne data
melbourne_data.describe()
RoomsPriceDistancePostcodeBedroom2BathroomCarLandsizeBuildingAreaYearBuiltLattitudeLongtitudePropertycount
count13580.0000001.358000e+0413580.00000013580.00000013580.00000013580.00000013518.00000013580.0000007130.0000008205.00000013580.00000013580.00000013580.000000
mean2.9379971.075684e+0610.1377763105.3019152.9147281.5342421.610075558.416127151.9676501964.684217-37.809203144.9952167454.417378
std0.9557486.393107e+055.86872590.6769640.9659210.6917120.9626343990.669241541.01453837.2737620.0792600.1039164378.581772
min1.0000008.500000e+040.0000003000.0000000.0000000.0000000.0000000.0000000.0000001196.000000-38.182550144.431810249.000000
25%2.0000006.500000e+056.1000003044.0000002.0000001.0000001.000000177.00000093.0000001940.000000-37.856822144.9296004380.000000
50%3.0000009.030000e+059.2000003084.0000003.0000001.0000002.000000440.000000126.0000001970.000000-37.802355145.0001006555.000000
75%3.0000001.330000e+0613.0000003148.0000003.0000002.0000002.000000651.000000174.0000001999.000000-37.756400145.05830510331.000000
max10.0000009.000000e+0648.1000003977.00000020.0000008.00000010.000000433014.00000044515.0000002018.000000-37.408530145.52635021650.000000

解读数据描述

结果显示原始数据集中每列有8个数字。第一个数字是计数,显示有多少行没有缺失值。

缺失值的出现有很多原因。例如,在调查一间卧室的房子时,不会收集第二间卧室的大小。我们将回到缺失数据的话题。

第二个值是平均值,即平均值。在这种情况下,std是标准偏差,它衡量的是数值的分散程度。

要解释最小值、25%、50%、75%和最大值,想象一下从最低值到最高值对每列进行排序。第一个(最小)值是最小值。如果你遍历列表的四分之一,你会发现一个大于值的25%但小于值的75%的数字。这就是25%的值(发音为“25th percentury”)。第50和第75百分位数的定义类似,最大值是最大的数字。

Your Turn

开始你的第一个编码练习

相关文章:

  • 从零开始:VirtualBox安装Ubuntu 24.04.1 LTS
  • 2025牛客寒假算法基础集训营6 个人补题 ACIJKL
  • 算法常见八股问题整理
  • 车载DoIP协议 --- TCP详细解析
  • 洛谷B3636
  • 关于GeoPandas库
  • CMOS图像传感器——偏振光图像传感器技术
  • HarmonyOS Design 介绍
  • 实验题目:SQL 数据更新、视图
  • Mybatis相关知识(学习自用)
  • Linux、Docker、Redis常见面试题
  • PLC通讯
  • 关于雷龙CS SD NAND(贴片式TF卡)的测评体验
  • 安装 redis 5.0.14 版本
  • 9.三重积分、线面积分、场论初步(基础知识)(二)
  • java实现二维码图片生成和编解码
  • Python开发Django面试题及参考答案
  • 重学SpringBoot3-WebClient配置与使用详解
  • conda环境中运行“python --version“所得的版本与环境中的python版本不一致----deepseek并非全能
  • Python爬虫基础重要数据类型
  • 郑州网站改版公司/郑州seo关键词
  • 怎么弄网站/优化模型数学建模
  • 奇趣网做网站/抖音推广渠道有哪些
  • 网站界面用什么做/企业网站制作与维护
  • wordpress 微博分享插件/seo整站优化费用
  • 平板上做网站的软件/电商运营主要工作内容