当前位置: 首页 > news >正文

AWS 公开数据集下载与操作说明

🌐 AWS 公开数据集下载与操作说明(以 SpaceNet 为例)

一、前置条件

在开始前,请确保已安装并配置好 AWS CLI 工具。

1. 安装 AWS CLI

可从官网下载安装:

👉 https://awscli.amazonaws.com/AWSCLIV2.msi

安装后通过以下命令验证:

aws --version

2. 本项目使用 无需认证 的公开数据,因此可以使用匿名访问:

--no-sign-request

二、SpaceNet 数据集介绍

SpaceNet 是 AWS 上托管的高分辨率遥感数据集,包含卫星影像(RGB、多光谱)、建筑物矢量标签、掩膜标签等,适用于目标识别、图像分割、场景分类等任务。

例如:AOI_2_Vegas 表示拉斯维加斯地区的影像与标注。


三、浏览远程数据目录结构

1. 查看数据列表

aws s3 --no-sign-request ls s3://spacenet-dataset/ --request-payer requester

image-20250608212611101

# 根目录说明(s3://spacenet-dataset/)AOIs/                        # SpaceNet 核心数据集的各个 AOI(Area of Interest)区域数据,如 Vegas、Paris 等;# 包含多光谱、全色锐化影像(PS-RGB, PS-MS)、建筑物标签(GeoJSON)、掩膜标签等Hosted-Datasets/            # SpaceNet 之外托管的其他遥感公开数据集,如 xView、DeepGlobe 等第三方数据(AWS 作为托管方)SpaceNet_Off-Nadir_Dataset/ # SpaceNet 提供的“偏视角”数据集(Off-Nadir),包括不同倾角(7.5° 到 54°)拍摄的影像及标签;# 适合研究视角变化对识别精度的影响等问题spacenet-model-weights/     # 官方训练好的模型权重(如 UNet、Mask R-CNN 等),用于快速实验和模型加载验证spacenet-stac/              # SpaceNet 数据的 STAC(SpatioTemporal Asset Catalog)索引目录;# 提供标准化的 JSON 描述,便于程序化检索与集成,适用于自动化系统或云平台分析spacenet/                   # SpaceNet 比较早期版本的原始数据,结构略不同;# 可视为 Legacy 数据集,不推荐作为首选,除非用于比对或历史研究LICENSE.md                  # 数据集使用许可说明,通常是 CC-BY(署名共享),下载和使用前建议查看许可内容

2. 列出 AOI 目录下的所有文件夹

aws s3 --no-sign-request ls s3://spacenet-dataset/AOIs/ --request-payer requester

image-20250608212951319

# SpaceNet AOI 列表说明(每个目录代表一个城市或区域的遥感数据)AOI_1_Rio/                # 巴西里约热内卢区域的高分辨率卫星影像与建筑物标注数据
AOI_2_Vegas/              # 美国拉斯维加斯区域,包含多光谱影像和建筑物标签,常用作基准数据集
AOI_3_Paris/              # 法国巴黎区域的遥感影像和建筑物标注,适合城市建筑识别任务
AOI_4_Shanghai/           # 中国上海区域的高分辨率卫星影像,适合大城市建筑物提取与变化检测
AOI_5_Khartoum/           # 苏丹喀土穆区域数据,涵盖不同气候与地理环境的遥感影像
AOI_6_Atlanta/            # 美国亚特兰大区域,适合城市道路和建筑识别研究
AOI_7_Moscow/             # 俄罗斯莫斯科区域的卫星影像,适合复杂城市场景分析
AOI_8_Mumbai/             # 印度孟买区域,具有高人口密度城市的遥感数据
AOI_9_San_Juan/           # 波多黎各圣胡安区域,适合岛屿和城市混合场景研究
AOI_10_Dar_Es_Salaam/     # 坦桑尼亚达累斯萨拉姆区域,城市与自然环境混合
AOI_11_Rotterdam/         # 荷兰鹿特丹区域,包含复杂水陆混合的城市影像数据

3. 查看某一 AOI 的内容(例如 AOI_2_Vegas):

aws s3 --no-sign-request ls s3://spacenet-dataset/AOIs/AOI_2_Vegas/ --request-payer requester

image-20250608213117895
常见子目录包括:

  • PS-RGB/:全色锐化 RGB 影像(.tif)
  • geojson_buildings/:建筑物标签(.geojson)
  • raster_labels/:掩膜标签(.tif)
  • metadata/:数据说明与参数信息(.json、.csv)

四、下载数据

使用 sync 命令可以将 S3 上的指定目录与本地文件夹同步:

示例:下载 RGB 影像

aws s3 --no-sign-request sync s3://spacenet-dataset/AOIs/AOI_2_Vegas/PS-RGB/ ./spacenet2_vegas/PS-RGB/ --request-payer requester

示例:下载建筑物矢量标签

aws s3 --no-sign-request sync s3://spacenet-dataset/AOIs/AOI_2_Vegas/geojson_buildings/ ./spacenet2_vegas/geojson_buildings/ --request-payer requester

示例:下载掩膜标签

aws s3 --no-sign-request sync s3://spacenet-dataset/AOIs/AOI_2_Vegas/raster_labels/ ./spacenet2_vegas/raster_labels/ --request-payer requester

五、参数说明

参数说明
--no-sign-request使用匿名访问,适用于无需授权的公开数据集
--request-payer requester指定下载方承担 S3 流量费用(公开数据集通常需要)
sync增量同步文件夹,仅下载本地不存在或已更新的文件
ls查看远程 S3 桶目录结构

六、常见问题与解决方法

问题 1:执行 sync 后没有下载任何文件?

可能原因:

  • 路径错误(如遗漏 AOIs/ 前缀)
  • 本地已有文件,sync 判断无需更新
  • 网络或代理限制访问 AWS S3

解决办法:

  • 确认远程路径拼写正确

  • 添加 --dryrun 参数测试将会下载哪些文件:

    aws s3 --no-sign-request sync s3://... ./local_path/ --request-payer requester --dryrun
    
  • 使用 --debug 参数排查详细过程

  • 切换网络或使用 VPN 测试是否为网络限制


七、附录:示例本地目录结构

spacenet2_vegas/
├── PS-RGB/                 # 卫星影像(.tif)
├── geojson_buildings/     # 建筑物标签(.geojson)
├── raster_labels/         # 掩膜标签(.tif)

相关文章:

  • iOS 抖音导航栏首页一键分两列功能的实现
  • 【iOS】多线程NSOperation,NSOperationQueue
  • 从零开始打造 OpenSTLinux 6.6 Yocto 系统(基于STM32CubeMX)(十二)
  • 【iOS】 Block再学习
  • Ubuntu20.04中 Redis 的安装和配置
  • Cursor 编辑器, 使用技巧,简单记录一下
  • 【人工智能 | 项目开发】Python Flask实现本地AI大模型可视化界面
  • 2025年与2030年AI及AI智能体 (Agent) 市场份额分析报告
  • 【GO性能优化】第十五章:性能优化艺术——揭秘Go程序的性能调优技巧
  • CppCon 2015 学习:Live Lock-Free or Deadlock
  • MS39531N 是一款正弦驱动的三相无感直流电机驱动器,具有最小振动和高效率的特点
  • Perplexity AI:重塑你的信息探索之旅
  • 树莓派超全系列教程文档--(57)如何设置 Apache web 服务器
  • VLM引导的矢量草图生成AutoSketch
  • JS手写代码篇---手写ajax
  • 【ROS2】核心概念8——参数设置(Parameters)
  • Java 面向对象进阶之多态:从概念到实践的深度解析
  • ckeditor5的研究 (9):写一个自定义插件,包括自定义的toolbar图标、插入当前时间,并复用 CKEditor5 内置的 UI 组件
  • Unity中的Mathf.Clamp01
  • 端午编程小游戏--艾草驱邪
  • 做直播网站赚钱吗/百度推广区域代理
  • 企业网站托管如何更有效/论坛优化seo
  • 上传图片到 wordpress评论/南京百度seo排名
  • 雄安免费网站建设方案/北京网站推广公司
  • 广东网页空间网站/百度seo关键词优化软件
  • 房产汽车网站模板/购物网站哪个最好