当前位置：首页 > news >正文

LLMs之Data之smallpond：smallpond(基于DuckDB和3FS的一个轻量级的数据处理框架)的简介、安装和使用方法、案例应用之详细攻略

news 2025/10/16 17:50:46

smallpond的简介

1、特点

2、基准测试评估

smallpond的安装和使用方法

1、安装

2、使用方法

smallpond的案例应用

smallpond的简介

smallpond是一个轻量级的数据处理框架，构建在DuckDB和3FS之上。它旨在提供高性能的数据处理能力，能够处理PB级规模的数据集，并且易于操作，无需长时间运行的服务。
总而言之，smallpond是一个轻量级、高性能的数据处理框架，它结合了DuckDB和3FS的优势，能够高效地处理大规模数据集。其简洁的API和易于使用的特性使其成为处理大型AI数据集的理想工具。 GraySort基准测试结果也证明了其在实际应用中的高性能。

GitHub地址：https://github.com/deepseek-ai/smallpond

1、特点

>> 高性能：利用DuckDB的高性能数据处理引擎。
>> 可扩展性：能够处理PB级规模的数据集。
>> 轻量级：无需长时间运行的服务，易于部署和使用。
>> 基于DuckDB和3FS：充分利用DuckDB的查询处理能力和3FS的分布式存储能力。
>> 简易操作：提供简洁易用的API，方便用户进行数据读取、处理和保存。

2、基准测试评估

项目中使用GraySort基准测试评估了smallpond的性能。在包含50个计算节点和25个运行3FS的存储节点的集群上，smallpond对110.5 TiB的数据进行了排序，耗时30分钟14秒，平均吞吐量为3.66 TiB/min。这个结果充分展示了smallpond在处理大规模数据集时的效率，并且说明了它与3FS的良好集成。

smallpond的安装和使用方法

1、安装

smallpond支持Python 3.8到3.12版本。安装方法十分简单：

pip install smallpond

2、使用方法

smallpond 提供了简洁的API用于数据处理。以下是一个简单的示例：
这个例子展示了如何读取parquet文件，进行数据分区，使用SQL语句进行数据处理，并将结果保存为parquet文件。

# 初始化会话
import smallpond
sp = smallpond.init()

# 读取数据
df = sp.read_parquet("prices.parquet")
# 数据处理 (使用DuckDB SQL)
df = df.repartition(3, hash_by="ticker")  # 数据分区
df = sp.partial_sql("SELECT ticker, min(price), max(price) FROM {0} GROUP BY ticker", df) # SQL查询
# 保存结果
df.write_parquet("output/")
# 显示结果
print(df.to_pandas())