当前位置：首页 > wzjs >正文

南和网站建设公司中央新闻频道直播今天

wzjs 2025/8/4 6:37:08

南和网站建设公司,中央新闻频道直播今天,亚马逊雨林在哪个国家,海口网站建设费用结合 Pandas 使用 SQLite3 实战让数据分析更高效！用 Pandas 直接读写 SQLite3 数据，告别手动拼接 SQL 语句！ 1 环境准备确保已安装 pandas 和 sqlite3（前者需单独安装，后者是 Python 内置）：…

结合 Pandas 使用 SQLite3 实战

让数据分析更高效！用 Pandas 直接读写 SQLite3 数据，告别手动拼接 SQL 语句！

1 环境准备

确保已安装 pandas 和 sqlite3（前者需单独安装，后者是 Python 内置）：

pip install pandas

2 从 SQLite3 读取数据到 DataFrame

基础用法：读取整个表

import pandas as pd
import sqlite3# 连接到数据库
conn = sqlite3.connect('test.db')# 读取 users 表到 DataFrame
df = pd.read_sql('SELECT * FROM users', conn)
print(df.head())  # 查看前5行数据# 关闭连接
conn.close()

高级用法：筛选和聚合

query = '''SELECT name, AVG(age) as avg_age   -- 计算平均年龄FROM users WHERE age > 20 GROUP BY name
'''
df = pd.read_sql(query, conn)
print(df)

3 将 DataFrame 写入 SQLite3

基本写入（全量覆盖）

# 创建一个示例 DataFrame
data = {'name': ['David', 'Eve'],'age': [28, 32],'email': ['david@test.com', 'eve@test.com']
}
df = pd.DataFrame(data)# 写入到 users 表（全量覆盖）
df.to_sql(name='users',     # 表名con=conn,         # 数据库连接if_exists='replace',  # 如果表存在，直接替换（慎用！）index=False       # 不保存 DataFrame 的索引列
)
conn.commit()

追加数据（增量写入）

df.to_sql(name='users',con=conn,if_exists='append',  # 追加到现有表index=False
)
conn.commit()

4 实战场景：数据清洗 + 入库

假设有一个 CSV 文件 dirty_data.csv，需要清洗后存入 SQLite3：

id,name,age,email
1, Alice,30,alice@example.com
2, Bob , invalid, bob@example.com  # 错误年龄
3, Charlie,35,missing_email

步骤 1：用 Pandas 清洗数据

# 读取 CSV
df = pd.read_csv('dirty_data.csv')# 清洗操作
df['age'] = pd.to_numeric(df['age'], errors='coerce')  # 无效年龄转为 NaN
df = df.dropna(subset=['age'])                        # 删除年龄无效的行
df['email'] = df['email'].fillna('unknown')            # 填充缺失邮箱
df['name'] = df['name'].str.strip()                   # 去除名字前后空格print(df)

步骤 2：写入数据库

with sqlite3.connect('test.db') as conn:# 写入新表 cleaned_usersdf.to_sql('cleaned_users', conn, index=False, if_exists='replace')# 验证写入结果df_check = pd.read_sql('SELECT * FROM cleaned_users', conn)print(df_check)

5 性能优化：分块写入大数据

处理超大型数据时（如 10 万行），避免一次性加载到内存：

# 分块读取 CSV（每次读 1 万行）
chunk_iter = pd.read_csv('big_data.csv', chunksize=1000)with sqlite3.connect('big_db.db') as conn:for chunk in chunk_iter:# 对每个块做简单处理chunk['timestamp'] = pd.to_datetime(chunk['timestamp'])# 分块写入数据库chunk.to_sql(name='big_table',con=conn,if_exists='append',  # 追加模式index=False)print("全部写入完成！")

6 高级技巧：直接执行 SQL 操作

Pandas 虽然强大，但复杂查询仍需直接操作 SQL：

# 创建临时 DataFrame
df = pd.DataFrame({'product': ['A', 'B', 'C'], 'price': [10, 200, 150]})# 写入 products 表
df.to_sql('products', conn, index=False, if_exists='replace')# 执行复杂查询（连接 users 和 orders 表）
query = '''SELECT u.name,p.product,p.priceFROM users uJOIN orders o ON u.id = o.user_idJOIN products p ON o.product_id = p.idWHERE p.price > 10
'''
result_df = pd.read_sql(query, conn)
print(result_df)

7 避坑指南

数据类型匹配问题：

SQLite 默认所有列为 TEXT，但 Pandas 会自动推断类型。

写入时可用 dtype 参数手动指定类型：

df.to_sql('table', conn, dtype={'age': 'INTEGER', 'price': 'REAL'})

主键和索引：
- Pandas 不会自动创建主键或索引，需提前用 SQL 语句定义表结构。
性能瓶颈：
- 写入大量数据时，关闭事务自动提交可提速：
```
with conn:df.to_sql(...)  # 使用上下文管理器自动提交
```

8 总结

通过 Pandas + SQLite3 的组合，你可以：
✅ 快速导入/导出数据：告别手动拼接 SQL 语句。
✅ 无缝衔接数据分析：清洗、计算、可视化后直接入库。
✅ 处理海量数据：分块读写避免内存爆炸。

下一步建议：

尝试将 Excel/CSV 文件自动同步到 SQLite3 数据库。
学习使用 sqlalchemy 库增强 SQL 操作能力。

查看全文

http://www.dtcms.com/wzjs/212421.html

多米诺网站建设电话营销话术

网站ssl证书怎么做网站怎么做推广和宣传

建立网站需要什么条件营销方案模板

网站建设丶金手指下拉14提升网页优化排名

做网站的微信号东莞做网站公司电话

宿迁新站seo今日国际重大新闻

温州网站开发培训南昌seo教程

网站建设经费nba赛程排名

工作是套模板做网站广告投放网

汕头市疫情最新情况seo内容优化心得

改进网站的建议北海百度seo

烟台网站建设-中国互联抖音营销推广方案

微店那样的网站怎么做seo兼职平台

网站建设要多少钱seo系统培训班

做网站零成本百度指数搜索

做网站前的准备什么软件企业推广网站有哪些

做移动网站设计seo网站优化方案书

公司免费网站建设网站关键词排名查询工具

东莞阳光网疫情最新消息网站页面关键词优化

网站模板安全吗百度推广课程

装修公司需要多少钱北京网站优化效果

织梦网站被做跳转域名访问网站怎么进入

陕西住房与城乡建设厅网站淘宝摄影培训推荐

淘宝店的网站建设分析一个域名大概能卖多少钱

网站建设基本步骤如何分析百度指数

h5作品网站企业的互联网推广

没有文章更新的网站怎么做优化北京seo优化服务

上海建设银行网站静安支行万能导航网

用php做动态网站搜索引擎营销的特点包括

做众筹网站要什么资质郑州网站推广公司哪家好