新书速览|DeepSeek高效数据分析:从数据清洗到行业案例
拒绝低效,用DeepSeek重构你的数据分析工作流
01
本书内容
《DeepSeek高效数据分析:从数据清洗到行业案例》以DeepSeek大模型为核心工具,系统讲解其在数据分析与可视化中的创新应用。《DeepSeek高效数据分析:从数据清洗到行业案例》共12章。第1章简要介绍DeepSeek的技术架构、本地部署与在线开发环境,为后续分析奠定技术基础。第2~4章聚焦多源数据获取、数据清洗及预处理,提供标准化操作流程与代码实例。第5~8章介绍描述性统计、频数分析、相关性分析、线性/曲线/逻辑回归、K-Means聚类、时间序列分析等核心算法,结合GDP分析、商品评论挖掘等案例解析其应用逻辑。第9、10章通过混淆矩阵、ROC曲线、交叉验证等工具评估模型效果,剖析欠拟合/过拟合现象,并讲述如何生成结构化分析报告。第11、12章以金融量化和电商平台为场景,串联Jieba分词、词云生成、雷达图等工具,还原真实业务问题的解决路径。
02
本书作者
王国平,毕业于上海海洋大学,硕士,资深数据分析专家,从业10余年,主要从事数据可视化、数据挖掘和大数据分析与研究工作。已出版《动手学PyTorch建模与应用:从深度到大模型》、《动手学Excel数据分析与可视化》技术图书多种。
03
本书读者
《DeepSeek高效数据分析:从数据清洗到行业案例》内容新颖,案例丰富,每章配备可复用的实战代码,适合数据分析师及相关从业者,以及对AI数据分析感兴趣的人员阅读,也可作为各类学校相关专业的教学用书或参考书。
04
本书目录
第1章 DeepSeek概述1
1.1 DeepSeek大模型:重塑数据分析范式1
1.2 核心技术体系:构建智能分析闭环1
1.3 本地部署DeepSeek3
1.3.1 安装Ollama3
1.3.2 安装DeepSeek4
1.3.3 安装Chatbox4
1.3.4 API调用实战6
1.4 使用DeepSeek在线开发环境进行工作12
1.4.1 AI代码编辑器—Cursor12
1.4.2 如何用DeepSeek开始数据分析16
1.5 本章小结19
第2章 利用DeepSeek进行数据加载20
2.1 读取本地离线数据20
2.1.1 读取CSV文本数据20
2.1.2 读取Excel文件数据23
2.1.3 读取本地图片数据26
2.1.4 读取PDF文件数据28
2.1.5 读取XML格式数据32
2.2 读取数据库数据34
2.2.1 读取Oracle数据库数据35
2.2.2 读取MySQL数据库数据38
2.2.3 读取SQL Server数据库数据41
2.2.4 读取Kingbase数据库数据44
2.2.5 读取OceanBase数据库数据47
2.3 读取Web在线数据49
2.3.1 如何获取并解析Web数据49
2.3.2 读取UCI红酒在线数据51
2.4 本章小结54
第3章 利用DeepSeek进行数据清洗55
3.1 重复值的检测与处理55
3.1.1 重复值的检测方法55
3.1.2 重复值的处理60
3.2 缺失值的检测与处理63
3.2.1 缺失值的检测63
3.2.2 缺失值的处理67
3.3 异常值的检测与处理78
3.3.1 异常值的检测78
3.3.2 异常值的处理83
3.4 本章小结94
第4章 利用DeepSeek进行数据预处理95
4.1 数据集成95
4.1.1 数据集成概述95
4.1.2 数据横向合并97
4.1.3 数据纵向合并100
4.2 数据转换104
4.2.1 数据转换概述104
4.2.2 数据标准化处理方法105
4.2.3 数据二值化处理方法108
4.2.4 数据离散化处理方法111
4.3 数据集划分116
4.3.1 数据集划分概述116
4.3.2 训练集和测试集法117
4.3.3 训练集/验证集/测试集法120
4.3.4 分层抽样法123
4.4 本章小结126
第5章 利用DeepSeek进行数据探索128
5.1 描述性分析128
5.1.1 描述性分析概述128
5.1.2 案例:国内生产总值描述性分析130
5.2 频数分析133
5.2.1 频数分析概述133
5.2.2 案例:居民消费水平频数分析134
5.3 探索分析137
5.3.1 探索分析概述138
5.3.2 案例:商品评论得分探索分析138
5.4 交叉表分析141
5.4.1 交叉表分析概述141
5.4.2 案例:商品颜色交叉表分析142
5.5 相关分析144
5.5.1 相关关系概述144
5.5.2 案例:铁路和公路货运量分析146
5.6 偏相关分析149
5.6.1 偏相关分析概述150
5.6.2 案例:铁路和公路货运量分析150
5.7 本章小结153
第6章 利用DeepSeek进行回归分析154
6.1 线性回归154
6.1.1 线性回归概述154
6.1.2 案例:贷款申请人负债率分析157
6.2 曲线回归162
6.2.1 曲线回归概述162
6.2.2 案例:信用额度使用率分析163
6.3 逻辑回归168
6.3.1 逻辑回归概述168
6.3.2 案例:贷款客户是否违约分析168
6.4 本章小结172
第7章 利用DeepSeek进行聚类分析173
7.1 聚类分析简介173
7.2 K-Means聚类174
7.2.1 K-Means算法174
7.2.2 案例:水质监测聚类分析175
7.3 手肘法判断聚类数180
7.3.1 手肘法概述180
7.3.2 案例:手肘法判断聚类数181
7.4 轮廓系数法判断聚类数184
7.4.1 轮廓系数法185
7.4.2 案例:轮廓系数法判断聚类数185
7.5 本章小结189
第8章 利用DeepSeek进行时间序列分析190
8.1 时间序列分析概述190
8.1.1 时序数据简介190
8.1.2 时间序列算法192
8.2 指数平滑法及其案例193
8.2.1 指数平滑法193
8.2.2 案例:制造业采购经理指数预测195
8.3 ARIMA模型及其案例199
8.3.1 ARIMA模型199
8.3.2 案例:居民消费价格指数预测201
8.4 本章小结205
第9章 利用DeepSeek进行模型评估206
9.1 模型评估方法206
9.1.1 混淆矩阵及案例206
9.1.2 ROC曲线及案例211
9.1.3 R平方及案例215
9.1.4 残差及案例219
9.1.5 交叉验证及案例222
9.1.6 学习曲线及案例226
9.2 欠拟合及其案例231
9.2.1 欠拟合及其影响231
9.2.2 案例:波士顿房价回归分析231
9.3 过拟合及其案例235
9.3.1 过拟合及其影响236
9.3.2 案例:基于随机森林的鸢尾花分类236
9.4 本章小结240
第10章 利用DeepSeek撰写分析报告241
10.1 数据分析报告的作用241
10.2 DeepSeep撰写数据分析报告的注意事项242
10.3 案例:电商数据分析报告243
10.3.1 分析背景243
10.3.2 理解数据244
10.3.3 数据清洗245
10.3.4 数据分析246
10.3.5 案例总结264
10.4 本章小结264
第11章 案例:DeepSeek金融量化数据分析265
11.1 案例概述265
11.1.1 K线图技术理论265
11.1.2 案例数据采集266
11.2 数据基础分析269
11.2.1 查看数据集信息269
11.2.2 数据描述性分析272
11.2.3 数据可视化分析275
11.3 股票数据分析283
11.3.1 指标相关性分析283
11.3.2 指标趋势性分析286
11.3.3 股票交易时机分析289
11.4 本章小结292
第12章 案例:DeepSeek电商平台数据分析293
12.1 案例背景293
12.2 商品销售数据分析293
12.2.1 每日商品订单量日历图294
12.2.2 每月商品销售额折线图297
12.2.3 不同区域销售业绩雷达图300
12.3 商品评论文本分析303
12.3.1 中文Jieba分词概述303
12.3.2 商品评论关键词分析304
12.3.3 商品评论关键词词云307
12.4 本章小结310
05
编辑推荐
1.一站式掌握AI驱动的数据分析全流程 🌟
《DeepSeek高效数据分析:从数据清洗到行业案例》不仅是工具书,更是实战指南——它以当下热门的大模型平台DeepSeek为核心,系统讲解如何将人工智能技术融入数据处理的每一个环节。无论你是刚入门的数据分析师、科研工作者,还是希望提升业务洞察力的行业从业者,都能在这里找到可落地的解决方案!
2.三大核心亮点,助你领跑数据赛道 🚀
(1)上百个提示词模板+真实案例库
书中内置海量场景化的Prompt设计技巧,覆盖金融、电商、制造等多领域需求。例如:如何用自然语言指令快速提取PDF表格?怎样通过对话式交互完成异常值清洗?每个案例均提供可直接复用的代码片段与思路拆解,让你告别“从零开始摸索”的低效模式。
(2)10余种经典算法深度解析
从基础的线性回归到复杂的ARIMA时间序列预测,再到K-Means聚类与逻辑回归分类任务,作者不仅讲透原理,更结合DeepSeek的独特优势展示实操捷径。比如利用手肘法动态确定最佳簇数时,如何借助可视化工具瞬间定位拐点;构建信用评分模型时,怎样通过残差分析优化特征工程等。
(3)图表绘制黄金法则全公开
打破传统教程的碎片化教学!本书独创“三步法”作图框架:先明确分析目标→匹配合适图表类型(如雷达图展示区域绩效对比、词云凸显评论热点)→调用DeepSeek API自动生成专业级可视化结果。更有电商销售日历热力图、股票K线技术形态识别等高阶玩法等你解锁。
3.内容架构科学严谨,层层递进 📊
基础篇(第1-4章):手把手教你搭建本地开发环境,精通CSV/Excel/数据库等多源异构数据的加载技巧,掌握数据清洗、转换、集成的核心方法论。
进阶篇(第5-9章):深入探索描述性统计、相关分析、回归建模等核心方法,并通过混淆矩阵、ROC曲线等指标实现模型精准调优。独有的“欠拟合/过拟合诊断指南”,帮你避开机器学习常见陷阱。
实战篇(第10-12章):完整还原电商运营分析和金融量化交易两大经典场景。从撰写结构化报告的逻辑框架,到运用Jieba分词挖掘用户情感倾向;从股票指标关联性验证,到基于ARIMA模型的CPI预测——每一步都紧扣业务痛点,展现数据驱动决策的魅力。
4. 选择本书的理由
技术前沿性:紧跟大模型发展趋势,揭示如何将LLM应用于传统数据分析流程,实现降本增效。
强实践导向:所有理论知识均配套可运行的案例代码,支持快速迁移至实际项目。
跨学科视野:融合统计学、计算机科学与领域知识,培养复合型数据分析思维。
资源丰富:随书附赠提示词模板、示例源码与表格和PPT课件丰富资源。
5.本书适合的读者
数据分析师和企事业单位有数据分析需求的职场人士。
高校与数据分析相关专业的师生以及科研人士。
其他各类对AI数据分析感兴趣的各类人员。
立即翻开《DeepSeek高效数据分析:从数据清洗到行业案例》,让DeepSeek成为你的专属数据顾问!无论是处理报表还是构建预测模型,你都将发现:原来高效的数据分析可以如此简单!
06
本书特色
本文摘自《DeepSeek高效数据分析:从数据清洗到行业案例》,获出版社和作者授权发布。
DeepSeek高效数据分析:从数据清洗到行业案例——jdhttps://item.jd.com/15191834.html