第5问 对于数据分析领域,统计学要学到什么程度?
1. 统计学在数据分析中的定位
核心作用:统计学是数据分析的底层方法论,涵盖数据描述、推断预测和模型构建。
两大分支:
描述统计(EDA阶段):数据清洗、特征工程的基础(如均值/分布/可视化)。
推断统计:AB测试、回归预测等业务场景的核心工具。抽样分布理论、参数估计、假设检验、方差分析、回归分析、时间序列分析等
2. 学习路径建议
宏观框架优先:先建立知识地图(如统计学的核心模块和应用场景),再深入细节。
分层学习法:
入门必学(80%场景覆盖):
基础统计量(均值/标准差/分位数)
概率分布(正态/泊松/二项分布)
抽样与置信区间
假设检验(P值/显著性)
相关性分析与线性回归
8种基础数据可视化图表
进阶选学(特定需求):
时间序列分析
多元统计(聚类/因子分析)
贝叶斯统计
实验设计(DOE)
3. 深度把控原则
实践导向:
工具优先:掌握Excel/Python/R的统计函数(如
scipy.stats
、sklearn
),无需手推公式。例外场景:面试需理解原理(如中心极限定理的推导、假设检验的数学逻辑)。
学习资源:
入门教材:贾俊平《统计学》前6章 + 回归分析章节
工具书:《Python数据分析手册》《R语言实战》
统计学书籍推荐表
书名 | 作者 | 特点 | 使用场景 |
---|---|---|---|
《深入浅出统计学》 | 道恩·格里菲思(李芳 译) | 结合图像和小例子的形式进行讲解,阅读轻松 | 入门 |
《赤裸裸的统计学》 | 查尔斯·韦兰(曹槟 译) | 生动诙谐的案例,通俗易懂,图文并茂,学习统计学不会那么枯燥 | 入门 |
《统计学:从数据到结论》 | 吴喜之 | 没有复杂的公式,内容讲得通透。内容不死板,一本小书一天就看完 | 入门 |
《大话统计学》 | 陈文贤、陈静枝 | 前后连贯,各章呼应。可从零开始接触统计学,并真正应用到工作中 | 入门 |
《应用统计学》 | 张梅琳 | 从实用场景出发的高频统计学知识点,3~4个小时就能看完 | 进阶 |
《统计学》 | 贾俊平 | 数学原理讲解完整 | 深入 |
《统计学习方法》 | 李航 | 与机器学习结合 |
4. 关键提醒
避免过度学习:非算法岗无需深究数理证明(如马尔可夫链收敛性)。
业务结合:销售分析重描述统计+回归;用户行为分析需掌握假设检验。
持续迭代:工作中遇到新需求(如生存分析)再针对性补足。
示例场景:
分析电商促销效果时,只需:
用描述统计计算销售额均值/环比(Excel函数)
用假设检验判断活动是否显著提升销量(Python的
ttest_ind
)用散点图展示价格与销量的相关性(Matplotlib)
无需推导t分布公式,但需看懂P值结论。