《深入浅出数据分析》笔记
目录
背景:
学习方法
所要做的事情
目标:
第一章 数据分析引言 分解数据
固定基本流程
确定问题
客户将帮助你确定问题,客户是分析结果的服务对象。
你的客户可能
把问题和数据分解为更小的组块
评估组块-分析
提出建议(决策)
报告
背景-数据解说-建议
心智模型(处理信息的工具)&查看不确定范围
原始数据
案例-汇报
回顾你的工作
第二章 实验 检验你的理论(随机控制实验)
为了想出提高星巴仕咖啡销量的办法,你认为哪种做法是最好的起点?
对随机的看法
比较法
观察研究法
搜集观察数据往往是通过实验取得更有用数据的第一步。
价值问题
观察分析法充满混杂因素。
如果你想对与数据相符合但并未在数据中充分体现的事情做出结论,就需要用理论将它们联系起来。
控制组
避免解雇123
减价的效果
第三章 最优化 寻找最大值
你需要哪些数据才能解决这个问题?
可以将所需要的数据分成两类:无法控制的因素,可以控制的因素。
你能控制的变量受到约束条件的限制
决策变量却是你能控制的因素
目标函数
可行区域-添加约束条件
一切模型都是错误的,但其中一些是有用的。
提防负相关变量
你的假设立足于不断变化的实际情况
第四章 数据图形化 图形让你更精明(散点图)
数据太多绝不会成为你的问题
让数据变美观也不是你要解决的问题(次要的)
数据图形化的根本在于正确比较
使用散点图探索原因
最优秀的图形都是多元图形
优秀的图形设计有助于思考的原因(初步-假设与数据吻合)
根据所了解到的信息,你想向客户提供哪些网站战略建议?
第五章 假设检验 假设并非如此(证伪法-处理异质数据源)
诊断性
第六章 贝叶斯统计 穿越第一关
条件概率即以一件事的发生为前提的另一件事的发生概率。
事前概率(基础概率)
小心基础概率谬误
用简单的整数思考复杂的概率
第七章 主观概率 信念数字化
主观概率
标准偏差量度分析点与平均值的偏差
贝叶斯规则是修正主观概率的好办法
第八章 启发法 凭人类的天性作分析
启发法
使用快省树
第九章 直方图 数字的形状
R语言和RStudio安装教程(详细版)
概率与统计06 直方图
【认识100个图表】030:深入解析直方图,完全解读版/excel 如何画 直方图/histogram
多峰分布的定义
正态分布的定义
第十章 回归 预测
算法
可能需要预测的问题:
不能不问的问题:
使用平均值图形预测每个区间内的数值
回归线预测出人们的实际加薪幅度
回归线对于具有线性相关特点的数据很有用
你需要用一个等式进行精确预测
第十一章 误差 合理误差
外插法
如何对待想对数据范围以外的情况进行预测的客户
机会误差=实际结果与模型预测结果之间的偏差
用均方根误差定量表示残差分布
分割的根本目的是管理误差
第十二章 关系数据库 你能关联吗?
第十三章 整理数据 井然有序
该怎么从头开始处理这些乱哄哄的数据呢?
清理混乱数据的根本在于准备
为数据排序,让重复数值集中出现
背景:
深入浅出数据分析2021年10月1日出版
为方便读者审评,部分术语翻译对照表可在此下载:
http://images.china-pub.com/ebook195001-200000/197047/shuyu.pdf(无法访问)
2010年2月以前这本书就存在了
《深入浅出数据分析》讲的是如何成为数据分析师,尽管你在本书中会学到相当多的软件工具,但它们不过是手段而已,目的是学习如何进行出色的数据分析。
学习方法
- 将知识图形化。
图形比单调的文字好记得多,可以提高学习效率(记忆学习和转移学习的学习效率最多能提高89%);图形还能让知识更容易理解,相比将文字放在页脚和下一页,将文字放在相关图形当中或图形周围,学习者成功解决相关问题的可能性将成倍增长。
- 采用对话式的个性化风格。……
大脑注意的是不同寻常的、有趣的、奇怪的、引人注意的、出人意料的事情。
人的记忆能力在很大程度上取决于要记忆的内容对情感的影响(是惊讶、好奇、感觉有趣、想追根究底之类的情感,以及在猜对一个字谜、在学会别人感觉难以学会的事情或是在意识到自己懂的东西居然比工程部那位开口闭口“我比你有技术”的张三还多时,油然而生的“我是老大”的感觉)。
我们关心什么,就会记住什么;我们对什么事有感觉,就会记住什么。
如果真想学东西,而且想学得更快更深入,就要关注自己如何集中注意力。要思考自己的思考方式;研究自己的研究方式。(第二句话什么意思?)
大多数人在成长过程中都不曾学习元认知和学习理论方面的知识。人们期望我们学知识,但极少有人教我们如何学。
但想象得到,捧着本书的你,的确想学习数据分析知识,同时可能不想花费太多时间。要想利用在本书中读到的知识,就得记住读过的知识,为此必须理解这些知识。为了淋漓尽致地发挥本书或任何书本或学习经验的作用,请管好你的大脑,请管好大脑对待本书的态度。
诀窍在于让大脑把正在学习的新资料当做“正经大事”——对幸福至关重要的大事,像老虎一样重要的大事。
一种缓慢而乏味,一种迅速而有效。
慢办法是简单记忆。只要重复灌的次数足够多,大脑就会想:“这些东西给他的感觉并不重要,但他不停地看这些相同的东西,一遍,一遍,再一遍。因此我猜这些东西肯定很重要。”
快办法是做一切增进大脑活动的事,尤其是不同类型的大脑活动。例如,研究表明,将文字放在文字所描述的图片当中,会促使大脑努力搞清楚文字和图片之间的关系,进而发动更多神经元。更多神经元发动=更有机会让大脑明白某件事值得注意,可能还值得记住。对话……
- 引导读者深入思考
换句话说,除非读者主动调动自己的神经元,否则脑袋里不会发生什么大变化。
只有激发读者的兴趣,引起读者的好奇,刺激读者的灵感,读者才能解决问题,得出结论,获得新知识。
为此,讲授者要设计各种难题、练习,提出引人深思的提问,还要多让读者做一些让左右脑半球和多种感官都动起来的活动。
所要做的事情
- 慢慢读。
理解的内容越多,要记忆的内容越少。
忌死读。停一停,想一想,碰到书中的提问时,别直接翻看答案;想象真的有人在问你这个问题。强迫自己的大脑想得越深,学会、记住的概率就越大。
- 自己做练习,自己记笔记。
我们安排了练习和笔记,但是,要是我们替你完成,就像让别人替你锻炼身体一样;只动眼不动手也不可取,要动动笔。
大量证据证明,学习时的身体动作能提高学习效率。
- 阅读“世上没有傻问题”部分。
世上没有傻问题。这些问题并非可看可不看,这是核心内容的组成部分!请勿忽略。
- 请将下面这段话作为最后一段床头阅读文字,或起码作为最后一段高深的床头阅读文字。
有一部分学习过程(尤其是短暂记忆转变为长期记忆的过程)发生在放下书本之后,大脑需要有自己的时间进行更多处理。如果在这段处理时间内学新东西,将会丢失一些刚学会的东西。
- 开口大声讨论。
说话会刺激大脑的其他部分。
如果你正在努力理解一些知识,或者正在努力增加以后记住这些知识的概率,请大声说出这些知识。
还有一种更好的做法,试着向别人大声解释这些知识。你会学得更快,可能还会发现一些阅读时不曾发现的名堂。
- 大量喝水。
充沛的体液会让大脑处于最佳工作状态,脱水(早在感到口渴前就会发生)则会让认知功能下降。
- 聆听大脑的声音。
留意你的大脑是否超负荷工作。若你发现自己开始心不在焉,或者刚刚读过的东西转眼忘记,就该休息。一旦过了某个学习点,哪怕拼命塞,也无法提高学习效率,反而有可能影响学习。
- 找到感觉。
大脑需要知道事情是否重要。让自己融入各种场景,为照片设想旁注,就连抱怨一个并不好笑的玩笑,也比什么感觉都没有强。
- 勤加练习!
学会数据分析的唯一办法就是勤加练习,这正是本书的要求。数据分析是一门技术,精于此道的唯一办法就是大量实践。
本书将给你带来大量实践机会:每一章中都有一个等待你解决的问题,千万别跳过这些问题不看——大量学习都发生在解决问题的过程中。我们为每一个问题提供了答案,要是卡了壳(有些细微之处很容易给人带来麻烦),别不敢看!
不过,请尽量先解决问题再看答案,务必让你的办法行之有效,然后才继续看书中的下一部分内容。
目标:
- 数据分析基本步骤
- 实验方法
- 最优化方法
- 假设检验方法
- 贝叶斯统计方法
- 主观概率法
- 启发法
- 直方图法
- 回归法
- 误差处理
- 相关数据库
- 数据整理技巧
用数据分析来思考问题、解决问题;系统化的数据分析对于制定大大小小的决策的强大作用。
本书充满统计知识,作为数据分析师,你应该尽量多掌握一些统计知识,读完《深入浅出数据分析》之后,最好再读一读《深入浅出统计学》(Head First Statistics)。不过,数据分析不仅涵盖统计学,还牵涉许多其他领域,本书中选用的非统计题材主要用于讲解来源于现实生活的具体、实用的数据分析经验。
第一章 数据分析引言 分解数据
固定基本流程
确定:了解问题,确定问题
分解:分解问题和数据,使其成为更小的组层部分
评估:对前两步了解到的情况,做出各种结论
决策:把这些结论重新组合在一起,做出(建议)一个决策
确定问题
未明确确定自己的问题或目标就进行数据分析就如同未定下目的地就上路旅行一样。
客户将帮助你确定问题,客户是分析结果的服务对象。
你的客户可能是你的上司、你所在公司的首席执行官,或甚至就是你本人。
客户将根据你的分析作决策,你需要尽量从他那里多了解一些信息,才能确定问题。本文中这位首席执行官想提高销量,但这只是最初答案。你需要更多更确切地摸清他的心思,才能拟定一个能够解决问题的分析方案。
你的客户可能
- 相当了解或不甚了解自己的数据
- 相当了解或不甚了解自己的问题或目标
- 相当了解或不甚了解自己的业务
- 目标明确或优柔寡断
- 头脑清醒或稀里糊涂
- 富有直觉或善于分析
把问题和数据分解为更小的组块
如果你拿到的是汇总情况,你就会想知道哪些因子对你至关重要。
如果你拿到的是原始数据表,你就会想对这些因子进行汇总,让数据更有用。
评估组块-分析
让自己介入分析的意思是作出自己的明确假设,并且以自己的信用为自己的结论打赌。
提出建议(决策)
作为数据分析师,你的工作就是让自己和客户仔细研究你对数据的评估,洞察先机,从而有能力作出更好的决策。
为了实现这个目的,你必须将自己的设想和判断以合适的格式整合起来,供客户拮取。
也就是说,你的作品要能简单则简单,但不可简单过头!你的工作是确保自己的意见传达到位,让人们根据你的意见作出正确的决策。
你提交给客户的报告要以得到客户理解、鼓励客户以数据为基础作出明智的决策为重点。
报告
你的报告简炼、专业、直截了当
报告说清楚了首席执行官的需求,甚至比首席执行官本人说得更清楚。
你审视数据,通过首席执行官把事情弄得更明白,把首席执行官确信的观点和你自己对数据的理解相比较,然后提出决策建议。
背景-数据解说-建议
心智模型(处理信息的工具)&查看不确定范围
心智模型可能是一些与生俱来的先天禀赋,也可能是后天学会的理论,不管是哪种情况,都会大大影响你对数据的解释。
统计模型取决于心智模型;心智模型决定你的观察结果,是你观察现实的棱镜。(你无法看到一切,因此你的大脑必须做出选择,以便集中注意力,这就是所谓的心智模型大大决定观察结果。)
如果你了解自己的心智模型,那么你发现重点、开发最相关最有用统计模型的可能性就更大。
原始数据
千万要保存原始数据,避免进行任何数据处理。即使是最好的数据分析师也会失误,必须能够将自己的工作结果与原始数据进行比较。
放轻松,数据多往往是好现象。在密集的数据中兜圈子很容易让人“迷路”,要是你迷失了目标,忘记了假设,只要集中注意力完成该完成的数据处理就能扭转局势,优秀的数据分析的根本在于密切关注需要了解的数据。
案例-汇报
一开始,我试图想办法提高少女消费者市场的销量,因为我们相信这些消费者是貌洁保湿霜唯一的客户群。当我们发现少女消费者市场已经饱和后,我深入挖掘数据,寻找提高销量的源泉。在这个过程中,我改变了心智模型,结果表明热衷于使用貌洁的人比我们意识到的要多——尤其是上了年纪的男人。由于这个消费群并不宣扬自己对产品的热衷,我建议大幅度增加对这个群体的广告宣传,用更易被男性接受的特色销售同样的产品,这将提高销量。
问:如果为了解决问题而需要获得更详细的信息,我该做到什么程度呢?是不是要亲自去采访客户?
答:对新数据的挖掘深度最终取决于你自己的最佳判断,在这个例子中,你不断摸索,终于找到了新的市场领域,这个发现足以让你制定有说服力的销售策略。我们将在后续章节中进一步讨论何时该停止搜集数据。
问:看来,起初的错误心智模型是第一次分析失败的罪魁祸首。
答:是啊,最初的错误假设注定了分析会得出错误的答案,因此,从一开始就务必要基于正确的假设建立模型显得如此重要,并且,要做好准备,一旦所得到的数据有违你的假设,就要立即回头重新详加思考。
问:分析会有大结局吗?我所追求的是定论。
答:数据分析肯定会得出重大问题的答案,但绝不会料事如神,即使你今天无所不知,明天又会有新情况。向年长男子促销的建议可能在今天是有效的,但Acme永远需要分析师为他们出点子抓销售。
问:听起来挺没劲。
答:恰好相反!分析师好比侦探,总有一些秘密等着他们去发现,这正是数据分析的乐趣所在!回顾问题、提炼模型、基于新模型观察外界,这些都是分析师工作的基本组成部分,并非特例,而是规律。
回顾你的工作
第二章 实验 检验你的理论(随机控制实验)
一个好实验那样,既能解决问题又能揭示事物的真正运行规律。
一个好实验往往能让你摆脱对观察数据的无限依赖,能帮助你理清因果联系;可靠的实证数据将让你的分析判断更有说服力。
为了想出提高星巴仕咖啡销量的办法,你认为哪种做法是最好的起点?
- 会见首席执行官,弄清楚星巴仕在如何进行商务运营。
肯定是个好起点。他在生意上足智多谋。
- 进行一次客户调查,弄清楚客户的想法。
能这样也不错。你得摸透客户的心思,让他们多买咖啡。
- 弄清楚目标销量是怎么计算出来的。
能弄清楚这一点很有意思,但恐怕这不是你该考虑的第一件事。
(理解为首要任务是确定问题,个人建议先找首席执行官聊一聊,弄清楚他们近期的情况,再要来数据看一看)
- 会见董事长。(客户是谁?)
真是不知深浅啊。你真正的客户是首席执行官,爬到他头上去是要冒风险的。
对随机的看法
市场部每个月做一次客户调查。他们随机抽取一些典型的咖啡消费者作为样本,问消费者一堆相关的问题,觉得咖啡怎么样啊,买咖啡有哪些经验啊……
人们在调查中的说法不一定符合他们的实际做法,但问问他人的感受总不会有坏处。
比较法
- 统计与分析最基本的原理之一就是比较法,它指出,数据只有通过相互比较才会有意义。
在这个案例中,市场部计算出每个问题的平均答案,然后逐月对这些平均值进行比较,每个月的平均值只有在与其他月份的平均值进行比较时才有用。
统计只有与其他统计相关联,才能给人带来启发。
如果一份统计数据看起来颇有意思,或看起来有用,你就需要针对这份统计数据与其他统计数据的比较情况,解释为什么会有这种作用。
如果不搞清楚这一点,就等于是在假设客户会自己进行这种比较,这会是一个不合格的分析。
- 比较是破解观察数据的法宝,比较越多,分析结果越正确。
观察研究法
被研究的人自行决定自己属于哪个群体的一种研究方法。
而在实验中,则由你决定哪些人属于哪些群体。
搜集观察数据往往是通过实验取得更有用数据的第一步。
价值问题
问:我怎么知道价值下降确实会导致咖啡销量下降?
答:你没法知道。但目前只有感知价值数据与销量的下降相吻合。销量和感知价值看起来像是在并肩下落,但你无法确定是价值的下降导致了销量的下降,目前,这只是理论上的判断。
问:会不会有其他作用因素?可能价值问题并不像看上去那么简单。
答:几乎可以肯定会有其他因素在起作用,使用观察研究方法时,应当假定其他因素会混杂你的结论,因为你无法像控制实验那样控制这些因素。后面几页会进一步讨论这些行话。
问:会不会正好相反呢?可能正是销量下降让人们认为咖啡没有什么价值。
答:问得非常好,很有可能正好相反。分析师们的一个很好的经验法则是,当你开始怀疑因果关系的走向时(如价值感的下降导致销量下降),请进行反方向思考(如销量下降导致价值感下降),看看结果怎么样。
问:那么我如何看出是谁导致了谁?
答:我们将在本书中大量讨论如何判定原因,但现在你该知道的是,当涉及判定因果关系时,观察研究法并不是那么强大有力。一般情况下,需要使用其他工具才能进行判定。
问:听起来观察研究法没什么意思。
答:完全不是这么回事!观察数据无所不在,要是因为观察研究法有不足之处就忽视这种方法,那可是疯了。真正重要的是,你要了解观察研究法的局限性,这样才不会得出错误的结论。
观察分析法充满混杂因素。
混杂因素就是研究对象的个人差异,它们不是你试图进行比较的因素,最终会导致分析结果的敏感度变差。
如果他们的相互差异表现在你力求了解的某个变量方面,这种差异就是混杂因素,本例中的混杂因素是店址。
怎样处理一下数据才能看出是否SoHo区星巴仕分店的价值感仍然良好?
更概括地说,怎样处理一下观察研究数据才能让混杂因素得到控制?
问:在这个案例中,的确是客户的财富而不是咖啡店的店址影响了分析结果吗?
答:当然,而且这二者很可能有关系。如果你能得到每位顾客有多少钱的数据,或者能知道每位顾客花多少钱会感到舒坦,你就能再次进行分析,看出以财富为基础划分群组会得出什么结果。但由于我们无法得到这些信息,就只好使用店址。此外,由于我们的理论是越富有的人越愿意在SoHo区消费,因此店址能说明问题。
问:除了店址,有没有别的变量可能混杂这些数据?
答:肯定有。混杂因素是观察研究法绕不开的问题。作为分析师,你的工作就是不断考虑混杂因素对分析结果的影响。如果你认为混杂因素的影响微不足道,很好;但如果有理由相信这些混杂因素正在引发问题,那么,你就需要相应调整自己的结论。
问:如果混杂因素难以发现怎么办?
答:这正是问题所在。混杂因素通常不会故意在你眼前晃悠。为了让自己的数据尽量有说服力,你需要自己动手把这些隐藏的混杂因素挖出来。在本例中,我们很幸运,因为地址这个混杂因素其实就在数据里,因此我们可以处理和管理这个数据。通常我们无法得到混杂因素信息,这会严重动摇整个分析的根基,让你无法得到正确结论。
(数据完全证实了SoHo区区域经理所坚信的顾客对星巴仕价值的想法。听取她的反馈并且因为她有这样的反馈而以其他方式观察数据,还真是个不错的主意。)
问:我要做到什么程度才算查清了混杂因素?
答:这与其说是科学,莫如说是艺术。你不妨就自己正在研究的问题问自己一些常识性问题,借此想象哪些变量可能会影响你的分析结果。正如数据分析和统计学中的各种手段一样,无论你的量化技术多么出神入化,真正的重点却永远在于:分析结论要有意义。只要结论有意义,而且你已经彻头彻尾地查找过混杂因素,那么你就已经做了观察研究法要求你做的一切工作。其他类型的分析,如后文所述,可以让你做出更大胆的结论。
问:如果我研究的不是价值感而是其他对象,同样对于这些数据,店址是否不会成为混杂因素?
答:完全正确。记住,只是在这个例子中,店址才是一个混杂因素,但在其他例子中可能并没有作用。例如,在这里我们没有理由相信“咖啡温度让人感觉恰恰好”这个因素在每个地方都不一样。
问:我仍然觉得观察研究法有很多很严重的问题。
答:观察分析法是有很大局限性。这种特别的研究方法的作用在于帮助你更好地了解星巴仕的客户,只要你控制好数据中的店址问题,研究就会更有说服力。
如果你想对与数据相符合但并未在数据中充分体现的事情做出结论,就需要用理论将它们联系起来。
尽管这二位都狂热地相信自己的理论及根据这些理论制定的策略,你却没有数据支持任何一种理论。为了进一步弄清楚哪种策略更好,你将需要做一个实验。你需要对这些策略进行实验,目的是了解哪种策略将提高销量
控制组
一组体现现状的处理对象,未经过任何新的处理(也称对照组)。
没有控制组就意味着没有比较,没有比较就意味着无法对所发生的情况进行判断。
(我的看法是,尽然没有用控制变量来在进行A/B测试,为什么不看看盈利情况,如果利润率是增长的情况,说明降价是可行的。如果利润率下降,说明这只是虚张声势。不过,如果可以控制变量,是最好的了。但是,如何控制变量呢?再加上现在的信息交流比较方便,怎么分组实验呢?)
问:我们不能拿二月份的数据和一月份的数据进行比较吗?
答:当然可以。要是你们感兴趣的只是二月份的销量是否比一月份的高,是能有答案的。但在不加以控制的情况下,这些数据无法体现其与价格下降的内在联系。
问:拿今年二月份的数据和去年二月份的数据进行比较怎么样?
答:你在这个问题和最后一个问题中谈到的都是历史控制法,这种方法取用过去的数据,并将这些数据作为控制数据;与此相反的是同期控制法,在这种方法中,控制组与实验组在同样的时期内经历同样的事。历史控制法通常偏向于你力图进行检验的对象的成功方面,因为很难选出和你所测试的组真正相似的控制组。总体上说,你应该对历史控制法表示怀疑。
问:一定要用控制组吗?从来没有一个案例是不用控制组也行得通的吗?
答:世上有很多无法控制的事。例如选举投票,选民不能同时选两个候选人,你不能先看看谁比谁进展更好,然后再回头去选更为成功的一位。虽说选举方式无法改变,却不表示不能一对一地分析各种迹象,但是,如果能够做一个与此类似的实验,就能对自己的选择更为自信!
问:那医学试验怎么说?假设你想试用一种新药,并且相信这种药物非常有效,难道你不给分在控制组里的病人治疗,而任由他们生病或等死?
答:这是一个考虑了法律伦理学的好问题。缺乏控制数据(或使用历史控制数据)的医学研究所青睐的疗法随后往往被同期控制实验表明没有效果或甚至有害。无论你对一种治疗方法的感情如何,除非做控制实验(对照实验),否则无法确定进行治疗是否比不进行任何治疗更有效。最糟糕的情况是,对于实际上于人有损的治疗,要停止推广。
问:就像给病人进行放血治疗一样吗?
答:对极了。历史上最早的控制实验中就有一些将放血疗法与让病人静养相比较。坦白说,使用了几百年的放血疗法让人厌恶极了,现在,因为做了控制实验,我们知道这是一种错误的疗法。
问:观察研究法有控制数据吗?
答:当然有。记住观察研究法的定义:这种研究方法让研究对象自己决定他们属于哪个组,而不是由研究者来决定。例如,如果想做一个关于吸烟的研究,你无法让某些人成为烟民或不成为烟民,决定是否抽烟的是人们自己。在这种情况下,选择不做烟民的人就是你观察研究法中的控制组。
问:我经历过各种各样的情况,销量都在一个月内上涨,据说是由于我们上一个月做的一些工作,而且,因为别人说我们做得不错,大家都感觉良好。但你现在却说我们对自己做得是好是坏完全没有头绪?
答:你们可能是做得不错。商业生活中免不了有凭直觉办事的时候,有时你无法控制实验,必须依赖基于观察数据的判断。但是,只要能做实验就做吧。在下决定的时候,再没有比可靠的数据更能为你的判断和直觉提供补充了。在这个例子中,你还没有得到可靠的数据,却有一位渴望答案的首席执行官。
避免解雇123
免不了要报告坏消息是数据分析师工作的一部分,不过,同样的消息却可以用各种不同的方式来表达。
(从数据上可以直观的看到销量的增长,然而有个坏消息,我们不知道多赚了多少钱,好消息的是我知道如何解决这个问题,只要下个月,我们让一些门店恢复售价。)
减价的效果
记住,混杂因素是所研究的各个组之间的差异,而不是试图进行比较的因素。
你的实验结果显示,实验组的营业收入提高了,这可能是因为咖啡减价后人们增加了消费;但由于组与组之间无法相互比较,因此也有可能是其他原因造成营业收入增高——天气可能造成东岸区的人不出门,太平洋区的经济可能正在腾飞。到底是什么原因?由于有混杂因素的存在,你永远也找不到答案。
你认为哪一种分组方法最好?
- 轮流按不同的价格给顾客结账。这样一来,一半顾客进入实验组,一半顾客进入控制组,店址不再成为混杂因素。顾客要拍桌子了——谁愿意比排在自己前面的那位多付钱?顾客的愤怒将会混杂你的分析结果。
- 使用历史控制法,将这个月所有店作为控制组,下个月所有店作为实验组。我们已经讲过历史控制法为什么会带来问题。谁知道这几个月里会发生什么事使分析结果毁掉?(好吧,我更青睐这种方式,想到首席执行官只有3个月的时间……)
- 将不同的店随机分配给控制组和实验组。这看起来有希望,但并不十分恰当。人们只会去便宜点的星巴仕店喝咖啡,而不会去控制组,店址仍是混杂因素。
- 将大的地理区域分成小的地理区域,随机将这些微区域分进控制组和实验组。要是分割区域足够大,使人们不至于为喝上便宜点的咖啡而往来奔波;同时又足够小,使各个分割区域彼此相似,就能避开店址混杂因素。这是最好的办法。
随机控制是各种实验的黄金标准。没有它你也能做实验,但要是有了它,你就能做得最好。随机控制实验能让你最大限度地接近数据分析的核心:证明因果关系。
Head First:那我怎么进行随机分配呢?假定我有一份数据表,想要随机选择表中数据,将表一分为二,该怎么做?
随机先生:很简单。在你的电子数据表程序中,创建一列,称为随机(Random),将下面这个公式输入第一个单元格:=RAND(),对表中的每个数据复制和粘贴这个公式,再对随机列进行排序。行了!然后就可以将数据表分成控制组和多个实验组,实验组的个数根据需要决定。这就万事俱备了!
观察研究法和实验研究法、控制组和实验组、混杂因素和随机性
实验的目的是为了弄清楚下面哪种做法能提高销量:维持现状、减价或尝试说服顾客星巴仕咖啡很有价值。我们准备用一个月的时间进行这个实验:就定在三月。
控制组内的分店将照常工作——没有什么特别之处。一个实验组将由三月份降价的分店组成,另一个实验组将由派雇员游说客户“星巴仕咖啡很有价值”的分店组成。
我们将把每个星巴仕地区分为多个微区域,然后随机将微区域池中的成员分配给控制组和实验组。于是,三个组的情况将大致相同。
结果可能是:一个实验组或两个实验组都表现出比控制组更高的销量。
第三章 最优化 寻找最大值
我们想尽量提高利润,为此必须确保橡皮鸭和橡皮鱼的产量都正合适。我们需要您帮忙找出理想的产品组合:这两种产品我们各应该生产多少?
你需要哪些数据才能解决这个问题?
首先,最好能够知道橡皮鸭和橡皮鱼的赢利能力,是否一种产品比另一种产品利润更高?除此之外,最好能知道约束这个问题的其他因素。生产这些产品需要多少橡胶?生产这些产品需要多少时间?
可以将所需要的数据分成两类:无法控制的因素,可以控制的因素。
你能控制的变量受到约束条件的限制
这些考虑事项被称为约束条件,因为它们将决定问题的有关参数。你最终追求的无非是利润,而找到正确的产品组合就是确定下个月利润水平的办法。但选择哪种产品组合将会受到约束条件的限制。
决策变量却是你能控制的因素
约束条件不会告诉你如何实现最大利润;它们只告诉你在实现利润最大化的过程中无法做到的事。
相反,决策变量却是你能控制的因素。你可以选择生产多少只橡皮鸭,多少条橡皮鱼;在不超出约束条件的情况下,你的工作就是选择一个组合,实现最大利润。
目标函数
任何最优化问题都有一些约束条件和一个目标函数。
可行区域-添加约束条件

时间
约束条件:
- 时间
- 橡胶量

橡胶量
一切模型都是错误的,但其中一些是有用的。
你的分析工具不可避免地会简化实际情况,但如果你的假设和数据都是正确的,那么这些工具就相当可靠。
你的目标应该是尽量创建最有用的模型,让模型的不完美相对于分析目标变得无足轻重。
提防负相关变量
我们不知道为什么橡皮鸭和橡皮鱼的销量看上去南辕北辙,但可以肯定它们是负相关关系。一种产品越多,就意味着另一种产品越少。
创建模型时,务必要规定假设中的各种变量的相互关系。
你的假设立足于不断变化的实际情况
你所使用的所有数据都是观察数据,你无法预知未来。
你的模型现在是在起作用,但可能会突然失灵。你需要做好准备,以便在必要的时候重新构建分析方法,反复不断地进行构建正是分析师的工作。
第四章 数据图形化 图形让你更精明(散点图)
数据太多绝不会成为你的问题
要是你手头数据庞杂,而且对于如何处理这些数据没有把握,这时只要记住你的分析目标就行了:记住目标,目光停留在和目标有关的数据上,无视其他。
让数据变美观也不是你要解决的问题(次要的)
数据图形化的根本在于正确比较
使用散点图探索原因
最优秀的图形都是多元图形
如果一个图形能对三个以上变量进行比较,这张图形就是多元图形,再加上有效的比较是数据分析的基础,于是尽量让图形多元化最有可能促成最有效的比较。
有一个办法能让图形多元化,即将多张相似的散点图相邻排放,下面是一个实例。
问:听起来你对电子表格数据制图不是很热心?
答:许多严谨的数据分析师习惯于使用电子表格程序进行基本计算和列表,却不会幻想将电子表格程序作为制图工具,这样做会让人伤透脑筋:使用电子表格程序只能创建屈指可数的几种图表,不仅如此,程序往往还会勉强你设定决策格式,而你本不打算如此。并不是你不能用电子表格程序绘制优秀的数据图形,而是这样做会惹麻烦上身,要是学会使用R程序之类,就不会有那么多的麻烦。
只要一幅图中的变量达到三个以上,出版物就更有可能提供知性的比较,效果比只有一个变量的图好。
问:我该怎么看待那些被复杂化、艺术化但无助于分析的数据图形?
答:说到利用计算机绘制新颖的图形,这个时代并不乏激情与灵气,有些图形能够成为深度数据分析的推动力,有些只是让人过过眼瘾。数据艺术这一说本身无可厚非,只是,除非有助于更好地理解隐含的数据,否则请别将数据艺术与数据分析混为一谈。
问:这么说有些东西能让人过眼瘾但对分析并无启发,反过来呢?
答:这就看你自己了。不过,要是你在分析中遇到了举棋不定的事情,而图形却对此有所启发,那么很难想象这幅图形会让你看着不顺眼!
优秀的图形设计有助于思考的原因(初步-假设与数据吻合)
你和客户青睐的模型通常都会与数据吻合。
但免不了会有其他可能性,尤其是在大家愿意插上想像的翅膀寻求解释的时候。其他模型情况如何呢?
当你描述你的数据图形时,需要论述可相互换用的两种因果模型或图解。能完成这个任务说明你非常公正:让客户知道你不仅会展自己最喜欢的一面,还会彻头彻尾地考虑自己提出的原理中可能存在的问题点。
你发现网站掌门人的假设与数据的吻合程度怎样?
假设1:网页漂亮是主页3表现最佳的原因。
这个假设无法成立,根据实验设计师们提供的消息,主页3不是访问速度最快的页面。按照一般规律,人们可能会偏爱速度较快的主页,但页面加载速度无法解释主页3在实验中的成功表现。
假设2:轻松的冷色调是主页3表现最佳的原因。
这个假设与数据相符。主页3是表现最好的页面,而且主页3的色调最冷。数据并没有证实色调是主页3表现出众的原因,但数据与假设吻合。
实验设计师们有自己的假设。他们已经有机会看过你的散点图,给你发来了他们对事情的看法。这些人都是数据精英,他们的假设必定恰当。
根据所了解到的信息,你想向客户提供哪些网站战略建议?
继续使用主页3,对用户体验进行细化测试,细化内容包括各种导航方式、风格、内容等。对主页3与众不同的表现可以有各种各样的解释,应对此进行调查并形成图表,但很明显,主页3已然胜出。
第五章 假设检验 假设并非如此(证伪法-处理异质数据源)
线性等于直觉,现实世界中的各种原因呈网络关系,而非线性关系。作为一位分析师,你的视野要比这个简单的模型开阔才行,要渴望看出因果关系网络。
假设几个PodPhone备选方案,用手头的资料进行假设检验。
假设检验的核心是证伪,请勿试图选出最合理的假设,只需剔除无法证实的假设——这就是假设检验的基础:证伪。
选出看上去最可信的第一个假设的做法称为满意法。满意法其实非常简单:选出第一个选项,其余不作处理。
满意法的严重问题是,当人们在未对其他假设进行透彻分析的情况下选取某种假设时,往往会坚持这个假设,即使反面证据堆积如山,也往往视而不见。证伪法则让人们对各种假设感觉更敏锐,从而防止掉入认知陷阱。进行假设检验时,要使用证伪法,回避满意法。
问:看来证伪法是一种分析形式很复杂的方法,真的有必要用这种方法吗?
答:这是一种了不起的办法,可以克服人们专注于错误答案而无视于其他答案的天然倾向。通过强迫自己以完全正规的方式思考问题,会减少因忽视重要的特征情况而犯错误的可能性。
问:这类证伪法与统计学上的假设检验有何关系?
答:你在统计课上(或在《深入浅出统计学》中)可能已经学过一种对候选假设(备择假设)和基准假设(原假设)进行比较的方法,其目的是识别出一种情况:如果这种情况为真,则原假设几乎不可能成立。(频率论者假设检验方法)
问:那我们为什么不用那种方法呢?(这里的解释看不懂)
答:这种方法有一个优点,能让你把品质各异的异质数据综合起来,这是非常普通的证伪法,对于复杂的问题非常有用。但是,定下心来使用上述频率论者假设检验方法肯定没错,因为对于数据与参数相吻合的检验,你是不会想用别的方法的。
问:我想,要是同事们看到我用这个推理办法,肯定觉得我疯了。
答:要是你能挖出一些真正重要的东西,他们肯定不会笑你。优秀分析师的理想是找到复杂问题的非直觉答案,你会愿意聘用一个思想保守的数据分析师吗?如果客户真正有兴趣从数据中挖掘一些新信息,就会寻觅能想人所不能想的人才。
问:看来并非所有假设都一定能被证伪,比如,某些证据可能会对假设不利,却无法推翻假设。答:完全正确。
问:数据在哪里呢?我希望能看到更大量的数据。
答:并非只有数字表格才叫做数据。假设检验中所使用的证伪法让你对“数据”有更广博的观察,能综合大量异质数据,你几乎可以将任何数据放入证伪结构中。
问:使用证伪法解决问题和使用优化法解决问题有何差别?
答:两者是适用于不同情况的不同工具。在某些情况下,你希望冲进“Solver”调整变量,直到得到优化数据;在另一些情况下,你希望使用证伪法来剔除对数据的其他可能解释。
问:好。要是我无法用证伪法剔除所有假设,该怎么办呢?
答:这问题可以入选“智力大转盘”!让我们看看该怎么办。
诊断性
只要证据能够帮助你按照强弱程度对假设进行排列,它就具有诊断性,因此,我们的做法就是:将假设与证据逐条进行比较,看看哪种假设具有最强的证据支持。
- 借助诊断性找出否定性最小的假设
- 无法一一剔除所有假设,但可以判定哪个假设最强
第六章 贝叶斯统计 穿越第一关
条件概率即以一件事的发生为前提的另一件事的发生概率。
事前概率(基础概率)
1%是基础概率,在根据试验结果单独分析每个人的情况之前,你就已经知道患有蜥蜴流感的人口只有1%,因此基础概率又称作事前概率。
小心基础概率谬误
务必警惕基础概率,基础概率数据不一定在每种情况下都存在,但是,假如确实有这个数据而你却不用,那么,你将毁于基础概率谬误,即忽略事前数据并因此作出错误决策。
用简单的整数思考复杂的概率
当你想像着自己在观察1000个人时,就已经从思考小数概率转换为思考整数。我们的大脑生来不擅长处理概率数字,因此,将概率转变为整数,然后进行思考,是避免犯错误的一个有效办法。
避免基本概率谬误的唯一办法就是对基础概率提高警惕,而且务必要将基础概率整合到分析中。
(新的基础概率为上一次分析的结果。)
第七章 主观概率 信念数字化
虚拟数据未尝不可。不过,这些数字必须描述你的心智状态,表明你的信念。主观概率就是这样一种将严谨融入直觉的简便办法,具体做法马上介绍。随着讲解的进行,你将学会如何利用标准偏差评估数据分布,前面学过的一个更强大的分析工具也会再次登台亮相。
主观概率
如果用一个数字形式的概率来表示自己对某事的确认程度,所用的就是主观概率。
主观概率是根据规律进行分析的巧妙方法,尤其是在预测孤立事件却缺乏从前在相同条件下发生过的事件的可靠数据的情况下。
你的主观概率表…………比这些愤怒的邮件更有助于分析吗?
这些主观概率表明,有些方面分歧并不像原先想象的那么严重。主观概率是对分歧内容和分歧大小的一种精确规范,分析师用主观概率帮助自己抓住问题焦点,以图解决问题。
标准偏差量度分析点与平均值的偏差
你想使用标准偏差;标准偏差量度的是典型的分析点与数据集平均值的差距。
数据集中的大部分点都会落在平均值的一个标准偏差范围内。
标准偏差的单位取决于测量单位,在上面的例子中,偏离平均值一个标准偏差等于10%,尽管不少点都偏离两个或三个标准偏差,但大部分点都比平均值高或低10%。
在此可以用标准偏差量度分歧。主观概率偏离平均值的标准偏差越大,分析师们在假设成立的可能性方面的分歧就越大。
在Excel中可以用=stdev(数据范围)函数计算标准偏差
问:主观概率不算有某种欺骗性吗?
答:欺骗性?它的欺骗性要比“的确可能”之类的含糊说法低得多。听别人说话的人可能会在别人说的话里加入各种各样的含义,因此,指定一个概率实际上是一种欺骗性小得多的传达个人信念的办法。
问:我的意思是,当有人看到这些概率的时候,难道不可能(抱歉,用了这个词)有这种印象:给出概率的人看上去对自己信念很肯定,其实他们心里并不是那么肯定?
答:你的意思是说,因为数字是白纸黑字,所以看起来要比实际情况显得更有说服力?
问:正是。
答:这个顾虑有道理。但主观概率像其他数据分析工具一样:如果以欺骗为目的,那么骗人是很容易的;但只要确保客户知道你给出的概率具有主观性,那么,精确地指出你的信念,实际上对客户是个天大的恩惠。
问:Excel能画这些有小点点的奇特图形吗?
答:能画,但比较麻烦。这些图形是用一个叫做R的程序画的,里面有一个函数dotchart。你会在后面的章节里领略到R的魅力。
贝叶斯规则是修正主观概率的好办法
贝叶斯规则可不是专门用来分析蜥蜴流感的!它对于主观概率也大有作用,通过它可以把新证据整合到针对假设条件的信念中。
使用贝叶斯规则求主观概率的根本在于找出在假设成立的条件下,证据出现的概率。
第八章 启发法 凭人类的天性作分析
生活中的大部分实际思维活动并非以最理性的方式展开,而是利用既不齐全也不确定的信息,凭经验进行处理,迅速做出决策。奇就奇在这些经验确实能够奏效,因此也是进行数据分析的重要而必要的工具。
启发法
如果你打算选取一两个变量,然后根据这些变量对整个系统作出结论,据此评价邋遢集的工作成效,这就是在使用启发法……
启发法是从直觉走向最优化的桥梁
你是凭冲动做决定,还是凭几个精心选取的关键数据做决定?或是构建一个包含所有变量的模型,然后得出最佳答案?
答案可能是以上都对,而这些答案却代表完全不同的思维方式——认识到这一点很重要。
1. (心理学定义)用一种更便于理解的属性代替一种难解的、令人困惑的属性。
2. (计算机科学定义)一种解决问题的方法,可能会得出正确答案,但不保证得出最优化答案。
有些心理学家甚至论述,人类的一切推理都是启发式的;而最优化是一种理想境界,只有在问题超规范的情况下才能发挥作用。
问:把一个无法保证得到正确答案的决策过程叫作数据分析,真稀奇。难道不该把这种事叫作猜想吗?
答:不能这么说!你看,数据分析的根本在于妥善分解问题、为数据套上适当的心智模型和统计模型、作出正确的判断,但并不保证次次得到正确答案。
问:假如我的目标是最优化,可我稍稍试了一下启发式思考,感觉不错,难道我就说不上在坚持寻找最优化结果了?
答:那样说很公正。要是手头有更好的、可行的最优化工具,当然没人想用启发式分析工具,但重点是要认识到,启发法是思维过程的基本组成部分,也是数据分析方法的基本组成部分。
问:那么心理学对启发法的定义和计算机科学对启发法的定义有何区别?
答:其实这两种说法非常相似。在计算机科学中,启发式算法能够解决一些问题,但人们无法证明这种算法能够无一例外地得到正确答案;计算机科学中的启发式算法常常比那些能够保证得到正确答案的算法更快、更简单;还有,往往一个问题只能用启发式算法来解决。
问:这和心理学有何必然关系?
答:心理学家通过实验研究发现,人们时刻在使用认知启发法。争相引起人们注意的数据实在太多,于是人们必须凭经验作决定。为数众多的典型经验在人们的脑海里根深蒂固,总的来说,这些经验的确很有效。
问:人类的思维过程与最优化过程并不相似,这颇为明显?
答:各人有各人的看法。对于那些坚定地认为人类是理性生物的人来说,“人们不是以较全面的方式思考所有感官信息,而是使用收效显著但含混不清的经验法则”这个说法可能会让他们感到不快。
问:这么说,“大量推理都是启发式的”这个事实说明“人是非理性的”?
答:这要看你怎么定义理性这个词。如果理性代表这种能力——以闪电般的速度处理海量信息的每一个数位、构建完美的模型利用这些信息、能够无可挑剔地执行模型给出的建议,那么,没错,你是非理性的。
问:这真是对理性的高标准定义。
答:如果你是一台计算机,这标准就不算高。
问:这正是我们让计算机为我们做数据分析的原因!
答:Solver之类的计算机程序生存在认知世界里,这个世界的依据信息由你决定,而你对依据信息的选择则受制于自己的思维以及手头的数据。不过,只要有了这些依据信息,Solver就能以完全理性的方式工作。
问:又由于一切模型都是错误的,但其中一些是有用的,即使用计算机计算最优化问题,一旦应用范围扩大,也会与启发式算法颇为相似。所选择的依据数据恐怕永远无法涵盖与模型有关的一切变量;于是只得挑选最重要的变量。
答:这么想吧:数据分析的根本在于工具。
优秀的数据分析师懂得如何使用各种工具调整数据,以便解决现实问题。
对于自己是否够理性,没有必要听天由命。学习工具,灵活地使用工具,就能够完成大量高难度的工作。
问:但是,数据分析没法保证得到所有问题的正确答案。
答:是的,没办法保证,要是你不小心忘记了这一点的话,就会出差错。分析存在于现实与模型之间的预期差距是数据分析的一个重要内容,后面几章将讨论控制误差的精湛技术。
问:所以,虽然启发法在我的大脑里根深蒂固,但我也可以形成自己的想法?
答:一点儿也不错。对于数据分析师来说,真正重要的一点是:明白这种现象会发生在自己身上。
使用快省树
快是指完成这个过程费时不多,省是指不需要大量认知资源。
固定模式必定具有启发性:处理固定模式不需要大费力气,而且速度超快。
使用启发法时,固定模式行之有效;但在本例以及大多数情况下,固定模式会导致做出欠缺推理的结论。
启发法并非百试不爽。快而省的经验可能有助于找出某些问题的答案,而在其他情况下,却先入为主地让你做出不恰当的判断。发法有可能危险至极!
(在某些特定情境下确实能帮助我们迅速找到问题的答案,比如在日常决策中快速判断基本情况,或者在时间紧迫时做出初步评估。然而,这种思维方式也存在明显的局限性。
在更复杂的情况下,这种依赖直觉的发法往往会让我们陷入先入为主的思维陷阱。比如在医疗诊断中,医生如果仅凭经验快速判断症状,可能会忽略重要的细节;在商业决策中,管理者如果过度依赖过往经验,可能会错失创新机会。研究表明,这种思维定式会导致我们忽略新信息,甚至扭曲对现有信息的理解。
更重要的是,当面对需要深入分析的问题时,这种快速判断的方法往往会让我们做出不恰当甚至错误的决定。例如在投资决策中,过分依赖"经验法则"可能导致忽视市场变化;在法律案件中,快速判断可能造成误判。因此,我们需要根据具体情况,在快速判断和深入分析之间找到平衡。)
第九章 直方图 数字的形状
Excel函数的问题是生成了一些杂乱虚假的区间,十分具有欺骗性,通过一种技术手段可以解决这些问题(对于Excel,只要有时间用Microsoft专有编程语言编写代码,几乎总是能找到解决问题的办法)。
R语言和RStudio安装教程(详细版)
尽管使用指令提示最初会让人多费点儿脑筋,它却能让你更快掌握要领。通过输入“Edit(你的数据)”指令,总是能成功地把数据转变成电子表格风格的图形。
直方图很好地体现了平均值、中间值和标准偏差。通过观察直方图,虽然无法看出具体的数值,但可以形成对数字的感觉。
所有的数据都是观察数据,因此观察得出的所有关系不一定有实验数据那么有说服力。应该把创建直方图这一步骤本身视为一种解释,而不是先于解释的任何步骤。
问:R用于创建直方图的默认值一般都合适吗?
答:一般是的。R努力寻找能够最好地体现数据特点的分区数目和坐标,但R并不理解所绘制的数据的含义。正如使用汇总函数一样,快捷、简便地绘制直方图没什么不好的,但在根据观察结果做出重要结论之前,还需用合适的方法使用直方图(并重新绘制直方图),以免忘记自己的观察目标和分析目标。
问:任意一个峰都是“铃形曲线”吗?
答:很好的问题。通常,当我们想到铃形曲线时,指的都是正态分布或高斯分布,但还存在一些其他类型的铃形分布,以及许多非铃形的分布形状。
问:那么正态分布有何重大意义?
答:只要数据呈正态分布,大量高效而简单的统计方法就能派上用场;大量的自然数据和商业数据都呈现自然分布的形状(或可以以某种方式进行“转化”为自然分布的形状)。
问:我们的数据是正态分布吗?
答:你所评估的直方图肯定不是正态分布。只要峰的数目超过一个,就不能称为铃形。
问:但数据中肯定有两个貌似铃形的峰!
答:这种形状必定有某种意义。问题是,为什么数据分布呈现这种形状?你该怎么搞清楚呢?
问:你能不能多画几张直方图描绘数据块的小组成块,然后分别进行评估?这样也许能弄清楚为什么会出现两个峰。
答:直觉正确。试试看!
概率与统计06 直方图
【认识100个图表】030:深入解析直方图,完全解读版/excel 如何画 直方图/histogram
(两个视频质量皆欠佳)
多峰分布的定义
多峰分布(Multimodal Distribution)指概率密度函数或频率分布图中存在多个明显峰值(即众数)的分布。与单峰分布(如正态分布)不同,多峰分布可能由多个子群体混合而成,或数据生成过程具有多个不同的状态。
多峰分布的常见类型
- 双峰分布(Bimodal):仅有两个明显峰值,例如混合两个不同均值的正态分布。
- 多峰分布(Multimodal):三个及以上峰值,常见于复杂数据场景(如多个子群体的混合)。
- 平台峰(Plateau):无明显峰值但存在宽泛的平坦区域,可能由连续多峰过渡形成。
多峰分布的产生原因
- 混合分布:数据来自多个不同参数的分布组合(如两个正态分布混合)。
- 异质性群体:样本包含多个不同性质的子群体(如不同年龄段的身高分布)。
- 周期性或状态依赖:数据生成过程依赖不同状态(如经济周期中的繁荣与衰退)。
多峰分布的检测方法
核密度估计(KDE):通过平滑数据直方图观察峰值数量。
import seaborn as sns
sns.kdeplot(data, shade=True)
Hartigan's Dip Test:统计检验多峰性假设。
from scipy.stats import dip
dip_value, p_value = dip(data)
可视化工具:直方图与箱线图结合,观察数据分群特征。
多峰分布的处理策略
聚类分析:使用K-Means或高斯混合模型(GMM)分离子群体。
from sklearn.mixture import GaussianMixture
gmm = GaussianMixture(n_components=2).fit(data.reshape(-1, 1))
labels = gmm.predict(data.reshape(-1, 1))
分层建模:对不同子群体分别拟合模型(如回归或分类)。
特征工程:引入新特征区分不同峰对应的子群体(如时间或类别标签)。
应用场景示例
- 金融:市场波动周期分析(牛市/熊市)。
- 生物:基因表达数据中不同细胞类型的混合。
- 工业:产品质量检测中的多批次差异。
注意事项
- 避免过度解释噪声导致的伪多峰性(需结合领域知识验证)。
- 混合模型参数估计可能依赖初始值,需多次重复优化。
正态分布的定义
正态分布(Normal Distribution),又称高斯分布,是一种连续概率分布,其概率密度函数呈对称的钟形曲线。它在统计学和自然科学中广泛应用,描述许多自然现象的分布规律。
数学表达式为: $$ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} $$ 其中,$\mu$ 是均值,$\sigma$ 是标准差。
关键特性
- 对称性:曲线关于均值 $\mu$ 对称,左右两侧形状完全相同。
- 集中性:数据集中在均值附近,约68%的数据落在 $(\mu - \sigma, \mu + \sigma)$ 区间内,95%落在 $(\mu - 2\sigma, \mu + 2\sigma)$ 内,99.7%落在 $(\mu - 3\sigma, \mu + 3\sigma)$ 内。
- 渐近性:曲线向两端无限延伸,但永远不会触及横轴。
实际应用
- 质量控制:工业生产中常用正态分布评估产品尺寸的合格率。
- 考试成绩:大规模考试的成绩通常接近正态分布。
- 自然现象:如身高、体重、测量误差等。
标准正态分布
当 $\mu = 0$ 且 $\sigma = 1$ 时,称为标准正态分布。任何正态分布都可以通过Z变换转换为标准正态分布: $$ Z = \frac{X - \mu}{\sigma} $$
可视化理解
绘制正态分布曲线可以帮助直观理解:
- 均值 $\mu$ 决定曲线的中心位置。
- 标准差 $\sigma$ 决定曲线的宽度,$\sigma$ 越大曲线越扁平。
常见误解
所有数据都服从正态分布:实际上许多数据分布并不对称或有重尾。
正态分布必须完美对称:实际应用中允许轻微偏离,称为近似正态分布。
年份
这个直方图仅选择了2007年的加薪数据,基本形状与原来的直方图相同,坐标则有区别——例如最大的数据块中仅有8个人。但由于形状相同,2007年的群体可能与整个群体有相同的特性。
情况与使用2007年数据时完全一样,R甚至选用完全一样的坐标绘制数据。最起码从这组数据上看,2007年和2008年的情况基本是一样的。
性别
尽管这个直方图的坐标有所不同,我们却再一次看到一个大峰和一个挨在大峰右边的小峰,这个图形显示出女性在这些年里的加薪情况,因此人数众多。
这个图形看起来非常像女性的加薪直方图。虽然坐标不同,但只要分析一下柱体,就能看出不同区间中的男性和女性的数目大致相同。像前面一样,这个图有两个峰。
是否提出加薪
有趣的事情出现了:只有一个峰。横坐标表明这些人(即未提出加薪的人)处于加薪范围的低端;纵坐标表明这些人为数众多。
看来,把提过加薪要求和未提过加薪要求的人拆开后,两个峰会明显分离,我们看到:人员加薪大增,同时人数锐减。似乎要求加薪的人会在结果分布图上呈现完全不同的分布形态。
第十章 回归 预测
回归分析法力无边,只要使用得法,就能帮助你预测某些结果值。若与控制实验同时使用,回归分析还能预测未来。
算法
为了完成某个计算而执行的任何过程。
预测是数据分析的重头戏。有些人会认为,总的说来,把假设检验和预测加起来就等于数据分析。
可能需要预测的问题:
■ 人们的措施
■ 市场动态
■ 重大事件
■ 实验结果
■ 数据中未体现的资料
不能不问的问题:
■ 我有足够的数据进行预测吗?
■ 我的预测准确性如何?
■ 是定性预测还是定量预测?
■ 我的客户能顺利利用这个预测吗?
■ 我的预测有何局限性?
散点图是一种从多方面展现数据特点的快捷办法。只要你的数据涉及两种变量,就该考虑使用散点图。
对于一位分析师来说,散点图的根本在于寻找变量之间的因果关系。例如,如果要求高造成加薪低,就会在散点图中看出这两种变量之间的关系。散点图本身仅显示出关系,要说清原因还需要做更多事(对于初学者来说,还需要解释为什么一种变量会决定另一种变量)。
和直方图一样,散点图是另一种用于展现数据的快捷、经典的办法,它显示的是数据分布情况。但和直方图不同的是,散点图显示两种变量。散点图显示出观察结果的成对关系,一张好的散点图可以是原因说明的一个组成部分。
使用平均值图形预测每个区间内的数值
平均值图是一种散点图,这种散点图显示出与X轴上的每个区间相对应的Y轴数值。这里的平均值图告诉我们提出各种加薪幅度的人的平均得到的加薪值。
回归线预测出人们的实际加薪幅度
画一条线把平均值图中的点连起来——这正是你所寻找的那条线,利用它可以预测每个人的加薪情况。
问:为什么叫回归线?
答:发现这个方法的是英国科学家高尔顿爵士(1822-1911),当时他正在研究如何通过父亲的身高预测儿子的身高。他的数据显示,从平均情况看,矮个子的父亲会生出比自己高的儿子,而高个子的父亲会生出比自己矮的儿子。他把这种现象称为“向平均数回归”。
回归线有两种:已知Y求X,已知X求Y。想想看,平均值图有两种:每张图代表两种变量中的一种变量的平均值。
问:回归线必须是直线吗?
答:不一定是直线,只要有回归意义就行。非线性回归是一个更为复杂的奇妙领域,不在本书讨论范围之内。
回归线对于具有线性相关特点的数据很有用
相关性可强可弱,这可以用相关系数进行量度,相关系数也叫做r(可别和大写R搞混淆了,那是个软件程序)。为了让回归线发挥作用,数据必须显示出强烈的线性相关性。r的范围为-1至1,0表示无相关性,1和-1表示两个变量完全相关。
问:如果我展示出两种事物之间的线性关系,是否说明我以科学的方法证明了这种关系?
答:未必。你只是指定了一种在数学意义上真正有用的关系,但这种关系是否另有内情却是另一个问题。你的数据质量确实好吗?其他人是否反复重复了你的结果?做好解释现象的准备了吗?如果一切都准备就绪,可以说你已经通过严密的分析证明了某件事,但说证实就言重了。
问:散点图中将放进多少记录?
答:和直方图一样,散点图是一种分辨率很高的显示方法,只要格式正确,可以在图上绘制成千上万个点。散点图的高分辨率属性是其优点之一。
你需要用一个等式进行精确预测
用线性方程可以对直线进行数学表述。
y=a+bx
你的回归线可以用这个线性方程表示。只要知道过去的加薪数据,就可以在x变量中代入任何加薪要求,继而得出该要求对应的加薪预测值。
你只需要求出数值a和b,也就是所谓的系数即可。
- a代表Y轴截距,线性方程右边的第一个变量代表Y轴截距,即直线与Y轴的交点。
- b代表斜率,一条线的斜率即对一条线的角度的量度。
线的斜率越大,b值越大,而一条相对较为平坦的线的斜率则会接近于0。为了计算斜率,可测量X轴(边长)上的各个单位对应的一条线的上升速度(“高”,或者叫做y值的变化)。斜率=高/边长=b
只要能看出两个变量之间具有密切的关系,只要回归线有意义,你就可以充满信心地让软件计算各个系数。
问:我怎么知道人们为明天提出的目标会不会和今天已经得到的结果相似?
答:这是回归分析的一个大问题。不仅要问“明天与今天会有几分相似?”,而且要问“要是明天变个样,我的业务会怎么样?”,答案是——你无法知道明天是否会像今天一样。变化难免会发生,有时还会天差地别。发生变化的可能性大小及其意义取决于问题类型。
问:为什么会这样?
答:喔,对比一下医疗数据和消费者偏好吧。人体明天突然改变生存方式的可能性有多大?可能性不是没有,尤其是环境发生突变,但可能性不大;消费者偏好明天发生改变的可能性有多大?你可以打赌,消费者偏好会改变,大大改变。
问:那为什么还要劳神作预测呢?
答:举个例子,在网络世界里,优秀的回归分析能在一段时间里产生巨大利润,哪怕明天就失去预测能力也没关系。想想你自己的行为吧,对于一家在线书店来说,你,不过是一个数据集。
问:挺郁闷的。
答:并非如此——这说明书店知道如何为你提供你需要的东西。你是一个数据集,书店对你这个数据集进行回归分析,预测你要买的书。除非你的品位发生改变,否则这个预测一直有效。若你的品位变了,开始买其他书籍,书店就会再次进行回归分析,从而获取新信息。
问:这么说,要是外界条件发生改变,回归分析不再有效,我就得进行更新了?
答:再说一遍,这取决于你的问题类型。要是你有充足、定性的理由相信你的回归分析是正确的,那么有可能永远不需要改变分析。可要是你的数据不停地变化,那就应该不停地进行回归分析并善加利用:若回归分析是正确的,你会得益;但要是现实改变、回归分析失败,也不至于影响你的业务。
问:人们不该看见别人加多少薪就要求给自己加多少薪吧?应该认为自己值得加多少薪就要求加多少薪吧?
答:问得很好。这个问题其实是你的部分心智模型,统计方法无法判断你要做的事是否合情合理。对于定性问题,作为分析师,你需要尽最大努力进行评估。(不过直截了当的回答是你配大幅度加薪!)
第十一章 误差 合理误差
预测有失精准并不稀奇。不过,如果在进行预测的时候指出误差范围,你和你的客户就不仅能知道平均预测值,还能知道该误差造成的典型偏差,指出误差可以让预测和信念更全面。
懂得如何控制误差及如何尽量降低误差,从而提高预测可信度。
外插法
外插法与内插法有所不同,内插法对数据范围内的点进行预测,这正是回归法的本来目的。内插法很准确,但使用外插法就得小心了。
如果打算使用外插法,就需要指定附加假设条件,明确表示不考虑数据集外发生的情况。
如何对待想对数据范围以外的情况进行预测的客户
一是无可奉告;二是提出一个假设,据此进行预测。
低劣的预测比不作预测更糟糕。
问:到底在数据范围以外发生哪种情况会引发这样的问题?
答:在你所用的数据范围以外,可能根本就没有数据。就算有数据,也是大相径庭。这些数据甚至可能是非线性的。
问:但我不一定要把所有数据点都放在数据范围内。
答:没错,这是数据质量和抽样问题。要是你用的不是全部数据,而是抽样数据,那么就要确保这些抽样数据能代表整个数据集,从而能够据此建立模型。
问:考虑在各种假设的、纯推理的条件下发生的情况难道是多此一举吗?
答:非也,肯定应该考虑。但这需要训练,确保你对假设情况的想法不会影响到你对现实情况的想法(及行动)。
问:对未来进行预测不算外插法吗?
答:是外插法,但这是否会带来问题则取决于你的研究对象。你的观察对象会在未来发生彻头彻尾的改变还是相当稳定?宇宙的物理定律可能不会在下个星期发生巨变,但证券市场的各种关系却有这种可能。考虑这些问题将会帮助你懂得如何使用自己的模型。
千万要对模型假设保持戒心。
观察他人的模型时,一定要想一想他们的假设有何道理,以及他们是否忘记了某种假设。
不合适的假设会使模型完全失效——这还算是最好的结果;最坏的结果是具有危险的欺骗性。
机会误差=实际结果与模型预测结果之间的偏差
无论你的回归分析是否无可挑剔,都免不了要进行这样那样的预测。这些预测很少不偏不倚,这种实际结果与预测结果之间的偏差叫做机会误差。
在统计学中,机会误差又称为残差,对残差的分析是优秀的统计模型的核心。
尽管你可能永远无法恰当地解释每个偏离模型的残差的原因,但必须小心观察散点图上的残差。
如果你能正确地解释残差,就能更好地理解手头的数据以及模型的用途。
预测总是与机会误差同在,你可能永远也想不通自己的数据中为什么会出现机会误差。
用均方根误差定量表示残差分布
算法 | 描述 | |
标准偏差 | 一个变量 | 平均值周围的分布情况 |
均方根误差 | 两个变量之间的关系 | 回归线周围的分布情况 |
重要的是,你要知道误差是可以定量描述、定量使用的,还有,要能够描述预测结果中包含的误差。
非线性回归或多元回归将使用其他公式确定误差。实际上,即使是线性回归,也不止均方根这一种描述偏差的方法。量度误差的方法应有尽有,具体取决于特定情况。
分割的根本目的是管理误差
将数据分拆为几个组称为分割。如果为几个分组分别创建预测模型比单独使用一个模型更能减小误差,则应进行分割。
第十二章 关系数据库 你能关联吗?
第十三章 整理数据 井然有序
许多数据搜集者需要花大量时间整理数据。不整齐的数据无法进行分割、无法套用公式,甚至无法阅读,被人们视而不见也是常事,对不对?其实,你可以做得更好。只要眼前清楚地浮现出希望看到的数据外观,再用上一些文本处理工具,就能抽丝剥茧地整理数据,化腐朽为神奇。
数据分析有一个不可告人的秘密——作为数据分析师,你花在数据整理上的时间多过数据分析上的时间。
该怎么从头开始处理这些乱哄哄的数据呢?
- 问问客户整理数据的目的。
- 写出一个公式,整理数据。
清理混乱数据的根本在于准备
这是不言而喻的,不过,和做其他数据工作一样,整理数据必须首先从复制原始数据开始,这样才方便回头检查。
一旦你确定了你自己想要得到的数据外观,就可以继续从混乱中分辨出数据模式。
最后要做到的是回头逐行修改数据——这可要大费周折,所以要是能够识别重复出现的混乱符号,就能写出公式和函数,然后利用各种模式整理数据。
你会发现,修复数据的过程常常会反复发生,即,要一次又一次地重新构造和整理数据,直到得到所需要的结果。