数据分析实战2(Tableau)
1、Tableau功能
数据赋能(让业务一线也可以轻松使用最新数据)
- 分析师可以直接将数据看板发布到线上
- 自动更新看板
- 自由下载数据
- 线上修改图表
- 邮箱发送数据
- 设置数据预警
数据探索(通过统计分析和数据可视化,从数据发现问题,用数据验证假设)
- 支持亿级数据的连接和处理
- 自由地对字段进行各种计算
- 拖拽就可以轻松制作图表
- 数据可以随意聚合下钻
- 图表类型可以灵活转换
- 内置算法智能建模
2、下载安装
下载网址:https://www.tableau.com/zh-cn/products/public/download
3、数据连接
①连接类型
- 本地文件
- csv数据连接到文本
- xls/xlsx连接到Excel
- json直接连接到json
- 数据库
- 下载数据库对应的驱动后,填写地址等参数连接到对应数据库
②连接方式
- 默认使用智能连接,只需选择连接所用的数据字段即可
- 连接所用的字段可以通过函数进行计算和编辑
- 表格之间的连接原理
- 课程操作
③提取方式
- 实时
- 每次计算都会连接一次数据库进行取数运算
- 这是因为Tableau的本质是Vizql查询语言,每做一个操作就查询一次是可以实现的不过在数据量级较大的情况下就会比较慢了
- 数据提取
- 将当前连接所涉及的数据全部都查询提取到hyper格式的数据提取(相当于Tableau自己的数据库和对应类型的文件)
- 如果保存为twbx格式,hyper会自动打包进twbx,使tableau自带数据
- 缺点是每次修改完数据源都要重新提取一遍数据,如果是实时,则不需要先提取,等你作图时他才会再提取
- 如果要将Tableau上传到Sever服务器,则必须使用提取的数据连接方式
- 其实大量级数据都要用数据提取,除了修改连接键,其他操作在工作表的视图界面都能操作
④提取选项
- 如果选择数据提取,Tableau还支持对表格进行基于字段和函数的增量刷新,提升数据提取的性能,但百万级以下的数据,除非频繁提取,否则一般不需要这样操作
⑤连接筛选
- 可以在提取数据后进行预筛选,只保留筛选后的数据进行视图操作保存类型
- twb不包含数据
- twbx内置数据到tableau的文件中点提取但是还没保存时,tableau会让你先保存提取的数据数据处理
- 可以查看数据,进行排序、重命名、拆分等操作,这些操作在做图界面也可以完成
⑥理解本次课程的数据
- shop表有2385行
- cpc表有1177行
- orders表有4419行
4、数据可视化原理
人是可视化动物,看图比看数据快
①2类型:
- 度量:映射图形
- 可映射的图形类型
- 位置
- 长度
- 角度
- 方向
- 形状
- 面积和体积
- 颜色和深浅
- 可映射的图形类型
- 维度:负责区分
②将数据变成图表
- 对【度量】和【维度】进行拖拽操作,从而完成可视化图标的制作,是被称作Tableau第一概念,是最重要的知识。(!!智能推荐不算作图)
- 行:纵坐标
- 列:横坐标
- 离散形成标签,连续形成数轴
③5个知识点总结
- 度量默认聚合
- 度量值会形成图形标记,图形标记可以切换
- 维度会对度量值进行区分,增加度量值的信息密度(单个图标传达信息的多少)
- 图标分为有轴图标和无轴图表(极坐标图表)
- 离散形成标签,连续形成数轴
④基础图标制作
堆积图:
折线图:
面积图:
5、数据可视化原则、BI仪表盘搭建
(1)数据可视化原则
- 区分用户
- 主次分明、详略得当
- 强调信息的方式有很多种,用恰当的方式去强调恰当的内容
- 真实准确:数据要从0开始
- 符合大众的认知和审美
- 适度原则
- 颜色不超过8种
- 排版、字体、大小、形状等都要合适
- 避免使用3d效果,容易产生错觉
- 五秒原则(5秒能看懂)
- 恰到好处的说明(说明:标题、图例、标注等)
- 少即是多
- 可视化案例
(2)BI仪表盘搭建
①仪表盘搭建原则
- 符合业务的阅读、思考、操作逻辑
②明确仪表盘主题
观众是谁,他们对什么感兴趣
- 普通业务人员(跟业务相关的数据)
- 销售:注册—激活—成交
- 投放:消耗—转化率
- 运维:搬车数—换电数
- 中层管理者
- 整体的总体报告
- 业务整体的绝对值、达成率、同比环比;
- 有哪些数据异常、优秀表现
- 各个维度的数据
- 各个业务动作的绝对值、达成率、同比环比
- 数据异常的具体原因
- 整体的总体报告
- 高层管理者
- 整体的总结报告
- 业务整体的绝对值、达成率、同比环比;
- 有哪些数据异常、优秀表现
- 整体的总结报告
- 用人单位
- 有一个明确的分析主题
- 分析维度越多越好
- 图标越高级越好
课程数据可发挥的主题
- 每日营收情况
- 无效订单与配送距离的关系
- 用户下单时间分布
- 用户客单价变化
- cpc投放效果
③仪表盘主题拆解
- 怎样的数据能表达清楚想说的主题?
- 这个主题涉及到哪些数据?
- 数据的重要程度是否相同?
- 最适合数据的图表是那种?
- 对比
- 绝对值对比——条形图/柱状图
- 变化
- 没有累计关系——折线图+柱状图
- 有累计关系——面积图/堆积图
- 构成
- 对象少于3个——环形图
- 对象大于3个——树地图
- 分布
- 单变量分布——直方图
- 多变量分布——散点图、气泡图
- 对比
- 以每日营收情况主题为例
- 关键数据
- 营收数据
- GMV
- 商家实收
- 用户实付
- 总订单数
- cpc总费用
- 各平台数据对比
- 流量数据
- 曝光人数
- 进店人数
- 下单人数
- 进店转化率
- 下单转化率
- 新客数
- 老客数
- 复购率
- 营收数据
- 数据排序
- 营收>投放>流量
- 图表选择
- 经营情况总览:突出显示的文字
- 经营数据详情:表格
- 每日营收数据:多轴折线图
- 每日流量数据:双轴组合图
- 新老客占比:环形图
- 平台占比:环形图
- 门店排名:条形图
- 投放情况:散点图
- 关键数据
④开发设计工作表
- 经营情况总览:突出显示的文字
- 经营数据详情:表格
- 每日营收数据:多轴折线图
- 每日流量数据:双轴组合图
- 新老客占比:环形图
- 平台占比:环形图
- 门店排名:条形图
- 投放情况:散点图
⑤构思仪表盘布局
⑥加“亿点点”细节