type
status
date
slug
summary
tags
category
icon
password
📌基本概念
数据分析(广义): 目的:数据分析的目的是把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内规律
数据分析(狭义)
定义
- 数据分析是指根据分析目的,用适当的分析方法及工具,对数据进行处理与分析,提取有价值的信息,形成有效结论的过程
作用
- 现状分析:发生了什么
- 原因分析:为什么会发生
- 预测分析:将发生什么(主要是指数值预测分析)
方法
- 对比分析
- 分组分析
- 结构分析
- 分布分析
- 交叉分析
- 矩阵分析
- 回归分析
- ......
结果
- 一般都是得到一个指标统计量结果,如总和、平均值、计数等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用
数据挖掘
定义:从大量的数据中,通过统计学、机器学习、数据可视化等方法,挖掘出未知但有价值的信息和知识的过程
作用
- 分类
- 聚类
- 关联
- 预测
- 侧重解决的四个问题
- ......
方法
- 决策树
- 神经网络
- 关联规则
- 聚类分析
- 时间序列分析
- ......
结果
- 输出模型或规则,同时计算出模型得分或标签
流程
①明确分析目的和思路
- 明确分析目的
- 避免盲目,导致偏离方向,最终导致决策失误
- 简洁、有说服力
- 确定分析思路
- 梳理分析思路
- 搭建分析框架
- 切分分析要点
- 确定角度、指标
- 分析框架体系化
- 以营销、管理等理论为指导,结合实际业务情况,搭建分析框架,这样才能确保数据分析维度的完整性,分析结果的有效性及正确性
- 营销方面模型
- 4P:product(产品)、price(价格)、Promotion(促销)、place(渠道)
- 用户使用行为
- STP理论:市场细分(Segmentation)、选择适当的市场目标(Targeting)、定位(Positioning)
- SWOT:S(strengths)是优势、W (weaknesses)是劣势、O (opportunities)是机会、T (threats)是威胁
- 管理方面模型
- PEST:Policy、Economy、Society、Technology
- 5W2H:What、Why、When、Where、Who、How much、How to do
- 时间管理
- 四象限时时间管理
- GTD时间管理
- ......
- 生命周期:?
- 逻辑树:把问题看做树木的树干,通过不同的分枝,把问题拆解为一个个的子问题。通过解决单独的子问题,从而汇总得出问题的答案
- 金字塔:?
- SMART原则:S=Specific具体的、M=Measurable可衡量、A=Attainable可达到、R=Relevant相关性、T=Time-bound明确的截止期限
②数据收集
- 数据库、公开出版物、互联网、市场调查......
③数据处理
- 数据清洗
- 数据合并
- 数据抽取
- 数据计算
- 数据转换
④数据分析
- Excel
- SPSS (Statistical Product and Service Solutions)
- R软件
- python
- 常规工具(需要掌握)
⑤数据展现
- 一般情况下,数据是通过表格和图形的方式来呈现的,我们常说用图表说话就是这个意思,也称为数据展现、数据可视化
⑥报告撰写
- 分析框架结构化
- 图文并茂、层次清晰、一目了然
- 结论明确化
- (现状+对比)/业务→ 结论
- 建议、解决方案业务化
- 好的分析报告一定要有建议或解决方案
误区
- 分析目的不明确,为分析而分析
- 缺乏业务知识,分析结果偏离实际
- 一味追求使用高级分析方法,热衷于研究模型
- 围绕业务发现问题并解决问题才是数据分析的终极目的
📌数据分析师的基本素质要求
软件
- 态度严谨负责
- 好奇心强烈
- 逻辑思维清晰
- 擅长模仿学习
- 勇于创新
硬件
懂业务
- 对数据的敏感性,看到的不仅仅是数字,明白数字代表什么意义,知道数字是大了还是小了,心中有数
懂管理
- 提出搭建数据分析框架的要求
- 针对数据分析结论提出有指导意义的分析建议
- 需要掌握一定的管理理论知识
懂分析
- 基本分析方法
- 对比分析法
- 将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物发展变化情况和规律性。特点是简单、直观、量化。
- 分组分析法
- 根据目标数据的性质、特征,按照一定指标,将数据总体划分成几个部分,分析其的内部结构和相互关系,从而了解事物的发展规律。
- 结构分析法
- 在 统计分组 的基础上,计算各组成部分所占比重,进而分析某一总体现象的内部结构特征、总体的性质、总体内部结构依时间推移而表现出的变化规律性的统计方法
- 分布分析法
- 指统计学中通过质量某特性值的分布状况来发现问题的一 种方法,其工具是直方图
- 交叉分析法
- 把统计分析数据制作成二维交叉表格,将具有一定联系的变量分别设置为行变量和列变量,两个变量在表格中的交叉结点即为变量值,通过表格体现变量之间的关系
- RFM分析法
- 矩阵关联分析法
- 根据事物(如产品、服务等)的两个重要属性(指标)作为分析依据,进行分类关联分析,找出解决问题的一种分析方法
- 综合评价分析法
- 根据事物(如产品、服务等)的两个重要属性(指标)作为分析依据,进行分类关联分析,找出解决问题的一种分析方法
- 结构分解法
- 根据事物(如产品、服务等)的两个重要属性(指标)作为分析依据,进行分类关联分析,找出解决问题的一种分析方法
- 因素分析法
- 漏斗分析法
- 一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况,是一种重要的分析模型
- 明确业务流程
- 聚焦薄弱环节
- ......
- 高级分析法
- 相关分析法
- 对比两组及以上数据之间的相关数据,用于分析部分数据对整体数据的相关程度与相关关系
- 回归分析法
- 研究自变量和因变量之间数量变化关系的一种分析方法,它主要是通过建立因变量Y与影响它的自变量X之间的回归模型,衡量自变量X对因变量Y的影响能力,进而可以预测因变量Y的发展趋势
- 聚类分析法
- 主成分分析法
- 因子分析法
- 对应分析法
- 时间序列分析法
- ......
懂工具
- excel/Acess/SPSS/Python/R软件
懂设计
- 运用图表有效表达数据分析师的分析观点,使分析观点一目了然
- 图形选择
- 版式设计
- 颜色搭配
- ......
📌常用指标和术语
平均数(算数平均数)
- 将总体内各单位的数量差异抽象化,代表了总体的一般水平,掩盖了总体内各单位的差异
绝对数
- 客观现象总体在一定时间、地点条件下的总规模、总水平
- 百分点
- 不同时期以百分数的形式表示的相对指标的变动幅度
- 频数
- 一组数据中个别数据重复出现的次数
- 比例
- 反映总体构成和结构
相对数
- 两个有联系的指标对比计算而得到的数值,是用以反映客观现象之间数量联系程度的综合指标
- 相对数=比较数值(比数)÷基础数值(基数)
- 百分比
- 频率
- 每组类别次数与总次数的比值
- 比率
- 反映整体中各部分之间的关系
- 倍数
- 商值
- 番数
- 原来的数量的2的n次方倍
- 使用相对数时需注意指标的可比性
同比
- 与历史同时期进行比较得到的数值
- 反映的是事物发展的相对情况
环比
- 与前一个统计周期 进行比较得到的数值
- 反映的是事物逐期发展的情况
📌分析思路
数据分析方法论
- 定义
- 从宏观角度指导如何进行数据分析,它就像一个数据分析的前期规划,指导着后期数据分析工作的开展
- 主要作用
- 理顺分析思路, 确保数据分析结构变化
- 把问题分解成相关联的 部分,并显示它们之间 的关系
- 为后续数据分析的开展指引方向
- 确保分析结果的有效性和正确性
常用的方法论
PEST
- Political
- 政治体制
- 经济体制
- 财政政策
- ......
- 政治环境
- Economic
- 宏观
- 微观
- 经济环境
- Social
- 发明进展
- 折旧、报废速度
- ......
- 社会环境
- Technological
- 受教育程度 和文化水平
- 宗教信仰
- 风俗习惯
- ......
- 技术环境
- 主要用于行业分析
5W2H
- Why
- What
- When
- Who
- Where
- How
- How much
- 企业营销、管理活动
逻辑树分析法
- 要素华
- 框架化
- 关联化
- 业务专题分析
- 主要是帮助理清思路,避免今进行重复和无关的思考
- 保证解决问题的过程的完整性,将工作细分为 便于操作的任务,确定各部分的优先顺序,明确地把责任落实到个人
4P营销理论
- Product
- Price
- Place
- Promotion
- 公司整体经营情况分析
用户使用行为理论
- 用户为获取、使用物品或服务所采取的的各种行动
📌数据准备
数据
- 概念
- 字段
- 事物或现象的某种特征
- 记录
- 事物或现象某种特征的具体表现
- 数据类型
- 字符型数据
- 不具有算术运算能力的文本数据类型
- 属于分类数据
- 数值型数据
- 表示数量,是可进行算术运算的数据类型
- 值越多,其分类就越细,通常也就难发现其中的规律。一般都先将数据型数据进行分区间处理
数据表
- 一维表
- 二维表
- 多维表
- 每一列是否是是一个独立的变量,如果是,即为一维表,否则为二维表或多维表
📌数据处理
- 数据清洗
- 重复数据
- 缺失数据
- 空格数据
- 数据合并
- 数据抽取
- 数据计算
- 数据转换
📌数据分析方法&工具
对比分析法
- 定义
- 将两个或者多个数据进行比较,分析差异,从而揭示发展变化情况和规律性
- 可以非常直观地看出事物某方面的变化或差距,并且可以准确、量化地表示出这种变化或者差距是多少
- 指标&维度
- 指标
- 概念
- 用于衡量事物发展程度的单位或方法,,IT界称之为度量
- 分类
- 绝对数指标
- 反映规模大小的指标
- 相对数指标
- 主要用来反映质量的高低
- QQ模型
- 数量(Quantity)
- 质量(Quantity)
- 广度
- 群体覆盖的范围:如留存率、渗透率、付费率等
- 深度
- 群体参与的深度:如人均消费额、人均GDP、人均收入、人均在线时长等
- 维度
- 概念
- 事物或现象的某种特征,亦称为分析角度
- 分类
- 同级别类别对比
- 横比
- 不同时期对比
- 时间是一种常用的、特殊的维度,时间维度上的对比,称为纵比
- 同比
- 环比
- 定基比:每个统计周期的数据与某一固定统计周期的数据进行对比
- 与目标对比
- 行业内对比
- ......
- 特征
- 数据类型为字符类型数据,就是定性维度
- 数据类型为数值型数据,就是定量维度
- 注意事项
- 指标的口径范围等必须一致
- 对比的指标类型必须一致
分组分析法
- 概念
- 根据分组字段,将分析对象划分成不同的部分,以对比分析各组之间的差异
- 分类
- 定性分组
- 按实物固有属性划分
- 结构分析
- 定量分组
- 数值分组
- 分布分析
结构分析法
- 概念
- 在分组的基础上,计算各组成部分所占的比重,进而分析总体内部的构成特征
- 定义
- 结构相对指标(比例)=(总体某部分的数值/总体数量)X100%
分布分析法
- 概念
- 指根据分析目的,将数值型数据进行等距或不等距分组,研究各组分布规律
- 方法步骤
- 1.确定组数
- 2.确定各组的组距
- 3.分组整理,划归至相应组内
交叉分析法
- 概念
- 通常用于分析两个或者多个分组变量之间的关系,以交叉表的形式进行变量间关系的对比分析
- 原理
- 从数据的不同维度,综合进行分组细分,以进一步了解数据的结构特征、分布特征
- 注意
- 维度尽量不要多,维多越多,分的越细,越没有重点,越难发现规律
RFM分析法
- 概念
- R(Recency:进度)、F(Frequency:频度)、M(Monetary:额度)
- 注意
- 前提条件
- 1.假设最近有过交易行为的客户,再次发生交易的可能性要高于最近没有交易行为的的客户
- 2.假设交易频率较高的客户比交易频率较低的客户,更有可能再次发生交易行为
- 3.假设过去所有交易总金额较多的客户,比交易总金额较少的额客户,更有消费积极性
- 方法&步骤
- 1.常用方式
- 2.计算RFM各项得分值,将客户细分为八种不同的类型
- Step1.计算RFM各项分值
- R_S:定义为距离当前日期越近,得分越高,最高5分,最低1分
- F_S:定义为交易频率越高,得分越高,最高5分,最低1分
- M_S:定义为交易金额越高,得分越高,最高5分,最低1分
- Step2.汇总RFM的分值
- RFM=100*R_S+10*F_S+1*M_S
- Step3.根据RFM客户细分模型,将客户细分为八种不同的类型
矩阵关联分析法
- 概念
- 将事务的两个重要属性(指标)作为分析的依据,进行关联分析,找出解决问题的一种方法
- 目的
- 在解决问题和资源分配时,可为决策者提供重要参考依据
- 进阶
- 改进难易矩阵
- 增加一个新的指标,使用起泡+矩阵图
综合评价分析法
- 基本思想
- 将多个指标转化为一个能够反映综合情况的指标来进行分析评价
- 步骤
- Step1.确定综合评价指标体系,即包含哪些指标
- Step2.收集数据,并对不同计量单位的指标数据进行标准化处理
- 0-1标准化
- 离差标准化,对原始数据进行线性变换,使结果落到[0,1]区间
- 第N个经标准化处理的值=(第N个原始值-最小值)/(最大值-最小值)
- Z标准化
- Step3.确定指标体系中个指标的权重,以保证评价的科学性
- Step4.对经处理后的指标再进行汇总,计算出综合评价指数或综合评价分值
- Step5.根据评价指数或分值对参评单位进行排序,并由此得出结论
- 特点
- 1.评价过程不是逐个指标顺次完成,而是通过一些特殊方法将多个指标的评价同时完成
- 2.在综合评价过程中,一般要根据指标的重要性进行加权处理
- 3.评价结果不再是具有具体含义的统计指标,而是以指数或分值表示参评单位综合状况的排序
- 权重确定方法
- 方法工具
- 专家访谈法
- 德尔菲法
- 层次分析法
- 主成分分析法
- 因子分析法
- 回归分析法
- ......
- 目标优化矩阵
- 原理
- 把人脑的模糊思维,简化为计算机的1/0式逻辑思维,最后得出量化结果
- 权重计算
- 某指标权重=(某指标新的重要性合计得分/所有指标新的重要性合计得分)*100%
结构分解法
- 金字塔形结构
- 使业务结构的层次更分明、条理更清晰,简单明了地表达了各业务结构之间的关系
因素分析法
- 定义
- 把综合性指标分解为各个原始因素,主要用于分析有明确数量关联关系的各个因素之间的变动对综合指标变动量的影响程度,从而确定影响指标变化的原因
- 步骤
- 1.确定指标的因素构成
- 2.确定各因素与指标的关系,加减乘除等等
- 3.测定、分析因素对指标变动的影响方向和程度
漏斗分析法
趋势分析法
- 定量分析
- 运用数学工具对事物规律进行定量描述,预测其发展趋势的方法
- 数值预测
- 时间序列
- 回归分析
- ......
- 分类预测
- 决策树
- 逻辑回归
- 神经网络
- ......
- 定性分析
- 预测者依靠熟悉业务知识、具有丰富经验和综合分析能力的人员与专家,根据已掌握的历史资料和直观材料,运用个人的经验和分析判断能力,对事物的未来发展做出性质和程度上的判断。
- 德尔菲法
- 主观概率法
- ......
- Excel功能使用
- 预测工作表
- 趋势线
高级数据分析方法
- 根据方向选择
- 产品研究
- 相关分析
- 对应分析
- 判别分析
- 结合分析
- 多维尺度分析
- ......
- 品牌研究
- 相关分析
- 聚类分析
- 判别分析
- 因子分析
- 对应分析
- 多维尺度分析
- .....
- 价格研究
- 相关分析
- PSM价格分析
- ......
- 市场细分
- 聚类分析
- 判别分析
- 因子分析
- 对应分析
- 多维尺度分析
- Logistic回归
- 决策树
- .....
- 满意度研究
- 相关分析
- 回归分析
- 主成分分析
- 因子分析
- 对应分析
- Logistic回归
- 决策树
- 。。。。。。
- 用户研究
- 相关分析
- 聚类分析
- 判别分析
- 因子分析
- 对应分析
- Logistic回归
- 决策树
- 关联规则
- 。。。。。。
- 预测决策
- 回归分析
- 决策树
- 神经网络
- 时间序列
- Logistic回归
- 。。。。。。
- 工具
📌数据展现
目的
- 表达形象化
- 突出重点
- 体现专业化
图表
- 表格
- 饼图
- 条形图
- 柱形图
- 折线图
- 散点图
数据基本关系
- 成分
- 也叫构成,用于表示部分与总体之间的关系
- 排序
- 根据需要比较的项目的数值大小进行排列
- 时间序列
- 用于表示某事物按一定的时间顺序发展的走势、趋势
- 频率分布
- 用于表示各项目、类别间的比较
- 相关性
- 衡量两大类中各项目件的关系
- 多重数据比较
- 进行分析比较的数据类型多于两个的数据分析比较
表格
- 步骤
- 1.确定所要表达的主题或目的
- 2.确定哪种图表最适合你的目的
- 3.选择数据制作图表
- 4.检查是否真实有效地展示数据
- 5.检查是否表达了你的观点
- 注意
- 当需要展现的数据在3个及以上时,用表格数据效果相对较好
- 功能
- 突出显示单元格
- 项目选取
- 数据条
- 图标集
- 迷你图
- 功能扩展
- 平均线图
- 插入→簇状柱形图-折线图
- 组合图
- 双坐标图
- 竖形折线图
- 帕累托图
- 二八法则
- 一种特殊的线柱图,柱形图的数据按数值降序排列
- 折线图的起点数值为0%,并且位于柱形图第一根柱子的左下角
- 折线图最后一个点的数值为100%, 位于整张图的右上角
- 旋风图
- 同一事物在某个活动、行为影响前后不同指标的变化
- 同一事物在某个条件(指标A)变化下,指标B受影响也随之变化,具有因果关系
- 两个类别之间不同指标的比较
- 漏斗图
- 矩阵图
- 矩阵图
- 改进难易矩阵(气泡图)
📌图表美化
评价标准
- 严谨
- 图表是为了证明一个观点及事实而存在的
- 简约
- 言简意赅、正中要点
- 美观
注意事项
- 元素完整
- 标题
- 图例
- 不同项目的标识
- 坐标轴单位
- 脚注
- 对图表中的某一元素进行说明
- 资料来源
- 目的明确
- 贵精不贵多
- 是否能有效地表达信息
- 信息完整但不要太多
- 观点明确且突出
- 最好的不一定是最优的
- 标题意思明确
- 饼图
- 按照表盘方式顺时针排列,重要的信息紧靠12点位置
- 数据项不要太多,保持在5项以内
- 不要使用爆炸式的饼图分离
- 不要使用图例
- 尽量不适用标签连线
- 尽量不适用3D效果
- 扇区使用颜色填充时,推荐使用白色的边框线
- 树状图与旭日图
- 树状图
- 适合用来展示构成项目较多的结构关系
- 旭日图
- 清晰地表达层级和归属关系,也就是用于展现有父子层级维度的比例构成情况,便于溯源分析
- 柱形图
- 同一数据序列使用相同的颜色
- 不要使用倾斜的标签
- 纵坐标轴的刻度一般从0开始
- 条形图
- 同一数据序列使用相同的颜色
- 不要使用倾斜的标签
- 尽量让数据从大到小排序,方便阅读
- 最好添加数据标签
- 折线图
- 折线选用的线型要相对粗一些
- 线条数量一般不超过5条
- 不要使用倾斜的标签
- 纵坐标轴的刻度一般从0开始
美化
- 简约
- 清晰明了
- 整洁
- 整齐
- 干净
- 和谐
- 对比
技巧
- 最大化数据墨水比
- 图表中的每一点墨水都有存在的意义
- 去掉不必要的背景填充色
- 去掉无意义的颜色分类
- 去掉装饰性的渐变色
- 去掉网格线、边框
- 删掉不必要的图例
- 去掉不必要的坐标轴
- 去掉装饰性图片
- 以上不能去掉的元素尽量淡化
- 对需强调的数据元素进行突出标识
- 找出隐形的线
- 图表喜欢的数字格式
- 如何突出对比
- 参考线
- 箭头
- 缺口
- 配色
- 红色
- 白、黑、蓝灰、米、灰
- 咖啡
- 米、鹅黄、砖红、蓝绿、黑
- 黄
- 紫、蓝、白、咖啡、黑
- 緑
- 白、米、黑、暗紫、灰粽
- 蓝
- 白、粉蓝、酱红、金、银、橄榄绿、橙、黄
- 色环
- 相似色
- 邻近色
- 对比色
- 冷暖色
📌数据报告
原则
- 规范性:名词术语前后一致、标准统一,与业内公认术语一致
- 重要性:体现重点,按重要性高低分级阐述
- 谨慎性:基础数据真实完整,内容实事求是
- 创新性
作用
- 展示分析结果
- 验证分析质量
- 提供决策参考
种类
- 专题分析报告
- 内容单一性
- 分析的深入性
- 综合分析报告
- 全面性:站在全局的高度,反映总体特征,做出总体评价,得出总体认识
- 联系性:把互相关联的一些现象、问题综合起来
- 日常数据通报
- 进度性:需要进行一些必要的计算,通过一些绝对数和相对数指标来突出进度
- 规范性
- 反映计划执行的基本情况
- 分析完成或未完成的原因
- 总结计划执行中的成绩和经验,找出存在的问题
- 提出措施和建议
- 时效性
结构
- 标题页
- 类型
- 解释基本观点
- 概括主要内容
- 交代分析主题
- 提出问题
- 制作要求
- 直接
- 确切
- 简洁
- 目录
- 前言
- 分析背景
- 主要原因
- 分析的意义
- 其他相关信息
- 分析目的
- 能带来的效果
- 能解决什么问题
- 分析思路
- 确定分析的内容或指标
- 正文
- 最长的主体部分
- 包含所有数据分析事实和观点
- 通过数据图表和相关的文字结合分析
- 正文各部分具有逻辑关系
- 结论与建议
- 结论
- 去粗取精
- 由表及里
- 归纳出具有共同的、本质的规律
- 应该措辞严谨、准确、鲜明
- 非现状描述,应该是结合实际业务情况推论得到的结果
- 建议
- 针对面临的问题而提出的改进方法,通常具有策略性或战略意义
- 主要关注在保持优势及改进劣势
- 附录
- 注意事项
- 作者:Goodyarders
- 链接:https://www.loveguya.com/article/new_bird_in_data
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。