常用的统计分析方法
常用的统计分析方法
分析数据有两种,
1列表法
将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚、简单明了、有利于发现相关量之间的物理关系;此外还要求在标题栏中注明物理量名称、符号、数量级和单位等;根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。最后还要求写明表格名称、主要测量仪器的型号、量程和准确度等级、有关环境条件参数如温度、湿度等。
2作图法
作图法可以最醒目地表达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果(如直线的斜率和截距值等),读出没有进行观测的对应点(内插法),或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法)。此外,还可以把某些复杂的函数关系,通过一定的变换用直线图表示出来。例如半导体热敏电阻的电阻与温度关系为,取对数后得到,若用半对数坐标纸,以lgR为纵轴,以1/T为横轴画图,则为一条直线。
这个要看你分析什么数据。
分析大数据,R语言和Linux系统比较有帮助,运用到的方法原理可以翻翻大学的统计学,不需要完全理解,重在应用。
分析简单数据,Excel就可以了。Excel本意就是智能,功能很强,容易上手。我没有见过有人说自己精通Excel的,最多是熟悉Excel。Excel的函数可以帮助你处理大部分数据。
一、掌握基础、更新知识。
基本技术怎么强调都不过分。这里的术更多是(计算机、统计知识),多年做数据分析、数据挖掘的经历来看、以及业界朋友的交流来看,这点大家深有感触的。
数据库查询—sql
数据分析师在计算机的层面的技能要求较低,主要是会sql,因为这里解决一个数据提取的问题。有机会可以去逛逛一些专业的数据论坛,学习一些sql技巧、新的函数,对你工作效率的提高是很有帮助的。
统计知识与数据挖掘
你要掌握基础的、成熟的数据建模方法、数据挖掘方法。例如:多元统计:回归分析、因子分析、离散等,数据挖掘中的:决策树、聚类、关联规则、神经网络等。但是还是应该关注一些博客、论坛中大家对于最新方法的介绍,或者是对老方法的新运用,不断更新自己知识,才能跟上时代,也许你工作中根本不会用到,但是未来呢?
行业知识
如果数据不结合具体的行业、业务知识,数据就是一堆数字,不代表任何东西。是冷冰冰,是不会产生任何价值的,数据驱动营销、提高科学决策一切都是空的。
一名数据分析师,一定要对所在行业知识、业务知识有深入的了解。例如:看到某个数据,你首先必须要知道,这个数据的统计口径是什么?是如何取出来的?这个数据在这个行业,在相应的业务是在哪个环节是产生的?数值的代表业务发生了什么(背景是什么)?对于a部门来说,本月新会员有10万,10万好还是不好呢?先问问上面的这个问题:
对于a部门,
1、新会员的统计口径是什么。第一次在使用a部门的产品的会员?还是在站在公司角度上说,第一次在公司发展业务接触的会员?
2、是如何统计出来的。a:时间;是通过创建时间,还是业务完成时间。b:业务场景。是只要与业务发接触,例如下了单,还是要业务完成后,到成功支付。
3、这个数据是在哪个环节统计出来。在注册环节,在下单环节,在成功支付环节。
4、这个数据代表着什么。10万高吗?与历史相同比较?是否做了营销活动?这个行业处理行业生命同期哪个阶段?
在前面二点,更多要求你能按业务逻辑,来进行数据的提取(更多是写sql代码从数据库取出数据)。后面二点,更重要是对业务了解,更行业知识了解,你才能进行相应的数据解读,才能让数据产生真正的价值,不是吗?
对于新进入数据行业或者刚进入数据行业的朋友来说:
行业知识都重要,也许你看到很多的数据行业的同仁,在微博或者写文章说,数据分析思想、行业知识、业务知识很重要。我非常同意。因为作为数据分析师,在发表任何观点的时候,都不要忘记你居于的背景是什么?
但大家一定不要忘记了一些基本的技术,不要把基础去忘记了,如果一名数据分析师不会写sql,那麻烦就大了。哈哈。。你只有把数据先取对了,才能正确的分析,否则一切都是错误了,甚至会导致致命的结论。新同学,还是好好花时间把基础技能学好。因为基础技能你可以在短期内快速提高,但是在行业、业务知识的是一点一滴的积累起来的,有时候是急不来的,这更需要花时间慢慢去沉淀下来。
不要过于追求很高级、高深的统计方法,我提倡有空还是要多去学习基本的统计学知识,从而提高工作效率,达到事半功倍。以我经验来说,我负责任告诉新进的同学,永远不要忘记基本知识、基本技能的学习。
二、要有三心。
1、细心。
2、耐心。
3、静心。
数据分析师其实是一个细活,特别是在前文提到的例子中的前面二点。而且在数据分析过程中,是一个不断循环迭代的过程,所以一定在耐心,不怕麻烦,能静下心来不断去修改自己的分析思路。
三、形成自己结构化的思维。
数据分析师一定要严谨。而严谨一定要很强的结构化思维,如何提高结构化思维,也许只需要工作队中不断的实践。但是我推荐你用mindmanagement,首先把你的整个思路整理出来,然后根据分析不断深入、得到的信息不断增加的情况下去完善你的结构,慢慢你会形成一套自己的思想。当然有空的时候去看看《麦肯锡思维》、结构化逻辑思维训练的书也不错。在我以为多看看你身边更资深同事的报告,多问问他们是怎么去考虑这个问题的,别人的思想是怎么样的?他是怎么构建整个分析体系的。
四、业务、行业、商业知识。
当你掌握好前面的基本知识和一些技巧性东西的时候,你应该在业务、行业、商业知识的学习与积累上了。
这个放在最后,不是不重要,而且非常重要,如果前面三点是决定你能否进入这个行业,那么这则是你进入这个行业后,能否成功的最根本的因素。数据与具体行业知识的关系,比作池塘中鱼与水的关系一点都不过分,数据(鱼)离开了行业、业务背景(水)是死的,是不可能是“活”。而没有“鱼”的水,更像是“死”水,你去根本不知道看什么(方向在哪)。
如何提高业务知识,特别是没有相关背景的同学。很简单,我总结了几点:
1、多向业务部门的同事请教,多沟通。多向他们请教,数据分析师与业务部门没有利益冲突,而更向是共生体,所以如果你态度好,相信业务部门的同事也很愿意把他们知道的告诉你。
2、永远不要忘记了google大神,定制一些行业的关键字,每天都先看看定制的邮件。
3、每天有空去浏览行业相关的网站。看看行业都发生了什么,主要竞争对手或者相关行业都发展什么大事,把这些大事与你公司的业务,数据结合起来。
4、有机会走向一线,多向一线的客户沟通,这才是最根本的。
标题写着告诫,其实谈不上,更多我自己的一些心得的总结。希望对新进的朋友有帮助,数据分析行业绝对是一个朝阳行业,特别是互联网的不断发展,一个不谈数据的公司根本不叫互联网公司,数据分析师已经成为一个互联网公司必备的职位了。
数据分析的方法有哪些
在数据分析中,数据分析思维是框架式的指引,实际分析问题时还是需要很多“技巧工具”的。就好比中学里你要解一元二次方式,可以用公式法、配方法、直接开平方法、因式分解法。
数据分析里也有技巧,在一些通用的分析场景下可以快速使用,而且对未来构建数据分析模型也有帮助。
接下来就分享常见的5种数据分析方法,分别是:公式法、对比法、象限法,二八法,漏斗法,常常多种结合一起使用。
注:主要偏思维层面的,基于业务问题对数据的探索性分析,不同于专业统计学中的数据处理方法。
一、公式法
所谓公式法就是针对某个指标,用公式层层分解该指标的影响因素,这个我在指标化思维中提到过。
举例:分析某产品的销售额较低的原因,用公式法分解
- 某产品销售额=销售量 X 产品单价
- 销售量=渠道A销售量 + 渠道B销售量 + 渠道C销售量 + …
- 渠道销售量=点击用户数 X 下单率
- 点击用户数=曝光量 X 点击率
第一层:找到产品销售额的影响因素。某产品销售额=销售量 X 产品单价。是销量过低还是价格设置不合理?
第二层:找到销售量的影响因素。分析各渠道销售量,对比以往,是哪些过低了。
第三层:分析影响渠道销售量的因素。渠道销售量=点击用户数X 下单率。是点击用户数低了,还是下单量过低。如果是下单量过低,需要看一下该渠道的广告内容针对的人群和产品实际受众符合度高不高。
第四层:分析影响点击的因素。点击用户数=曝光量X点击率。是曝光量不够还是点击率太低,点击率低需要优化广告创意,曝光量则和投放的渠道有关。
通过对销售额的逐层拆解,细化评估以及分析的粒度。
公式拆解法是针对问题的层级式解析,在拆解时,对因素层层分解,层层剥尽。
二、对比法
对比法就是用两组或两组以上的数据进行比较,是最通用的方法。
我们知道孤立的数据没有意义,有对比才有差异。一些直接描述事物的变量,如长度、数量、高度、宽度等。通过对比得到比率数据,增速、效率、效益等指标,这才是数据分析时常用的。
比如用于在时间维度上的同比和环比、增长率、定基比,与竞争对手的对比、类别之间的对比、特征和属性对比等。对比法可以发现数据变化规律,使用频繁,经常和其他方法搭配使用。
下图的AB公司销售额对比,虽然A公司销售额总体上涨且高于B公司,但是B公司的增速迅猛,高于A公司,即使后期增速下降了,最后的销售额还是赶超。
三、象限法
通过对两种及以上维度的划分,运用坐标的方式表达出想要的价值。由价值直接转变为策略,从而进行一些落地的推动。象限法是一种策略驱动的思维,常于产品分析、市场分析、客户管理、商品管理等。
比如,下图是一个广告点击的四象限分布,X轴从左到右表示从低到高,Y轴从下到上表示从低到高。
高点击率高转化的广告,说明人群相对精准,是一个高效率的广告。
高点击率低转化的广告,说明点击进来的人大多被广告吸引了,转化低说明广告内容针对的人群和产品实际受众有些不符。
高转化低点击的广告,说明广告内容针对的人群和产品实际受众符合程度较高,但需要优化广告内容,吸引更多人点击。
低点击率低转化的广告,可以放弃了。
还有经典的RFM模型,把客户按最近一次消费(Recency)、消费频率(Frequency)、消费金额 (Monetary)三个维度分成八个象限。
象限法的优势:
1.找到问题的共性原因
通过象限分析法,将有相同特征的事件进行归因分析,总结其中的共性原因。例如上面广告的案例中,第一象限的事件可以提炼出有效的推广渠道与推广策略,第三和第四象限可以排除一些无效的推广渠道;
2.建立分组优化策略
针对投放的象限分析法可以针对不同象限建立优化策略,例如RFM客户管理模型中按照象限将客户分为重点发展客户、重点保持客户、一般发展客户、一般保持客户等不同类型。给重点发展客户倾斜更多的资源,比如VIP服务、个性化服务、附加销售等。给潜力客户销售价值更高的产品,或一些优惠措施来吸引他们回归。
四、二八法/帕累托分析
二八法也可以叫帕累托法则,源于经典的二八法则。比如在个人财富上可以说世界上20%的人掌握着80%的财富。而在数据分析中,则可以理解为20%的数据产生了80%的效果需要围绕这20%的数据进行挖掘。往往在使用二八法则的时候和排名有关系,排在前20%的才算是有效数据。二八法是抓重点分析,适用于任何行业。找到重点,发现其特征,然后可以思考如何让其余的80%向这20%转化,提高效果。
一般地,会用在产品分类上,去测量并构建ABC模型。比如某零售企业有500个SKU以及这些SKU对应的销售额,那么哪些SKU是重要的呢,这就是在业务运营中分清主次的问题。
常见的做法是将产品SKU作为维度,并将对应的销售额作为基础度量指标,将这些销售额指标从大到小排列,并计算截止当前产品SKU的销售额累计合计占总销售额的百分比。
百分比在 70%(含)以内,划分为 A 类。
百分比在 70~90%(含)以内,划分为 B 类。
百分比在 90~100%(含)以内,划分为 C 类。
以上百分比也可以根据自己的实际情况调整。
ABC分析模型,不光可以用来划分产品和销售额,还可以划分客户及客户交易额等。比如给企业贡献80%利润的客户是哪些,占比多少。假设有20%,那么在资源有限的情况下,就知道要重点维护这20%类客户。
五、漏斗法
漏斗法即是漏斗图,有点像倒金字塔,是一个流程化的思考方式,常用于像新用户的开发、购物转化率这些有变化和一定流程的分析中。
上图是经典的营销漏斗,形象展示了从获取用户到最终转化成购买这整个流程中的一个个子环节。相邻环节的转化率则就是指用数据指标来量化每一个步骤的表现。所以整个漏斗模型就是先将整个购买流程拆分成一个个步骤,然后用转化率来衡量每一个步骤的表现,最后通过异常的数据指标找出有问题的环节,从而解决问题,优化该步骤,最终达到提升整体购买转化率的目的。
整体漏斗模型的核心思想其实可以归为分解和量化。比如分析电商的转化,我们要做的就是监控每个层级上的用户转化,寻找每个层级的可优化点。对于没有按照流程操作的用户,专门绘制他们的转化模型,缩短路径提升用户体验。
还有经典的黑客增长模型,AARRR模型,指Acquisition、Activation、Retention、Revenue、Referral,即用户获取、用户激活、用户留存、用户收益以及用户传播。这是产品运营中比较常见的一个模型,结合产品本身的特点以及产品的生命周期位置,来关注不同的数据指标,最终制定不同的运营策略。
从下面这幅AARRR模型图中,能够比较明显的看出来整个用户的生命周期是呈现逐渐递减趋势的。通过拆解和量化整个用户生命周期各环节,可以进行数据的横向和纵向对比,从而发现对应的问题,最终进行不断的优化迭代。
不过,单一的漏斗分析是没有用的,不能得出什么结果,要与其它相结合,如与历史数据的对比等。