数据分析有哪些工具
数据分析有哪些工具
在盘点有哪些数据分析工具之前,我们先看下数据分析的工作都有哪些?主要体现在几个方面:存储原始数据、按要求提取数据、按要求计算数据、将数据做成图表、解读数据,得出结论。
所以我们选择工具一定是能满足我们日常工作要求的,下面我们详细盘点一下都有哪些常用的数据分析工具。
一.EXCEL
基本介绍
Excel是目前最基础、也是应用最广的数据分析工具,能够解决数据分析中80%的问题。Excel的功能十分强大,它不仅提供了众多的数据处理功能,像Excel函数能够帮助我们做数据整理,数据透视表帮助我们快速、高效的做各种维度分析,形形色色的图表能帮我们形象地展示出数据背后隐藏的规律,同时Excel还有很专业的数据分析工具库,包括描述性统计分析、相关系数分析等。EXCEL个人感觉是本文介绍的所有工具中最重要的,数据分析工具分类可以分为 EXCEL和其他,尤其是对于转行数据分析的小白来说,应该是最友好的。
优点分析
1、入门门槛低,简单易学;
2、只要掌握其中的vlookup、match、indirect、if等几个常用的函数,就可以满足很多日常应用场景;
3、图表绘制很简单, Excel拥有各种丰富的可开发的图表;
4、Excel里有开发工具选项卡,还有分析工具库,可以拓展出大量分析功能;
5、自动汇总功能,Excel更加简便灵活
6、计算公式丰富
学习路线
1、基本操作包括数据的简单处理汇总、图表制作等,属于Excel基础知识,一般大家都能正常使用。
2、熟练掌握常用的函数后,你就可以做简单的数据统计、分析和数据可视化等工作了。
3、为了进一步从不同维度对关心的指标进行上卷、下钻分析,还需要非常熟练地掌握数据透视表,这也是Excel最为强大、使用最为频繁的功能。
4、为了实现复杂的业务分析,解决不同数据源、海量数据的分析问题,我们就需要掌握PowerQuery和PowerPivot,PowerQuery负责整合多种来源数据,并进行数据转换,PowerPivot对整合后的规范化数据进行高效率的透视分析,几百万上千万行数据均不在话下。
同类型工具:VBA、PowerQuery、PowerPivot、Power View、Power Map
二.BI图形化工具
数据最终是要呈现给业务/管理层查看的,因此到进阶阶段,BI工具也是必须要掌握的一个技能。
现在市面上BI工具很多,主流的就是Tableau、FineBI和PowerBI,本土企业很多用FineBI,外企大多数是用PowerBI和Tableau。
1.PowerBI
基本介绍
Microsoft PowerBI同时提供本地和云服务。它最初是作为Excel插件引入的,不久PowerBI凭借其强大的功能开始普及。目前,它被视为商业分析领域的软件领导者。它提供了数据可视化和bi功能,使用户可以轻松地以更低的成本实现快速,明智的决策,用户可协作并共享自定义的仪表板和交互式报告。Power BI能够从各种数据源中抓取数据进行分析,除了支持微软自家产品如Excel,SQL Server等,各类数据库如Oracle,My SQL,IBM DB2等,还支持从R语言脚本,Hdfs文件系统,Spark平台等等地方导数据。
优点分析
1、Power BI有一个免费的基本版本,让用户有机会首先探索它
2、它支持多种方式来整合或导入数据(流数据、云服务、Excel电子表格和第三方连接)
3、它具有实时馈送数据的交互式仪表盘
4、用于将Power BI与应用程序集成的简单API
5、分享报告和仪表板的不同方式
6、多平台支持(Web,桌面,移动)
学习路线官网
(1)Power BI基础
1.初步认识Power BI
2.Power Query 快速数据集成
3.Power Query 数据清洗
4.Power BI 数据模型
5.可视化报表制作
6.Dax函数和表达式
7.发布与服务介绍
(2)Power BI 进阶
1.数据集成与清洗处理经验总结(37分钟6节)
2.函数相关重点(27分钟6节)
3.模型讲解(需注意的地方)(4分钟1节)
4.图表-可视化部分经验分享(54分钟10节)
5.本地与云端-报表的发布管理与权限控制(13分钟2节)
之前转载过一篇文章《小目标 | Power BI新人快速上手手册》,学习Power BI也可以参考一下。
2.FineBI
基本介绍
国内较为领先的BI软件,定位于自助大数据分析的BI工具,提供数据处理、即时分析、多维度分析、可视化等服务。FineBI目前最新版已迭代到 V5.0,主要面向企业客户(个人用户免费全功能使用,但是限制2个并发用户),在国内各行业有着众多的成功应用案例。
优点分析
1、业务人员自己动手制作仪表板,可以根据业务需求组合图表,以便展示更多信息;
2、选中图表类型,将数据字段快速拖曳,就能够实时分析图表;
3、可视化界面便于分析;
4、可以接入多种数据源。包括常用数据库(Hsql、IBM DB2、Microsoft SQL Server、MySQL、Oracle)数据、Hbase、Hadoop Hive、阿里云AnalyticDB以及华为云DWS;服务器数据集;本地Excel数据集;sql数据集;自助数据集。
学习路线
这个是国内厂商产品,可以在官网直接试用即可。
同类型工具:PowerBI、Tableau、Qlikview、SAP BI、Oracel BI、FineBI、Yonghong BI
三.数据库及编程语言相关
1.Python
基本介绍
Python是一种面向对象、解释型计算机程序设计语言。Python语法简洁而清晰,具有丰富和强大的类库 ,而且是这几年最火爆的数据分析工具,没有之一。
优点分析
1、简单易学
Python是一种代表简单主义思想的语言。阅读一个良好的Python程序就感觉像是在读英语一样。它使你能够专注于解决问题而不是去搞明白语言本身,Python极其容易上手,因为Python有极其简单的说明文档。
2、速度快
Python 的底层是用 C 语言写的,很多标准库和第三方库也都是用 C 写的,运行速度非常快。
3、免费、开源
Python是FLOSS(自由/开放源码软件)之一。使用者可以自由地发布这个软件的拷贝、阅读它的源代码、对它做改动、把它的一部分用于新的自由软件中。FLOSS是基于一个团体分享知识的概念。
4、可移植性
由于它的开源本质,Python已经被移植在许多平台上。
学习路线
1、Python语言基础
Python语言概述和环境安装丨变量、数据类型和进制丨运算符和分支结构丨循环结构入门丨循环结构的应用
2、常用数据结构和函数
字符串丨列表的应用丨元组和集合丨字典类型的应用丨函数使用入门
函数和面向对象编程
包和模块丨函数的高级用法丨装饰器和生成器丨面向对象编程基础丨面向对象编程进阶
3、Python网络数据采集
爬虫概述和页面抓取丨解析页面的方式丨爬取数据的持久化丨Cookie和商业IP代理丨获取页面动态内容丨Selenium应用详解丨提升爬虫工作效率丨破解验证码丨爬虫框架Scrapy
4、数据分析概述和Excel的应用
数据分析和数据分析师概述丨指标和指标体系建设丨Excel的安装和快速上手丨Excel中的函数和公式计算丨Excel透视表、透视图和商业数据看板
5、关系型数据库和SQL
数据库概述和MySQL的安装使用丨表关系和SQL的应用丨SQL数据查询详解丨窗口函数和业务场景下的数据查询丨Python程序接入MySQL数据库
6、商业智能(BI)工具
MySQL其他相关知识丨从Excel到Power BI丨Power BI中的数据清洗和分析模型丨Power BI中的数据可视化和报表制作丨Power BI项目实操丨认识和使用Tableau丨认识和使用fineBI丨数据思维和分析模型
7、Python数据分析
Python数据分析工具介绍丨使用NumPy实现批量数据处理丨线性代数和NumPy的linalg模块丨使用Pandas进行数据分析
8、机器学习算法
机器学习概述和kNN算法丨回归算法丨逻辑回归丨朴素贝叶斯丨决策树丨支持向量机丨聚类算法和轮廓系数丨集成算法丨特征工程和评价指标丨机器学习项目实战
同类型工具:R、Julia、Scala、Spark、Java、Hadoop
2.MySQL
基本介绍
SQL也是必会的工具,因为我们要利用SQL语句来取数、清洗数据。MySQL 作为互联网中非常热门的数据库,在高并发业务场景下,一条好的 MySQL 语句能为企业节省大量的运作时间和成本,这也是为何互联网大厂面试官最爱考察数据库底层和性能调优的原因。
优点分析
1、速度快
分析型数据库MySQL运用新一代超大规模的MPP+DAG融合引擎,采用行列混存技术、自动索引、智能优化器,在瞬间即可对千亿级别的数据进行即时的多维度分析透视,快速发现数据价值。此外,还可以快速扩容至数千节点的超大规模,进一步提升查询响应速度。
2、灵活
分析型数据库MySQL版极度灵活的存储和计算分离架构,您可以随时调整节点数量和动态升降配实例规格。分析型数据库MySQL版同时支持在大存储SATA节点和高性能的SSD节点灵活切换。例如,您可以从8个C4升到12个C8,或从12个C8降到8个C4,企业可以真正做到灵活控制成本。
3、易用
分析型数据库MySQL版作为云端托管的PB级SQL数据仓库,全面兼容MySQL协议和SQL:2003,通过标准SQL和常用BI工具、以及ETL工具平台即可轻松使用分析型数据库MySQL版。分析型数据库MySQL版旨在帮助企业降低实时数据化运营的建设门槛。
4、超大规模
分析型数据库MySQL版是全分布式结构,无任何单点设计,使得数据库实例支持ECU节点动态线性扩容至数千节点。您可以通过横向扩容来大幅度提升查询SQL响应速度、以及增加SQL处理并发。
5、高并发写入
支持您实时化、极速地进行数据写入、更新和高并发查询、交互式分析、ETL一体化。采用RAFT协议,支持超大规模数据写入实时、强一致;对于高并发或大吞吐场景,可按需独立弹性扩展,存储可以从GB级扩展到百PB级,TPS可横向扩展至千万级。
学习路线
MySQL学习这部分,我在上期的内容共创文章【云驻共创】如何有效率地学习MySQL?一文中有详细的描述,这里不单独介绍了。
同类型工具:PostgreSQL、Oracle、SQLServer、MongoDB
四.华为云数据分析相关产品
1.IoT数据分析 IoTA
基本介绍
华为云物联网数据分析服务基于物联网资产模型,整合物联网数据集成,清洗,存储,分析,可视化,为物联网数据开发者提供一站式服务,降低开发门槛,缩短开发周期,快速实现物联网数据价值变现。
优点分析
1、物联网资产模型感知
华为云物联网数据分析服务是以物联网资产模型为中心的分析服务。不同于公有云上的通用型大数据相关产品,物联网数据分析服务与资产模型深度整合,在相关数据分析作业的定义中,开发者可以方便引用物联网的模型数据,大大提升数据分析的效率。
2、一站式开发体验
大数据开发技术门槛较高,而华为云物联网数据分析服务整合了大数据分析领域的最佳实践,为开发者打造一站式数据开发体验,并且跟华为云物联网相关服务(比如设备接入)无缝对接,降低开发者开发难度,提升开发效率。
3、针对物联网时序数据优化
针对物联网数据具备的显著时序特征,华为云数据分析服务在数据存储及数据分析上做了大量的优化。比如海量时间线能力,单实例支持10万线,数据存储压缩比20:1,以及多种时间维度的聚合计算能力。
2.云数据仓库 GaussDB(DWS)
基本介绍
新一代、全场景数据仓库,一站式分析,性能、容量无限扩展;守护高价值数据、创享高价值分析,企业数字化转型坚实伙伴
优点分析
1.高并发交互式查询秒级响应,分析师工作效率全面提升
单集群480节点,装机容量20PB,支撑数据分析、集市、BI等各种场景;
通过分布式查询优化,实现高并发点查询秒级/毫秒级响应;
资源融合统一,灵活调配,多层级并行计算,效率最优
2.HTAP混合负载,按需弹性,湖仓一体
混合负载:“一库两用”,支持超过100万QPS、10万TPS高并发混合读写,支持事务强一致;
资源管理:可以根据业务优先级进行资源动态分配,实现“快慢通道”;
按需扩容:弹性按需扩容,灵活应对用户数据及负载潮汐变化;
仓湖一体:DWS可以直接读写OBS对象存储系统的数据,支持数据冷热分级。
3.复杂即席查询,实时数据分析,一站式平台
复杂SQL实时查询,10+表格联合运算,秒级返回结果;
实时入仓批流融合60万/秒/节点,T+0完成数据分析;
多源数据融合,一站式统一平台,助力非传统数仓工程师便捷使用数据。
以上内容分享自华为云社区《【云驻共创】你知道有哪些好用的数据分析工具类软件?》,作者:再见孙悟空_ 。