首页游戏娱乐Hadoop大数据框架中的四大组件是什么?

Hadoop大数据框架中的四大组件是什么?

wolekan 12-06 2次浏览 0条评论
Hadoop大数据框架主要包括MapReduce、YARN、HDFS和Sqoop。

Hadoop是一个能够对大量数据进行分布式处理的软件框架,具有可靠、高效、可伸缩的特点。

Hadoop的核心是HDFS和Mapreduce,Hadoop 2.0还包括YARN。

HDFS (Hadoop Distributed File System) Hadoop的分布式文件系统,是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行,HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。

MapReduce (Distributed Computing Framework) MapReduce是一种计算模型,用以进行大数据量的计算,其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果,Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果,MapReduce这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。

Hive (Based on Hadoop's Data Warehouse) Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行,通常用于离线分析。

MapReduceHDFSYARNSpark
如何制作带鱼罐头? 如何制作美味的肉脯?
发表评论

游客 回复需填写必要信息