Hadoop技术栈之Apache Hadoop概述 hadoop技术概述

发表时间：2024-10-09 05:42:10

Hadoop离线是大数据生态圈的核心与基石，是整个大数据开发的入门。本次分享内容让初学者能高效、快捷掌握Hadoop必备知识，大大缩短Hadoop离线阶段学习时间，下面一起开始今天的学习！

▼往期内容汇总：大数据导论Linux操作系统概述VMware Workstation虚拟机使用Linux常用基础命令、系统命令一、Hadoop介绍、发展简史、现状

狭义上Hadoop指的是Apache软件基金会的一款开源软件。

用 java语言实现，开源允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理。

Hadoop核心组件 Hadoop HDFS (分布式文件存储系统)：解决海量数据存储Hadoop YARN (集群资源管理和任务调度框架)：解决资源任务调度Hadoop MapReduce (分布式计算框架)：解决海量数据计算

官网：Apache Hadoop

广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。

Hadoop发展史： Hadoop之父： Doug CuttingHadoop起源于Apache Lucene子项目： Nutch，Nutch的设计目标是构建一个大型的全网搜索引擎。遇到瓶颈：如何解决数十亿网页的存储和索引问题Google三篇论文

《The Google file system》：谷歌分布式文件系统GFS

《MapReduce: Simpliied Data Processing on Large Clusters》：谷歌分布式计算框架MapReduce

《Bigtable: A Distributed Storage System for Structured Data》：谷歌结构化数据存储系统

Hadoop现状：

HDFS作为分布式文件存储系统，处在生态圈的底层与核心地位；

YARN作为分布式通用的集群资源管理系统和任务调度平台，支撑各种计算引擎运行，保证了Hadoop地位；

MapReduce作为大数据生态圈第一代分布式计算引擎，由于自身设计的模型所产生的弊端，导致企业一线几乎不再直接使用MapReduce进行编程处理，但是很多软件的底层依然在使用MapReduce引擎来处理数据。

二、Hadoop特性优点、国内外应用 Hadoop特性优点

Hadoop国外应用

Yahoo

支持广告系统用户行为分析支持Web搜索反垃圾邮件系统

Facebook

存储处理数据挖掘和日志统计构建基于Hadoop数据仓库平台(Apache Hive来自FB)

IBM

蓝云基础设施构建商业化Hadoop发行、解决方案支持 Hadoop国内应用

百度

用户搜索表征的需求数据、阿拉丁爬虫数据存储数据分析和挖掘竞价排名

阿里巴巴

为电子商务网络平台提供底层的基础计算和存储服务交易数据、信用数据

腾讯

用户关系数据基于Hadoop、 Hive构建TDW (腾讯分布式数据仓库)

华为

对Hadoop的HA方案，以及HBase领域有深入研究三、Hadoop发行版本、架构变迁 Hadoop发行版本

Hadoop发行版本：Apache Hadoop

Apache开源社区版本：http://hadoop.apache.org/

商业发行版本：

Cloudera： https://www.cloudera.com/products/open-source/apache-hadoop.htmlHortonworks： https://www.cloudera.com/products/hdp.html

本课程中使用的是Apache版的Hadoop，版本号为： 3.3.0

Hadoop架构变迁(1.0-2.0变迁)

Hadoop 1.0

HDFS (分布式文件存储)MapReduce (资源管理和分布式数据处理)

Hadoop 2.0

HDFS (分布式文件存储) MapReduce (分布式数据处理) YARN (集群资源管理、任务调度)

Hadoop架构变迁(3.0新版本)

Hadoop 3.0架构组件和Hadoop 2.0类似,3.0着重于性能优化。

通用方面

精简内核、类路径隔离、shell脚本重构

Hadoop HDFS

EC纠删码、多NameNode支持

Hadoop MapReduce

任务本地化优化、内存参数自动推断

Hadoop YARN

Timeline Service V2、队列配置

上一篇 退票常见问题解答<奥凯航空机票退票扣多少手续费>

下一篇《古剑奇谭》图文流程攻略<古剑奇谭无法开始游戏>

专业财税服务推荐

Hadoop技术栈之Apache Hadoop概述 hadoop技术概述