知方号

知方号

实战大数据(Hadoop+Spark+Flink)<大数据离线和实时分析>

实战大数据(Hadoop+Spark+Flink)

目录前言

第1章 大数据技术概述11.1 什么是大数据11.2 大数据平台架构11.2.1 数据获取21.2.2 数据存储21.2.3 数据处理31.2.4 交互式分析31.2.5 机器学习与数据挖掘41.2.6 资源管理41.3 大数据工程师的技能树41.3.1 大数据主流开发语言51.3.2 大数据平台的构建51.3.3 大数据采集51.3.4 大数据存储与交换51.3.5 大数据离线计算51.3.6 大数据实时计算61.4 大数据项目需求分析与设计61.4.1 项目需求分析61.4.2 系统架构设计71.4.3 离线和实时计算数据流程设计81.4.4 大数据平台规划81.5 本章小结9第2章 搭建IDEA开发环境及Linux虚拟机102.1 搭建IDEA开发环境102.1.1 JDK 的安装与配置102.1.2 Maven 的安装与配置122.1.3 IDEA 的安装与配置132.1.4 使用IDEA构建Maven项目172.2 搭建Linux虚拟机192.2.1 安装Linux系统192.2.2 配置Linux静态IP192.2.3 Linux主机名和IP映射202.2.4 关闭Linux防火墙202.2.5 创建Linux用户和用户组202.2.6 Linux SSH免密登录212.3 本章小结22第3章 基于Hadoop构建大数据平台233.1 Zookeeper分布式协调服务233.1.1 Zookeeper架构设计及原理233.1.2 Zookeeper集群安装前的准备工作263.1.3 Zookeeper集群的安装部署293.1.4 Zookeeper shell的操作323.2 HDFS分布式文件系统343.2.1 HDFS架构设计及原理343.2.2 HDFS的高可用(HA)423.2.3 HDFS联邦机制443.3 YARN资源管理系统443.3.1 YARN架构设计及原理453.3.2 MapReduce on YARN工作流程483.3.3 YARN的容错性493.3.4 YARN的高可用(HA)493.3.5 YARN的调度器及使用503.4 Hadoop分布式集群的构建533.4.1 HDFS分布式集群的构建533.4.2 YARN分布式集群的构建583.4.3 Hadoop集群运行测试613.4.4 Hadoop集群调优623.5 MapReduce分布式计算框架643.5.1 MapReduce概述643.5.2 MapReduce编程模型673.5.3 MapReduce应用示例683.5.4 WordCount代码实现703.6 本章小结72第4章 基于HBase和Kafka构建海量数据存储与交换系统734.1 构建HBase分布式实时数据库734.1.1 HBase概述734.1.2 HBase架构设计764.1.3 HBase分布式集群的构建784.1.4 HBase性能调优824.1.5 HBase新闻业务表建模864.2 搭建Kafka分布式消息系统864.2.1 Kafka概述864.2.2 Kafka架构设计874.2.3 Kafka分布式集群的构建894.2.4 Kafka集群监控924.3 本章小结94第5章 用户行为离线分析——构建日志采集和分析平台955.1 搭建Flume日志采集系统955.1.1 Flume概述955.1.2 Flume架构设计965.1.3 Flume环境的搭建985.1.4 构建Flume集群1005.2 使用Flume采集用户行为数据1025.2.1 Flume与Kafka集成1025.2.2 Flume与HBase集成1045.2.3 Flume与Kafka、HBase集成1095.3 基于Hive的离线大数据分析1125.3.1 Hive概述1125.3.2 Hive架构设计1125.3.3 Hive的安装部署1175.3.4 Hive在大数据仓库中的应用1205.3.5 Hive与HBase集成1215.4 基于Hive 的用户行为数据离线分析1225.4.1 离线项目架构设计1225.4.2 用户行为离线分析1235.5 本章小结126第6章 基于Spark的用户行为实时分析1276.1 Spark快速入门1276.1.1 Spark概述1276.1.2 Spark的最简安装1286.1.3 Spark实现WordCount1296.2 Spark Core的核心功能1316.2.1 Spark架构的原理1316.2.2 弹性分布式数据集RDD1326.2.3 Spark 算子1336.2.4 Pair RDD及算子1356.3 Spark分布式集群的构建1356.3.1 Spark的运行模式1356.3.2 Standalone模式集群的构建1366.3.3 Spark on YARN模式集群的构建1396.4 基于Spark Streaming的新闻项目实时分析1406.4.1 Spark Streaming概述1406.4.2 Spark Streaming的运行原理1416.4.3 Spark Streaming编程模型1426.4.4 Spark Streaming实时分析用户行为1446.5 基于Spark SQL的新闻项目离线分析1576.5.1 Spark SQL架构的原理1576.5.2 Spark SQL与Hive、MySQL、HBase集成1586.5.3 Spark SQL用户行为离线分析1626.6 基于Spark Structured Streaming 的新闻项目实时分析1676.6.1 Structured Streaming概述1676.6.2 Structured Streaming编程模型1686.6.3 基于Structured Streaming的用户行为实时分析1686.7 本章小结173第7章 基于Flink的用户行为实时分析1747.1 Flink快速入门1747.1.1 Flink概述1747.1.2 Flink的最简安装1767.1.3 Flink实现WordCount1777.2 Flink分布式集群的构建1817.2.1 Flink的运行模式1817.2.2 Flink Standalone模式集群的构建1817.2.3 Flink on YARN模式集群的构建1847.3 基于Flink DataStream的新闻项目实时分析1877.3.1 Flink DataStream概述1877.3.2 Flink DataStream 编程模型1887.3.3 Flink DataStream用户行为实时分析1907.4 基于Flink DataSet的新闻项目离线分析1987.4.1 Flink DataSet的运行原理1987.4.2 Flink DataSet 编程模型1997.4.3 Flink DataSet用户行为离线分析2007.5 本章小结205第8章 用户行为数据可视化2068.1 构建Java Web系统查询用户行为2068.1.1 基于Java Web的系统架构2068.1.2 构建并部署Java Web项目2088.1.3 用户行为查询代码开发2178.2 用户行为数据展示与分析2298.2.1 项目打包发布2298.2.2 项目整体联调2318.2.3 数据大屏展示与用户行为分析2358.3 本章小结236

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至lizi9903@foxmail.com举报,一经查实,本站将立刻删除。