绿色排版工具|热门专题|网站地图|移动官网
您的当前位置:网站首页 > 电子书 > 计算机类 > 正文

Spark大数据处理技术 完整pdf扫描版[48MB]

来源:[db:来源] 编辑:脚本之家 时间:2019-07-29 14:46:55 阅读:

Spark大数据处理技术》以Spark 0.9版本为基础进行编写,是一本全面介绍Spark及Spark生态圈相关技术的书籍,是国内首本深入介绍Spark原理和架构的技术书籍。主要内容有Spark基础功能介绍及内部重要模块分析,包括部署模式、调度框架、存储管理以及应用监控;同时也详细介绍了Spark生态圈中其他的软件和模块,包括SQL处理引擎Shark和Spark SQL、流式处理引擎Spark Streaming、图计算框架Graphx以及分布式内存文件系统Tachyon。《Spark大数据处理技术》从概念和原理上对Spark核心框架和生态圈做了详细的解读,并对Spark的应用现状和未来发展做了一定的介绍,旨在为大数据从业人员和Spark爱好者提供一个更深入学习的平台。

《Spark大数据处理技术》适合任何大数据、Spark领域的从业人员阅读,同时也为架构师、软件开发工程师和大数据爱好者展现了一个现代大数据框架的架构原理和实现细节。相信通过学习《Spark大数据处理技术》,读者能够熟悉和掌握Spark这一当前流行的大数据框架,并将其投入到生产实践中去。

目录
第1章 Spark系统概述 1
1.1 大数据处理框架 1
1.2 Spark大数据处理框架 3
1.2.1 RDD表达能力 3
1.2.2 Spark子系统 4
1.3 小结 7
第2章 Spark RDD及编程接口 9
2.1 Spark程序“Hello World” 9
2.2 Spark RDD 12
2.2.1 RDD分区(partitions) 13
2.2.2 RDD优先位置(preferredLocations) 13
2.2.3 RDD依赖关系(dependencies) 15
2.2.4 RDD分区计算(compute) 19
2.2.5 RDD分区函数(partitioner) 20
2.3 创建操作 23
2.3.1 集合创建操作 23
2.3.2 存储创建操作 23
2.4 转换操作 26
2.4.1 RDD基本转换操作 26
2.4.2 键值RDD转换操作 35
2.4.3 再论RDD依赖关系 43
2.5 控制操作(control operation) 46
2.6 行动操作(action operation) 47
2.6.1 集合标量行动操作 47
2.6.2 存储行动操作 52
2.7 小结 56
第3章 Spark运行模式及原理 57
3.1 Spark运行模式概述 57
3.1.1 Spark运行模式列表 57
3.1.2 Spark基本工作流程 58
3.1.3 相关基本类 59
3.2 Local模式 62
3.2.1 部署及程序运行 62
3.2.2 内部实现原理 63
3.3 Standalone模式 64
3.3.1 部署及程序运行 64
3.3.2 内部实现原理 67
3.4 Local cluster模式 68
3.4.1 部署及程序运行 68
3.4.2 内部实现原理 69
3.5 Mesos模式 69
3.5.1 部署及程序运行 69
3.5.2 内部实现原理 70
3.6 YARN standalone / YARN cluster模式 72
3.6.1 部署及程序运行 72
3.6.2 内部实现原理 75
3.7 YARN client模式 76
3.7.1 部署及程序运行 76
3.7.2 内部实现原理 77
3.8 各种模式的实现细节比较 78

相关文章推荐:

图文精选:

Copyright©2012-2019 小蚂蚁信息网版权所有 粤ICP备14061018号-1


郑重声明:本网站资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息。

Top