绿色排版工具|热门专题|网站地图|移动官网
您的当前位置:网站首页 > 电子书 > 计算机类 > 正文

Spark大数据处理技术 完整pdf扫描版[48MB] (2)

来源:[db:来源] 编辑:脚本之家 时间:2019-07-29 14:46:55 阅读:

3.8.1 环境变量的传递 78
3.8.2 JAR包和各种依赖文件的分发 80
3.8.3 任务管理和序列化 82
3.8.4 用户参数配置 83
3.8.5 用户及权限控制 84
3.9 Spark 1.0版本之后的变化 85
3.10 小结 86
第4章 Spark调度管理原理 87
4.1 Spark作业调度管理概述 87
4.2 Spark调度相关基本概念 88
4.3 作业调度模块顶层逻辑概述 89
4.4 作业调度具体工作流程 92
4.4.1 调度阶段的拆分 94
4.4.2 调度阶段的提交 97
4.4.3 任务集的提交 99
4.4.4 完成状态的监控 99
4.4.5 任务结果的获取 101
4.5 任务集管理模块详解 102
4.6 调度池和调度模式分析 104
4.7 其他调度相关内容 106
4.7.1 Spark应用之间的调度关系 106
4.7.2 调度过程中的数据本地性问题 106
4.8 小结 107
第5章 Spark的存储管理 109
5.1 存储管理模块整体架构 109
5.1.1 通信层架构 110
5.1.2 通信层消息传递 112
5.1.3 注册存储管理模块 113
5.1.4 存储层架构 114
5.1.5 数据块 (Block) 116
5.2 RDD 持久化 116
5.2.1 RDD分区和数据块的关系 117
5.2.2 内存缓存 118
5.2.3 磁盘缓存 119
5.2.4 持久化选项 120
5.2.5 如何选择不同的持久化选项 122
5.3 Shuffle数据持久化 122
5.4 广播(Broadcast)变量持久化 125
5.5 小结 126
第6章 Spark监控管理 127
6.1 UI管理 127
6.1.1 实时UI管理 128
6.1.2 历史UI管理 132
6.2 Metrics管理 133
6.2.1 Metrics系统架构 133
6.2.2 Metrics系统配置 135
6.2.3 输入源(Metrics Source)介绍 136
6.2.4 输出方式(Metrics Sink)介绍 138
6.3 小结 139
第7章 Shark架构与安装配置 141
7.1 Shark架构浅析 142
7.2 Hive/Shark各功能组件对比 143
7.2.1 MetaStore 143
7.2.2 CLI/ Beeline 143
7.2.3 JDBC/ODBC 144
7.2.4 Hive Server/2 与 Shark Server/2 144
7.2.5 Driver 145
7.2.6 SQL Parser 146
7.2.7 查询优化器(Query Optimizer) 147
7.2.8 物理计划与执行 147
7.3 Shark安装配置与使用 148
7.3.1 安装前准备工作 149
7.3.2 在不同运行模式下安装Shark 149
7.4 Shark SQL命令行工具(CLI) 152
7.5 使用Shark Shell命令 155
7.6 启动Shark Server 155
7.7 Shark Server2配置与启动 156
7.8 缓存数据表 157
7.8.1 数据缓存级别 158
7.8.2 创建不同缓存级别的Shark数据表 158
7.8.3 指定数据表缓存策略 159
7.8.4 使用Tachyon 160
7.9 常见问题分析 160
7.9.1 OutOfMemory异常 160
7.9.2 数据处理吞吐量低 161
7.9.3 Shark查询比Hive慢 161
7.10 小结 162
第8章 SQL程序扩展 163
8.1 程序扩展并行运行模式 164
8.2 Evaluator和ObjectInspector 164
8.3 自定义函数扩展 168
8.3.1 自定义函数扩展分类 168

相关文章推荐:

图文精选:

Copyright©2012-2019 小蚂蚁信息网版权所有 粤ICP备14061018号-1


郑重声明:本网站资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息。

Top