绿色排版工具|热门专题|网站地图|移动官网
您的当前位置:网站首页 > 电子书 > 计算机类 > 正文

Spark大数据处理技术 完整pdf扫描版[48MB] (3)

来源:[db:来源] 编辑:脚本之家 时间:2019-07-29 14:46:55 阅读:

8.3.2 CLI中的用户自定义函数扩展相关命令 170
8.3.3 用户自定义函数(UDF) 171
8.3.4 通用用户自定义函数(Generic UDF) 175
8.3.5 用户自定义聚合函数(UDAF) 178
8.3.6 通用用户自定义聚合函数(Generic UDAF) 182
8.3.7 通用用户自定义表函数(Generic UDTF) 186
8.4 自定义数据存取格式 190
8.4.1 SerDe 190
8.4.2 StorageHandler 197
8.5 小结 198
第9章 Spark SQL 199
9.1 Spark SQL逻辑架构 199
9.1.1 Catalyst功能边界 200
9.1.2 SQL解析阶段 201
9.1.3 逻辑计划元数据绑定和语义分析阶段 202
9.1.4 逻辑计划优化阶段 202
9.1.5 物理计划生成阶段 202
9.1.6 Shark和Spark SQL对比 203
9.2 Catalyst上下文(Context) 204
9.2.1 SQLContext 204
9.2.2 HiveContext 205
9.3 SQL DSL API 206
9.3.1 数据源管理 206
9.3.2 SchemaRDD 208
9.3.3 Row API 210
9.3.4 数据类型 211
9.3.5 DSL API举例 213
9.3.6 表达式计算 214
9.3.7 Parquet列式存储文件 218
9.3.8 代码演示 218
9.4 Java API 221
9.5 Python API 224
9.6 Spark SQL CLI 225
9.7 Thrift服务 225
9.8 小结 225
第10章 Spark Streaming流数据处理框架 227
10.1 快速入门 227
10.2 Spark Streaming基本概念 229
10.2.1 链接和初始化 229
10.2.2 时间和窗口概念 231
10.2.3 DStream原理 232
10.2.4 DStream输入源 234
10.2.5 DStream 操作 235
10.2.6 DStream持久化 237
10.3 性能调优 238
10.3.1 运行时间优化 238
10.3.2 内存使用优化 238
10.4 容错处理 239
10.4.1 工作节点失效 239
10.4.2 驱动节点失效 240
10.5 DStream作业的产生和调度 242
10.5.1 作业产生 242
10.5.2 作业调度 243
10.5.3 Streaming作业与Spark作业之间的关系 244
10.6 DStream与RDD关系 246
10.7 数据接收原理 248
10.8 自定义数据输入源 251
10.9 自定义监控接口(StreamingListener) 253
10.10 Spark Streaming案例分析 254
10.11 小结 256
第11章 GraphX计算框架 259
11.1 图并行计算 259
11.1.1 数据并行与图并行计算 259
11.1.2 图并行计算框架简介 260
11.1.3 GraphX简介 264
11.2 GraphX模型设计 264
11.2.1 数据模型 264
11.2.2 图计算接口 265
11.3 GraphX模型实现 269
11.3.1 图的分布式存储 269
11.3.2 图操作执行策略 278
11.3.3 图操作执行优化 280
11.3.4 序列化和反序列化 283
11.3.5 GraphX内置算法库 284
11.4 GraphX应用 285
11.4.1 Pregel模型 285
11.4.2 N维邻接关系计算 288
11.5 小结 291
第12章 Tachyon存储系统 293
12.1 设计原理 294
12.1.1 高效的内存读写 294
12.1.2 无副本的可靠性实现——Lineage 297
12.2 框架设计 299
12.2.1 主节点 300

相关文章推荐:

图文精选:

Copyright©2012-2019 小蚂蚁信息网版权所有 粤ICP备14061018号-1


郑重声明:本网站资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息。

Top