欢迎来到传智播客旗下图书库
封面图

Spark大数据分析与实战

黑马程序员/编著
定价:¥49.00

出版社:清华大学出版社

ISBN:978-7-302-53432-7

图书种类:高校教材

出版日期:2019-09

所属学科:大数据

页码:228

咨询客服

关注获取新书发布信息

内容简介

      本书围绕Spark生态圈相关系统介绍了实时流处理架构Spark。全书共9章,其中第1章主要带大家认识了Spark框架的底层实现语言——Scala。第2章主要讲解了Spark集群环境的搭建。第3-8章主要介绍了弹性分布式数据集RDD、结构化数据文件处理Spark SQL、分布式数据库HBase、分布式订阅消息系统Kafka、实时计算框架Spark Streaming以及机器学习算法库MLib。第9章是一个综合项目,主要通过实时交易数据数据,其目的是教会大家如何利用Spark构建大数据架构并进行开发,同时加深Spark技术的理解。

适合群体

  本书可作为高等院校本、专科计算机相关专业、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考,是一本适合广大计算机编程爱好者的优秀读物。

图书特色

1、本书以spark2.3.2版本为基础进行编写,版本很新。

2、本书不仅介绍了spark基础使用方法,而且还深入浅出讲解了spark的编程模型,运行机制,存储原理和运行架构等内容。

3、本书涉及的技术都结合了代码进行解读并实现原理,通过实例,读者可以更加深入理解spark运行机制。

图书目录
第1章 Scala语言基础
1.1 Scala简介与安装
1.1.1 Scala的概述
1.1.2 Scala环境的下载安装
1.1.3 IDEA开发工具的下载安装
1.1.4 初识Scala程序
1.2 Scala的基础语法
1.2.1 声明值和变量
1.2.2 数据类型
1.2.3 算术和操作符重载
1.2.4 控制结构语句
1.2.5 方法和函数
1.3 Scala的数据结构
1.3.1 数组
1.3.2 映射
1.3.3 元组
1.3.4 集合
1.4 Scala面向对象的特性
1.4.1 类
1.4.2 继承
1.4.3 对象
1.4.4 特质
1.5 Scala的模式匹配与样例类
1.5.1 模式匹配
1.5.2 样例类
1.6 本章小结
1.7 本章小结

第2章 Spark基础
第2章 Spark基础
2.1 初识Spark
2.1.1 Spark的发展
2.1.2 Spark的特点
2.1.3 Spark应用场景及优势
2.1.4 Spark与Hadoop区别
2.2 搭建Spark系统环境
2.2.1 环境准备
2.2.2 Spark的部署方式
2.2.3 Spark集群安装部署
2.2.4 Spark HA集群部署
2.3 Spark运行架构与原理
2.3.1 基本概念
2.3.2 Spark集群运行架构
2.3.3 Spark运行基本流程
2.4 体验第一个Spark程序
2.5 启动Spark Shell
2.5.1 运行Spark Shell命令
2.5.2 运行Spark-Shell读取HDFS文件
2.6 IDEA开发WordCount程序
2.6.1 本地模式执行Spark程序
2.6.2 集群模式执行Spark程序
2.7 本章小结
2.8 本章习题

第3章 Spark RDD弹性分布式数据集
3.1 RDD简介
3.1.1 RDD的概述
3.1.2 RDD的属性
3.2 RDD的创建方式
3.2.1 从文件系统中加载数据创建RDD
3.2.2 通过并行集合创建RDD
3.3 RDD的处理过程
3.3.1 RDD的整体处理流程
3.3.2 Transformation算子
3.3.3 Action算子
3.3.4 编写WordCount词频统计案例
3.4 RDD的依赖关系
3.5 RDD机制
3.5.1 持久化机制
3.5.2 容错机制
3.6 Spark的任务调度
3.6.1 DAG的概念
3.6.2 任务调度流程
3.7 本章小结
3.8 本章习题

第4章 Spark SQL结构化数据文件处理
4.1 Spark SQL概述
4.1.1 Spark SQL的简介
4.1.2 Spark SQL架构
4.2 DataFrame概述
4.2.1 DataFrame简介
4.2.2 创建DataFrame对象
4.2.3 DataFrame常用操作
4.3 Dataset概述
4.3.1 Dataset简介
4.3.2 创建Dataset对象
4.4 RDD转换DataFrame
4.4.1 反射机制推断Schema
4.4.2 编程方式定义Schema
4.5 Spark SQL操作数据源
4.5.1 通过JDBC操作MySQL
4.5.2 操作Hive数据集
4.6 本章小结
4.7 本章习题

第5章 HBase分布式数据库
5.1 HBase的概述
5.1.1 HBase的简介
5.1.2 HBase的数据模型
5.2 HBase的集群部署
5.3 HBase的基本操作
5.3.1 HBase的Shell操作
5.3.2 HBase的Java API操作
5.4 深入学习HBase原理
5.4.1 HBase架构
5.4.2 物理存储
5.4.3 寻址机制
5.4.4 HBase读写数据流程
5.5 Hbase和Hive的整合
5.6 本章小结
5.7 本章习题

第6章 Kafka分布式发布订阅消息系统
6.1 Kafka 概述
6.1.1 Kafka 简介
6.1.2 消息系统简介
6.2 Kafka工作原理
6.2.1 Kafka基本概念
6.2.2 Kafka工作流程分析
6.3 Kafka 集群部署与测试
6.3.1 环境准备
6.3.2 安装Kafka
6.3.3 启动Kafka服务
6.4 Kafka的入门使用
6.4.1 Kafka命令行入门使用
6.4.2 Kafka API入门使用
6.5 Kafka Streams
6.5.1 Kafka Streams概述
6.5.2 Kafka Streams开发单词计数
6.6 本章小结
6.7 本章习题

第7章 Spark Streaming实时计算框架
7.1 流式计算的概述
7.1.1 流式计算的简介
7.1.2 常用的流式计算框架
7.2 Spark Streaming的概述
7.2.1 Spark Streaming简介
7.2.2 Spark Streaming工作原理
7.3 Spark的DStream流
7.3.1 DStream编程模型
7.3.2 DStream转换操作
7.3.3 DStream窗口操作
7.3.4 DStream输出操作
7.3.5 DStream实例——实现网站热词排序
7.4 Spark Streaming整合Kafka实战
7.4.1 KafkaUtils.createDstream()方式
7.4.2 KafkaUtils.createDirectStream()方式
7.5 本章小结
7.6 本章习题

第8章 Spark MLlib 机器学习算法库
8.1 初识机器学习
8.1.1 什么是机器学习
8.1.2 机器学习的应用
8.2 Spark 机器学习库MLlib的概述
8.2.1 MLlib的简介
8.2.2 Spark机器学习工作流程
8.3 数据类型
8.3.1 本地向量
8.3.2 标注点
8.3.3 本地矩阵
8.4 Spark MLlib基本统计
8.4.1 摘要统计
8.4.2 相关统计
8.4.3 分层抽象
8.5 分类和回归
8.5.1 线性支持向量机
8.5.2 逻辑回归
8.6 构建推荐引擎
8.6.1 推荐模型分类
8.6.2 利用MLlib实现电影推荐
8.7 本章小结
8.8 本章习题

第9章 Spark综合案例——实时交易数据统计
9.1 系统概述
9.1.1 系统背景介绍
9.1.2 系统架构设计
9.1.3 系统预览
9.2 Redis数据库
9.2.1 Redis介绍
9.2.2 Redis部署与启动
9.2.3 Redis操作及命令
9.3 模块开发-构建工程结构
9.3.1 创建工程
9.3.2 添加依赖
9.4 模块开发-模拟订单数据
9.4.1 构建订单系统
9.4.2 创建Kafka生产者
9.5 模块开发-数据分析
9.5.1 Spark Streaming处理数据
9.6 模块开发-数据展示
9.6.1 搭建Web开发环境
9.6.2 实现数据展示功能
9.6.3 可视化平台展示
9.7 本章小结






展开全部内容
配套资源

热销图书推荐

图书封面

Java基础入门

清华大学出版社

定价:¥45.00咨询客服

图书封面

搜索引擎营销推广(SEO优化+SEM竞价)

人民邮电出版社

定价:¥58.00咨询客服

图书封面

HTML5混合App开发

清华大学出版社

定价:¥59.50咨询客服

图书封面

智能手机APP UI设计与应用任务教程

中国铁道出版社

定价:¥42.00咨询客服