大数据

Hi, 请登录

第2章 Spark基础-Spark大数据分析与实战-黑马程序员-清华大学出版社

推荐阅读:SEO干货网站内部链接优化与整站优化>>    推荐阅读:一份完整的企业公众号运营草案>>   

第2章 Spark基础 · 初识Spark · 搭建Spark开发环境 · Spark运行架构与原理 · 体验第一个Spark程序 · 启动Spark-Shell · IDEA开发WordCount程序 ? ? 学习目标 1 了解Spark的特点 掌握Spark集群的搭建 2 和配置及架构 掌握Spark HA集群的 4 搭建和配置 理解Spark作业提交的 工作原理 3 ? 目录 初识Spark ?点击查看本节相关知识点 搭建Spark开发环境 ?点击查看本节相关知识点 Spark运行架构与原理 ?点击查看本节相关知识点 ? 目录 体验第一个Spark程序 ?点击查看本节相关知识点 启动Spark-Shell ?点击查看本节相关知识点 IDEA开发WordCount程序 ?点击查看本节相关知识点 ? 章节概要 Spark于2009年诞生于美国加州大学伯克利分校的AMP实验室, 它是一个可应用于大规模数据处理的统一分析引擎。Spark不仅计算 速度快,而且内置了丰富的API,使得我们能够更加容易编写程序。 本章将从Spark的发展说起,针对Spark集群部署、Spark运 行架构及其原理进行详细讲解。

? 2.1 初识Spark Spark的概述 Spark在2013年加入Apache孵化器项目 ,之后获得迅猛的发展 ,并于 2014年正式成为Apache软件基金会的顶级项目。Spark生态系统已经发展成为 一个可应用于大规模数据处理的统一分析引擎,它是基于内存计算的大数据并行 计 算 框 架 , 适 用 于 各 种 各 样 的 分 布 式 平 台 的 系 统 。 在 Spark 生 态 圈 中 包 含 了 Spark SQL、Spark Streaming、GraphX、MLlib等组件。 ? 2.1 初识Spark Spark的概述 Spark Core Spark核心组件,实现了Spark的基本功能,包含任务调 度、内存管理、错误恢复、与存储系统交互等模块。 Spark Core中还包含对弹性分布式数据集的API定义。 用来操作结构化数据的核心组件,通过Spark SQL可 直接查询Hive、HBase等多种外部数据源中的数据。 Spark SQL的重要特点是能够统一处理关系表和RDD。 Spark SQL ? 2.1 初识Spark Spark的概述 Spark Streaming Spark提供的流式计算框架,支持高吞吐量、可容错处理 的实时流式数据处理,其核心原理是将流数据分解成一 系列短小的批处理作业。

spark数据分析 pdf_spark 数据预处理_spark大数据

Spark提供的关于机器学习功能的算法程序库,包括 分类、回归、聚类、协同过滤算法等,还提供了模型 评估、数据导入等额外的功能。 MLlib ? 2.1 初识Spark Spark的概述 GraphX Spark提供的分布式图处理框架,拥有对图计算和图挖 掘算法的API接口及丰富的功能和运算符,便于对分布 式图处理的需求,能在海量数据上运行复杂的图算法。 集群管理器,负责Spark框架高效地在一个到数千个 节点之间进行伸缩计算的资源管理。 独立调度器、Yarn 、Mesos ? 2.1 初识Spark Spark的特点 Spark计算框架在处理数据时,所有的中间数据都保存在内存中,从而减 少磁盘读写操作,提高框架计算效率。同时Spark还兼容HDFS、Hive,可以 很好地与Hadoop系统融合spark数据分析 pdf,从而弥补MapReduce高延迟的性能缺点。所以 说,Spark是一个更加快速、高效的大数据计算平台。 易用性 速度快 通用性 兼容性 ? 2.1 初识Spark Spark应用场景 ? 数据工程师可以利用Spark进行数据分析与建模,由于Spark具有良好 的易用性,数据工程师只需要具备一定的SQL语言基础、统计学、机 器学习等方面的经验,以及使用Python、Matlab或者R语言的基础编 程能力,就可以使用Spark进行上述工作。

spark数据分析 pdf_spark 数据预处理_spark大数据

数据 科学 数据 处理 ? 大数据工程师将Spark技术应用于广告、报表、推荐系统等业务 中,在广告业务中,利用Spark系统进行应用分析、效果分析、 定向优化等业务,在推荐系统业务中,利用Spark内置机器学习 算法训练模型数据,进行个性化推荐及热点点击分析等业务。 ? 2.1 初识Spark Spark与Hadoop对比 01 编程方式 Hadoop的MapReduce计算数据时,要转化为Map和Reduce两个 过程,从而难以描述复杂的数据处理过程;而Spark的计算模型不 局限于Map和Reduce操作,还提供了多种数据集的操作类型,编 程模型比MapReduce更加灵活。 0 02 数据存储 Hadoop的MapReduce进行计算时,每次产生的中间结果都存储 在本地磁盘中;而Spark在计算时产生的中间结果存储在内存中。 ? 2.1 初识Spark Spark与Hadoop对比 03 数据处理 Hadoop在每次执行数据处理时,都要从磁盘中加载数据,导致磁 盘IO开销较大;而Spark在执行数据处理时,要将数据加载到内存 中,直接在内存中加载中间结果数据集,减少了磁盘的IO开销。

04 数据容错 MapReduce计算的中间结果数据,保存在磁盘中,Hadoop底 层实现了备份机制spark数据分析 pdf,从而保证了数据容错;Spark RDD实现了 基于Lineage的容错机制和设置检查点方式的容错机制,弥补数 据在内存处理时,因断电导致数据丢失的问题。 ? 2.2 搭建Spark开发环境 环境准备 由于Spark仅仅是一种计算框架,不负责数据的存储和管理,因此,通常都会 将Spark和Hadoop进行统一部署,由Hadoop中的HDFS、HBase等组件负责 数据的存储管理,Spark负责数据计算。 安装Spark集群前,需

来源【大数据】,更多内容/合作请关注「辉哥智库」公众号,赠文案训练手册电子书。

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

评论

  • 昵称 (必填)
  • 邮箱
  • 网址
二维码
评论