Spark是什么意思

子凡 2019-07-22 17:19:51

Apache Spark是一个开源集群运算框架，相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中，Spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。

Apache Spark 是一个开源集群运算框架，最初是由加州大学柏克莱分校 AMPLab 所开发。相对于 Hadoop 的 MapReduce 会在运行完工作后将中介数据存放到磁盘中，Spark 使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。

Apache Spark

Spark 在存储器内运行程序的运算速度能做到比 Hadoop MapReduce 的运算速度快上 100 倍，即便是运行程序于硬盘时，Spark 也能快上 10 倍速度。Spark 允许用户将数据加载至集群存储器，并多次对其进行查询，非常适合用于机器学习算法。

使用 Spark 需要搭配集群管理员和分布式存储系统。Spark 支持独立模式（本地 Spark 集群）、Hadoop YARN 或 Apache Mesos 的集群管理。在分布式存储方面，Spark 可以和 Alluxio, HDFS、 Cassandra 、OpenStack Swift 和 Amazon S3 等接口搭载。 Spark 也支持伪分布式（pseudo-distributed）本地模式，不过通常只用于开发或测试时以本机文件系统取代分布式存储系统。在这样的情况下，Spark 仅在一台机器上使用每个 CPU 核心运行程序。

在 2014 年有超过 465 位贡献家投入 Spark 开发，让其成为 Apache 软件基金会以及大数据众多开源项目中最为活跃的项目。

特色

Java、Scala、Python 和 R APIs。
可扩展至超过 8000 个结点。
能够在存储器内缓存数据集以进行交互式数据分析。
Scala 或 Python 中的交互式命令行接口可降低横向扩展数据探索的反应时间。
Spark Streaming 对即时数据流的处理具有可扩展性、高吞吐量、可容错性等特点。
Spark SQL 支持结构化和关系式查询处理（SQL）。
MLlib 机器学习算法和 Graphx 图形处理算法的高端库。

历史

Spark 在 2009 年由 Matei Zaharia 在加州大学柏克莱分校 AMPLab 开创，2010 年透过 BSD 许可协议开源发布。2013 年，该项目被捐赠给 Apache 软件基金会并切换许可协议至 Apache2.0。2014 年 2 月，Spark 成为 Apache 的顶级项目。2014 年 11 月，Databricks 团队使用 Spark 刷新数据排序世界记录。

项目构成要素

Spark 项目包含下列几项:

Spark 核心和弹性分布式数据集（RDDs）

Spark 核心是整个项目的基础，提供了分布式任务调度，调度和基本的 I／O 功能。而其基础的程序抽象则称为弹性分布式数据集（RDDs），是一个可以并行操作、有容错机制的数据集合。 RDDs 可以透过引用外部存储系统的数据集创建（例如：共享文件系统、HDFS、HBase 或其他 Hadoop 数据格式的数据源）。或者是透过在现有 RDDs 的转换而创建（比如：map、filter、reduce、join 等等）。

RDD 抽象化是经由一个以 Scala, Java, Python 的语言集成 API 所呈现，简化了编程复杂性，应用程序操纵 RDDs 的方法类似于操纵本地端的数据集合。

Spark SQL

Spark SQL 在 Spark 核心上带出一种名为 SchemaRDD 的数据抽象化概念，提供结构化和半结构化数据相关的支持。Spark SQL 提供了领域特定语言，可使用 Scala、Java 或 Python 来操纵 SchemaRDDs。它还支持使用使用命令行界面和 ODBC／JDBC 服务器操作 SQL 语言。在 Spark 1.3 版本，SchemaRDD 被重命名为 DataFrame。