国内最专业的IT技术学习网

UI设计

当前位置:主页 > UI设计 >

Hadoop与 Spark - 选择正确的大数据框架

发布时间:2019/07/29标签:   数据    点击量:

原标题:Hadoop与 Spark - 选择正确的大数据框架
咱们被各方的数据所包抄。跟着数据每两年增添一倍,数字天下正在疾速追赶物理天下。据估量,到2020年,数字宇宙将到达44个zettabytes - 与宇宙中的恒星一样多的数字位。

Hadoop与 Spark - 选择正确的大数据框架
数据正在增添,咱们不会很快解脱它。为了消化全部这些数据,市场上有越来越多的散布式体系。在这些体系中,Hadoop和Spark常常作为间接合作敌手彼此合作。在决议这两个框架中哪一个合适您时,依据几个基础参数对它们停止比拟十分主要。机能Spark十分闪电,而且发觉它的机能优于Hadoop框架。它在内存中的运转速率进步了100倍,在磁盘上运转速率进步了 10倍。别的,咱们发觉,它应用10倍的呆板,比应用Hadoop快3倍的数据排序100 TB。
Hadoop与 Spark - 选择正确的大数据框架
Spark是如斯之快,由于它处置内存中的全部内容。得益于Spark的内存处置,它能够为来自营销运动,物联网传感器,呆板进修和交际媒体网站的数据供给及时剖析。然而,假如Spark和其余同享效劳在YARN上运转,则其机能能够会下降。这能够招致RAM开支内存泄露。另一方面,Hadoop轻松处置这个成绩。假如用户偏向于批量处置,Hadoop比Spark更无效。Hadoop和Spark都有差别的处置方法。因而,它完整取决于名目的需要,能否在Hadoop和Spark机能战中持续应用Hadoop或Spark。Facebook及其与Spark框架的过渡之旅Facebook上的数据每过一秒就会增添。为了处置这些数据并应用它来做出理智的决议,Facebook应用剖析。为此,它应用了很多平台,以下所示: Hive平台履行Facebook的一些批量剖析。 用于自界说MapReduce完成的Corona平台。 基于ANSI-SQL的查问的Presto脚印。下面探讨的Hive平台在盘算上是“资本麋集型的”。以是,保持这是一个宏大的挑衅。因而,Facebook决议切换到Apache Spark框架来治理他们的数据。明天,Facebook曾经经过集成Spark为实体排名体系安排了一条更快的可治理管道。
Hadoop与 Spark - 选择正确的大数据框架
保险Spark的保险性仍在一直进展,由于它现在只支撑经过同享密钥停止身份考证(暗码身份考证)。乃至Apache Spark的民间网站宣称,“存在很多差别范例的保险成绩。Spark并纷歧定能防备全部事件。“另一方面,Hadoop存在以下保险功效:Hadoop身份考证,Hadoop受权,Hadoop审计和Hadoop加密。全部这些都与Knox Gateway和Sentry等Hadoop保险名目集成在一同。一句话:在Hadoop vs Spark Security的战役中,Spark比Hadoop保险一点。然而,在将Spark与Hadoop集成时,Spark能够应用Hadoop的保险功效。本钱起首,Hadoop和Spark都是开源框架,因而收费供给。二者都应用商用效劳器,在云上运转,仿佛有一些相似的硬件请求:

版权信息Copyright © IT技术教程 版权所有    ICP备案编号:鲁ICP备09013610号