5 个大数据处理 / 数据分析 / 分布式工具


1.Hadoop

Hadoop 是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。
Hadoop_大数据_数据工具-数据分析

 

2.Druid

Druid 是实时数据分析存储系统,Java 语言中最好的数据库连接池。Druid 能够提供强大的监控和扩展功能。

Druid 是一个分布式的、面向列的、实时的分析数据存储库,通常用于为多租户环境中的探索性仪表板供电。

Druid 作为一种数据仓库解决方案,擅长于对 petabyte 大小的数据集进行快速聚合查询。Druid 支持各种灵活的过滤器、精确计算、近似算法和其他有用的计算。

Druid 可以同时加载流数据和批处理数据,并与 Samza、Kafka、Storm、SPark 和 Hadoop 集成。

Druid__大数据_数据工具-数据分析

3.Ambari

大数据平台搭建、监控利器;类似的还有 CDH

Ambari 能够:

提供 Hadoop 集群

  • Ambari 为在任意数量的主机上安装 Hadoop 服务提供了一个逐步向导。
  • Ambari 处理集群 Hadoop 服务的配置。

管理 Hadoop 集群

  • Ambari 为整个集群提供启动、停止和重新配置 Hadoop 服务的中央管理。

监视 Hadoop 集群

  • Ambari 为监视 Hadoop 集群的健康状况和状态提供了一个仪表板。
  • 安巴里杠杆 Ambari 度量系统用于度量集合。
  • 安巴里杠杆 Ambari 警报框架用于系统警报,并在需要注意时通知您 (例如,节点下降,剩余磁盘空间较低等)。

Ambari_大数据_数据工具-数据分析
 

4.Spark

一个快速通用的集群计算系统. 它在 Java、Scala、Python 和 R 中提供了高级 API,并提供了支持通用执行图的优化引擎。大规模数据处理框架(可以应付企业中常见的三种数据处理场景:复杂的批量数据处理(batch data processing);基于历史数据的交互式查询;基于实时数据流的数据处理,Ceph:Linux 分布式文件系统。

Spark_大数据_数据工具-数据分析

5.Storm

Storm 是一个免费开源、分布式、高容错的实时计算系统。Storm 令持续不断的流计算变得容易,弥补了 Hadoop 批处理所不能满足的实时要求。Storm 经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和 ETL 等领域。Storm 的部署管理非常简单,而且,在同类的流式计算工具,Storm 的性能也是非常出众的。
Storm_大数据_数据工具-数据分析
来源:中公优就业