大数据资源共享
我们是一群热爱并正在研究大数据技术的成员,我们相信完善的知识结构体系文档可以帮助任何热爱技术的人员解决绝大多数的问题,成为工作中的技术大咖,技术牛人。
不足之处请多提意见,当然我们也希望您能参与我们的的整改,使本文档更加完善,能够帮助到更多人
参与本文档维护方式
现涉及的内容如下:
hadoop
Apache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。
支持的操作系统:Windows、Linux和OS X。
相关链接: http://hadoop.apache.org
Spark
作为MapReduce之外的一种选择,Spark是一种数据处理引擎。它声称,用在内存中时,其速度比MapReduce最多快100倍;用在磁盘上时,其速度比MapReduce最多快10倍。它可以与Hadoop和Apache Mesos一起使用,也可以独立使用。
支持的操作系统:Windows、Linux和OS X。
相关链接: http://spark.apache.org
Ambari
作为Hadoop生态系统的一部分,这个Apache项目提供了基于Web的直观界面,可用于配置、管理和监控Hadoop集群。有些开发人员想把Ambari的功能整合到自己的应用程序当中,Ambari也为他们提供了充分利用REST(代表性状态传输协议)的API。
支持的操作系统:Windows、Linux和OS X。
相关链接: http://ambari.apache.org
HBase
HBase是为有数十亿行和数百万列的超大表设计的,这是一种分布式数据库,可以对大数据进行随机性的实时读取/写入访问。它有点类似谷歌的Bigtable,不过基于Hadoop和Hadoop分布式文件系统(HDFS)而建。
支持的操作系统:与操作系统无关。
相关链接: http://hbase.apache.org
Hive
Apache Hive是面向Hadoop生态系统的数据仓库。它让用户可以使用HiveQL查询和管理大数据,这是一种类似SQL的语言。
支持的操作系统:与操作系统无关。
相关链接: http://hive.apache.org
Pig
Apache Pig是一种面向分布式大数据分析的平台。它依赖一种名为Pig Latin的编程语言,拥有简化的并行编程、优化和可扩展性等优点。
支持的操作系统:与操作系统无关。
相关链接: http://pig.apache.org
Zookeeper
这种大数据管理工具自称是“一项集中式服务,可用于维护配置信息、命名、提供分布式同步以及提供群组服务。”它让Hadoop集群里面的节点可以彼此协调。
支持的操作系统:Linux、Windows(只适合开发环境)和OS X(只适合开发环境)。