開源大數據利器彙總

類別 名稱 官網 備註
查詢引擎 Phoenix https://phoenix.apache.org/ Salesforce公司出品,Apache HBase之上的一個SQL中間層,完全使用Java編寫
Kylin http://kylin.io eBay開源的基於Hadoop的分佈式OLAP分析引擎,旨在減少Hadoop在10億行以上數據級別的情況下的查詢延遲
Stinger http://hortonworks.com/labs/stinger/
http://hortonworks.com/hadoop/tez/
原叫Tez,下一代Hive,Hortonworks主導開發,運行在YARN上的DAG計算框架
Presto http://prestodb.io/ Facebook開源
Shark http://shark.cs.berkeley.edu/ Spark上的SQL執行引擎,已演化成Spark-SQL和Hive on Spark
Pig http://pig.apache.org/ 基於Hadoop MapReduce的腳本語言
Cloudera Impala http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html 參照Google Dremel實現,能運行在HDFS或HBase上,使用C++開發
Apache Drill https://drill.apache.org/ 參照Google Dremel實現
Apache Tajo http://tajo.apache.org/ 一個運行在YARN上支持SQL的分佈式數據倉庫
Hive http://hive.apache.org/ 基於Hadoop MapReduce的SQL查詢引擎
流式計算 Facebook Puma   實時數據流分析
Twitter Rainbird   分佈式實時統計系統,如網站的點擊統計
Yahoo S4 http://incubator.apache.org/s4/ Java開發的一個通用的、分佈式的、可擴展的、分區容錯的、可插拔的無主架構的流式系統
jStrom https://github.com/alibaba/jstorm 阿里開源的經過優化的Java版Storm
Twitter Storm http://storm.incubator.apache.org/ 使用Java和Clojure實現
迭代計算 Apache Hama https://hama.apache.org/ 建立在Hadoop上基於BSP(Bulk Synchronous Parallel)的計算框架,模仿了Google的Pregel。
Apache Giraph https://giraph.apache.org/ 建立在Hadoop上的可伸縮的分佈式迭代圖處理系統,靈感來自BSP(bulk synchronous parallel)和Google的Pregel
HaLoop https://code.google.com/p/haloop/ 迭代的MapReduce
Twister http://www.iterativemapreduce.org/ 迭代的MapReduce
離線計算 Hadoop MapReduce http://hadoop.apache.org/ 經典的大數據批處理系統
Berkeley Spark http://spark.apache.org/
http://shark.cs.berkeley.edu/
使用Scala語言實現,和MapReduce有較大的競爭關係,性能強於MapReduce
Flink https://flink.apache.org/ 和Spark類似的
Apache Ignite http://ignite.apache.org/ 內存數據組織框架是一個高性能、集成化和分佈式的內存計算和事務平臺
DataTorrent http://www.datatorrent.com/ 基於Hadoop2.X構建的實時流式處理和分析平臺,每秒可以處理超過10億個實時事件
嵌入式DB Firebird http://www.firebirdsql.org/ 從Interbase派生出來的,支持SQL,支持事務
鍵值存儲 LevelDB https://code.google.com/p/leveldb/ Google開源的高效KV編程庫,注意它只是個庫
RocksDB http://rocksdb.org/ Facebook開源的,基於Google的LevelDB,但提高了擴展性可以運行在多核處理器上
HyperDex http://hyperdex.org/ 下一代KV存儲系統,支持strings、integers、floats、lists、maps和sets等豐富的數據類型
TokyoCabinet http://fallabs.com/tokyocabinet/ 日本人Mikio Hirabayashi(平林幹雄)開發的一款DBM數據庫,注意它只是個庫(大名鼎鼎的DBM數據庫qdbm就是Mikio Hirabayashi開發的),讀寫非常快
Voldemort http://www.project-voldemort.com/voldemort/ 一個分佈式鍵值存儲系統,是Amazon Dynamo的一個開源克隆,LinkedIn開源
Amazon Dynamo https://github.com/dynamo/dynamo 亞馬遜的KV模式的存儲平臺,無主架構
Tair http://tair.taobao.org/ 淘寶出品的高性能、分佈式、可擴展、高可靠的KV結構存儲系統,專爲小文件優化,並提供簡單易用的接口(類似Map),Tair支持Java和C版本的客戶端
Apache Accumulo https://accumulo.apache.org/ 一個可靠的、可伸縮的、高性能的排序分佈式的KV存儲系統,參照Google Bigtable而設計,建立在Hadoop、Thrift和Zookeeper之上。
Redis http://redis.io/ 使用ANSI C語言編寫、支持網絡、可基於內存亦可持久化的日誌型、單機版KV數據庫。從2010年3月15日起,Redis的開發工作由VMware主持
表格存儲 OceanBase https://github.com/alibaba/oceanbase 支持海量數據的高性能分佈式數據庫系統,實現了數千億條記錄、數百TB數據上的跨行跨表事務
Amazon SimpleDB http://aws.amazon.com/cn/simpledb/ 一個可大規模伸縮、用 Erlang 編寫的高可用數據存儲
Vertica http://www.vertica.com/ 惠普2011收購Vertica,Vertica是傳統的關係型數據庫,基於列存儲,同時支持MPP,使用標準的SQL查詢,可以和Hadoop/MapReduce進行集成
Cassandra http://cassandra.apache.org/ Hadoop成員,Facebook於2008將Cassandra開源,基於O(1)DHT的完全P2P架構
HyperTable http://hypertable.org/ 搜索引擎公司Zvents針對Bigtable的C++開源實現
FoundationDB https://foundationdb.com/ 支持ACID事務處理的NoSQL數據庫,提供非常好的性能、數據一致性和操作彈性
MemSQL http://www.memsql.com/ 前Facebook工程師創辦的,號稱世界上最快的分佈式關係型數據庫,兼容MySQL但快30倍,能實現每秒150萬次事務,原理是僅用內存並將SQL預編譯爲C++。
HBase http://hbase.apache.org/ Bigtable在Hadoop中的實現,最初是Powerset公司爲了處理自然語言搜索產生的海量數據而開展的項目
文件存儲 CouchDB http://couchdb.apache.org/ 面向文檔的數據存儲
MongoDB https://www.mongodb.org/ 文檔數據庫
Tachyon http://tachyon-project.org/
https://github.com/amplab/tachyon
加州大學伯克利分校的AMPLab基於Hadoop的核心組件開發出一個更快的版本Tachyon,它從底層重構了Hadoop平臺。
KFS http://code.google.com/p/kosmosfs/ GFS的C++開源版本
HDFS http://hadoop.apache.org/ GFS在Hadoop中的實現
資源管理 Twitter Mesos http://mesos.apache.org/ Google Borg的翻版
Hadoop Yarn http://hadoop.apache.org/ 類似於Mesos
日誌收集系統 Facebook Scribe https://github.com/facebook/scribe Facebook開源的日誌收集系統,能夠從各種日誌源上收集日誌,存儲到一箇中央存儲系統(可以是NFS,分佈式文件系統等)上,以便於進行集中統計分析處理,常與Hadoop結合使用,Scribe用於向HDFS中Push日誌
Cloudera Flume http://flume.apache.org/ Cloudera提供的日誌收集系統,支持對日誌的實時性收集
logstash http://www.logstash.net/ 日誌管理、分析和傳輸工具,可配合kibana、ElasticSearch組建成日誌查詢系統
kibana http://www.elasticsearch.org/overview/kibana/ 爲日誌提供友好的Web查詢頁面
消息系統 StormMQ http://stormmq.com/  
ZeroMQ http://zeromq.org/ 很底層的高性能網絡庫
RabbitMQ https://www.rabbitmq.com/ 在AMQP基礎上完整的,可複用的企業消息系統
Apache ActiveMQ http://activemq.apache.org/ 能力強勁的開源消息總線
Jafka http://kafka.apache.org/ 開源的、高性能的、跨語言分佈式消息系統,最早是由Apache孵化的Kafka(由LinkedIn捐助給Apache)克隆而來
Apache Kafka http://kafka.apache.org/ Linkedin於2010年12月份開源的分佈式消息系統,它主要用於處理活躍的流式數據,由Scala寫成
分佈式服務 ZooKeeper http://zookeeper.apache.org/ 分佈式鎖服務,PoxOS算法的實現,對應Google的Chubby
rethinkdb https://github.com/rethinkdb/rethinkdb  
etcd https://github.com/coreos/etcd 一個高可用的鍵值存儲系統,主要用於共享配置和服務發現。etcd是由CoreOS開發並維護的,靈感來自於 ZooKeeper 和 Doozer,它使用Go語言編寫,並通過Raft一致性算法處理日誌複製以保證強一致性。
RPC Apache Avro http://avro.apache.org/ Hadoop中的RPC
grpc http://www.grpc.io/
https://github.com/grpc/grpc
一個高性能、通用的開源RPC框架,其由Google主要面向移動應用開發並基於HTTP/2協議標準而設計,基於ProtoBuf(Protocol Buffers)序列化協議開發,且支持衆多開發語言。
Facebook Thrift http://thrift.apache.org/ RPC,支持C++/Java/PHP等衆多語言
集羣管理 Nagios http://www.nagios.org/ 監視系統運行狀態和網絡信息的監視系統
Ganglia http://ganglia.sourceforge.net/ UC Berkeley發起的一個開源集羣監視項目,設計用於測量數以千計的節點。
Apache Ambari http://ambari.apache.org/ Hadoop成員,管理和監視Apache Hadoop集羣的開源框架
基礎設施 SSTable   源於Google,orted String Table
RecordIO   源於Google
Flat Buffers https://github.com/google/flatbuffers 針對遊戲開發的,高效的跨平臺序列化庫,相比Proto Buffers開銷更小,因爲Flat Buffers沒有解析過程
Protocol Buffers http://code.google.com/p/protobuf/ Google公司開發的一種數據描述語言,類似於XML能夠將結構化數據序列化,可用於數據存儲、通信協議等方面。它不依賴於語言和平臺並且可擴展性極強。
Consistent Hashing   1997年由麻省理工學院提出,目標是爲了解決因特網中的熱點(Hot spot)問題,初衷和CARP十分類似,基本解決了在P2P環境中最爲關鍵的問題——如何在動態的網絡拓撲中分佈存儲和路由。
Netty http://netty.io/ JBOSS提供的一個java開源框架,提供異步的、事件驅動的網絡應用程序框架,用以快速開發高性能、高可靠性的網絡服務器和客戶端程序。
BloomFilter   布隆過濾器,1970年由布隆提出,是一個很長的二進制矢量和一系列隨機映射函數,可以用於檢索一個元素是否在一個集合中,優點是空間效率和查詢時間都遠遠超過一般的算法,缺點是有一定的誤識別率和刪除困難。
搜索引擎 Nutch https://nutch.apache.org/ 開源Java 實現的搜索引擎,誕生Hadoop的地方。
Lucene http://lucene.apache.org/ 一套信息檢索工具包,但並不包含搜索引擎系統,它包含了索引結構、讀寫索引工具、相關性工具、排序等功能。
SolrCloud   基於Solr和Zookeeper的分佈式搜索, Solr4.0 的核心組件之一,主要思想是使用 Zookeeper 作爲集羣的配置信息中心
Solr https://lucene.apache.org/solr/ Solr是基於Lucene的搜索。
ElasticSearch http://www.elasticsearch.org/
http://www.elasticsearch.cn/
開源的(Apache2協議),分佈式的,RESTful的,構建在Apache Lucene之上的的搜索引擎。
Sphinx http://sphinxsearch.com 一個基於SQL的全文檢索引擎,可結合MySQL、PostgreSQL做全文檢索,可提供比數據庫本身更專業的搜索功能,單一索引可達1億條記錄,1000萬條記錄情況下的查詢速度爲0.x秒(毫秒級)。
SenseiDB http://senseidb.com Linkin公司開發的一個開源分佈式實時半結構化數據庫,在全文索引的基礎封裝了Browse Query Language (BQL,類似SQL)的查詢語法。
數據挖掘 Mahout http://mahout.apache.org/ Hadoop成員,目標是建立一個可擴展的機器學習庫
Iaas OpenStack https://www.openstack.org/ 美國國家航空航天局和Rackspace合作研發的,以Apache許可證授權雲平臺管理的項目,它不是一個軟件。這個項目由幾個主要的組件組合起來完成一些具體的工作,旨在爲公共及私有云的建設與管理提供軟件的開源項目。6個核心項目:Nova(計算,Compute),Swift(對象存儲,Object),Glance(鏡像,Image),Keystone(身份,Identity),Horizon(自助門戶,Dashboard),Quantum & Melange(網絡&地址管理),另外還有若干社區項目,如Rackspace(負載均衡)、Rackspace(關係型數據庫)。
Docker http://www.docker.io/ 應用容器引擎,讓開發者可打包應用及依賴包到一個可移植的容器中,然後發佈到Linux機器上,也可實現虛擬化。
Kubernetes https://github.com/GoogleCloudPlatform/kubernetes/ Google開源的容器集羣管理系統
Imctfy https://github.com/google/Imctfy/ Google開源的Linux容器
類別 名稱 官網 備註
查詢引擎 Phoenix https://phoenix.apache.org/ Salesforce公司出品,Apache HBase之上的一個SQL中間層,完全使用Java編寫
Kylin http://kylin.io eBay開源的基於Hadoop的分佈式OLAP分析引擎,旨在減少Hadoop在10億行以上數據級別的情況下的查詢延遲
Stinger http://hortonworks.com/labs/stinger/
http://hortonworks.com/hadoop/tez/
原叫Tez,下一代Hive,Hortonworks主導開發,運行在YARN上的DAG計算框架
Presto http://prestodb.io/ Facebook開源
Shark http://shark.cs.berkeley.edu/ Spark上的SQL執行引擎,已演化成Spark-SQL和Hive on Spark
Pig http://pig.apache.org/ 基於Hadoop MapReduce的腳本語言
Cloudera Impala http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html 參照Google Dremel實現,能運行在HDFS或HBase上,使用C++開發
Apache Drill https://drill.apache.org/ 參照Google Dremel實現
Apache Tajo http://tajo.apache.org/ 一個運行在YARN上支持SQL的分佈式數據倉庫
Hive http://hive.apache.org/ 基於Hadoop MapReduce的SQL查詢引擎
流式計算 Facebook Puma   實時數據流分析
Twitter Rainbird   分佈式實時統計系統,如網站的點擊統計
Yahoo S4 http://incubator.apache.org/s4/ Java開發的一個通用的、分佈式的、可擴展的、分區容錯的、可插拔的無主架構的流式系統
jStrom https://github.com/alibaba/jstorm 阿里開源的經過優化的Java版Storm
Twitter Storm http://storm.incubator.apache.org/ 使用Java和Clojure實現
迭代計算 Apache Hama https://hama.apache.org/ 建立在Hadoop上基於BSP(Bulk Synchronous Parallel)的計算框架,模仿了Google的Pregel。
Apache Giraph https://giraph.apache.org/ 建立在Hadoop上的可伸縮的分佈式迭代圖處理系統,靈感來自BSP(bulk synchronous parallel)和Google的Pregel
HaLoop https://code.google.com/p/haloop/ 迭代的MapReduce
Twister http://www.iterativemapreduce.org/ 迭代的MapReduce
離線計算 Hadoop MapReduce http://hadoop.apache.org/ 經典的大數據批處理系統
Berkeley Spark http://spark.apache.org/
http://shark.cs.berkeley.edu/
使用Scala語言實現,和MapReduce有較大的競爭關係,性能強於MapReduce
Flink https://flink.apache.org/ 和Spark類似的
Apache Ignite http://ignite.apache.org/ 內存數據組織框架是一個高性能、集成化和分佈式的內存計算和事務平臺
DataTorrent http://www.datatorrent.com/ 基於Hadoop2.X構建的實時流式處理和分析平臺,每秒可以處理超過10億個實時事件
嵌入式DB Firebird http://www.firebirdsql.org/ 從Interbase派生出來的,支持SQL,支持事務
鍵值存儲 LevelDB https://code.google.com/p/leveldb/ Google開源的高效KV編程庫,注意它只是個庫
RocksDB http://rocksdb.org/ Facebook開源的,基於Google的LevelDB,但提高了擴展性可以運行在多核處理器上
HyperDex http://hyperdex.org/ 下一代KV存儲系統,支持strings、integers、floats、lists、maps和sets等豐富的數據類型
TokyoCabinet http://fallabs.com/tokyocabinet/ 日本人Mikio Hirabayashi(平林幹雄)開發的一款DBM數據庫,注意它只是個庫(大名鼎鼎的DBM數據庫qdbm就是Mikio Hirabayashi開發的),讀寫非常快
Voldemort http://www.project-voldemort.com/voldemort/ 一個分佈式鍵值存儲系統,是Amazon Dynamo的一個開源克隆,LinkedIn開源
Amazon Dynamo https://github.com/dynamo/dynamo 亞馬遜的KV模式的存儲平臺,無主架構
Tair http://tair.taobao.org/ 淘寶出品的高性能、分佈式、可擴展、高可靠的KV結構存儲系統,專爲小文件優化,並提供簡單易用的接口(類似Map),Tair支持Java和C版本的客戶端
Apache Accumulo https://accumulo.apache.org/ 一個可靠的、可伸縮的、高性能的排序分佈式的KV存儲系統,參照Google Bigtable而設計,建立在Hadoop、Thrift和Zookeeper之上。
Redis http://redis.io/ 使用ANSI C語言編寫、支持網絡、可基於內存亦可持久化的日誌型、單機版KV數據庫。從2010年3月15日起,Redis的開發工作由VMware主持
表格存儲 OceanBase https://github.com/alibaba/oceanbase 支持海量數據的高性能分佈式數據庫系統,實現了數千億條記錄、數百TB數據上的跨行跨表事務
Amazon SimpleDB http://aws.amazon.com/cn/simpledb/ 一個可大規模伸縮、用 Erlang 編寫的高可用數據存儲
Vertica http://www.vertica.com/ 惠普2011收購Vertica,Vertica是傳統的關係型數據庫,基於列存儲,同時支持MPP,使用標準的SQL查詢,可以和Hadoop/MapReduce進行集成
Cassandra http://cassandra.apache.org/ Hadoop成員,Facebook於2008將Cassandra開源,基於O(1)DHT的完全P2P架構
HyperTable http://hypertable.org/ 搜索引擎公司Zvents針對Bigtable的C++開源實現
FoundationDB https://foundationdb.com/ 支持ACID事務處理的NoSQL數據庫,提供非常好的性能、數據一致性和操作彈性
MemSQL http://www.memsql.com/ 前Facebook工程師創辦的,號稱世界上最快的分佈式關係型數據庫,兼容MySQL但快30倍,能實現每秒150萬次事務,原理是僅用內存並將SQL預編譯爲C++。
HBase http://hbase.apache.org/ Bigtable在Hadoop中的實現,最初是Powerset公司爲了處理自然語言搜索產生的海量數據而開展的項目
文件存儲 CouchDB http://couchdb.apache.org/ 面向文檔的數據存儲
MongoDB https://www.mongodb.org/ 文檔數據庫
Tachyon http://tachyon-project.org/
https://github.com/amplab/tachyon
加州大學伯克利分校的AMPLab基於Hadoop的核心組件開發出一個更快的版本Tachyon,它從底層重構了Hadoop平臺。
KFS http://code.google.com/p/kosmosfs/ GFS的C++開源版本
HDFS http://hadoop.apache.org/ GFS在Hadoop中的實現
資源管理 Twitter Mesos http://mesos.apache.org/ Google Borg的翻版
Hadoop Yarn http://hadoop.apache.org/ 類似於Mesos
日誌收集系統 Facebook Scribe https://github.com/facebook/scribe Facebook開源的日誌收集系統,能夠從各種日誌源上收集日誌,存儲到一箇中央存儲系統(可以是NFS,分佈式文件系統等)上,以便於進行集中統計分析處理,常與Hadoop結合使用,Scribe用於向HDFS中Push日誌
Cloudera Flume http://flume.apache.org/ Cloudera提供的日誌收集系統,支持對日誌的實時性收集
logstash http://www.logstash.net/ 日誌管理、分析和傳輸工具,可配合kibana、ElasticSearch組建成日誌查詢系統
kibana http://www.elasticsearch.org/overview/kibana/ 爲日誌提供友好的Web查詢頁面
消息系統 StormMQ http://stormmq.com/  
ZeroMQ http://zeromq.org/ 很底層的高性能網絡庫
RabbitMQ https://www.rabbitmq.com/ 在AMQP基礎上完整的,可複用的企業消息系統
Apache ActiveMQ http://activemq.apache.org/ 能力強勁的開源消息總線
Jafka http://kafka.apache.org/ 開源的、高性能的、跨語言分佈式消息系統,最早是由Apache孵化的Kafka(由LinkedIn捐助給Apache)克隆而來
Apache Kafka http://kafka.apache.org/ Linkedin於2010年12月份開源的分佈式消息系統,它主要用於處理活躍的流式數據,由Scala寫成
分佈式服務 ZooKeeper http://zookeeper.apache.org/ 分佈式鎖服務,PoxOS算法的實現,對應Google的Chubby
rethinkdb https://github.com/rethinkdb/rethinkdb  
etcd https://github.com/coreos/etcd 一個高可用的鍵值存儲系統,主要用於共享配置和服務發現。etcd是由CoreOS開發並維護的,靈感來自於 ZooKeeper 和 Doozer,它使用Go語言編寫,並通過Raft一致性算法處理日誌複製以保證強一致性。
RPC Apache Avro http://avro.apache.org/ Hadoop中的RPC
grpc http://www.grpc.io/
https://github.com/grpc/grpc
一個高性能、通用的開源RPC框架,其由Google主要面向移動應用開發並基於HTTP/2協議標準而設計,基於ProtoBuf(Protocol Buffers)序列化協議開發,且支持衆多開發語言。
Facebook Thrift http://thrift.apache.org/ RPC,支持C++/Java/PHP等衆多語言
集羣管理 Nagios http://www.nagios.org/ 監視系統運行狀態和網絡信息的監視系統
Ganglia http://ganglia.sourceforge.net/ UC Berkeley發起的一個開源集羣監視項目,設計用於測量數以千計的節點。
Apache Ambari http://ambari.apache.org/ Hadoop成員,管理和監視Apache Hadoop集羣的開源框架
基礎設施 SSTable   源於Google,orted String Table
RecordIO   源於Google
Flat Buffers https://github.com/google/flatbuffers 針對遊戲開發的,高效的跨平臺序列化庫,相比Proto Buffers開銷更小,因爲Flat Buffers沒有解析過程
Protocol Buffers http://code.google.com/p/protobuf/ Google公司開發的一種數據描述語言,類似於XML能夠將結構化數據序列化,可用於數據存儲、通信協議等方面。它不依賴於語言和平臺並且可擴展性極強。
Consistent Hashing   1997年由麻省理工學院提出,目標是爲了解決因特網中的熱點(Hot spot)問題,初衷和CARP十分類似,基本解決了在P2P環境中最爲關鍵的問題——如何在動態的網絡拓撲中分佈存儲和路由。
Netty http://netty.io/ JBOSS提供的一個java開源框架,提供異步的、事件驅動的網絡應用程序框架,用以快速開發高性能、高可靠性的網絡服務器和客戶端程序。
BloomFilter   布隆過濾器,1970年由布隆提出,是一個很長的二進制矢量和一系列隨機映射函數,可以用於檢索一個元素是否在一個集合中,優點是空間效率和查詢時間都遠遠超過一般的算法,缺點是有一定的誤識別率和刪除困難。
搜索引擎 Nutch https://nutch.apache.org/ 開源Java 實現的搜索引擎,誕生Hadoop的地方。
Lucene http://lucene.apache.org/ 一套信息檢索工具包,但並不包含搜索引擎系統,它包含了索引結構、讀寫索引工具、相關性工具、排序等功能。
SolrCloud   基於Solr和Zookeeper的分佈式搜索, Solr4.0 的核心組件之一,主要思想是使用 Zookeeper 作爲集羣的配置信息中心
Solr https://lucene.apache.org/solr/ Solr是基於Lucene的搜索。
ElasticSearch http://www.elasticsearch.org/
http://www.elasticsearch.cn/
開源的(Apache2協議),分佈式的,RESTful的,構建在Apache Lucene之上的的搜索引擎。
Sphinx http://sphinxsearch.com 一個基於SQL的全文檢索引擎,可結合MySQL、PostgreSQL做全文檢索,可提供比數據庫本身更專業的搜索功能,單一索引可達1億條記錄,1000萬條記錄情況下的查詢速度爲0.x秒(毫秒級)。
SenseiDB http://senseidb.com Linkin公司開發的一個開源分佈式實時半結構化數據庫,在全文索引的基礎封裝了Browse Query Language (BQL,類似SQL)的查詢語法。
數據挖掘 Mahout http://mahout.apache.org/ Hadoop成員,目標是建立一個可擴展的機器學習庫
Iaas OpenStack https://www.openstack.org/ 美國國家航空航天局和Rackspace合作研發的,以Apache許可證授權雲平臺管理的項目,它不是一個軟件。這個項目由幾個主要的組件組合起來完成一些具體的工作,旨在爲公共及私有云的建設與管理提供軟件的開源項目。6個核心項目:Nova(計算,Compute),Swift(對象存儲,Object),Glance(鏡像,Image),Keystone(身份,Identity),Horizon(自助門戶,Dashboard),Quantum & Melange(網絡&地址管理),另外還有若干社區項目,如Rackspace(負載均衡)、Rackspace(關係型數據庫)。
Docker http://www.docker.io/ 應用容器引擎,讓開發者可打包應用及依賴包到一個可移植的容器中,然後發佈到Linux機器上,也可實現虛擬化。
Kubernetes https://github.com/GoogleCloudPlatform/kubernetes/ Google開源的容器集羣管理系統
Imctfy https://github.com/google/Imctfy/ Google開源的Linux容器

分類: 大數據
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章