開源大數據利器彙總

類別	名稱	官網	備註
查詢引擎	Phoenix	https://phoenix.apache.org/	Salesforce公司出品，Apache HBase之上的一個SQL中間層，完全使用Java編寫
	Kylin	http://kylin.io	eBay開源的基於Hadoop的分佈式OLAP分析引擎，旨在減少Hadoop在10億行以上數據級別的情況下的查詢延遲
	Stinger	http://hortonworks.com/labs/stinger/ http://hortonworks.com/hadoop/tez/	原叫Tez，下一代Hive,Hortonworks主導開發，運行在YARN上的DAG計算框架
	Presto	http://prestodb.io/	Facebook開源
	Shark	http://shark.cs.berkeley.edu/	Spark上的SQL執行引擎，已演化成Spark-SQL和Hive on Spark
	Pig	http://pig.apache.org/	基於Hadoop MapReduce的腳本語言
	Cloudera Impala	http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html	參照Google Dremel實現，能運行在HDFS或HBase上，使用C++開發
	Apache Drill	https://drill.apache.org/	參照Google Dremel實現
	Apache Tajo	http://tajo.apache.org/	一個運行在YARN上支持SQL的分佈式數據倉庫
	Hive	http://hive.apache.org/	基於Hadoop MapReduce的SQL查詢引擎
流式計算	Facebook Puma		實時數據流分析
	Twitter Rainbird		分佈式實時統計系統，如網站的點擊統計
	Yahoo S4	http://incubator.apache.org/s4/	Java開發的一個通用的、分佈式的、可擴展的、分區容錯的、可插拔的無主架構的流式系統
	jStrom	https://github.com/alibaba/jstorm	阿里開源的經過優化的Java版Storm
	Twitter Storm	http://storm.incubator.apache.org/	使用Java和Clojure實現
迭代計算	Apache Hama	https://hama.apache.org/	建立在Hadoop上基於BSP（Bulk Synchronous Parallel）的計算框架，模仿了Google的Pregel。
	Apache Giraph	https://giraph.apache.org/	建立在Hadoop上的可伸縮的分佈式迭代圖處理系統，靈感來自BSP（bulk synchronous parallel）和Google的Pregel
	HaLoop	https://code.google.com/p/haloop/	迭代的MapReduce
	Twister	http://www.iterativemapreduce.org/	迭代的MapReduce
離線計算	Hadoop MapReduce	http://hadoop.apache.org/	經典的大數據批處理系統
	Berkeley Spark	http://spark.apache.org/ http://shark.cs.berkeley.edu/	使用Scala語言實現，和MapReduce有較大的競爭關係，性能強於MapReduce
	Flink	https://flink.apache.org/	和Spark類似的
	Apache Ignite	http://ignite.apache.org/	內存數據組織框架是一個高性能、集成化和分佈式的內存計算和事務平臺
	DataTorrent	http://www.datatorrent.com/	基於Hadoop2.X構建的實時流式處理和分析平臺，每秒可以處理超過10億個實時事件
嵌入式DB	Firebird	http://www.firebirdsql.org/	從Interbase派生出來的，支持SQL，支持事務
鍵值存儲	LevelDB	https://code.google.com/p/leveldb/	Google開源的高效KV編程庫，注意它只是個庫
	RocksDB	http://rocksdb.org/	Facebook開源的，基於Google的LevelDB，但提高了擴展性可以運行在多核處理器上
	HyperDex	http://hyperdex.org/	下一代KV存儲系統，支持strings、integers、floats、lists、maps和sets等豐富的數據類型
	TokyoCabinet	http://fallabs.com/tokyocabinet/	日本人Mikio Hirabayashi（平林幹雄）開發的一款DBM數據庫，注意它只是個庫（大名鼎鼎的DBM數據庫qdbm就是Mikio Hirabayashi開發的）,讀寫非常快
	Voldemort	http://www.project-voldemort.com/voldemort/	一個分佈式鍵值存儲系統，是Amazon Dynamo的一個開源克隆，LinkedIn開源
	Amazon Dynamo	https://github.com/dynamo/dynamo	亞馬遜的KV模式的存儲平臺，無主架構
	Tair	http://tair.taobao.org/	淘寶出品的高性能、分佈式、可擴展、高可靠的KV結構存儲系統，專爲小文件優化，並提供簡單易用的接口（類似Map），Tair支持Java和C版本的客戶端
	Apache Accumulo	https://accumulo.apache.org/	一個可靠的、可伸縮的、高性能的排序分佈式的KV存儲系統，參照Google Bigtable而設計，建立在Hadoop、Thrift和Zookeeper之上。
	Redis	http://redis.io/	使用ANSI C語言編寫、支持網絡、可基於內存亦可持久化的日誌型、單機版KV數據庫。從2010年3月15日起，Redis的開發工作由VMware主持
表格存儲	OceanBase	https://github.com/alibaba/oceanbase	支持海量數據的高性能分佈式數據庫系統，實現了數千億條記錄、數百TB數據上的跨行跨表事務
	Amazon SimpleDB	http://aws.amazon.com/cn/simpledb/	一個可大規模伸縮、用 Erlang 編寫的高可用數據存儲
	Vertica	http://www.vertica.com/	惠普2011收購Vertica，Vertica是傳統的關係型數據庫，基於列存儲，同時支持MPP，使用標準的SQL查詢,可以和Hadoop/MapReduce進行集成
	Cassandra	http://cassandra.apache.org/	Hadoop成員，Facebook於2008將Cassandra開源，基於O(1)DHT的完全P2P架構
	HyperTable	http://hypertable.org/	搜索引擎公司Zvents針對Bigtable的C++開源實現
	FoundationDB	https://foundationdb.com/	支持ACID事務處理的NoSQL數據庫，提供非常好的性能、數據一致性和操作彈性
	MemSQL	http://www.memsql.com/	前Facebook工程師創辦的，號稱世界上最快的分佈式關係型數據庫，兼容MySQL但快30倍，能實現每秒150萬次事務，原理是僅用內存並將SQL預編譯爲C++。
	HBase	http://hbase.apache.org/	Bigtable在Hadoop中的實現，最初是Powerset公司爲了處理自然語言搜索產生的海量數據而開展的項目
文件存儲	CouchDB	http://couchdb.apache.org/	面向文檔的數據存儲
	MongoDB	https://www.mongodb.org/	文檔數據庫
	Tachyon	http://tachyon-project.org/ https://github.com/amplab/tachyon	加州大學伯克利分校的AMPLab基於Hadoop的核心組件開發出一個更快的版本Tachyon，它從底層重構了Hadoop平臺。
	KFS	http://code.google.com/p/kosmosfs/	GFS的C++開源版本
	HDFS	http://hadoop.apache.org/	GFS在Hadoop中的實現
資源管理	Twitter Mesos	http://mesos.apache.org/	Google Borg的翻版
資源管理	Hadoop Yarn	http://hadoop.apache.org/	類似於Mesos
日誌收集系統	Facebook Scribe	https://github.com/facebook/scribe	Facebook開源的日誌收集系統，能夠從各種日誌源上收集日誌，存儲到一箇中央存儲系統（可以是NFS，分佈式文件系統等）上，以便於進行集中統計分析處理，常與Hadoop結合使用，Scribe用於向HDFS中Push日誌
	Cloudera Flume	http://flume.apache.org/	Cloudera提供的日誌收集系統，支持對日誌的實時性收集
	logstash	http://www.logstash.net/	日誌管理、分析和傳輸工具，可配合kibana、ElasticSearch組建成日誌查詢系統
	kibana	http://www.elasticsearch.org/overview/kibana/	爲日誌提供友好的Web查詢頁面
消息系統	StormMQ	http://stormmq.com/
	ZeroMQ	http://zeromq.org/	很底層的高性能網絡庫
	RabbitMQ	https://www.rabbitmq.com/	在AMQP基礎上完整的，可複用的企業消息系統
	Apache ActiveMQ	http://activemq.apache.org/	能力強勁的開源消息總線
	Jafka	http://kafka.apache.org/	開源的、高性能的、跨語言分佈式消息系統，最早是由Apache孵化的Kafka（由LinkedIn捐助給Apache）克隆而來
	Apache Kafka	http://kafka.apache.org/	Linkedin於2010年12月份開源的分佈式消息系統，它主要用於處理活躍的流式數據，由Scala寫成
分佈式服務	ZooKeeper	http://zookeeper.apache.org/	分佈式鎖服務，PoxOS算法的實現，對應Google的Chubby
	rethinkdb	https://github.com/rethinkdb/rethinkdb
	etcd	https://github.com/coreos/etcd	一個高可用的鍵值存儲系統，主要用於共享配置和服務發現。etcd是由CoreOS開發並維護的，靈感來自於 ZooKeeper 和 Doozer，它使用Go語言編寫，並通過Raft一致性算法處理日誌複製以保證強一致性。
RPC	Apache Avro	http://avro.apache.org/	Hadoop中的RPC
	grpc	http://www.grpc.io/ https://github.com/grpc/grpc	一個高性能、通用的開源RPC框架，其由Google主要面向移動應用開發並基於HTTP/2協議標準而設計，基於ProtoBuf(Protocol Buffers)序列化協議開發，且支持衆多開發語言。
	Facebook Thrift	http://thrift.apache.org/	RPC，支持C++/Java/PHP等衆多語言
集羣管理	Nagios	http://www.nagios.org/	監視系統運行狀態和網絡信息的監視系統
	Ganglia	http://ganglia.sourceforge.net/	UC Berkeley發起的一個開源集羣監視項目，設計用於測量數以千計的節點。
	Apache Ambari	http://ambari.apache.org/	Hadoop成員，管理和監視Apache Hadoop集羣的開源框架
基礎設施	SSTable		源於Google，orted String Table
	RecordIO		源於Google
	Flat Buffers	https://github.com/google/flatbuffers	針對遊戲開發的，高效的跨平臺序列化庫，相比Proto Buffers開銷更小，因爲Flat Buffers沒有解析過程
	Protocol Buffers	http://code.google.com/p/protobuf/	Google公司開發的一種數據描述語言，類似於XML能夠將結構化數據序列化，可用於數據存儲、通信協議等方面。它不依賴於語言和平臺並且可擴展性極強。
	Consistent Hashing		1997年由麻省理工學院提出,目標是爲了解決因特網中的熱點（Hot spot）問題，初衷和CARP十分類似，基本解決了在P2P環境中最爲關鍵的問題——如何在動態的網絡拓撲中分佈存儲和路由。
	Netty	http://netty.io/	JBOSS提供的一個java開源框架，提供異步的、事件驅動的網絡應用程序框架，用以快速開發高性能、高可靠性的網絡服務器和客戶端程序。
	BloomFilter		布隆過濾器，1970年由布隆提出，是一個很長的二進制矢量和一系列隨機映射函數，可以用於檢索一個元素是否在一個集合中，優點是空間效率和查詢時間都遠遠超過一般的算法，缺點是有一定的誤識別率和刪除困難。
搜索引擎	Nutch	https://nutch.apache.org/	開源Java 實現的搜索引擎，誕生Hadoop的地方。
	Lucene	http://lucene.apache.org/	一套信息檢索工具包，但並不包含搜索引擎系統，它包含了索引結構、讀寫索引工具、相關性工具、排序等功能。
	SolrCloud		基於Solr和Zookeeper的分佈式搜索， Solr4.0 的核心組件之一，主要思想是使用 Zookeeper 作爲集羣的配置信息中心
	Solr	https://lucene.apache.org/solr/	Solr是基於Lucene的搜索。
	ElasticSearch	http://www.elasticsearch.org/ http://www.elasticsearch.cn/	開源的（Apache2協議），分佈式的，RESTful的，構建在Apache Lucene之上的的搜索引擎。
	Sphinx	http://sphinxsearch.com	一個基於SQL的全文檢索引擎，可結合MySQL、PostgreSQL做全文檢索，可提供比數據庫本身更專業的搜索功能，單一索引可達1億條記錄，1000萬條記錄情況下的查詢速度爲0.x秒（毫秒級）。
	SenseiDB	http://senseidb.com	Linkin公司開發的一個開源分佈式實時半結構化數據庫，在全文索引的基礎封裝了Browse Query Language (BQL，類似SQL)的查詢語法。
數據挖掘	Mahout	http://mahout.apache.org/	Hadoop成員，目標是建立一個可擴展的機器學習庫
Iaas	OpenStack	https://www.openstack.org/	美國國家航空航天局和Rackspace合作研發的，以Apache許可證授權雲平臺管理的項目，它不是一個軟件。這個項目由幾個主要的組件組合起來完成一些具體的工作，旨在爲公共及私有云的建設與管理提供軟件的開源項目。6個核心項目：Nova（計算，Compute），Swift（對象存儲，Object），Glance（鏡像，Image），Keystone（身份，Identity），Horizon（自助門戶，Dashboard），Quantum & Melange（網絡&地址管理），另外還有若干社區項目，如Rackspace（負載均衡）、Rackspace（關係型數據庫）。
	Docker	http://www.docker.io/	應用容器引擎，讓開發者可打包應用及依賴包到一個可移植的容器中，然後發佈到Linux機器上，也可實現虛擬化。
	Kubernetes	https://github.com/GoogleCloudPlatform/kubernetes/	Google開源的容器集羣管理系統
	Imctfy	https://github.com/google/Imctfy/	Google開源的Linux容器

類別	名稱	官網	備註
查詢引擎	Phoenix	https://phoenix.apache.org/	Salesforce公司出品，Apache HBase之上的一個SQL中間層，完全使用Java編寫
	Kylin	http://kylin.io	eBay開源的基於Hadoop的分佈式OLAP分析引擎，旨在減少Hadoop在10億行以上數據級別的情況下的查詢延遲
	Stinger	http://hortonworks.com/labs/stinger/ http://hortonworks.com/hadoop/tez/	原叫Tez，下一代Hive,Hortonworks主導開發，運行在YARN上的DAG計算框架
	Presto	http://prestodb.io/	Facebook開源
	Shark	http://shark.cs.berkeley.edu/	Spark上的SQL執行引擎，已演化成Spark-SQL和Hive on Spark
	Pig	http://pig.apache.org/	基於Hadoop MapReduce的腳本語言
	Cloudera Impala	http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html	參照Google Dremel實現，能運行在HDFS或HBase上，使用C++開發
	Apache Drill	https://drill.apache.org/	參照Google Dremel實現
	Apache Tajo	http://tajo.apache.org/	一個運行在YARN上支持SQL的分佈式數據倉庫
	Hive	http://hive.apache.org/	基於Hadoop MapReduce的SQL查詢引擎
流式計算	Facebook Puma		實時數據流分析
	Twitter Rainbird		分佈式實時統計系統，如網站的點擊統計
	Yahoo S4	http://incubator.apache.org/s4/	Java開發的一個通用的、分佈式的、可擴展的、分區容錯的、可插拔的無主架構的流式系統
	jStrom	https://github.com/alibaba/jstorm	阿里開源的經過優化的Java版Storm
	Twitter Storm	http://storm.incubator.apache.org/	使用Java和Clojure實現
迭代計算	Apache Hama	https://hama.apache.org/	建立在Hadoop上基於BSP（Bulk Synchronous Parallel）的計算框架，模仿了Google的Pregel。
	Apache Giraph	https://giraph.apache.org/	建立在Hadoop上的可伸縮的分佈式迭代圖處理系統，靈感來自BSP（bulk synchronous parallel）和Google的Pregel
	HaLoop	https://code.google.com/p/haloop/	迭代的MapReduce
	Twister	http://www.iterativemapreduce.org/	迭代的MapReduce
離線計算	Hadoop MapReduce	http://hadoop.apache.org/	經典的大數據批處理系統
	Berkeley Spark	http://spark.apache.org/ http://shark.cs.berkeley.edu/	使用Scala語言實現，和MapReduce有較大的競爭關係，性能強於MapReduce
	Flink	https://flink.apache.org/	和Spark類似的
	Apache Ignite	http://ignite.apache.org/	內存數據組織框架是一個高性能、集成化和分佈式的內存計算和事務平臺
	DataTorrent	http://www.datatorrent.com/	基於Hadoop2.X構建的實時流式處理和分析平臺，每秒可以處理超過10億個實時事件
嵌入式DB	Firebird	http://www.firebirdsql.org/	從Interbase派生出來的，支持SQL，支持事務
鍵值存儲	LevelDB	https://code.google.com/p/leveldb/	Google開源的高效KV編程庫，注意它只是個庫
	RocksDB	http://rocksdb.org/	Facebook開源的，基於Google的LevelDB，但提高了擴展性可以運行在多核處理器上
	HyperDex	http://hyperdex.org/	下一代KV存儲系統，支持strings、integers、floats、lists、maps和sets等豐富的數據類型
	TokyoCabinet	http://fallabs.com/tokyocabinet/	日本人Mikio Hirabayashi（平林幹雄）開發的一款DBM數據庫，注意它只是個庫（大名鼎鼎的DBM數據庫qdbm就是Mikio Hirabayashi開發的）,讀寫非常快
	Voldemort	http://www.project-voldemort.com/voldemort/	一個分佈式鍵值存儲系統，是Amazon Dynamo的一個開源克隆，LinkedIn開源
	Amazon Dynamo	https://github.com/dynamo/dynamo	亞馬遜的KV模式的存儲平臺，無主架構
	Tair	http://tair.taobao.org/	淘寶出品的高性能、分佈式、可擴展、高可靠的KV結構存儲系統，專爲小文件優化，並提供簡單易用的接口（類似Map），Tair支持Java和C版本的客戶端
	Apache Accumulo	https://accumulo.apache.org/	一個可靠的、可伸縮的、高性能的排序分佈式的KV存儲系統，參照Google Bigtable而設計，建立在Hadoop、Thrift和Zookeeper之上。
	Redis	http://redis.io/	使用ANSI C語言編寫、支持網絡、可基於內存亦可持久化的日誌型、單機版KV數據庫。從2010年3月15日起，Redis的開發工作由VMware主持
表格存儲	OceanBase	https://github.com/alibaba/oceanbase	支持海量數據的高性能分佈式數據庫系統，實現了數千億條記錄、數百TB數據上的跨行跨表事務
	Amazon SimpleDB	http://aws.amazon.com/cn/simpledb/	一個可大規模伸縮、用 Erlang 編寫的高可用數據存儲
	Vertica	http://www.vertica.com/	惠普2011收購Vertica，Vertica是傳統的關係型數據庫，基於列存儲，同時支持MPP，使用標準的SQL查詢,可以和Hadoop/MapReduce進行集成
	Cassandra	http://cassandra.apache.org/	Hadoop成員，Facebook於2008將Cassandra開源，基於O(1)DHT的完全P2P架構
	HyperTable	http://hypertable.org/	搜索引擎公司Zvents針對Bigtable的C++開源實現
	FoundationDB	https://foundationdb.com/	支持ACID事務處理的NoSQL數據庫，提供非常好的性能、數據一致性和操作彈性
	MemSQL	http://www.memsql.com/	前Facebook工程師創辦的，號稱世界上最快的分佈式關係型數據庫，兼容MySQL但快30倍，能實現每秒150萬次事務，原理是僅用內存並將SQL預編譯爲C++。
	HBase	http://hbase.apache.org/	Bigtable在Hadoop中的實現，最初是Powerset公司爲了處理自然語言搜索產生的海量數據而開展的項目
文件存儲	CouchDB	http://couchdb.apache.org/	面向文檔的數據存儲
	MongoDB	https://www.mongodb.org/	文檔數據庫
	Tachyon	http://tachyon-project.org/ https://github.com/amplab/tachyon	加州大學伯克利分校的AMPLab基於Hadoop的核心組件開發出一個更快的版本Tachyon，它從底層重構了Hadoop平臺。
	KFS	http://code.google.com/p/kosmosfs/	GFS的C++開源版本
	HDFS	http://hadoop.apache.org/	GFS在Hadoop中的實現
資源管理	Twitter Mesos	http://mesos.apache.org/	Google Borg的翻版
資源管理	Hadoop Yarn	http://hadoop.apache.org/	類似於Mesos
日誌收集系統	Facebook Scribe	https://github.com/facebook/scribe	Facebook開源的日誌收集系統，能夠從各種日誌源上收集日誌，存儲到一箇中央存儲系統（可以是NFS，分佈式文件系統等）上，以便於進行集中統計分析處理，常與Hadoop結合使用，Scribe用於向HDFS中Push日誌
	Cloudera Flume	http://flume.apache.org/	Cloudera提供的日誌收集系統，支持對日誌的實時性收集
	logstash	http://www.logstash.net/	日誌管理、分析和傳輸工具，可配合kibana、ElasticSearch組建成日誌查詢系統
	kibana	http://www.elasticsearch.org/overview/kibana/	爲日誌提供友好的Web查詢頁面
消息系統	StormMQ	http://stormmq.com/
	ZeroMQ	http://zeromq.org/	很底層的高性能網絡庫
	RabbitMQ	https://www.rabbitmq.com/	在AMQP基礎上完整的，可複用的企業消息系統
	Apache ActiveMQ	http://activemq.apache.org/	能力強勁的開源消息總線
	Jafka	http://kafka.apache.org/	開源的、高性能的、跨語言分佈式消息系統，最早是由Apache孵化的Kafka（由LinkedIn捐助給Apache）克隆而來
	Apache Kafka	http://kafka.apache.org/	Linkedin於2010年12月份開源的分佈式消息系統，它主要用於處理活躍的流式數據，由Scala寫成
分佈式服務	ZooKeeper	http://zookeeper.apache.org/	分佈式鎖服務，PoxOS算法的實現，對應Google的Chubby
	rethinkdb	https://github.com/rethinkdb/rethinkdb
	etcd	https://github.com/coreos/etcd	一個高可用的鍵值存儲系統，主要用於共享配置和服務發現。etcd是由CoreOS開發並維護的，靈感來自於 ZooKeeper 和 Doozer，它使用Go語言編寫，並通過Raft一致性算法處理日誌複製以保證強一致性。
RPC	Apache Avro	http://avro.apache.org/	Hadoop中的RPC
	grpc	http://www.grpc.io/ https://github.com/grpc/grpc	一個高性能、通用的開源RPC框架，其由Google主要面向移動應用開發並基於HTTP/2協議標準而設計，基於ProtoBuf(Protocol Buffers)序列化協議開發，且支持衆多開發語言。
	Facebook Thrift	http://thrift.apache.org/	RPC，支持C++/Java/PHP等衆多語言
集羣管理	Nagios	http://www.nagios.org/	監視系統運行狀態和網絡信息的監視系統
	Ganglia	http://ganglia.sourceforge.net/	UC Berkeley發起的一個開源集羣監視項目，設計用於測量數以千計的節點。
	Apache Ambari	http://ambari.apache.org/	Hadoop成員，管理和監視Apache Hadoop集羣的開源框架
基礎設施	SSTable		源於Google，orted String Table
	RecordIO		源於Google
	Flat Buffers	https://github.com/google/flatbuffers	針對遊戲開發的，高效的跨平臺序列化庫，相比Proto Buffers開銷更小，因爲Flat Buffers沒有解析過程
	Protocol Buffers	http://code.google.com/p/protobuf/	Google公司開發的一種數據描述語言，類似於XML能夠將結構化數據序列化，可用於數據存儲、通信協議等方面。它不依賴於語言和平臺並且可擴展性極強。
	Consistent Hashing		1997年由麻省理工學院提出,目標是爲了解決因特網中的熱點（Hot spot）問題，初衷和CARP十分類似，基本解決了在P2P環境中最爲關鍵的問題——如何在動態的網絡拓撲中分佈存儲和路由。
	Netty	http://netty.io/	JBOSS提供的一個java開源框架，提供異步的、事件驅動的網絡應用程序框架，用以快速開發高性能、高可靠性的網絡服務器和客戶端程序。
	BloomFilter		布隆過濾器，1970年由布隆提出，是一個很長的二進制矢量和一系列隨機映射函數，可以用於檢索一個元素是否在一個集合中，優點是空間效率和查詢時間都遠遠超過一般的算法，缺點是有一定的誤識別率和刪除困難。
搜索引擎	Nutch	https://nutch.apache.org/	開源Java 實現的搜索引擎，誕生Hadoop的地方。
	Lucene	http://lucene.apache.org/	一套信息檢索工具包，但並不包含搜索引擎系統，它包含了索引結構、讀寫索引工具、相關性工具、排序等功能。
	SolrCloud		基於Solr和Zookeeper的分佈式搜索， Solr4.0 的核心組件之一，主要思想是使用 Zookeeper 作爲集羣的配置信息中心
	Solr	https://lucene.apache.org/solr/	Solr是基於Lucene的搜索。
	ElasticSearch	http://www.elasticsearch.org/ http://www.elasticsearch.cn/	開源的（Apache2協議），分佈式的，RESTful的，構建在Apache Lucene之上的的搜索引擎。
	Sphinx	http://sphinxsearch.com	一個基於SQL的全文檢索引擎，可結合MySQL、PostgreSQL做全文檢索，可提供比數據庫本身更專業的搜索功能，單一索引可達1億條記錄，1000萬條記錄情況下的查詢速度爲0.x秒（毫秒級）。
	SenseiDB	http://senseidb.com	Linkin公司開發的一個開源分佈式實時半結構化數據庫，在全文索引的基礎封裝了Browse Query Language (BQL，類似SQL)的查詢語法。
數據挖掘	Mahout	http://mahout.apache.org/	Hadoop成員，目標是建立一個可擴展的機器學習庫
Iaas	OpenStack	https://www.openstack.org/	美國國家航空航天局和Rackspace合作研發的，以Apache許可證授權雲平臺管理的項目，它不是一個軟件。這個項目由幾個主要的組件組合起來完成一些具體的工作，旨在爲公共及私有云的建設與管理提供軟件的開源項目。6個核心項目：Nova（計算，Compute），Swift（對象存儲，Object），Glance（鏡像，Image），Keystone（身份，Identity），Horizon（自助門戶，Dashboard），Quantum & Melange（網絡&地址管理），另外還有若干社區項目，如Rackspace（負載均衡）、Rackspace（關係型數據庫）。
	Docker	http://www.docker.io/	應用容器引擎，讓開發者可打包應用及依賴包到一個可移植的容器中，然後發佈到Linux機器上，也可實現虛擬化。
	Kubernetes	https://github.com/GoogleCloudPlatform/kubernetes/	Google開源的容器集羣管理系統
	Imctfy	https://github.com/google/Imctfy/	Google開源的Linux容器

分類: 大數據

開源大數據利器彙總

Spark2.1新特性

JAVA必備基礎知識點

Java NIO使用及原理分析 (四)

Hadoop中reduce端shuffle過程及源碼解析

Linux mail命令用法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結