簡介

ElasticSearch 是一個分佈式、高擴展、高實時的搜索與數據分析引擎。它能很方便的使大量數據具有搜索、分析和探索的能力。充分利用ElasticSearch的水平伸縮性，能使數據在生產環境變得更有價值。ElasticSearch 的實現原理主要分爲以下幾個步驟，首先用戶將數據提交到Elastic Search 數據庫中，再通過分詞控制器去將對應的語句分詞，將其權重和分詞結果一併存入數據，當用戶搜索數據時候，再根據權重將結果排名，打分，再將返回結果呈現給用戶。

Elasticsearch是與名爲Logstash的數據收集和日誌解析引擎以及名爲Kibana的分析和可視化平臺一起開發的。這三個產品被設計成一個集成解決方案，稱爲“Elastic Stack”（以前稱爲“ELK stack”）。

Elasticsearch可以用於搜索各種文檔。它提供可擴展的搜索，具有接近實時的搜索，並支持多租戶。”Elasticsearch是分佈式的，這意味着索引可以被分成分片，每個分片可以有0個或多個副本。每個節點託管一個或多個分片，並充當協調器將操作委託給正確的分片。再平衡和路由是自動完成的。“相關數據通常存儲在同一個索引中，該索引由一個或多個主分片和零個或多個複製分片組成。一旦創建了索引，就不能更改主分片的數量。

Elasticsearch使用Lucene，並試圖通過JSON和Java API提供其所有特性。它支持facetting和percolating，如果新文檔與註冊查詢匹配，這對於通知非常有用。另一個特性稱爲“網關”，處理索引的長期持久性；例如，在服務器崩潰的情況下，可以從網關恢復索引。Elasticsearch支持實時GET請求，適合作爲NoSQL數據存儲，但缺少分佈式事務。 [1]

cluster：代表一個集羣，集羣中有多個節點，其中有一個爲主節點，這個主節點是可以通過選舉產生的，主從節點是對於集羣內部來說的。es的一個概念就是去中心化，字面上理解就是無中心節點，這是對於集羣外部來說的，因爲從外部來看es集羣，在邏輯上是個整體，你與任何一個節點的通信和與整個es集羣通信是等價的。

有關概念

shards：代表索引分片，es可以把一個完整的索引分成多個分片，這樣的好處是可以把一個大的索引拆分成多個，分佈到不同的節點上。構成分佈式搜索。分片的數量只能在索引創建前指定，並且索引創建後不能更改。

replicas：代表索引副本，es可以設置多個索引的副本，副本的作用一是提高系統的容錯性，當某個節點某個分片損壞或丟失時可以從副本中恢復。二是提高es的查詢效率，es會自動對搜索請求進行負載均衡。

recovery：代表數據恢復或叫數據重新分佈，es在有節點加入或退出時會根據機器的負載對索引分片進行重新分配，掛掉的節點重新啓動時也會進行數據恢復。

river：代表es的一個數據源，也是其它存儲方式（如：數據庫）同步數據到es的一個方法。它是以插件方式存在的一個es服務，通過讀取river中的數據並把它索引到es中，官方的river有couchDB的，RabbitMQ的，Twitter的，Wikipedia的。

gateway：代表es索引快照的存儲方式，es默認是先把索引存放到內存中，當內存滿了時再持久化到本地硬盤。gateway對索引快照進行存儲，當這個es集羣關閉再重新啓動時就會從gateway中讀取索引備份數據。es支持多種類型的
gateway，有本地文件系統（默認），分佈式文件系統，Hadoop的HDFS和amazon的s3雲存儲服務。

discovery.zen：代表es的自動發現節點機制，es是一個基於p2p的系統，它先通過廣播尋找存在的節點，再通過多播協議來進行節點之間的通信，同時也支持點對點的交互。

Transport：代表es內部節點或集羣與客戶端的交互方式，默認內部是使用tcp協議進行交互，同時它支持http協議（json格式）、thrift、servlet、memcached、zeroMQ等的傳輸協議（通過插件方式集成）。

關鍵詞出現在那些文章裏面，在文章的位置，次數
TF-IDF -----------------ELasticsearch的打分技術。