08、es 進一步瞭解___e_性能優化_


磁盤在現代服務器上通常都是瓶頸。Elasticsearch 重度使用磁盤,你的磁盤能處理的吞吐量越大,你的節點就越穩定。

這裏有一些優化磁盤 I/O 的技巧:

  • 使用 SSD。就像其他地方提過的, 他們比機械磁盤優秀多了。

  • 使用 RAID 0。條帶化 RAID 會提高磁盤 I/O,代價顯然就是當一塊硬盤故障時整個就故障了。不要使用鏡像或者奇偶校驗 RAID 因爲副本已經提供了這個功能。

  • 另外,使用多塊硬盤,並允許 Elasticsearch 通過多個 path.data 目錄配置把數據條帶化分配到它們上面。

  • 不要使用遠程掛載的存儲,比如 NFS 或者 SMB/CIFS。這個引入的延遲對性能來說完全是背道而馳的。

如果你用的是 EC2,當心 EBS。即便是基於 SSD 的 EBS,通常也比本地實例的存儲要慢。



Elasticsearch 爲了能快速找到某個 Term,先將所有的 Term 排個序,然後根據二分法查找 Term,時間複雜度爲 logN,就像通過字典查找一樣,這就是 Term Dictionary。

現在再看起來,似乎和傳統數據庫通過 B-Tree 的方式類似。但是如果 Term 太多,Term Dictionary 也會很大,放內存不現實,於是有了 Term Index。

就像字典裏的索引頁一樣,A 開頭的有哪些 Term,分別在哪頁,可以理解 Term Index是一棵樹。

這棵樹不會包含所有的 Term,它包含的是 Term 的一些前綴。通過 Term Index 可以快速地定位到 Term Dictionary 的某個 Offset,然後從這個位置再往後順序查找。

在內存中用 FST 方式壓縮 Term Index,FST 以字節的方式存儲所有的 Term,這種壓縮方式可以有效的縮減存儲空間,使得 Term Index 足以放進內存,但這種方式也會導致查找時需要更多的 CPU 資源。




  • 給每個文檔指定有序的具有壓縮良好的序列模式 ID,避免隨機的 UUID-4 這樣的 ID,這樣的 ID 壓縮比很低,會明顯拖慢 Lucene
  • 對於那些不需要聚合和排序的索引字段禁用 Doc values。Doc Values 是有序的基於 document=>field value 的映射列表。
  • 不需要做模糊檢索的字段使用 Keyword 類型代替 Text 類型,這樣可以避免在建立索引前對這些文本進行分詞。
  • 如果你的搜索結果不需要近實時的準確度,考慮把每個索引的 index.refresh_interval 改到 30s 。
  • 如果你是在做大批量導入,導入期間你可以通過設置這個值爲 -1 關掉刷新,還可以通過設置 index.number_of_replicas: 0 關閉副本。別忘記在完工的時候重新開啓它。
  • 避免深度分頁查詢建議使用 Scroll 進行分頁查詢。普通分頁查詢時,會創建一個 from+size 的空優先隊列,每個分片會返from+size 條數據,默認只包含文檔 ID 和得分 Score 給協調節點。如果有 N 個分片,則協調節點再對(from+size)×n 條數據進行二次排序,然後選擇需要被取回的文檔。當 from 很大時,排序過程會變得很沉重,佔用 CPU 資源嚴重
  • 減少映射字段,只提供需要檢索,聚合或排序的字段。其他字段可存在其他存儲設備上,例如 Hbase,在 ES 中得到結果後再去 Hbase 查詢這些字段
  • 創建索引和查詢時指定路由 Routing 值,這樣可以精確到具體的分片查詢,提升查詢效率。路由的選擇需要注意數據的分佈均衡

4)_JVM 調優

JVM 調優建議如下:

  • 確保堆內存最小值( Xms )與最大值( Xmx )的大小是相同的,防止程序在運行時改變堆內存大小。
  • Elasticsearch 默認安裝後設置的堆內存是 1GB。可通過 …/config/jvm.option 文件進行配置,但是最好不要超過物理內存的50%和超過 32GB。
  • GC 默認採用 CMS 的方式,併發但是有 STW 的問題,可以考慮使用 G1 收集器。
  • ES 非常依賴文件系統緩存(Filesystem Cache),快速搜索。一般來說,應該至少確保物理上有一半的可用內存分配到文件系統緩存。
