原创 Solr/SolrCloud 簡述搜索請求過程

以前我主管經常跟我們說,SolrCloud可以當成一個很非常好的MVC框架來用,天生自帶LoadBalance特徵。所以,我們很多Http服務都被通過SolrCloud對外提供服務。 其實,這裏講不只是搜索請求過程,應該是Solr

原创 Solr/SolrCloud SearchHandler詳解

由於SearchHandler過程比較複雜,基本每次用到都需要重新看一眼才能記憶,而且還比較容易記錯。因此索引把寫博文一來方便自己,二來方便別人。 當然,對Solr來講SearchHandler並不複雜,而且十分簡潔和清晰。不過,

原创 Lucene Search流程之二

文章目錄一、前言二、Query2.1. TermQuerya. Weightb. ScorerI. Score_ModeII. SkipList2.2. BooleanQuerya. Conjunctionb. Disjunction

原创 Lucene Search流程之一

文章目錄一、 搜索印象二、QueryA. 獲取Postings位置信息2. SegmentTermsEnum - 精確查詢3. IntersectTermsEnum - 近似查詢B. 需要用posting哪些信息1. Basic :

原创 Lucene8.0新特徵 DocValues改進

文章目錄一、前言二、IndexedDISI設計1. 分片規則2. 數據分佈特點3. DocID與Value對應關係3.1 ALL/NONE3.2 SPARSE3.3 DENSE三、改進之後1. Jump Table2. Rank Ta

原创 Lucene DocValues索引文件詳解

文章目錄一、 DocValues存儲結構1. Numeric存儲格式1.1. DirectWriter1.2. DirectMonotonicWriter1.3. GCD-Compression2. IndexedDISI存儲格式二、

原创 Lucene倒排索引簡述 細說倒排索引構建

文章目錄一、數據結構1. ByteBlockPool1.1 Buffer結構1.2 Slice鏈表2. BytesRefHash3. PostingsArrays二、構建索引過程 在《Lucene倒排索引簡述 之索引表》和《Lucen

原创 Lucene倒排索引簡述 番外篇

文章目錄一、前言二、索引生產流程1. 字段存儲2. 索引構建及存儲2.1. 正向索引2.2. 倒排索引a. Postingsb. TermVectors4. PointValues5. Norms三、總結 一、前言 Lucene構建索

原创 Lucene倒排索引簡述 之倒排表

文章目錄前言Postings編碼VIntBlockPackedBlockPostings文件結構說明Frequencies And Skip Data(.doc文件)TermFreqs -- FrequenciesMulti-leve

原创 Lucene倒排索引簡述 之索引表

Lucene倒排索引簡述 之索引表 文章目錄Lucene倒排索引簡述 之索引表前言理論Lucene的實現Lucene索引文件印象什麼是Terms IndexBurst-TrieFST什麼是Terms DictionaryBlock信息

原创 Lucene TFIDFSimilarity評分公式詳解

一、預熱 TFIDFSimilarity曾經是Lucene/Solr默認評分公式,但是從lucene-6.0開始已經改成BM25Similary了(詳見Lucene-6789)。但我們今天看的依然是TFIDFSimilarity,因爲它相

原创 Lucene's MergePolicy

Lucene’s MergePolicy Lucene很多特徵,在我看來跟LSM-Tree的數據庫非常相似,甚至很多問題的解決方式都如出一轍。這裏我想跟大家來聊聊Lucene的Segment合併問題,這個問題同樣發生LSM-Tree數據庫

原创 Hive本地調試

一準備 二事情遠沒這麼簡單呢 1 winutilsexe找不到 2 系統找不到指定的文件 3 系統找不到指定的路徑 三這樣就可以了嗎 1 UnsatisfiedLinkError 2 如果還不行 四結尾 雖然已經很

原创 Solr 遲到的Payloads

What is this Payload能幹嘛呢 Show Cases Payloads in Solr a 如何在Solr上啓用Payload Change your schemaxml file Add the payloa

原创 Solr搜索統計 JSON Faceting API

一、背景 我是您不知道的統計和聚合,我很漂亮、也很簡潔,我是結構化,有些迷人的新查詢語法。您可以不知道stats和facet,但你不應該不知道我,我是Solr JSON Facet API,出身於Solr5。 solr 5.3的時候完