原创 Lucence索引的存儲

Lucence存儲索引的文件目錄,包含若干文件,其存儲的內容說明如下: *.frm:保存域的信息 *.fdx,*.fdt:保存域的值,保存存儲選項爲YES的數據 *.frq:出現次數,用來做評分和排序的 *.nrm:存儲評分信息 *.p

原创 solrCloud配置目錄結構

solrCloud配置目錄結構 1.目錄結構 solr服務器目錄結構: ---solr_home_dir ------solr.xml --------- core_name --------- --- conf/ --------- -

原创 solr安裝(solr與tomcat整合)

solr安裝(solr與tomcat整合) 1.前提 1.1安裝JDK7,並配置環境變量JAVA_HOME java  -version javac  -version 1.2安裝tomcat7 1.2.1下載 http://to

原创 Lucence的Field屬性整理

Field屬性 1.存儲選項 Field.Store.YES 表示會把這個域中的內容完全存儲到索引文件中,方便進行域內容的還原 Field.Store.NO 表示這個域的內容不會存儲到索引文件中,但是可以被索引,此時該域的內容無法完全還原

原创 添加中文分詞(mmseg4j)

添加中文分詞(mmseg4j) 1.下載mmseg4j http://code.google.com/p/mmseg4j/ 2.下載sogou的中文詞庫 http://www.sogou.com/labs/dl/w.html 3.將中

原创 solrCloud分佈式集羣安裝配置

solrCloud分佈式集羣安裝配置 1.前提 安裝Zookeeper集羣 2.安裝部署多個solr節點 10.41.2.82 10.41.2.83 10.41.2.84 10.41.2.86 mkdir  -p   /usr/loc

原创 Lucence(Index,Searcher,Analyzer)技術原理整理

       直接上圖吧

原创 elastic單節點安裝部署

elastic單機安裝部署: 1.安裝Java7 注意設置環境變量JAVA_HOME 2.下載 http://www.elasticsearch.org/overview/elkdownloads/ 3.解壓安裝 解壓elast

原创 solr客戶端程序開發

使用solrj開發solr的java客戶端程序 注意:每個document中必須有一個id的field,id爲string類型的。id一樣時,後面加入的document會覆蓋前面的document。id是document的唯一主鍵,當多

原创 近實時搜索

近實時搜索     也可以稱爲內存搜索     創建的索引還沒有提交,存放在內存中,也能被搜索到。     實際項目中,創建的索引不會立馬提交的,因爲commit操作需要flush到文件,磁盤IO很耗性能,所以一般會隔一段時間提交一次索引

原创 Spark的核心概念

spark的一些核心概念 Application    構建在spark上的應用程序,由driver program 和集羣上的executor組成。是SparkContext的實例。每一個Application都運行在一組獨立的Exec

原创 Elastic架構圖

    

原创 Lucence自定義過濾器查詢

package org.adv.lucene.util; import java.io.IOException; import java.text.SimpleDateFormat; import org

原创 spark應用程序開發

應用程序開發 1.將spark的jar加入到項目的lib中,並加入到項目的classpath中 依賴spark-core <dependency> <groupId>org.apache.spark</groupId>

原创 Lucence創建索引實例

package org.test.index; import java.io.File; import java.io.IOException; import java.text.ParseExcepti