原创 【Lucene3.0】 Analyzer

一個優秀的IR system要做好的第一件事就是利用自然語言處理技術(NLP)對文本進行分析。其中分詞是最基本的,其性能直接決定IR system的搜索精度和速度。因此,大型Web搜索引擎都有自己的分詞工具。   Lucene3.

原创 solr查詢過程

原文:http://www.cnblogs.com/mandela/archive/2011/05/10/2041754.html   Search步驟 a.SolrParams參數準備 q – 查詢語句 sort – 排序字段&排序

原创 B樹

         即二叉搜索樹:        1.所有非葉子結點至多擁有兩個兒子(Left和Right);        2.所有結點存儲一個關鍵字;        3.非葉子結點的左指針指向小於其關鍵字的子樹,右指針指向大於其關鍵字的子

原创 轉載--solr的searching過程(1)

1.攔截請求,解析請求並構建相應的handler。 發送檢索請求,例如:http://localhost:8983/solr3.5/core2/select/?q=*%3A*&version=2.2&start=0&rows=10&i

原创 我的友情鏈接

51CTO博客開發

原创 轉載-Nutch和Solr的集成方案

本方案中,Solr作爲處理搜索結果的源和入口,有效的減輕對Nutch的搜索負擔,讓Nutch負責她最擅長的工作:抓取(crawling)和提取(extracting)內容。使用Solr作爲搜索後端,換句話說,就是允許使用所有Solr Ser

原创 類似於solr分佈式同步索引的方案備忘

  特點: 1.關於腳本的執行策略: 1.1生成索引的主機運行generateIndex,是每個小時的第14分鐘執行,可理解爲每隔一個小時執行,執行時腳本會判斷是否已經有腳本或索引類在運行。如果爲真等到下一個小時再去嘗試。 ge

原创 B樹

         即二叉搜索樹:        1.所有非葉子結點至多擁有兩個兒子(Left和Right);        2.所有結點存儲一個關鍵字;        3.非葉子結點的左指針指向小於其關鍵字的子樹,右指針指向大於其關鍵字的子

原创 lucene FieldCache 實現分組統計

 轉自: http://www.czh123.com/blogitem440.html   所謂分組統計,就是類似sql裏group by的功能。在solr裏,這個功能稱爲faceting。lucene本身不支持分組統計,不過可以使用fi

原创 我的友情鏈接

51CTO博客開發

原创 apache日誌分析

        轉自:http://www.blogjava.net/dongbule/archive/2010/12/10/340288.html      上次因工作的需求對一臺apache的log做了一次整體的分析,所以順便也對ap

原创 關於jdbc批量更新失敗的一個問題

     最近在用jdbc對oracle進行批量插入,批量更新操作,偶然發現一個問題,即當我在批量插入112萬多條數據時,結果查詢插入數量時,總顯示只有6千多條,後來查了一下,偶然發現居然說是PrepareedStatement的一個bug

原创 lucene fieldcache

Lucene學習總結之九:Lucene的查詢對象 轉自:http://www.cnblogs.com/forfuture1978/archive/2010/05/19/1738803.html Lucene除了支持查詢語法以外,還可以自

原创 lucene solr小知識點

    終於認真一次了,寫一下最近學習solr和lucene遇到的一些小知識點:     首先說一下lucene,solr的奠基石,都說solr是對lucene的封裝,在這我們也就這麼想吧,但是並不是簡單的封裝,說深了,我也不理解,也是個小

原创 本人遇到的一些好的網址,逐步收集

1.常用API文檔索引http://www.osctools.net/apidocs2.Eclipse中的debug技術http://www.verycd.com/groups/@g1897244/445526.topic3.在這裏你可以找