lucene的實戰入門

最近在寫個人博客項目.有個需求.就是要求在前端頁面上有一個搜索框,用戶可以根據這個搜索框對所有博客進行全文檢索,包括標題和正文,然後根據搜索匹配度進行排序展示出來,並且要有高亮顯示,類似如下效果:

全文檢索的這個功能可以採用lucene這個框架實現.

具體lucene到底是什麼東西,官方定義是什麼,大家可以去百度,或者其他大佬們的博客,寫的很明確.我這裏只說到底該怎麼做,具體的概念能省則省.

lucene的具體原理到底是什麼呢? 其實就是根據索引去查找.

舉個例子:我們查字典,都先要在字典前面的各類索引目錄去查,然後在索引中找到具體想要的後,然後再去正文中去找.這樣一來要大大節省時間.

如果你感覺不出,找個對比就知道了,我們寫sql中的模糊搜索的like語句.這條語句在搜索過程中,其實是一條一條查的,就是每條記錄都要去查看,數據量小的話還好,數據量一大,就費勁了.

而lucene呢,他是先建立索引文件,然後根據搜索詞去索引文件查找,然後直接定位到搜索結果.雖然建立索引文件是費時間的,但是索引文件是具有可複用性的,以後的搜索是大大節約時間的.

廢話不多說,直接看代碼;

導包.

生成索引文件

	/**
	 * 初始化生成所有已存在的博客索引文件
	 * @param blogList 所有博客實例的集合
	 * @param request
	 * @throws Exception
	 */
	public void createIndexInit(List<Blog> blogList,HttpServletRequest request) throws Exception {
		//獲取 索引寫入器
		IndexWriter writer=getWriter(request);
		for (Blog b : blogList) {
            //根據實體,生成索引文件
			addOrUpdateDoc(writer, b,1);
		}
		writer.close();
	}

	/**
	 * 獲取IndexWriter實例
	 * @return
	 * @throws Exception
	 */
	private IndexWriter getWriter(HttpServletRequest request) throws Exception{
		// 設置索引文件存放的目錄,我這裏是獲取了項目在服務器中的根目錄
		dir=FSDirectory.open(Paths.get(WebFileUtil.getSystemRootPath(request)+indexFile));
		// 中文分詞器
        IKAnalyzer analyzer = new IKAnalyzer();
		IndexWriterConfig iwc=new IndexWriterConfig(analyzer);
        // 根據分詞器和路徑得到 索引寫入器 的實例
		IndexWriter writer=new IndexWriter(dir, iwc);
		return writer;
	}

/**
	 * 生成或修改索引文件
	 * @param writer
	 * @param b
	 * @throws IOException
	 */
	public void addOrUpdateDoc(IndexWriter writer,Blog b,int temp) throws IOException {
        // new一個Document 並寫入各個字段
		Document doc = new Document();
		doc.add(new StringField("id",String.valueOf(b.getId()),Field.Store.YES));
		doc.add(new TextField("title",b.getTitle(),Field.Store.YES));
		doc.add(new StringField("releaseDate",DateUtil.formatDate(b.getReleaseDate(), "yyyy-MM-dd"),Field.Store.YES));
		doc.add(new TextField("content",String.valueOf(b.getContentNoTag()),Field.Store.YES));
		if(temp == 1) {
            // 根據doc生成索引文件
			writer.addDocument(doc);
		}else if(temp == 0) {
            // 根據id修改索引文件
			writer.updateDocument(new Term("id", String.valueOf(b.getId())), doc);
		}
	}

這樣一來,就可以生成索引文件了.

在我自己的項目中,我是每次進入首頁時開始生成索引文件,其實這樣是不對的.由於我目前的數量比較小,所以可以這樣做.一旦數據量巨大的話,每次進入首頁的速度就會變慢,這樣不好.像我這樣生成所有實體的索引文件,應該是定期更新生成.平時呢,應該是當對博客進行增刪改等操作時也應對其索引文件進行增刪改. 增加和刪除都在上面,刪除操作如下:

public void deleteIndex(Blog blog,HttpServletRequest request)throws Exception{
		IndexWriter writer=getWriter(request);
		writer.deleteDocuments(new Term("id",blog.getId()+""));
		writer.forceMergeDeletes(); // 強制刪除
		writer.commit();
		writer.close();
	}

當索引文件都弄好後,我們就可以對其進行搜索了.

/**
	 * 根據關鍵詞進行全文檢索
	 * @param queryWord
	 * @param request
	 * @return
	 * @throws Exception
	 */
	public List<Blog> searchBlog(String queryWord,HttpServletRequest request) throws Exception{
		//1.找到索引文件存放的位置
		dir=FSDirectory.open(Paths.get(WebFileUtil.getSystemRootPath(request)+indexFile));
		//2.創建reader 來讀取索引文件
		IndexReader reader = DirectoryReader.open(dir);
		//3.創建searcher搜索器
		IndexSearcher searcher = new IndexSearcher(reader);
		//多條件搜索要用到的
		BooleanQuery.Builder booleanQuery = new BooleanQuery.Builder();
		
		//4.創建parser解析器 參數爲 目標字段 和 分詞器
		QueryParser parser = new QueryParser("title",analyzer);//條件一
		QueryParser parser2 = new QueryParser("content",analyzer);//條件二
		//5.用 搜索關鍵詞 利用parser解析器出結果
		Query query = parser.parse(queryWord);//條件一
		Query query2 = parser2.parse(queryWord);//條件二
		booleanQuery.add(query,BooleanClause.Occur.SHOULD);
		booleanQuery.add(query2,BooleanClause.Occur.SHOULD);
		
		//設置高亮顯示配置器
		QueryScorer scorer=new QueryScorer(query);
		Fragmenter fragmenter = new SimpleSpanFragmenter(scorer); 
		SimpleHTMLFormatter simpleHTMLFormatter=new SimpleHTMLFormatter("<b><font color='red'>","</font></b>");
		Highlighter highlighter=new Highlighter(simpleHTMLFormatter, scorer);
		highlighter.setTextFragmenter(fragmenter); 
		
		//獲取到符合條件的記錄,並且截取前100條記錄,生成的是一個數組
		TopDocs tds = searcher.search(booleanQuery.build(),100);
		ScoreDoc[] scoreDocs = tds.scoreDocs;
		//新建一個實體類的集合
		List<Blog> blogList=new LinkedList<Blog>();
		//遍歷doc數組,將符合條件的記錄一一放進集合中去
		for(ScoreDoc scoreDoc : scoreDocs) {
			Document doc = searcher.doc(scoreDoc.doc);
			Blog blog=new Blog();
			blog.setId(Integer.parseInt(doc.get("id")));
			blog.setReleaseDateStr(doc.get(("releaseDate")));
			String title=doc.get("title");
			String content=doc.get("content");
			
			//對目標詞彙進行高亮顯示
			TokenStream tokenStream = analyzer.tokenStream("title", new StringReader(title));
			String hTitle=highlighter.getBestFragment(tokenStream, title);
			
			if(StringUtils.isEmpty(hTitle)){
				blog.setTitle(title);
			}else{
				blog.setTitle(hTitle);					
			}
			
			tokenStream = analyzer.tokenStream("content", new StringReader(content)); 
			String hContent=highlighter.getBestFragment(tokenStream, content);
			if(StringUtils.isEmpty(hContent)){
				if(content.length()<=200){
					blog.setContent(content);
				}else{
					blog.setContent(content.substring(0, 200));						
				}
			}else{
				blog.setContent(hContent);					
			}
			blogList.add(blog);
		}
		return blogList;
	}

搜索的這個方法,肯定是在controller中調用,在controller中獲取到前臺傳過來的搜索詞,然後調用搜索方法並傳入搜索詞,返回一個實體集合,剩下的就是業務邏輯了.基本思路就是這樣. 搜索方法中每一步是做什麼的,可以看註釋

lucene的實戰入門

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

全面系統的AI學習路徑，幫助普通人也能玩轉AI

HTML 00 Tutorial

uni-app實現上拉加載

vue3編譯優化之“靜態提升”

又是一個月-20240513

flask 如何保證返回json有序

linux服務器設置ssh免密

Spring-SpringMVC-Mybatis框架下的省市區三級聯動第二版

體驗Lambda的延遲執行的學習筆記

Maven項目打包過程中配置文件,如.xml, .properties等文件打不進去,可以採用如下解決方案

C#中的JDBC

C#中的ajax使用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結