最近在写个人博客项目.有个需求.就是要求在前端页面上有一个搜索框,用户可以根据这个搜索框对所有博客进行全文检索,包括标题和正文,然后根据搜索匹配度进行排序展示出来,并且要有高亮显示,类似如下效果:
全文检索的这个功能可以采用lucene这个框架实现.
具体lucene到底是什么东西,官方定义是什么,大家可以去百度,或者其他大佬们的博客,写的很明确.我这里只说到底该怎么做,具体的概念能省则省.
lucene的具体原理到底是什么呢? 其实就是根据 索引 去查找.
举个例子:我们查字典,都先要在字典前面的各类索引目录去查,然后在索引中找到具体想要的后,然后再去正文中去找.这样一来要大大节省时间.
如果你感觉不出,找个对比就知道了,我们写sql中的模糊搜索的like语句.这条语句在搜索过程中,其实是一条一条查的,就是每条记录都要去查看,数据量小的话还好,数据量一大,就费劲了.
而lucene呢,他是先建立索引文件,然后根据 搜索词 去索引文件查找,然后直接定位到搜索结果.虽然建立索引文件是费时间的,但是索引文件是具有可复用性的,以后的搜索是大大节约时间的.
废话不多说,直接看代码;
导包.
生成索引文件
/**
* 初始化生成所有已存在的博客索引文件
* @param blogList 所有博客实例的集合
* @param request
* @throws Exception
*/
public void createIndexInit(List<Blog> blogList,HttpServletRequest request) throws Exception {
//获取 索引写入器
IndexWriter writer=getWriter(request);
for (Blog b : blogList) {
//根据实体,生成索引文件
addOrUpdateDoc(writer, b,1);
}
writer.close();
}
/**
* 获取IndexWriter实例
* @return
* @throws Exception
*/
private IndexWriter getWriter(HttpServletRequest request) throws Exception{
// 设置索引文件存放的目录,我这里是获取了项目在服务器中的根目录
dir=FSDirectory.open(Paths.get(WebFileUtil.getSystemRootPath(request)+indexFile));
// 中文分词器
IKAnalyzer analyzer = new IKAnalyzer();
IndexWriterConfig iwc=new IndexWriterConfig(analyzer);
// 根据分词器和路径得到 索引写入器 的实例
IndexWriter writer=new IndexWriter(dir, iwc);
return writer;
}
/**
* 生成或修改索引文件
* @param writer
* @param b
* @throws IOException
*/
public void addOrUpdateDoc(IndexWriter writer,Blog b,int temp) throws IOException {
// new一个Document 并写入各个字段
Document doc = new Document();
doc.add(new StringField("id",String.valueOf(b.getId()),Field.Store.YES));
doc.add(new TextField("title",b.getTitle(),Field.Store.YES));
doc.add(new StringField("releaseDate",DateUtil.formatDate(b.getReleaseDate(), "yyyy-MM-dd"),Field.Store.YES));
doc.add(new TextField("content",String.valueOf(b.getContentNoTag()),Field.Store.YES));
if(temp == 1) {
// 根据doc生成索引文件
writer.addDocument(doc);
}else if(temp == 0) {
// 根据id修改索引文件
writer.updateDocument(new Term("id", String.valueOf(b.getId())), doc);
}
}
这样一来,就可以生成索引文件了.
在我自己的项目中,我是每次进入首页时 开始生成索引文件,其实这样是不对的.由于我目前的数量比较小,所以可以这样做.一旦数据量巨大的话,每次进入首页的速度就会变慢,这样不好.像我这样生成所有实体的索引文件,应该是定期更新生成.平时呢,应该是当对博客进行 增 删 改 等操作时也应对其索引文件进行 增 删 改. 增加和删除都在上面,删除操作如下:
public void deleteIndex(Blog blog,HttpServletRequest request)throws Exception{
IndexWriter writer=getWriter(request);
writer.deleteDocuments(new Term("id",blog.getId()+""));
writer.forceMergeDeletes(); // 强制删除
writer.commit();
writer.close();
}
当索引文件都弄好后,我们就可以对其进行搜索了.
/**
* 根据关键词进行全文检索
* @param queryWord
* @param request
* @return
* @throws Exception
*/
public List<Blog> searchBlog(String queryWord,HttpServletRequest request) throws Exception{
//1.找到索引文件存放的位置
dir=FSDirectory.open(Paths.get(WebFileUtil.getSystemRootPath(request)+indexFile));
//2.创建reader 来读取索引文件
IndexReader reader = DirectoryReader.open(dir);
//3.创建searcher搜索器
IndexSearcher searcher = new IndexSearcher(reader);
//多条件搜索要用到的
BooleanQuery.Builder booleanQuery = new BooleanQuery.Builder();
//4.创建parser解析器 参数为 目标字段 和 分词器
QueryParser parser = new QueryParser("title",analyzer);//条件一
QueryParser parser2 = new QueryParser("content",analyzer);//条件二
//5.用 搜索关键词 利用parser解析器出结果
Query query = parser.parse(queryWord);//条件一
Query query2 = parser2.parse(queryWord);//条件二
booleanQuery.add(query,BooleanClause.Occur.SHOULD);
booleanQuery.add(query2,BooleanClause.Occur.SHOULD);
//设置高亮显示配置器
QueryScorer scorer=new QueryScorer(query);
Fragmenter fragmenter = new SimpleSpanFragmenter(scorer);
SimpleHTMLFormatter simpleHTMLFormatter=new SimpleHTMLFormatter("<b><font color='red'>","</font></b>");
Highlighter highlighter=new Highlighter(simpleHTMLFormatter, scorer);
highlighter.setTextFragmenter(fragmenter);
//获取到符合条件的记录,并且截取前100条记录,生成的是一个数组
TopDocs tds = searcher.search(booleanQuery.build(),100);
ScoreDoc[] scoreDocs = tds.scoreDocs;
//新建一个实体类的集合
List<Blog> blogList=new LinkedList<Blog>();
//遍历doc数组,将符合条件的记录一一放进集合中去
for(ScoreDoc scoreDoc : scoreDocs) {
Document doc = searcher.doc(scoreDoc.doc);
Blog blog=new Blog();
blog.setId(Integer.parseInt(doc.get("id")));
blog.setReleaseDateStr(doc.get(("releaseDate")));
String title=doc.get("title");
String content=doc.get("content");
//对目标词汇进行高亮显示
TokenStream tokenStream = analyzer.tokenStream("title", new StringReader(title));
String hTitle=highlighter.getBestFragment(tokenStream, title);
if(StringUtils.isEmpty(hTitle)){
blog.setTitle(title);
}else{
blog.setTitle(hTitle);
}
tokenStream = analyzer.tokenStream("content", new StringReader(content));
String hContent=highlighter.getBestFragment(tokenStream, content);
if(StringUtils.isEmpty(hContent)){
if(content.length()<=200){
blog.setContent(content);
}else{
blog.setContent(content.substring(0, 200));
}
}else{
blog.setContent(hContent);
}
blogList.add(blog);
}
return blogList;
}
搜索的这个方法,肯定是在controller中调用,在controller中获取到前台传过来的搜索词,然后调用搜索方法并传入搜索词,返回一个实体集合,剩下的就是业务逻辑了.基本思路就是这样. 搜索方法中每一步是做什么的,可以看注释