Spring MVCD框架中调用HanLP分词的方法

原創

2019-07-10 11:16

项目简要：关于java web的一个项目，用的Spring MVCd 框架。鉴于参与此次项目的人中并不是所人都做的Spring，为了能够提高效率，建议大家是先抛开SPring来写自己负责的模块，最后再把各个模块在Spring里面集成。
项目里有一个文本分析的模块是一个同学用hanlp写的，由于在最后集成的时候直接使用maven添加的依赖，但最终测试时无法通过。后经分析发现她坐了实体识别，是自己改了hanlp的词典，手动加了很多词，而且在后期版本的迭代中还有可能继续改了hanlp的词典，这就意味着不能用maven直接导入仓库里的包了，只有将修改后的data文件放到本地，然后指定路径给hanlp。
网上有一些解决的方法，但都是在项目部署的时候，把hanlp的词典数据放到服务器上一个固定位置上，然后再配置hanlp的配置文件，指定一个固定位置。这种方法虽然比较直接，但是并不能够把hanlp的词典数据与整个项目打包到一起，后期的管理也比较麻烦。倘若把数据直接作为项目的资源文件，部署到Tomcat上后无论怎么在配置里写路径都会提示找不到词典文件。
在分析了HanLP的issue之后，发现这个项目支持自定义读写文件的IO类。在一个将词典数据放到HDFS上的一个blog启发下，尝试通过重写一个IOAdapter类，使用读写静态资源文件的方法读取词典数据了，这样不就可以把data跟项目打包到一起了。
代码如下：
1| package com.car.util.nlp;
2|
3| import com.hankcs.hanlp.corpus.io.IIOAdapter;
4| import org.springframework.core.io.ClassPathResource;
5| import java.io.*;
6|
7| public class ResourcesFileIoAdapter implements IIOAdapter{
8| @Override
9| public InputStream open(String path) throws IOException {
10| ClassPathResource resource = new ClassPathResource(path);
11| InputStream is = new FileInputStream(resource.getFile());
12| return is;
13| }
14| @Override
15| public OutputStream create(String path) throws IOException{
16| ClassPathResource resource = new ClassPathResource(path);
17| OutputStream os = new
18| FileOutputStream(resource.getFile());
19| return os;
20| }
21| }

整好了之后把data文件夹和hanlp.properties放到项目的资源文件夹里，在配置文件里修改一下路径和IOAdapte：
1| root=
2|
3| IOAdapte=com.car.util.nlp.ResourcesFileIoAdapter

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spring MVCD框架中调用HanLP分词的方法

《Python进阶》学习笔记

Leetcode 3161. 物块放置查询

leetcode 60 排列序列

一个docker容器暴露多个端口

微服务实践之使用 Visual Studio 2022 调试Dapr 应用程序

wpf附加属性理解 WPF附加属性

Spring MVCD框架中調用HanLP分詞的方法

部分常用分詞工具使用整理

HanLP-實詞分詞器詳解

三天拿到阿里、頭條跟美團的offer，我做了這些準備

華爲系統早已開始研發，爲何現在才準備推出？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結