用WVTool实现中文TFIDF

原創

2018-09-12 03:58

这几天在做TFIDF的Java实现，昨天实现了英文的TFIDF,但是中文的老是出问题，分词后只能显示部分词（只能计算3个汉字组成的词）的TFIDF值，让人很郁闷....

经过仔细分析，终于发现了问题的所在，是由于edu.udo.cs.wvtool.generic.wordfilter.AbstractStopWordFilter这个抽象类惹的祸，在这个抽象类中有如下代码：

private int minNumChars; //一次读取的最低字数

private final static int DEFAULT_MIN_CHARS = 3; //minNumChars默认值

所以导致中文TFIDF值只能计算3个字组成的词，修改办法有两种：

1.将 DEFAULT_MIN_CHARS 默认值改为1；

2.在AbstractStopWordFilter的子类中添加构造方法，使它能够给minNumChars赋值。以DummyWordFilter为例，添加后如下：

public class DummyWordFilter extends AbstractStopWordFilter {
public DummyWordFilter(){

}
public DummyWordFilter(int i){
  super(i);
}
    protected boolean isStopword(String t) {
        return false;
    }

}

这样就可以实现中文的TFIDF值计算了...

详细代码见附件...

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【MySQL】查询以A字符开头以B字符结尾的数据

查詢以36823206字符開頭以951字符結尾的SPU數據 select * from lingyejun_product where spu_code regexp '^36823206' and spu_code regexp '95

2024-06-10 13:52:19

Web Page Marker Pen All In One

Web Page Marker Pen All In One Web 網頁標記筆 Free Screenshot Capture & Annotation Tool Useful extension for taking screen

2024-06-10 13:51:29

2024 上海市居民小区的电动自行车使用共享充电服务的充电收费标准和依据 All In One

2024 上海市居民小區的電動自行車使用共享充電服務的充電收費標準和依據 All In One 電動自行車充電服務收費標準合法性、合理性按照實際的充電度數和電費價格收取電費，服務費應該單獨收取每次充電收取的服務費的佔比不能高

2024-06-10 13:51:29

EDA与RR架构设计风格的区别

EDA與RR架構的區別，事件驅動架構、請求返回架構的區別，架構師聊技術強烈推薦，詳細的可以查看這位老外分享的視頻

2024-06-10 13:46:19

KPTI——可以缓解“熔断” (Meltdown) 漏洞的内核新特性

Linux 內核修復辦法:內核頁表隔離KPTl(kernel page table isolation) 每個進程一張頁表變成兩張:運行在內核態和運行在用戶態時分別使用各自分離的頁表 Kernel頁表包含了進程用戶空間地址的映射和K

2024-06-10 13:43:49

ARM64中的ASID地址空间标识符

1. 從ARM32到ARM64 從ARM32到ARM64不止將處理器從32位升級到了64位，還有許多性能的技術也得到了極大的提升，光是個頭長了可不行啊！能耐也得跟着長啊！哈哈哈 1.1 ARM32的TLB機制如上圖所示，上一講我們講了T

2024-06-10 13:43:49

wpf LiveCharts 使用

LiveCharts 用於顯示圖表和儀表盤安裝 LinveCharts install-package LiveCharts.Wpf 使用示例 Code <CartesiantChart> <!--圖標控件-

2024-06-10 13:39:58

模访京东商城jQuery省市区三级联动选择(横向DIV)

效果如下圖在開優網絡提供的代碼包的基礎上修改，採用了2024年民政部發部的行政區劃代碼數據，區域更全面，且壓縮了長度，爲原代碼的一半大小，整所數包只有100KB了，並修改了配色，比常用的三級SELECT控件聯動要好看的多．代碼下載地址

2024-06-10 13:31:58

Nginx图片下载不完整的处理过程

Nginx圖片下載不完整的處理過程背景昨天同事進行了nginx的遷移然後晚上發現圖片展示不全. 自己其實之前遇到過類似的問題但是因爲熬夜比較久,腦子已經不轉了. 所以花了接近半小時才理清楚. 感覺一些事情不記錄一下, 無法加深印

濟南小老虎

2024-06-10 13:31:27

[转帖]Linux Kernel 6.6 确认成为 LTS 版本

https://www.kernel.org/category/releases.html Greg Kroah-Hartman 已經宣佈 Linux Kernel 6.6 版本爲長期支持 (LTS) 版本；支持期限

濟南小老虎

2024-06-10 13:31:07

[转帖]企业如何做好SQL质量的管理？

點擊標題下「藍色微信名」可快速關注 SQL 操作數據庫對應軟件研發人員是一類基礎且常見的工作內容，無論是日常的數據庫應用開發，還是配合數據庫產品遷移的應用改造，數據庫設計和SQL的質量都是值得關注的問題。目前業界有很多提供SQL質

濟南小老虎

2024-06-10 13:31:07

信创服务器迁移注意事项

信創服務器遷移注意事項背景隨着國家隊信創要求的越來越高很多應用都需要遷移到信創服務器上面了. 遷移過程中最好是能夠進行一些基礎設置可以儘可能的避免遷移後的問題提高產品的功能,性能與易用性. 核心觀點遷移其實是一個騰籠換鳥

濟南小老虎

2024-06-10 13:31:07

NSCC集群使用笔记

1. 賬號申請如果是 NUS，NTU 或者 ASTAR 的學生，可以直接用自己的學校 ID 登錄。登錄不上的話可以發郵件聯繫 nscc 工作人員即可，基本上第二天就會回覆解決。 2. VSCode 連接賬號申請下來後進官網設置你的 ss

2024-06-10 13:24:07

VisionPro学习笔记（7）——FitLineTool

如果需要了解其他圖像處理的文章，請移步小編的GitHub地址　　傳送門：請點擊我　　如果點擊有誤：https://github.com/LeBron-Jian/ComputerVisionPractice 　　VisionPro有很多

2024-06-10 13:09:06

CodeWF.EventBus：轻量级事件总线，让通信更流畅

1. CodeWF.EventBus EventBus(事件總線)，用於解耦模塊之間的通訊。本庫（CodeWF.EventBus）適用於進程內消息傳遞（無其他外部依賴），與大家普遍使用的MediatR部分類似，但MediatR庫側重於ASP

2024-06-10 13:07:16

24小時熱門文章

最新文章

最新評論文章