Stanford Word Segmenter使用

原創

2018-09-03 13:57

Stanford Word Segmenter是斯坦福大學NLP group研發的一套基於CRF的開源中文分詞系統，採用CRF(Conditional Random Fields)算法。下面將下載Stangford Word Segmenter 軟件包,在Eclipse上調試成功，並進一步分析源碼。

1,下載 Stanford Word Segmenter軟件包；

Download Stanford Word Segmenter version 2014-06-16

2，在eclipse上建立一個Project StanfordSegmenter。解壓Stanford Word Segmenter軟件包，將其中的data,arabic，test.sipe.utf8文件夾複製到項目下。

3，添加需要的jar包，seg.jar , stanford-segmenter-3.4-javadoc.jar , stanford-segmenter-3.4-sources.jar.

　　步驟：點擊Project->Properties->Java Bulid Path->Libraries->Add External Jars

4,在項目下，建一個com.Seg包，在包下建立一個SegDemo.java，將解壓出來的SegDemo的內容複製進去。

5，設置運行環境。

運行SegDemo，Run As-> Run Configurations,運行需要傳入參數，test.simp.utf8.

由於Stanford-Sementer佔用的內存比較大，所以需要設置VM arguments,不然就會超內存。

如果機子是64bit的可以設爲，-mx2g。查看解壓出來的segment.sh 文件，可以看到JAVACMD語句的參數設置。

6，運行結果如下，可以看出分詞的效果。

7，關聯源碼，進一步查看分詞建模的細節。單步運行觀察各個函數的功能。

　　7.1 對loadClassifierNoExceptions(也可以其他函數)點擊 ctrl+右鍵觀察源碼。結果顯示Source not Found.

　　

　　7.2 關聯源碼，Attach Source->Extenal File->然後將最開始解壓包中的stanford-segmenter-3.4-sources.jar包加進去。

　　7.3再次點擊，就可以看得源碼。

　　

8，如果是中文版的eclipse 需要改成英文版的。中文版的沒有Attach Source提醒。改變步驟如下：

　　8.1在eclipse的安裝目錄裏找到eclipse.ini文件，編輯打開，在文件的後面加上 -Duser.language=en這句話，elipse就變成英文版的了

　　

　　

9，Stanford NLP 地址

http://nlp.stanford.edu/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

java線程併發庫

ThreadLocal的使用，，，實際上相當於維護了一個Map，其中以鍵值對的形式，存儲了某一個數據被多個線程訪問所對應的值。當然這個數據只能有

2020-07-08 12:36:33

分佈式系統各個節點狀態如何同步？淺談一下

寫在前面：2020年面試必備的Java後端進階面試題總結了一份複習指南在Github上，內容詳細，圖文並茂，有需要學習的朋友可以Star一下！ GitHub地址：https://github.com/abel-max/Java-S

毛发旺盛的程序员

2020-07-08 12:27:30

ZooKeeper 一致性協議 ZAB 原理，瞭解一下

一致性協議有很多種，比如 Paxos，Raft，2PC，3PC等等，在這講一種協議，ZAB 協議，該協議應該是所有一致性協議中生產環境中應用最多的了。爲什麼？因爲它是爲 Zookeeper 設計的分佈式一致性協議！ 1. 什麼是

毛发旺盛的程序员

2020-07-08 12:27:20

Spring中Transactional 失效的解決方案，讓我們一起探討一下

寫在前面：2020年面試必備的Java後端進階面試題總結了一份複習指南在Github上，內容詳細，圖文並茂，有需要學習的朋友可以Star一下！ GitHub地址：https://github.com/abel-max/Java-S

毛发旺盛的程序员

2020-07-08 12:27:20

太狠了,Spring全家桶筆記,一站式通關全攻略,已入職某廠漲薪18K

Spring 早已成爲 Java 後端開發事實上的行業標準，無數的公司選擇 Spring 作爲基礎的開發框架，大部分Java 後端程序員在日常工作中也會接觸到 Spring ，因此，如何用好 Spring ，也就成爲 Java

毛发旺盛的程序员

2020-07-08 12:27:20

java中的NAN和INFINITY java中的NAN和INFINITY

java中的NAN和INFINITY java浮點數運算中有兩個特殊的情況：NAN、INFINITY。 1、INFINITY：在浮點數運算時，有時我們會遇到除數爲0的情況，那java是如何解決的呢？我們知道，在整型運算中

2021-11-28 13:09:28

【Java 小白菜入門筆記 2.2】常用的類和方法

Array Array 含有sort、fill、equals、BinarySearch等方法 import java.util.Arrays; import java.util.Random; public class Arra

江户川柯壮

2020-07-08 12:39:29

springboot增量打包更新--靜態資源分離打包

springboot部署打包爲jar，一般都是全量打包，jar包的大小通常都是超過100M的，並且在進行一般的頁面html微調、js修改、img替換、css樣式修改時也需要重新打包進行部署；每次微小的調整都需要重新打包就太煩了，一

2020-07-08 12:39:29

增加FastDfs多文件存儲路徑

項目需要增加聊天會話功能，涉及到上傳語音圖片等信息。考慮新增一個目錄，所有相關文件存在一個相同的目錄中。因此需要對原項目增加一個存儲的路徑。以前的項目因爲只有一個路徑，且已經運行中。走了些彎路，僅此記錄操作過程。nginx version

2020-07-08 12:37:23

JSONArray指定日期的反序列化

JSONArray序列化日期最初用到，這個是全局設置，會有風險。 String[] dateFormats = new String[] {"yyyyMMdd"}; JSONUtils.getM

2020-07-08 12:37:23

java緩存對象，使之不需要每次都從數據庫中獲取,以提高程序性能

直接上源碼，定義一個抽象類，必須實現get方法。該方法是用來獲取需要緩存的對象的。 import java.util.HashMap; import java.util.Map; /** * 用於從數據庫中獲取相應值的緩存類 *

2020-07-08 12:37:23

類加載和類實例化

Java程序中對類的使用方式分爲兩類：主動使用和被動使用主動使用：創建類的實例訪問某個類或接口的靜態變量，或者對該靜態變量賦值調用類的靜態方法反射初始化一個類的子類 java虛擬機啓動時被標明爲啓動類的類從JDK

吃酒忘情殇

2020-07-08 12:36:21

大數據入門（七）win10上eclipse使用Hadoop的配置

目錄工具eclipse的Hadoop環境配置參考系列：大數據入門（一）環境搭建，VMware15+CentOS8.1 配置 https://blog.csdn.net/qq_34391511/article/details/1

2020-07-08 12:35:23

Java動態綁定機制經典案列理解

如題，直接帶入案例進行理解Java的動態綁定機制，不多說直接上代碼了。 package one; public class JavaTest { public static void main(String[] args

2020-07-08 12:33:16

阿里年薪破百架構師推薦：鳥哥的Linux私房菜，搭配面試題，真香

在Linux實操的過程中，你是否有過這些疑問：如何提取日誌中含有關鍵字的指定行，上一行或上幾行？ ln 做了符號鏈接，對符號鏈接進行權限修改，原文件是否會受到影響？ Shell 腳本里有很多特殊符號，到底該怎麼用？網上流傳的

毛发旺盛的程序员

2020-07-08 12:27:30

24小時熱門文章

Wireshark 安裝+使用（一）

最新文章

最新評論文章