Java將英文句子分解爲單詞

類及方法選擇

Java中substring方法可以分解字符串,返回的是原字符串的一個子字符串。如果要講一個字符串分解爲一個一個的單詞或者標記,可以使用StringTokenizer。
有兩個方法常用:
1.hasMoreTokens()。這個方法和hasMoreElements()方法的用法是一樣的,只是StringTokenizer爲了實現Enumeration接口而實現的方法,從StringTokenizer的聲明可以看到:class StringTokenizer implements Enumeration。
2.nextToken()。這個方法和nextElement()方法的用法是一樣的,返回此 StringTokenizer 的下一個標記。
使用String.spilt()方法時,效率沒有StringTokenizer高,並且只是單一字符串的分割。因此使用StringTokenizer更好。

代碼示例

String text = tweet.getText();
StringTokenizer st = new StringTokenizer(text," ,?.!:\"\"''\n#");
List<String> wordList = new ArrayList<>();
while (st.hasMoreElements()) {
    wordList.add(st.nextToken().toLowerCase());
}
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章