類及方法選擇
Java中substring方法可以分解字符串,返回的是原字符串的一個子字符串。如果要講一個字符串分解爲一個一個的單詞或者標記,可以使用StringTokenizer。
有兩個方法常用:
1.hasMoreTokens()。這個方法和hasMoreElements()方法的用法是一樣的,只是StringTokenizer爲了實現Enumeration接口而實現的方法,從StringTokenizer的聲明可以看到:class StringTokenizer implements Enumeration。
2.nextToken()。這個方法和nextElement()方法的用法是一樣的,返回此 StringTokenizer 的下一個標記。
使用String.spilt()方法時,效率沒有StringTokenizer高,並且只是單一字符串的分割。因此使用StringTokenizer更好。
代碼示例
String text = tweet.getText();
StringTokenizer st = new StringTokenizer(text," ,?.!:\"\"''\n#");
List<String> wordList = new ArrayList<>();
while (st.hasMoreElements()) {
wordList.add(st.nextToken().toLowerCase());
}