java字符分割

public String[] split(String regex) {
    return split(regex, 0);
}

可以接受普通字符,也可以是正則表達式。

    public String[] split(String regex, int limit) {
        /* fastpath if the regex is a
         (1)one-char String and this character is not one of the
            RegEx's meta characters ".$|()[{^?*+\\", or
         (2)two-char String and the first char is the backslash and
            the second is not the ascii digit or ascii letter.
         */
        char ch = 0;
        if (((regex.value.length == 1 &&
             ".$|()[{^?*+\\".indexOf(ch = regex.charAt(0)) == -1) ||
             (regex.length() == 2 &&
              regex.charAt(0) == '\\' &&
              (((ch = regex.charAt(1))-'0')|('9'-ch)) < 0 &&
              ((ch-'a')|('z'-ch)) < 0 &&
              ((ch-'A')|('Z'-ch)) < 0)) &&
            (ch < Character.MIN_HIGH_SURROGATE ||
             ch > Character.MAX_LOW_SURROGATE))
        {
            int off = 0;
            int next = 0;
            boolean limited = limit > 0;
            ArrayList<String> list = new ArrayList<>();
            while ((next = indexOf(ch, off)) != -1) {
                if (!limited || list.size() < limit - 1) {
                    list.add(substring(off, next));
                    off = next + 1;
                } else {    // last one
                    //assert (list.size() == limit - 1);
                    list.add(substring(off, value.length));
                    off = value.length;
                    break;
                }
            }
            // If no match was found, return this
            if (off == 0)
                return new String[]{this};

            // Add remaining segment
            if (!limited || list.size() < limit)
                list.add(substring(off, value.length));

            // Construct result
            int resultSize = list.size();
            if (limit == 0)
                while (resultSize > 0 && list.get(resultSize - 1).length() == 0)
                    resultSize--;
            String[] result = new String[resultSize];
            return list.subList(0, resultSize).toArray(result);
        }
        return Pattern.compile(regex).split(this, limit);
    }

此方法,開始的地方說明了

  • regex是單個字符,且不是”.$|()[{^?*+\”中的一個。
  • regex是兩個字符,第一個字符是轉義字符,而且第二個字符不是ascii字符也不是ascii數字。

滿足這兩個條件就使用快速分割的方法分割字符串,即遍歷一遍字符串,遇到regex代表的字符就分割上一個位置到這裏,放到ArrayList中。

其中有幾點注意的地方

  • 如果字符串中沒有所給字符,就返回整個字符串。
  • 可以使用limit限制分割的次數,即返回結果的數組的size,當滿足分割次數後,最後還沒有進行分割的部分字符串完全返回。
  • limit是0的時候,最後的結果不包含末尾的空字符,
if (limit == 0)
    while (resultSize > 0 && list.get(resultSize - 1).length() == 0)
        resultSize--;

產生空字符的原因是幾個分隔符相鄰,或者分隔符位於首尾,",foo,".split(",")生成一個size爲2的數組,",foo,".split(",", -1)生成一個size是3的數組,最後一個元素爲空字符串。

小常識:
a > 0, b > 0 則 a | b > 0
a > 0, b < 0 則 a | b < 0
a < 0, b > 0 則 a | b < 0
a < 0, b < 0 則 a | b < 0

符號位是1,則任有一方是負,結果就是負。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章