基於二分搜索樹實現集合

集合

集合是承載元素的容器,元素只能存在一次,可以快速去重。它是更高層的數據結構。

典型的應用場景:

  1. 客戶統計:計算機IP訪問,同一IP不同時間的訪問記做同一客戶的訪問,關注多少不同IP訪問網站,或今天較昨天增加多少了新IP訪問了網站。
  2. 詞彙量統計:一本書使用的詞彙量是多少。

定義接口

定義集合的接口Set.java,使它支持泛型。

public interface Set<E> {
    void add(E e); // 添加元素 不能添加重複元素

    void remove(E e);  // 刪除元素

    boolean contains(E e); // 查看集合是否包含某個元素

    int getSize();  // 獲得集合元素個數

    boolean isEmpty(); // 判斷集合是否爲空
}

實現集合類

二分搜索樹本身可以實現集合的所有操作,所以只需要調用二分搜索樹中的相應方法即可。這裏借用的BST.java是我的前一篇學習筆記《使用遞歸底層實現二分搜索樹》中所實現的類。只用到了二分搜索樹的添加元素,刪除元素,包含元素,以及大小和是否爲空5個方法。需要注意的是在添加操作中,集合中的元素是不能重複的,由實現的二分搜索樹無法添加重複元素,在集合類BSTSet.java中可以直接調用add()方法。

public class BSTSet<E extends Comparable<E>> implements Set<E> {
    private BST<E> bst;

    public BSTSet() {
        bst = new BST<>();
    }

    @Override
    public int getSize() {
        return bst.getSize();
    }

    @Override
    public boolean isEmpty() {
        return bst.isEmpty();
    }

    @Override
    public boolean contains(E e) {
        return bst.contains(e);
    }

    @Override
    public void add(E e) {
        bst.add(e);
    }

    @Override
    public void remove(E e) {
        bst.remove(e);
    }

}

詞彙量統計

1.文件操作類

FileOperation.java用於對文本進行分詞,不考慮單詞的形式,將同一個單詞的不同形態歸類爲不同的單詞進行詞彙量統計測試。

import java.io.FileInputStream;
import java.util.ArrayList;
import java.util.Scanner;
import java.util.Locale;
import java.io.File;
import java.io.BufferedInputStream;
import java.io.IOException;

// 文件相關操作
public class FileOperation {

    // 讀取文件名稱爲filename中的內容,並將其中包含的所有詞語放進words中
    public static boolean readFile(String filename, ArrayList<String> words){

        if (filename == null || words == null){
            System.out.println("filename is null or words is null");
            return false;
        }

        // 文件讀取
        Scanner scanner;

        try {
            File file = new File(filename);
            if(file.exists()){
                FileInputStream fis = new FileInputStream(file);
                scanner = new Scanner(new BufferedInputStream(fis), "UTF-8");
                scanner.useLocale(Locale.ENGLISH);
            }
            else
                return false;
        }
        catch(IOException ioe){
            System.out.println("Cannot open " + filename);
            return false;
        }

        // 簡單分詞
        // 這個分詞方式相對簡陋, 沒有考慮很多文本處理中的特殊問題
        // 在這裏只做demo展示用
        if (scanner.hasNextLine()) {

            String contents = scanner.useDelimiter("\\A").next();

            int start = firstCharacterIndex(contents, 0);
            for (int i = start + 1; i <= contents.length(); )
                if (i == contents.length() || !Character.isLetter(contents.charAt(i))) {
                    String word = contents.substring(start, i).toLowerCase();
                    words.add(word);
                    start = firstCharacterIndex(contents, i);
                    i = start + 1;
                } else
                    i++;
        }

        return true;
    }

    // 尋找字符串s中,從start的位置開始的第一個字母字符的位置
    private static int firstCharacterIndex(String s, int start){

        for( int i = start ; i < s.length() ; i ++ )
            if( Character.isLetter(s.charAt(i)) )
                return i;
        return s.length();
    }
}

2.Main.java

FileOperation的readFile是有返回值的,如果發生錯誤,爲方便查看錯誤原因將它整體放在if結構中

import java.util.ArrayList;

public class Main {
    public static void main(String[] args) {
        System.out.println("Pride and Prejudice");

        ArrayList<String> words1 = new ArrayList<>();
        // 調用文件類將傲慢與偏見的文本單詞都存進words1中
        if (FileOperation.readFile("pride-and-prejudice.txt", words1)) {
            // 打印這本書一共有多少個單詞
            System.out.println("Total words:" + words1.size());

            BSTSet<String> set1 = new BSTSet<>();
            for (String words : words1)
                set1.add(words); // 底層的二分搜索樹忽略重複,所以重複單詞不會添加進集合中
            System.out.println("Total different words:" + set1.getSize());
        }

        System.out.println(); // 換行

        System.out.println("A Tale Of Two Cities");
        ArrayList<String> words2 = new ArrayList<>();
        // 調用文件類將雙城記的文本單詞都存進words1中
        if (FileOperation.readFile("a-tale-of-two-cities.txt", words2)) {
            // 打印這本書一共有多少個單詞
            System.out.println("Total words:" + words2.size());

            BSTSet<String> set2 = new BSTSet<>();
            for (String words : words2)
                set2.add(words); // 底層的二分搜索樹忽略重複,所以重複單詞不會添加進集合中
            System.out.println("Total different words:" + set2.getSize());
        }
    }
}

3.測試結果

Pride and Prejudice
Total words:125901
Total different words:6530

A Tale Of Two Cities
Total words:141489
Total different words:9944

寫在最後

如果代碼有還沒有看懂的或者我寫錯的地方,歡迎評論,我們一起學習討論,共同進步。
推薦學習地址:
liuyubobobo老師的《玩轉數據結構》:https://coding.imooc.com/class/207.html
最後,祝自己早日鹹魚翻身,拿到心儀的Offer,衝呀!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章