经典算法题10-AhoChorasick

引入

现在我们有需求了，我要检查一篇文章中是否有某些敏感词，这其实就是多模式匹配的问题。当然你可以用KMP（Knuth-Morris-Pratt algorithm）算法求出，那么它的时间复杂度为O(c*(m+n))，c：为模式串的个数。m：为模式串的长度,n:为正文的长度，那么这个复杂度就不再是线性了，我们学算法就是希望能把要解决的问题优化到极致，这不，AhoChorasick自动机就派上用场了。

其实AC自动机就是Trie树的一个活用，活用点就是灌输了kmp的思想，从而再次把时间复杂度优化到线性的O(N)，刚好我前面的文章已经说过了Trie树和KMP，这里不再赘述。

思路说明

同样我也用网上的经典例子，现有say she shr he her 这样5个模式串，主串为yasherhs，我要做的就是哪些模式串在主串中出现过？

构建trie树

如果看过我前面的文章，构建trie树还是很容易的。
失败指针

构建失败指针是AC自动机的核心所在，玩转了它也就玩转了AC自动机，失败指针非常类似于KMP中的next数组，也就是说，当我的主串在trie树中进行匹配的时候，如果当前节点不能再继续进行匹配，那么我们就会走到当前节点的failNode节点继续进行匹配，构建failnode节点也是很流程化的。

①：root节点的子节点的failnode都是指向root。
②：当走到在“she”中的”h“节点时，我们给它的failnode设置什么呢？此时就要走该节点（h)的父节点(s)的失败指针，一直回溯直到找到某个节点的孩子节点也是当初节点同样的字符(h)，没有找到的话，其失败指针就指向root。

举个栗子，比如：h节点的父节点为s，s的failnode节点为root，走到root后继续寻找子节点为h的节点，恰好我们找到了，（假如还是没有找到，则继续走该节点的failnode，嘿嘿，是不是很像一种回溯查找），此时就将 ”she”中的“h”节点的fainode”指向”her”中的“h”节点，好，原理其实就是这样。（看看你的想法是不是跟图一样）

针对图中红线的”h，e“这两个节点，我们想起了什么呢？对”her“中的”e“来说，e到root距离的n个字符恰好与”she“中的e向上的n个字符相等，我也非常类似于kmp中next函数，当字符失配时，next数组中记录着下一次匹配时模式串的起始位置。

代码诠释

Trie树节点

    public TrieNode trieNode = new TrieNode();

    /// <summary>
    /// 用光搜的方法来构建失败指针
    /// </summary>
    public Queue<TrieNode> queue = new Queue<TrieNode>();

    /// <summary>
    /// Trie树节点
    /// </summary>
    public class TrieNode {
        /// <summary>
        /// 26个字符，也就是26叉树
        /// </summary>
        public TrieNode[] childNodes;

        /// <summary>
        /// 词频统计
        /// </summary>
        public int freq;

        /// <summary>
        /// 记录该节点的字符
        /// </summary>
        public char nodeChar;

        /// <summary>
        /// 失败指针
        /// </summary>
        public TrieNode faliNode;

        /// <summary>
        /// 插入记录时的编号id
        /// </summary>
        public HashSet<Integer> hashSet = new HashSet<Integer>();

        /// <summary>
        /// 初始化
        /// </summary>
        public TrieNode() {
            childNodes = new TrieNode[26];
            freq = 0;
        }
    }

刚才我也说到了parent和current两个节点，在给trie中的节点赋failnode的时候，如果采用深度优先的话还是很麻烦的，因为我要实时记录当前节点的父节点，相信写过树的朋友都清楚，除了深搜，我们还有广搜。

构建失败指针

(这里我们采用BFS的做法)

    /// <summary>
    /// 构建失败指针(这里我们采用BFS的做法)
    /// </summary>
    /// <param name="root"></param>
    public void BuildFailNodeBFS(TrieNode root) throws InterruptedException {
        //根节点入队
        queue.enqueue(root);
        while (!queue.isEmpty()) {
            //出队
            TrieNode temp = queue.dequeue();
            //失败节点
            TrieNode failNode = null;
            //26叉树
            for (int i = 0; i < 26; i++) {
                //代码技巧：用BFS方式，从当前节点找其孩子节点，此时孩子节点
                //的父亲正是当前节点，（避免了parent节点的存在）
                if (temp.childNodes[i] == null)
                    continue;
                //如果当前是根节点，则根节点的失败指针指向root
                if (temp == root) {
                    temp.childNodes[i].faliNode = root;
                } else {
                    //获取出队节点的失败指针
                    failNode = temp.faliNode;
                    //沿着它父节点的失败指针走，一直要找到一个节点，直到它的儿子也包含该节点。
                    while (failNode != null) {
                        //如果不为空，则在父亲失败节点中往子节点中深入。
                        if (failNode.childNodes[i] != null) {
                            temp.childNodes[i].faliNode = failNode.childNodes[i];
                            break;
                        }
                        //如果无法深入子节点，则退回到父亲失败节点并向root节点往根部延伸，直到null
                        //（一个回溯再深入的过程，非常有意思）
                        failNode = failNode.faliNode;
                    }
                    //等于null的话，指向root节点
                    if (failNode == null)
                        temp.childNodes[i].faliNode = root;
                }
                queue.enqueue(temp.childNodes[i]);
            }
        }
    }

模式匹配

所有字符在匹配完后都必须要走failnode节点来结束自己的旅途,相当于一个回旋，这样做的目的防止包含节点被忽略掉。

举个栗子
我匹配到了”she”，必然会匹配到该字符串的后缀”he”，要想在程序中匹配到，则必须节点要走失败指针来结束自己的旅途。

从上图中我们可以清楚的看到“she”的匹配到字符”e”后，从failnode指针撤退，在撤退途中将其后缀字符“e”收入囊肿，这也就是为什么像kmp中的next函数。

检索

    /// <summary>
    /// 根据指定的主串，检索是否存在模式串
    /// </summary>
    /// <param name="root"></param>
    /// <param name="s"></param>
    /// <returns></returns>
    public void SearchAC(TrieNode root, String word, HashSet<Integer> hashSet) {
        TrieNode head = root;
        for (int i = 0; i < word.length(); i++) {
            //计算位置
            int index = word.charAt(i) - 'a';
            //如果当前匹配的字符在trie树中无子节点并且不是root，则要走失败指针
            //回溯的去找它的当前节点的子节点
            while ((head.childNodes[index] == null) && (head != root))
                head = head.faliNode;

            //获取该叉树
            head = head.childNodes[index];
            //如果为空，直接给root,表示该字符已经走完毕了
            if (head == null)
                head = root;
            TrieNode temp = head;
            //在trie树中匹配到了字符，标记当前节点为已访问，并继续寻找该节点的失败节点。
            //直到root结束，相当于走了一个回旋。(注意：最后我们会出现一个freq=-1的失败指针链)
            while (temp != root && temp.freq != -1) {
                //将找到的id追加到集合中
                for(Integer k: temp.hashSet){
                    hashSet.add(k);
                }
                temp.freq = -1;
                temp = temp.faliNode;
            }
        }
    }

好了，到现在为止，我想大家也比较清楚了。具体完整代码见我的github。

经典算法题10-AhoChorasick

引入

思路说明

代码诠释

Trie树节点

构建失败指针

模式匹配

结果

CORS error 但是 status code 是200 OK

压缩上传的GPU数据的方案

使用skopeo同步镜像

Java讀寫xml-dom4j篇

經典算法題09-字符串模式匹配KMP

經典算法題08-協同過濾算法

Java反射及其應用

Ansj中文分詞說明

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結