台部落Ragty

1.背景匹配算法的瓶頸之一在於如何判斷字典中是否含有字符串，如果用的是有序集合(TreeMap)的話，複雜度是O(logn)，如果用散列表(HashMap)，賬面上的時間複雜度雖然下降了，但內存複雜度上去了。我們要尋找一種速度又

2020-06-24 23:21:35

1

1.背景之前的Trie樹，DBTrie都屬於前綴樹，雖然DAT每次狀態轉移的時間複雜度都是常數，但全切分長度爲n的文本時，時間複雜度爲O(n2)。這是因爲掃描過程中需要不斷的挪動起點，發起新的查詢。所以說，DAT的全切分複雜度爲

2020-06-24 23:21:25

1

1.停用詞指語言中一類沒有多少意義的詞語，比如“的”，“甚至”，“不僅”，“吧”… 一個句子去掉了停用詞並不影響理解，停用詞視具體的任務不同而不同。停用詞過濾是一個常見的預處理過程 2.實現思路加載中止詞：IO加載中止詞(

2020-06-24 23:21:25

1

1.背景前幾天用GitHub搭好博客後，想把在CSDN上的文章轉換成符合Hexo要求的MarkDown文件，爲避免重複造輪子，我先在GitHub搜了一下項目，最終決定使用這個工具。 2.準備工作安裝Node.js 安

2020-06-24 23:21:25

1.背景 Trie樹本質是一個確定的有限狀態自動機(DFA)，核心思想是空間換時間，利用字符串的公共前綴來降低查詢時間的開銷以達到提高效率的目的。但由於Trie樹的稀疏現象嚴重，空間利用率較低爲了讓Trie樹實現佔用較少的空間，同

2020-06-24 23:21:25

2