前綴樹trie預測與熱度擴散預測模型

原創

2020-06-23 05:51

trie分類

從根節點到葉子節點，從根節點開始搜索，在其節點上搜索其子節點的內容與之相匹配，迭代搜索，直到搜索到葉子結點或者內容結束（不侷限於葉子結點），讀取該節點上的內容，即爲所查找的內容，trie又被稱爲字典樹，如果被搜索的內容是字典內容的子集，那麼可以在字典樹中搜索到該內容。在預測或者說查詢過程中，如果遇到這樣的情況：被搜索的內容不是字典的子集，那麼將搜索不到。搜索不到的時候，需要將該內容增加到樹上，使得下次可以被搜索到。其中分類部分，主要是對沒被標記的內容，依據前綴樹的經驗進行分類，例如：冷/熱預測；好/壞預測。二分類，多分類都可以。

熱度擴散

主要解決的問題是：對於非字典樹中的內容進行預測和分類過程中，藉助：樹模型的熱度值，兄弟節點的熱度擴散值，以及具有相關性的節點的熱度擴散值，得到可靠的分類結果。在最大可搜索的父節點下面，其兄弟子節點的熱度關係，往往影響其新來的兄弟節點熱度。

實現過程

分爲3個過程。其中第1點和第2點通過訓練數據集實現，第3點在驗證數據集實現。

1. 樹的建立與節點數據內容的初始化。

利用訓練數據集預先建立非完備（如果可以完備更好）的trie樹，節點數據包括：例如，每個節點上記錄了該節點的被訪問頻次，代表該節點的熱度值（多級熱度：不僅僅包含本節點的熱度，同樣來源於兄弟節點的熱度，相關節點的熱度擴散值等等），設置閾值劃分節點的多種分類類別。劃分好類別的節點，如果預測的內容被該節點覆蓋，那麼可以將該節點的熱度值做爲預測內容的分類結果。節點的數據內容根據實際情況可進行伸縮設定，並在樹的建立過程中進行初始化。

2. 樹的生長與剪枝，即T時間段的樹更新學習，同時支持可持久化。

在樹建立完成之後，需要實時對樹節點內容的熱度更新，確保樹的時效性，類似於動態LRU，即某個節點的分類類別是不固定的，在前一點時間是熱的分類類別，在後一點時間是冷的類別，這也是這個模型的靈活分類優勢。爲了方便下次很快加載該模型，可通過將整棵樹進行保存。

3. 樹的預測與驗證。

在測試數據集上，完成對內容的分類，對準確率進行驗證。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

前綴樹trie預測與熱度擴散預測模型

trie分類

熱度擴散

實現過程

Python 潮流週刊#52：Python 處理 Excel 的資源

Hadoop+Spark集羣配置

前綴樹trie預測與熱度擴散預測模型

linux上部署nginx服務

bittorrent協議

Java數據結構與結合框架

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結