前綴樹trie預測與熱度擴散預測模型

trie分類

從根節點到葉子節點,從根節點開始搜索,在其節點上搜索其子節點的內容與之相匹配,迭代搜索,直到搜索到葉子結點或者內容結束(不侷限於葉子結點),讀取該節點上的內容,即爲所查找的內容,trie又被稱爲字典樹,如果被搜索的內容是字典內容的子集,那麼可以在字典樹中搜索到該內容。在預測或者說查詢過程中,如果遇到這樣的情況:被搜索的內容不是字典的子集,那麼將搜索不到。搜索不到的時候,需要將該內容增加到樹上,使得下次可以被搜索到。其中分類部分,主要是對沒被標記的內容,依據前綴樹的經驗進行分類,例如:冷/熱預測;好/壞預測。二分類,多分類都可以。

熱度擴散

主要解決的問題是:對於非字典樹中的內容進行預測和分類過程中,藉助:樹模型的熱度值,兄弟節點的熱度擴散值,以及具有相關性的節點的熱度擴散值,得到可靠的分類結果。在最大可搜索的父節點下面,其兄弟子節點的熱度關係,往往影響其新來的兄弟節點熱度。

實現過程

分爲3個過程。其中第1點和第2點通過訓練數據集實現,第3點在驗證數據集實現。

1. 樹的建立與節點數據內容的初始化。

利用訓練數據集預先建立非完備(如果可以完備更好)的trie樹,節點數據包括:例如,每個節點上記錄了該節點的被訪問頻次,代表該節點的熱度值(多級熱度:不僅僅包含本節點的熱度,同樣來源於兄弟節點的熱度,相關節點的熱度擴散值等等),設置閾值劃分節點的多種分類類別。劃分好類別的節點,如果預測的內容被該節點覆蓋,那麼可以將該節點的熱度值做爲預測內容的分類結果。節點的數據內容根據實際情況可進行伸縮設定,並在樹的建立過程中進行初始化。

2. 樹的生長與剪枝,即T時間段的樹更新學習,同時支持可持久化。

在樹建立完成之後,需要實時對樹節點內容的熱度更新,確保樹的時效性,類似於動態LRU,即某個節點的分類類別是不固定的,在前一點時間是熱的分類類別,在後一點時間是冷的類別,這也是這個模型的靈活分類優勢。爲了方便下次很快加載該模型,可通過將整棵樹進行保存。

3. 樹的預測與驗證。

在測試數據集上,完成對內容的分類,對準確率進行驗證。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章