BM25對於結構化摘要的優化

BM25算法典型用法

       衆所周知,BM25通常用來做搜索相關性評分
                                 
           上圖的三個公式表示了BM25的一個典型用法,用來計算一個文檔與我們所搜索的query的相關性。權值Wi,在這裏通常用IDF來表示,即對於每一個詞語,如果這個詞在整個文檔集合中,包含這個詞的文檔數越多,那麼這個詞所佔的權重就越小,這是因爲在檢索當中,對於那些在每個文檔都出現頻繁的詞,它們對相關性的貢獻作用會相應地減弱。
         
                                        
       以上的公式是對於搜索引擎的一個典型用法,但是我們所做的是文本摘要處理,上面的公式直接應用於文本摘要中的效果並不是很好,因此我們要對它進行優化。

 BM25算法對於文本摘要的優化

       我們必須明確,我們所做的是文本摘要處理,主要是基於textrank算法進行的,而BM25是其中關於句子相似度計算的一個部分,而我們最終得到的評分數值是textrank之後的數值,現在優化的只是中間步驟。
       對於原來公式裏的參數,也都必須有新的含義,我們這裏比較的是兩個句子的相似度,所以
       我們在這個部分做了一個優化,因爲對於原來的公式,後半部分指的是query中的詞頻,但事實上搜索的時候,我們查詢的詞頻在絕大部分情況下都是1,並不會有別的值,所以上面公式的後半部分在之前的搜索算法裏就被省略了。而在我們的摘要處理過程中,句子與句子之間的關係都是平等的,如果要計算兩個句子的相似度,詞頻對於兩個句子的影響應該是公平的,所以我們把這個部分還原回來,不能省略。
       接下來就是關於權值的部分,我們在這裏主要是做關於主題的搜索,而原來一個詞在文檔中的出現次數在這裏變成了一個詞在這篇文章中出現的次數,我們在處理過程中去掉了一些停用詞和一些無關詞,因此出現次數多的那些詞一般來說都是比較重要的詞,所以我們應該相應地提升它們的權重。在這裏,我們把IDF換成了DF
                                       
        以上就是我們優化之後的算法。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章