搜索引擎廣告的檢索和匹配算法

1.搜索引擎廣告的檢索

   廣告檢索的過程:

       廣告檢索就是通過對給定的網民的信息需求,在廣告庫(Ad Set)中找到相關的廣告,簡單的來看,可以把Ad Retrieval當做是文本檢索(TR)領域的一個應用。

       文本檢索的兩種思路: Doc Selection(Classification) 和 Doc Ranking(Ranking),在文件檢索中,通常利用相似度來計算,而相似度是一個度量概念,所以在

實際的文件檢索中通常使用的ranking的方法,然後在Ad Retrieval中,因爲廣告檢索的的判斷標準不是相似度,而是ectr*bid結合各方面因素進行權衡,在實際經驗中,

發現採用classification的方法可能會更好一點。

      一個可能的搜索廣告觸發子系統:



    重要的環節:

query分析: topic model等語義分析方法,而且必須在線實時,由於query詞可能比較少,有涉及query expansion的技術。

其中query expansion的主要思路有:

                                相關性反饋: 利用網民主動選擇的文檔作爲原query信息的擴展。

                                僞相關反饋:利用初始優質檢索文件作爲原query信息的擴展。

                                 基於詞典的擴展:利用或自動構建term文件關聯,對原query進行擴展。

        廣告特徵分析:這裏需要額外考慮的是廣告本身的特徵。可以異步,offline進行分析。


        Classifier: 

關於relevence建模的方法,可見下圖:


其中:

       1)向量空間建模方法:它默認有一個前提,就是term之間相互獨立。

            存在問題: 向量的每一維是什麼,如何weighting(TFIDF等變種),如何選擇計算相似度的方法(內積,餘弦,等各種距離計算方法)。但實現簡單,可快速工程化,不過進                                  行參數調試過程中非常晦澀。

   VSM關鍵技術:

                分詞:分詞的粒度問題:大粒度檢索精準,但是可能不全面;小粒度檢索全面但是不精確。

                賦權(term weighting):短文本信息量太少。  

解決辦法:a) 通過改進全局term權重,採用idf的變種iqf,icf或者全新的全局權重的定義:CTR作爲term的權重

    b) query expansion,解決文本短小TF爲基本1的問題

                                            c) 全新的term weighting建模方法:f(d,w).

filtering:doc list返回後進行rank時計算score.               


       2)基於machine learning的建模:

     基於樣本標註的relevance model:  ctr建模+用戶體驗建模。其優點是理論體系完備,能更好的利用big data來訓練模型和調節參數,更好的fit data。


2.搜索引擎廣告的匹配算法

  2.1 搜索引擎廣告的匹配模式有三種:精確匹配、短語匹配、廣泛匹配。其中

   精確匹配:等同

   短語匹配:包含

   廣泛匹配:相關

   不過產品定義的也不是一成不變的,各匹配模式按產品規則有特定的Ad Retrieval過程。

    2.2廣告觸發方法與匹配模式:

     精確匹配:直接查找最進準的,從數據庫裏面找到keyword完全一致的廣告

     短語匹配:

1. 針對query進行子片段的抽取

                2. 然後將每一個子片段查hash索引,得到相關廣告

      廣泛匹配:

                通過IR的方法進行查找,定義相關性或者訓練模型,得到query和廣告的similarity,

             然後判斷相似度是否滿足要求。

                 因爲流量分佈是長尾的,其中很大一部分的query是隻出現一次的,而且流量作爲商品具有不可枚舉,同一個語義的query其表達方式多種多樣,所以

             僅僅通過精確匹配是很難滿足所有的情況的。      

  1. 劉鵬《計算廣告學
  2. 百度開發學習社區《計算廣告學

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章