閱讀筆記-美團NLG信息流


文章鏈接

1、如何去衡量優化效果?

與推薦問題相似,提升點擊率、轉化率在內的通用指標,同時兼顧閱讀體驗。

如何量化閱讀體驗?

2、應用形態

2.1 面向內容

對一條內容生成標題。

2.2 面向商戶

指推薦文案與內容化聚合頁。

推薦文案:一個商家的核心賣點描述,一句話推薦。

內容聚合:標題+多條文案的短篇推薦理由。

3、具體技術

3.1 文本生成

理論!=實際

  • 理論:基於數據衡量與訓練目標樣本的相似度。
  • 實際:以線上效果爲導向,輔以人工評測。

3.2 文本建模

爲了讓終端可以完成更多任務:分類、序列生成、語義推理、相似度匹配。

  • Contextual Embedding

    • 解決的核心問題:如何利用大量的沒標註的文本數據學到一個預訓練的模型,並通過通過這個模型輔助在不同的有標註任務上更好地完成目標。
    • 模型:Elmo, GPT, BERT.
  • Tree-Based Embedding

    • 用根結點的Embedding即可作爲上下文的表徵
    • 調優難度大,未使用。

4、實踐

## 4.1 信息流標題生成

### 4.1.1 方法

#### 抽取式
#### 受限生成式
#### 抽取+生成混合

### 4.1.2 業務指標與生成式模板的gap

### 持續獲取標註數據

4.2 商戶文案

  • 抽象爲:context
  • 業務目標:點擊率、頁面穿透率
  • 技術目標:按照不同要求生成seq,泛化性
  • 任務類別:Data2Text
  • 特點:準確性要求低、複雜度低
  • 難點:泛化性要求高

4.2.1 商戶表示

【商戶評論+商戶屬性】 & 【商戶信息 + 賣點信息】 & 【賣點圖譜】

中間的【商戶信息+賣點信息】是目標文本。 前期可以通過LDA等方法進行賣點挖掘。

4.2.2 控制端實現

其實是一個受限優化問題:解碼端的強控制+弱控制;動態加入所需的控制目標。

賣點控制

地域品牌等涉及到強控制的賣點和實體直接編碼進入context;基於賣點共現概率隨機加入context

風格控制

風格也作爲特徵寫入context

4.3 內容聚合

多樣性控制

本質原因是,在解碼預測Beam Search時永遠選擇概率最大的序列,並不考慮多樣性。但是如果預測時採用Decoder概率Random Search的方法,則在通順度上會存在比較大的問題。

實際方法

直接對全局結果進行優化,在預測時把一個聚合頁Context放到同一個batch中,batch_size即爲文案條數,對已經生成序列上進行實體重複檢測和n-gram重複檢測,將檢測判重的加一個懲罰性打分。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章