閱讀筆記-美團NLG信息流

原創

2020-07-07 08:10

文章目錄

3、具體技術

4、實踐

4.2 商戶文案

4.3 內容聚合

文章鏈接

1、如何去衡量優化效果？

與推薦問題相似，提升點擊率、轉化率在內的通用指標，同時兼顧閱讀體驗。

如何量化閱讀體驗？

2、應用形態

2.1 面向內容

對一條內容生成標題。

2.2 面向商戶

指推薦文案與內容化聚合頁。

推薦文案：一個商家的核心賣點描述，一句話推薦。

內容聚合：標題+多條文案的短篇推薦理由。

3、具體技術

3.1 文本生成

理論!=實際

理論：基於數據衡量與訓練目標樣本的相似度。
實際：以線上效果爲導向，輔以人工評測。

3.2 文本建模

爲了讓終端可以完成更多任務：分類、序列生成、語義推理、相似度匹配。

Contextual Embedding
- 解決的核心問題：如何利用大量的沒標註的文本數據學到一個預訓練的模型，並通過通過這個模型輔助在不同的有標註任務上更好地完成目標。
- 模型：Elmo, GPT, BERT.
Tree-Based Embedding
- 用根結點的Embedding即可作爲上下文的表徵
- 調優難度大，未使用。

4、實踐

## 4.1 信息流標題生成

### 4.1.1 方法

#### 抽取式
#### 受限生成式
#### 抽取+生成混合

### 4.1.2 業務指標與生成式模板的gap

### 持續獲取標註數據

4.2 商戶文案

抽象爲：context
業務目標：點擊率、頁面穿透率
技術目標：按照不同要求生成seq，泛化性
任務類別：Data2Text
特點：準確性要求低、複雜度低
難點：泛化性要求高

4.2.1 商戶表示

【商戶評論+商戶屬性】 & 【商戶信息 + 賣點信息】 & 【賣點圖譜】

中間的【商戶信息+賣點信息】是目標文本。前期可以通過LDA等方法進行賣點挖掘。

4.2.2 控制端實現

其實是一個受限優化問題：解碼端的強控制+弱控制；動態加入所需的控制目標。

賣點控制

將地域、品牌等涉及到強控制的賣點和實體直接編碼進入context；基於賣點共現概率隨機加入context

風格控制

風格也作爲特徵寫入context

4.3 內容聚合

多樣性控制

本質原因是，在解碼預測Beam Search時永遠選擇概率最大的序列，並不考慮多樣性。但是如果預測時採用Decoder概率Random Search的方法，則在通順度上會存在比較大的問題。

實際方法

直接對全局結果進行優化，在預測時把一個聚合頁Context放到同一個batch中，batch_size即爲文案條數，對已經生成序列上進行實體重複檢測和n-gram重複檢測，將檢測判重的加一個懲罰性打分。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

閱讀筆記-美團NLG信息流

文章目錄

1、如何去衡量優化效果？

2、應用形態

2.1 面向內容

2.2 面向商戶

3、具體技術

3.1 文本生成

3.2 文本建模

4、實踐

4.2 商戶文案

4.2.1 商戶表示

4.2.2 控制端實現

賣點控制

風格控制

4.3 內容聚合

多樣性控制

實際方法

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

KubeKey 部署 K8s v1.28.8 實戰

RL的分類

RL中的關鍵概念

源碼閱讀-CVAE模型

CH2-NLG應用之【機器翻譯non-auto-regressive版】

閱讀筆記-ShowandTell

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結