文章目錄
文章鏈接
1、如何去衡量優化效果?
與推薦問題相似,提升點擊率、轉化率在內的通用指標,同時兼顧閱讀體驗。
如何量化閱讀體驗?
2、應用形態
2.1 面向內容
對一條內容生成標題。
2.2 面向商戶
指推薦文案與內容化聚合頁。
推薦文案:一個商家的核心賣點描述,一句話推薦。
內容聚合:標題+多條文案的短篇推薦理由。
3、具體技術
3.1 文本生成
理論!=實際
- 理論:基於數據衡量與訓練目標樣本的相似度。
- 實際:以線上效果爲導向,輔以人工評測。
3.2 文本建模
爲了讓終端可以完成更多任務:分類、序列生成、語義推理、相似度匹配。
-
Contextual Embedding
- 解決的核心問題:如何利用大量的沒標註的文本數據學到一個預訓練的模型,並通過通過這個模型輔助在不同的有標註任務上更好地完成目標。
- 模型:Elmo, GPT, BERT.
-
Tree-Based Embedding
- 用根結點的Embedding即可作爲上下文的表徵
- 調優難度大,未使用。
4、實踐
## 4.1 信息流標題生成
### 4.1.1 方法
#### 抽取式
#### 受限生成式
#### 抽取+生成混合
### 4.1.2 業務指標與生成式模板的gap
### 持續獲取標註數據
4.2 商戶文案
- 抽象爲:context
- 業務目標:點擊率、頁面穿透率
- 技術目標:按照不同要求生成seq,泛化性
- 任務類別:Data2Text
- 特點:準確性要求低、複雜度低
- 難點:泛化性要求高
4.2.1 商戶表示
【商戶評論+商戶屬性】 & 【商戶信息 + 賣點信息】 & 【賣點圖譜】
中間的【商戶信息+賣點信息】是目標文本。 前期可以通過LDA等方法進行賣點挖掘。
4.2.2 控制端實現
其實是一個受限優化問題:解碼端的強控制+弱控制;動態加入所需的控制目標。
賣點控制
將地域
、品牌
等涉及到強控制的賣點和實體直接編碼進入context
;基於賣點共現概率隨機加入context
風格控制
風格也作爲特徵寫入context
4.3 內容聚合
多樣性控制
本質原因是,在解碼預測Beam Search
時永遠選擇概率最大的序列,並不考慮多樣性。但是如果預測時採用Decoder概率Random Search
的方法,則在通順度上會存在比較大的問題。
實際方法
直接對全局結果進行優化,在預測時把一個聚合頁Context
放到同一個batch
中,batch_size
即爲文案條數,對已經生成序列上進行實體重複檢測和n-gram
重複檢測,將檢測判重的加一個懲罰性打分。