小冰創作詩歌機制詳解

論文內容

這篇論文介紹了微軟小冰從一張圖片生成一首現代詩的過程模型。簡單來說，這個過程就是給定一個圖像，首先從圖像中提取幾個表示對象和感知到的情感的關鍵字，然後根據這些關鍵詞與人類詩歌的關聯，將它們擴展到相關的新的關鍵詞，接着每個關鍵詞作爲每行詩的核心，使用雙向語言模型逐步向左右拓展生成整句。這個過程模仿人類由景生情創造詩歌的過程。設計的網絡能夠很大程度的保證句子之間的流暢性、整體性和與圖片的匹配性；使用關鍵字擴展的機制使得生成的詩歌具有多樣性和想象力。

模型簡介

生成現代詩比生成古代詩難度更大，因爲現代詩的題材限制少，可發揮的空間更大，對想象力和創造力的要求更高。由圖片出發生成現代詩的是一個有趣的任務，不同人看一幅畫的感受不同，而且對圖+詩的感受也是不同。以往許多詩歌創作的方法主要是給定關鍵字，生成包含或者關鍵字相關的句子，拼接起來。從圖片進行詩歌生成的優點：圖片包含豐富的信息，因此發揮想象力的空間更多；對圖片的解讀因人而異，因此由圖片生成的詩歌給人的驚喜或者印象往往更加深刻；對於用戶來說，上傳一張自己感興趣的圖片遠比思考關鍵詞要來的簡單。首先從圖片中解析出實體和情感詞組成關鍵字集合；然後對關鍵字集合進行過濾和擴充；最後每一個關鍵字都被作爲一行詩的seed，使用雙向的文本生成方法生成整行詩；一個層次網絡能夠檢測出沒有通過詞間和句子之間流暢度檢驗的詩句，刪除並且重新生成直到通過檢驗。

模型細節

問題定義

把圖片記爲 $query Q$ ，目標是生成現代詩 $P=(l_1, l_2, ... ,l_N)$ ,l_i表示第i行詩，N是最詩歌的行數。對圖片進行目標和情感檢測，得到若干個關鍵字，然後進行關鍵字擴展得到一個關鍵字的集合 $K=(k_1, k_2, ..., k_N)$ ，一共由N關鍵字。對N個關鍵字分別進行詩句生成，檢測未通過詞、句流暢性的詩句，重新生成。

關鍵詞生成

分別使用兩個CNN檢測圖像中的目標和情感，這兩個CNN結構相同但是參數不同。檢測目標的CNN輸出名詞關鍵字，檢測情感傾向的CNN輸出形容詞關鍵字。兩個CNN網絡在ImageNet上進行預訓練並且在相應的下游任務上做fine-tune。論文中使用的CNN網絡是Google-Net。

詩句生成

詩句生成過程使用語言模型來預測下一個單詞 $w_i$ ，爲了讓關鍵字出現在句子中的任意位置，論文使用遞歸生成的方法.具體的方法是訓練一個反向的語言模型，用和分別表示句子的起始符號和結束符號，句子使用關鍵字k_j做初始化，在和均出現了之後停止句子的生成。交替使用正向和逆向的語言模型生成句子下一個左邊和有右邊的詞彙，直至到達或者。

整合成詩

使用雙向語言模型遞歸生成詩句能夠保證詞間的流暢性，爲了保證句子之間的連貫性，在生成第 $l$ 句詩的過程中，論文模型對前 $l-1$ 句詩句做句子編碼作爲當前句生成過程的參數。論文還實現了另一種思路：只使用前一句的編碼信息來約束當前詩句的生成。詩句生成使用的sentence level LSTM網絡和詩句間添加約束的poem level LSTM網絡的均包括3層LSTM layer，每一層包含1024個LSTM單元。

關鍵字的擴展

從圖片生成的關鍵詞的選擇也是一個值得研究的問題。低可信度的關鍵詞會有損詩句和圖像的管理度，低頻的關鍵字會造成生成的詩句質量低下。最好的方法就是選取那些高可信度且與訓練集關聯度高的關鍵字，這樣做的同時又會出現關鍵詞不足的問題，這時候就需要繼進行關鍵字擴展。論文提出即使有效的關鍵字數量多於N的情況，關鍵字擴展也是必要的，這麼做能夠讓詩詞創作跳出直接觀察到的內容，從某種程度上進行聯想。論文對比了三種關鍵字擴展的方法。

不進行關鍵字擴展，如果有效關鍵字少於N，沒有的關鍵字的詩句使用前l句的句子編碼信息生成新句子。
使用訓練集中高頻的詞彙進行擴充，論文中使用的是“life”、“time”和“place”。
高共現詞彙：比如與“city”和“palce”、“child”、“heart”和“land”，這些詞彙。使用高共現詞能夠在保證前後主題一致性的前提下獲得的更好的話題擴展。

流暢性檢查

生成詩歌還應該有能夠在相同的關鍵詞的情況下生成多樣的結果的能力，所以模型使用top n best 的集束搜索。這樣做帶來的後果就是句子內容的流暢性和一致性有所犧牲。爲了解決這個問題，論文對詞和句的連續性進行了檢驗，詞方面使用n-gram和skip n-gram來判斷詞組的正確性和兩個詞的語義連續性；在語法層面，我們利用詞性標註語料庫訓練了一個基於lstm的語言模型，並將其應用於詞性標註候選句的生成概率計算。丟棄沒有達到標準的句子，接着重新生成。

實驗設置

爲了得到不同部件最優的組合方式，論文使用了貪心搜索策略，每一步都選出當前最優的組合方法，下一步再在當前結構上增加新的組件。實驗分爲兩個部分：

關注不同的新詞生成方法。論文提出的雙向遞歸生成新詞的方法大幅度佔優；在此基礎上，加入前l句信息的poemlstm的效果明顯優於基於前句信息的preline。
關注關鍵詞提取和擴展的質量。質量從生成關鍵字的相關性、創造性方面由人工進行打分，選擇高共現相關方法進行關鍵詞擴展的方法獲得最高的評分。

實驗結果

baseline選擇的是Image2caption和CTRIP，Image2captain的任務是進行圖片標題生成，CTRIP是一個古詩創作的模型，同樣可以通過觀察圖像生成詩歌。評價方法：同時展示三種模型生成的內容，由人工評委進行打分，區間1-5；指標爲：相關性、流暢性、想象力、動人性和給人的印象程度。結果：Image2Caption在相關性上佔優，CTRIP和論文模型在其他方面大幅領先Image2Caption，論文模型在imaginative、touching和impressive上效果最好，CTRIP在流暢性上得分最高。

[arxiv 2018] [paper] Image Inspired Poetry Generation in XiaoIce

小冰創作詩歌機制詳解

論文內容

模型簡介

模型細節

問題定義

關鍵詞生成

詩句生成

整合成詩

關鍵字的擴展

流暢性檢查

實驗設置

實驗結果

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

七個習慣之五：知彼解己

七個習慣之二：以終爲始

詳解注意力機制（Attention）——Global/Local/Self Attention

EM算法詳細推導（啓發性）

七個習慣之六：統合綜效

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結