keras基於CNN和序列標註的對聯機器人

原創

2019-03-14 12:51

動手 #
“對對聯”，我們可以看成是一個句子生成任務，可以用seq2seq完成
分析 #
然而，我們再細想一下就會發現，相對於一般的句子生成任務，“對對聯”有規律得多：1、上聯和下聯的字數一樣；2、上聯和下聯的每一個字幾乎都有對應關係。如此一來，其實對對聯可以直接看成一個序列標註任務，跟分詞、命名實體識別等一樣的做法即可。這便是本文的出發點。

說到這，其實本文就沒有什麼技術含量了，序列標註已經是再普通不過的任務了，遠比一般的seq2seq來得簡單。所謂序列標註，就是指輸入一個向量序列，然後輸出另外一個通常長度的向量序列，最後對這個序列的“每一幀”進行分類。相關概念來可以在《簡明條件隨機場CRF介紹（附帶純Keras實現）》一文進一步瞭解。

模型 #
本文直接邊寫代碼邊介紹模型。如果需要進一步瞭解背後的基礎知識的讀者，還可以參考《【中文分詞系列】 4. 基於雙向LSTM的seq2seq字標註》、《【中文分詞系列】 6. 基於全卷積網絡的中文分詞》、《基於CNN和VAE的作詩機器人：隨機成詩》。

我們所用的模型代碼如下：


x_in = Input(shape=(None,))
x = x_in
x = Embedding(len(chars)+1, char_size)(x)
x = Dropout(0.25)(x)

x = gated_resnet(x)
x = gated_resnet(x)
x = gated_resnet(x)
x = gated_resnet(x)
x = gated_resnet(x)
x = gated_resnet(x)

x = Dense(len(chars)+1, activation='softmax')(x)

model = Model(x_in, x)
model.compile(loss='sparse_categorical_crossentropy',
              optimizer='adam')

其中gated_resnet是筆者定義的門卷積模塊（在《基於CNN的閱讀理解式問答模型：DGCNN》一文也介紹過這個模塊）：

def gated_resnet(x, ksize=3):
    # 門卷積 + 殘差
    x_dim = K.int_shape(x)[-1]
    xo = Conv1D(x_dim*2, ksize, padding='same')(x)
    return Lambda(lambda x: x[0] * K.sigmoid(x[1][..., :x_dim]) \
                            + x[1][..., x_dim:] * K.sigmoid(-x[1][..., :x_dim]))([x, xo])

僅此而已～

就這樣完了，剩下的都是數據預處理的事情了。當然，讀者也可以嘗試也可以把gated_resnet換成普通的雙向LSTM，但我實驗中發現雙向LSTM並沒有gated_resnet效果好，而且LSTM相對來說也更慢，所以LSTM在這裏就被拋棄了。

效果 #
訓練的數據集來自：https://github.com/wb14123/couplet-dataset，感謝作者的整理。

完整代碼：
https://github.com/bojone/seq2seq/blob/master/couplet_by_seq_tagging.py

訓練過程：
對聯機器人訓練過程
對聯機器人訓練過程

部分效果：

上聯：晚風搖樹樹還挺，下聯：夜雨敲花花更香

上聯：今天天氣不錯，下聯：昨日人情無明

上聯：魚躍此時海，下聯：鳥鳴何日人

上聯：只有香如故，下聯：不無月若新

上聯：科學空間，下聯：文明大中

看起來還是有點味道的。注意“晚風搖樹樹還挺”是訓練集的上聯，標準下聯是“晨露潤花花更紅”，而模型給出來的是“夜雨敲花花更香”，說明模型並不是單純地記住訓練集的，還是有一定的理解能力；甚至我覺得模型對出來的下聯更生動一些。

總的來說，基本的字的對應似乎都能做到，就缺乏一個整體感。總體效果沒有下面兩個好，但作爲一個小玩具，應該能讓人滿意了。

微軟對聯：http://duilian.msra.cn/app/couplet.aspx

結語 #

改動後的python3 代碼如下：
https://github.com/PDDsa/py3-couplet_by_seq_tagging
歡迎star~~
cpu版TensorFlow 跑了2.5小時。結果還不錯。

最後，也沒有什麼好總結的。我就是覺得這個對對聯應該算是一個序列標註任務，所以就想着用一個序列標註的模型來試試看，結果感覺還行～當然，要做得更好，需要在模型上做些調整，還可以考慮引入Attention等，然後解碼的時候，還需要引入更多的先驗知識，保證結果符合我們對對聯的要求。這些就留給有興趣做下去的讀者繼續了。

本文轉載自：地址：https://kexue.fm/archives/6270

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

keras基於CNN和序列標註的對聯機器人

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

spark常用功能：使用Spark計算數列統計值

hive常用功能：Hive數據導入導出方式

震驚！不需hadoop環境運行scala和pyspark程序

mysql分號分割開字段。拆分

keras基於CNN和序列標註的對聯機器人

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結