AI 智能寫作與智能寫詩

源:你身邊的寫作助手:智能寫作全景介紹 - 飛槳PaddlePaddle的文章 - 知乎

智能寫作

一、自動寫作

​ 自動寫作通常以海量素材爲基礎,按照應用需求線索(例如事件、人物等)篩選合適的內容,並基於對內容的分析抽取關注的信息,最後按照寫作邏輯組織爲篇章結果。

二、輔助寫作

​ 寫什麼?如何寫?如何寫好?推給合適的用戶?

  • 自動糾錯

    ​ 人工智能模型通過學習大量已知的錯誤拼寫、搭配等語料,對於正在寫作的文章提供實時的錯誤檢測和修改建議。

  • 寫作聯想

    ​ 人工智能模型通過學習大量同類文章,可以從統計概率角度推測未完成的句子的後續部分,或已完成句子的下一個句子,這種寫作聯想在特定領域(例如法律文書)的寫作中可以有效提升創作效率

  • 寫作素材推薦

    ​ 在寫作過程中,輔助寫作可以根據人類正在寫作的內容,推薦相關的熱點、事件發展脈絡等實用信息和素材,節省作者單獨搜索整理素材的時間,提高寫作體驗的連貫性

  • 標題推薦

    ​ 標題對於創作非常重要,但構思一個具有吸引力的標題並非易事,算法可以在學習大量高質量標題的基礎上,爲寫作者推薦具有吸引力的優質標題

三、智能寫作核心技術

  1. 經典自然語言生成算法

    三個核心步驟:篇章規劃、微觀規劃和表層實現

    • 篇章規劃

      ​ 這一步驟解決**“寫什麼”**的問題。篇章規劃步驟需要決定最終寫作結果的標題、段落佈局,以及每個文章部分對應的輸入素材。

    • 微觀規劃

      ​ 這一步驟解決**“如何寫”**的問題。常用模板寫作(Template-based Generation)完成這一步驟。

    • 表層實現

      ​ 解決**“如何形成符合人類習慣的自然語言”**的問題。其中比較典型的一個例子是指代生成(Referring Expression Generation),這類方法可以識別需要替換爲代詞的實體,從而更符合人類的寫作習慣。

  2. 神經網絡序列生成算法

  3. 文本分析技術

    智能寫作素材的“輸入”。

    ​ 對於各類素材,需要利用 文本分析技術 抽取關鍵詞、標籤、情感傾向、摘要等用於智能寫作的特徵。

四、智能寫作VS人工撰稿

誤解:智能寫作技術能夠完全替代人類的寫作工作。

​ 寫作是人類創造力和智能的集中體現,完全能夠替代人類的智能寫作技術距離實現仍有較大差距。因此在實踐中,智能寫作的意義並非替代人類的工作,而是作爲一種人工智能賦能的新生產力工具,幫助人類提升媒體、文創等相關行業的生產效率。

五、智能寫作展望

​ 未來技術和應用探索的方向:

  • 如何引入知識與常識
  • 如何不依賴平行語料訓練序列生成算法
  • 如何高效評估智能寫作算法效果
  • 如何賦予智能寫作技術人文關懷特性
  • 如何建設智能寫作倫理體系

智能寫詩

一、基於傳統方法的詩歌生成

機器詩歌生成的工作,始於 20 世紀 70 年代。傳統的詩歌生成方法,主要有以下幾種:

  • **Word Salada(詞語沙拉):**是最早期的詩歌生成模型,被稱作只是簡單將詞語進行隨機組合和堆砌而不考慮語義語法要求。
  • **基於模板和模式的方法:**基於模板的方法類似於完形填空,將一首現有詩歌挖去一些詞,作爲模板,再用一些其他詞進行替換,產生新的詩歌。這種方法生成的詩歌在語法上有所提升,但是靈活性太差。因此後來出現了基於模式的方法,通過對每個位置詞的詞性,韻律平仄進行限制,來進行詩歌生成。
  • **基於遺傳算法的方法:**周昌樂等提出並應用到宋詞生成上。這裏將詩歌生成看成狀態空間搜索問題。先從隨機詩句開始,然後藉助人工定義的詩句評估函數,不斷進行評估,進化的迭代,最終得到詩歌。這種方法在單句上有較好的結果,但是句子之間缺乏語義連貫性。
  • **基於摘要生成的方法:**嚴睿等將詩歌生成看成給定寫作意圖的摘要生成問題,同時加入了詩歌相關的一些優化約束。
  • **基於統計機器翻譯的方法:**MSRA 的何晶和周明將詩歌生成看成一個機器翻譯問題,將上一句看成源語言,下一句看成目標語言,用統計機器翻譯模型進行翻譯,並加上平仄押韻等約束,得到下一句。通過不斷重複這個過程,得到一首完整的詩歌。

二、Chinese Poetry Generation with Recurrent Neural Networks

核心思想:

圖解:

​ 這篇論文 2014 年發表在 EMNLP。

​ 這篇論文提出了一個基於 RNN 的中國古詩生成模型。

​ 首先由用戶給定的關鍵詞生成第一句,然後由第一句話生成第二句話,由一,二句話生成第三句話,重複這個過程,直到詩歌生成完成。模型的模型由三部分組成:

  • **Convolutional Sentence Model(CSM):**CNN 模型,用於獲取一句話的向量表示。
  • **Recurrent Context Model (RCM):**句子級別的 RNN,根據歷史生成句子的向量,輸出下一個要生成句子的 Context 向量。
  • **Recurrent Generation Model (RGM):**字符級別 RNN,根據 RCM 輸出的 Context 向量和該句之前已經生成的字符,輸出下一個字符的概率分佈。解碼的時候根據 RGM 模型輸出的概率和語言模型概率加權以後,生成下一句詩歌,由人工規則保證押韻

模型結構如下圖

當 AI 邂逅藝術:機器寫詩綜述

模型生成例子如下圖:

當 AI 邂逅藝術:機器寫詩綜述

https://zhuanlan.zhihu.com/p/26604113

https://www.cnblogs.com/naniJser/p/9029619.html

https://blog.csdn.net/wty__/article/details/52677834

七、Chinese Poetry Generation with Planning based Neural Network

​ 模型不需要專家知識,是一個端到端的模型。它試圖模仿人類開始寫作前,先規劃一個寫作大綱的過程。整個詩歌生成框架由兩部分組成:規劃模型和生成模型

**規劃模型:**將代表用戶寫作意圖的 Query 作爲輸入,生成一個寫作大綱。寫作大綱是一個由主題詞組成的序列,第 i 個主題詞代表第 i 句的主題。**使用 TextRank 算法結合 word2Vec 詞向量對關鍵詞重要性排列,取最重要的關鍵詞。如果能提取的關鍵詞過少,則使用 RNN 進行預測新的關鍵詞。**如果用戶輸入的關鍵詞不在詞典中,使用 Knowledge-based method 進行關鍵詞擴充(百度百科、wikepedia、WordNet)

**生成模型:**基於 encoder-decoder 框架。有兩個 encoder, 其中一個 encoder 將主題詞作爲輸入,另外一個 encoder 將歷史生成的句子拼在一起作爲輸入,由 decoder 生成下一句話。decoder 生成的時候,利用 Attention 機制,對主題詞和歷史生成內容的向量一起做打分,由模型來決定生成的過程中各部分的重要性。

上個模型,用戶的寫作意圖,基本只能反映在第一句,隨着生成過程往後進行,後面句子和用戶寫作意圖的關係越來越弱,就有可能發生主題漂移問題。而規劃模型可以使用戶的寫作意圖直接影響整首詩的生成,因此在一定程度上,避免了主題漂移問題,使整首詩的邏輯語義更爲連貫。

總體框架圖如下:

當 AI 邂逅藝術:機器寫詩綜述

生成模型框架圖如下:

當 AI 邂逅藝術:機器寫詩綜述

**詩歌圖靈測試:**給定一個題目,讓機器和人分別做一首詩 ,由人來區分哪首詩是人寫的。實驗結果也很有意思,對普通人來說,已經無法區分詩是由機器生成的還是人生成的,下面是一組測試的例子:

當 AI 邂逅藝術:機器寫詩綜述

現代概念詩歌生成例子:

當 AI 邂逅藝術:機器寫詩綜述

https://www.h3399.cn/201804/571672.html

https://www.leiphone.com/news/201705/f76IMF23tRNKhpkW.html

https://www.cnblogs.com/naniJser/p/6059228.html

https://www.h3399.cn/201804/571672.html

https://www.leiphone.com/news/201705/f76IMF23tRNKhpkW.html

https://www.cnblogs.com/naniJser/p/6059228.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章