使用马尔可夫链构建文本生成器

本文中将介绍一个流行的机器学习项目——文本生成器,你将了解如何构建文本生成器,并了解如何实现马尔可夫链以实现更快的预测模型。

文本生成器简介

文本生成在各个行业都很受欢迎,特别是在移动、应用和数据科学领域。甚至新闻界也使用文本生成来辅助写作过程。

在日常生活中都会接触到一些文本生成技术,文本补全、搜索建议,Smart Compose,聊天机器人都是应用的例子,

本文将使用马尔可夫链构建一个文本生成器。这将是一个基于字符的模型,它接受链的前一个字符并生成序列中的下一个字母。

通过使用样例单词训练我们的程序,文本生成器将学习常见的字符顺序模式。然后,文本生成器将把这些模式应用到输入,即一个不完整的单词,并输出完成该单词的概率最高的字符。

文本生成是自然语言处理的一个分支,它根据之前观察到的语言模式预测并生成下一个字符。

在没有机器学习之前,NLP是通过创建一个包含英语中所有单词的表,并将传递的字符串与现有的单词匹配来进行文字生成的。这种方法有两个问题。

  • 搜索成千上万个单词会非常慢。
  • 生成器只能补全它以前见过的单词。

机器学习和深度学习的出现,使得NLP允许我们大幅减少运行时并增加通用性,因为生成器可以完成它以前从未遇到过的单词。如果需要NLP可以扩展到预测单词、短语或句子!

对于这个项目,我们将专门使用马尔可夫链来完成。马尔可夫过程是许多涉及书面语言和模拟复杂分布样本的自然语言处理项目的基础。

马尔可夫过程是非常强大的,以至于它们只需要一个示例文档就可以用来生成表面上看起来真实的文本。

 

完整文章:

https://avoid.overfit.cn/post/20212b30f7b94f2cacd66e8386626fcf

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章