统计自然语言处理学习 (序及第一章)

统计自然语言处理学习 (序及第一章)

自然语言处理定义

  • 是一门交叉学科,包括自然语言学,数学(代数,概率)
  • 自然语言处理要研制表示语言能力(linguistic competence)语言应用(linguistic performance)的模型,建立计算框架来实现,这样的语言模型,,根据这样的模型设计各种实用系统,并探讨这些使用系统的测评技术

统计自然语言处理应用

机器翻译,语音翻译,语音合成,文字识别,文本分类,信息检索,问答系统,信息抽取,口语信息处理,人机对话系统。

自然语言处理的方法

基于规则的自然语言处理(理性主义)

  1. 人的大部分语言知识与生俱来,由遗传决定
  2. 主张建立符号处理系统,由人工整理和编写的初始语言知识表示体系(规则),构造推理程序。
  3. 系统根据规则和程序,将自然语言理解为符号结构。

处理流程

  1. 由词法分析器按词法规则对单词进行词法分析。
  2. 语法分析器按语法规则对句子进行语法结构分析。
  3. 最后按变换规则将语法结构映射到语义符号。

优点

  1. 可以有效处理语言学问题,如长距离依存问题,长距离主谓一致问题,wh移位问题。
  2. 模型可以双向使用,即可用于分析,亦可用于生成。
  3. 使用面广,可在语音,形态研究中使用,也可在句法,语义,语用,篇章分析中使用。
  4. 与一些高效算法兼容。

缺点

  1. 语言模型脆弱,鲁棒性差。
  2. 不能通过机器学习的方法自动获得。需要大量不同领域专家合作。
  3. 针对性强,很难移植向解决其他问题。
  4. 效果没有基于经验的方法好,不能根据数据的类型与数量有所调整

基于统计的自然语言处理(经验主义)

  1. 假定人脑具有一定的认知能力
  2. 假定具有处理联想(association)模式识别(pattern recognition)通用化(generalization)处理的能力,以此为基础掌握具体的自然语言结构。
  3. 又称为统计自然语言处理方法(statistical natural language processing)
  4. 以大量文本(语料(corpus))作为基础。

处理流程

  1. 通过建立特定的数学模型,学习复杂广泛的语言结构。
  2. 利用统计学模式识别,和机器学习等方法来训练模型的参数,以扩大语言使用的规模。

优点

  1. 可以自动或半自动的从语料中提取模型。
  2. 训练数据规模越大,效果越好
  3. 很容易与基于理性的方法结合。
  4. 可以模拟模糊概念,如“很少,若干”。

缺点

  1. 运行效率与统计模式中符号的类别多少成正比。
  2. 为特殊领域训练模型时,容易出错,且难以避免。因为**训练语料库的质量很大程度上决定了基于统计的经验主义方法的结果。
  3. 很容易出现数据稀疏问题。(无用数据多,矩阵中,既,0元素多)

总结

在机器翻译问题解决之前,永远没有过时的理论和方法,也绝不该有哪一种方法可以唯我独尊。两种方法要结合使用追求最好的结果。

中文信息处理遭遇的问题

生词识别问题,歧义消解问题,汉语自动分词问题,词性定义规范问题

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章