文本分类方向的一点探索 | 解读自然语言处理技术之文本向量和词向量

最近在做文本分类的项目,在这个方向上有点自己的思考,总结出来,希望对大家有帮助。


研究意义

我们身边每天所产生的信息量正在迅猛增加,而这些信息基本都是非结构化的海量文本。
人类可以轻松处理与感知非结构化文本,但机器显然很难理解。
不用说,这些文本定然是信息和知识的一个宝贵来源。因此,设计出能有效处理各类应用中非结构化文本的方法就显得便迫在眉睫。


概念理解

首先我们要达成一个共识,也就是对文本挖掘这个概念的认识,大家先听听我的理解,看看和你们的认识是否一样。

文本挖掘是从文本中进行数据挖掘。
从这个意义上讲,文本挖掘是数据挖掘的一个分支。
它能做的事情包括信息抽取、文本摘要、观点挖掘、情感分析等。


带来的价值

文本挖掘这么厉害,他到底能为企业带来什么价值呢,下面我举一个实际的例子来说明。

大家猜一猜这幅图的业务背景是什么?它能说明什么问题?
这里写图片描述

这个是通过某平台抓取的数据,进行文本挖掘后的图片,从图片里可以很清楚的看到评论的负面几乎都是来源于服务相关的。虽然说也有一部分人说味道难吃。作为这家企业的决策人,你是首先会先去解决哪个问题?我想当然是解决服务相关的问题,因为这才是主要问题,这样才能决定企业大方向的改变(一直朝着好的方向)。
这就是文本挖掘的作用,可以在茫茫多的数据中分析出事物的规律性和关联性等,从而让决策者做出更加符合市场的战略规划或布局。


问题特征

大家可能好奇了,这些业务难题的共同点是什么,为什么算法能解决这样的问题。

当业务问题具有以上四个特征的时候,我们就可以应用机器学习算法来解决

  • 大量数据
  • 规范存储
  • 有学习样本
  • 重复的操作

解决方法

这里写图片描述
三步走,方法从简单到复杂演变,这也是一个理解业务,理解数据的过程。

  • 在人们发现机器学习、深度学习的潜力之前传统的文本分类模型比较简单,技术上的难度不是很大,基于关键词词典,关键词主要靠人的经验。
  • 朴素贝叶斯是现在应用比较广泛的解决文本分类的方案,包括垃圾邮件识别、新闻分类等。它基于TF-IDF向量空间,要有标记样本。
  • fasttext方法是目前比较前沿的技术,它是Facebook在16年年底开源的一个项目。它基语义分析,模型相对比较复杂。

到这里大家是不是有点懵了,是不是很想知道TF-IDF向量空间和语义分析是个什么鬼,他们的主要区别在哪里。


技术解析

这里写图片描述
其实TF-IDF向量空间可以理解为我们把一篇文章映射到一个词向量的空间,每个词语对应一个位置,就像这样(上图)。
语义分析的复杂是它又加入了一个词语的相关性空间,它是两个空间的叠加。
将词用“词向量”的方式表示可谓是将 深度学习算法引入 NLP 领域的一个核心技术。


#####建模过程
这里写图片描述

模型应用之前有五个环节的工作。
第一个环节是提取录音文件,这些录音文件我们有积累。
第二个环节是录音文件转xml存储。
第三个环节是将这些文件解析成我们需要的格式,只保留需要研究的信息。
然后是文本的预处理,我们知道机器不能直接处理这样的非结构化的文本,我们需要采取一些措施将文本转换成数值才能做计算。
最后一个环节就是模型的训练,这个环节是最耗时间的一个环节,也是最考察能力的一个环节,需要深入理解业务,做出算法选和各个参数的选择。


机器学习过程

这里写图片描述

  • 将样本分成两部分:训练集和测试集。
  • 在进入模型之前对训练集和测试集做相同的操作,即分词和转TDM矩阵。
  • 这里的核心是训练集和测试集共用一个向量空间
建模反思

这里写图片描述
最后总结一下,如果在生产环境下表现不理想。
可能是三个原因造成的,即标记样本积累量不够、训练样本的选择策略有问题或目标类别不均衡。
怎么解决呢,可以尝试上面提到的第三种方式,引入词向量的方式。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章