处理目标一致——将词的屈折形态或派生形态简化或归并为词干（stem）或原形的基础形式，都是一种对词的不同形态的统一归并的过程。
主流实现方法类似——均是利用语言中存在的规则或词典映射提取词干或获得词的原形。
结果部分交叉——词干提取和词形还原不是互斥关系，其结果有部分交叉。部分词利用这两类方法都能达到相同的词形转换效果。如“dogs”的词干为“dog”，其原形（词形还原）也为“dog”。
应用领域相似——主要应用于信息检索和文本、自然语言处理等方面，二者均是这些应用的基本步骤。

不同点

原理：词干提取主要是采用“缩减”的方法，将词转换为词干，如将“cats”处理为“cat”，将“effective”处理为“effect”。而词形还原主要采用“转变”的方法，将词转变为其原形，如将“drove”处理为“drive”，将“driving”处理为“drive”。
实现方法：虽然词干提取和词形还原实现的主流方法类似，但二者在具体实现上各有侧重。词干提取的实现方法主要利用规则变化进行词缀的去除和缩减，从而达到词的简化效果。词形还原则相对较复杂，有复杂的形态变化，单纯依据规则无法很好地完成。词形还原更依赖于词典，进行词形变化和原形的映射，生成词典中的有效词。
复杂性：词干提取方法相对简单，词形还原则需要返回词的原形，需要对词形进行分析，不仅要进行词缀的转化，还要进行词性识别，区分相同词形但原形不同的词的差别。词性标注的准确率也直接影响词形还原的准确率，即词形还原更为复杂。
结果：词干提取和词形还原也有部分区别。词干提取的结果可能并不是完整的、具有意义的词，而只是词的一部分，如“revival”词干提取的结果为“reviv”，“ailiner”词干提取的结果为“airlin”。而词形还原处理后获得的结果是具有意义的、完整的词，一般为词典中的有效词。
应用领域：同样各有侧重。虽然二者均被应用于信息检索和文本处理中，但侧重不同。词干提取更多被应用于信息检索领域，如Solr、Lucene等，用于扩展检索，粒度较粗。词形还原更主要被应用于文本挖掘、自然语言处理，用于更细粒度、更为准确的文本分析和表达。即词形还原更具有研究和应用价值。

代码

词形还原

from nltk.stem import WordNetLemmatizer
wnl = WordNetLemmatizer()
#print(wnl.lemmatize('countries','apples'))


ff=open("xxx.txt",'a',encoding='UTF-8')
list=[];
with open("xxx.txt",'r',encoding='utf-8')as f:
    for line in f:
        LineList=[];
        for word in line.split():
            a=wnl.lemmatize(word)
            LineList.append(a);
        list.append(LineList);
for line in list:
    print(line,file=ff);

词干提取

from nltk.corpus import wordnet as wn
import jieba
import sys
from nltk.stem import WordNetLemmatizer
wnl = WordNetLemmatizer()
#print(wnl.lemmatize('countries','apples'))


ff=open("xxx.txt",'a')
list=[];
with open("xxx.txt",'r',encoding='utf-8')as f:
    for line in f:
        LineList=[];
        for word in line.split():
            a=wnl.lemmatize(word)
            LineList.append(a);
        list.append(LineList);
for line in list:
    print(line,file=ff);

Gensim_词形还原

# -*- coding: utf8 -*-
import spacy
nlp = spacy.load('en', disable=['parser', 'ner'])

texts=[["x"],["xx"]]
def lemmatization(texts, allowed_postags=['NOUN', 'ADJ', 'VERB', 'ADV']):
    """https://spacy.io/api/annotation"""
    texts_out = []
    for sent in texts:
        doc = nlp(" ".join(sent))
        texts_out.append([token.lemma_ for token in doc if token.pos_ in allowed_postags])
    return texts_out

# Do lemmatization keeping only noun, adj, vb, adv
data_lemmatized = lemmatization(texts, allowed_postags=['NOUN', 'ADJ', 'VERB', 'ADV'])
data=str(data_lemmatized)
f=open('xxx.txt','w',encoding='utf-8')
f.writelines(data)
f.close()

说明

参考：https://blog.csdn.net/kaierlong/article/details/50205171，有删改。
代码仅供参考（俺可没说一定对(●'◡'●)）。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【NLP】英文数据预处理___词干/词元处理

简介

异同

相同点

不同点

代码

词形还原

词干提取

Gensim_词形还原

说明

.NET有哪些好用的定时任务调度框架

Python 将PDF转为PDF/A、PDF/X，以及PDF/A转回PDF

elk3

Kafka存储机制

aws语音呼叫调用，告警电话

深度学习框架火焰图pprof和CUDA Nsys配置指南

爬虫两种绕过5s盾的方法

【转】[C#] WebAPI 防止并发调用二（冥等性）

【转】[SQL Server]关掉 SSMS 的 IntelliSense

号称能打败MLP的KAN到底行不行？数学核心原理全面解析

【Python】100基礎例（1-50）+數據分析例

【NLP】預訓練詞向量

【NLP】LDA2Vec筆記（基於cemoody/lda2vec 未實現）

【Python】面向對象_菜鳥教程

【NLP】英文數據預處理___詞幹/詞元處理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結