【python 走進NLP】使用Jieba進行中文詞性標註

原創

2018-09-06 22:32

使用Jieba詞性分類

Jieba下進行詞性分類非常簡便。

# -*- encoding=utf-8 -*-

import jieba.posseg as pseg


words = pseg.cut("我愛北京天安門")



for word, flag in words:
    print('%s, %s' % (word, flag))

以經典句子爲例，“我愛北京天安門“，詞性分類的結果爲：

我 /r
愛 /v
北京 /ns
天安門 /ns

詞性

詞性指以詞的特點作爲劃分詞類的根據。現代漢語的詞可以分爲兩類14種詞性。

常見詞性分類

詞性分類又叫詞性標註(Part-Of-Speech tag, POS-tag),常見的詞性標準類型如下：

1、名詞

n 名詞
nr 人名
nr1 漢語姓氏
nr2 漢語名字
nrj 日語人名
nrf 音譯人名
ns 地名
nsf 音譯地名
nt 機構團體名
nz 其它專名
nl 名詞性慣用語
ng 名詞性語素

2、時間詞

t 時間詞
tg 時間詞性語素

3、處所詞

s 處所詞 (在公司，在學校)

4、方位詞

f 方位詞

5、動詞

v 動詞
vd 副動詞
vn 名動詞
vshi 動詞“是”
vyou 動詞“有”
vf 趨向動詞
vx 形式動詞
vi 不及物動詞（內動詞）
vl 動詞性慣用語
vg 動詞性語素

6、形容詞

a 形容詞
ad 副形詞
an 名形詞
ag 形容詞性語素
al 形容詞性慣用語

7、區別詞

b 區別詞
bl 區別詞性慣用語

8、狀態詞

z 狀態詞

9、代詞

r 代詞
rr 人稱代詞
rz 指示代詞
rzt 時間指示代詞
rzs 處所指示代詞
rzv 謂詞性指示代詞
ry 疑問代詞
ryt 時間疑問代詞
rys 處所疑問代詞
ryv 謂詞性疑問代詞
rg 代詞性語素

10、數詞

m 數詞
mq 數量詞

11、量詞

q 量詞
qv 動量詞
qt 時量詞

12、副詞

d 副詞

13、介詞

p 介詞
pba 介詞“把”
pbei 介詞“被”

14、連詞

c 連詞
cc 並列連詞

文本挖掘主要有哪些功能

自然語言處理技術文本挖掘功能：
* 涉黃涉政檢測：對文本內容做涉黃涉政檢測，滿足相應政策要求；
* 垃圾評論過濾：在論壇發言或用戶評論中，過濾文本中的垃圾廣告，提升文本總體質量；
* 情感分析：對用戶評論等文本內容做情感分析，指導決策與運營；
* 自動標籤提取：自動提取文本重要內容生成關鍵性標籤，在此基礎之上拓展更多功能形式；
* 文本自動分類：通過對文本內容進行分析，給出文本所屬的類別和置信度，支持二級分類.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【python 走進NLP】使用Jieba進行中文詞性標註

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

【深度學習走進tensorflow2.0】TensorFlow binary was not compiled to use: AVX2

【matlab 圓周率計算】matlab 求圓周率的兩種算法實現比較

【深度學習走進tensorflow2.0】TensorFlow 2.0 常用模塊@tf.function

【機器學習非線性迴歸模型】10分鐘瞭解下8種常見的非線性迴歸模型

【深度學習走開tensorflow2.0】TensorFlow 2.0 常用模塊tf.TensorArray

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結