使用Jieba詞性分類
- Jieba下進行詞性分類非常簡便。
# -*- encoding=utf-8 -*-
import jieba.posseg as pseg
words = pseg.cut("我愛北京天安門")
for word, flag in words:
print('%s, %s' % (word, flag))
以經典句子爲例,“我愛北京天安門“,詞性分類的結果爲:
我 /r
愛 /v
北京 /ns
天安門 /ns
詞性
詞性指以詞的特點作爲劃分詞類的根據。現代漢語的詞可以分爲兩類14種詞性。
常見詞性分類
詞性分類又叫詞性標註(Part-Of-Speech tag, POS-tag),常見的詞性標準類型如下:
1、名詞
- n 名詞
- nr 人名
- nr1 漢語姓氏
- nr2 漢語名字
- nrj 日語人名
- nrf 音譯人名
- ns 地名
- nsf 音譯地名
- nt 機構團體名
- nz 其它專名
- nl 名詞性慣用語
- ng 名詞性語素
2、時間詞
- t 時間詞
- tg 時間詞性語素
3、處所詞
- s 處所詞 (在公司,在學校)
4、方位詞
- f 方位詞
5、動詞
- v 動詞
- vd 副動詞
- vn 名動詞
- vshi 動詞“是”
- vyou 動詞“有”
- vf 趨向動詞
- vx 形式動詞
- vi 不及物動詞(內動詞)
- vl 動詞性慣用語
- vg 動詞性語素
6、形容詞
- a 形容詞
- ad 副形詞
- an 名形詞
- ag 形容詞性語素
- al 形容詞性慣用語
7、區別詞
- b 區別詞
- bl 區別詞性慣用語
8、狀態詞
- z 狀態詞
9、代詞
- r 代詞
- rr 人稱代詞
- rz 指示代詞
- rzt 時間指示代詞
- rzs 處所指示代詞
- rzv 謂詞性指示代詞
- ry 疑問代詞
- ryt 時間疑問代詞
- rys 處所疑問代詞
- ryv 謂詞性疑問代詞
- rg 代詞性語素
10、數詞
- m 數詞
- mq 數量詞
11、量詞
- q 量詞
- qv 動量詞
- qt 時量詞
12、副詞
- d 副詞
13、介詞
- p 介詞
- pba 介詞“把”
- pbei 介詞“被”
14、連詞
- c 連詞
- cc 並列連詞
文本挖掘主要有哪些功能
自然語言處理技術文本挖掘功能:
* 涉黃涉政檢測:對文本內容做涉黃涉政檢測,滿足相應政策要求;
* 垃圾評論過濾:在論壇發言或用戶評論中,過濾文本中的垃圾廣告,提升文本總體質量;
* 情感分析:對用戶評論等文本內容做情感分析,指導決策與運營;
* 自動標籤提取:自動提取文本重要內容生成關鍵性標籤,在此基礎之上拓展更多功能形式;
* 文本自動分類:通過對文本內容進行分析,給出文本所屬的類別和置信度,支持二級分類.