【python 走進NLP】使用Jieba進行中文詞性標註

使用Jieba詞性分類

  • Jieba下進行詞性分類非常簡便。
# -*- encoding=utf-8 -*-

import jieba.posseg as pseg


words = pseg.cut("我愛北京天安門")



for word, flag in words:
    print('%s, %s' % (word, flag))

以經典句子爲例,“我愛北京天安門“,詞性分類的結果爲:

我 /r
愛 /v
北京 /ns
天安門 /ns

詞性

詞性指以詞的特點作爲劃分詞類的根據。現代漢語的詞可以分爲兩類14種詞性。

常見詞性分類

詞性分類又叫詞性標註(Part-Of-Speech tag, POS-tag),常見的詞性標準類型如下:

1、名詞

  • n 名詞
  • nr 人名
  • nr1 漢語姓氏
  • nr2 漢語名字
  • nrj 日語人名
  • nrf 音譯人名
  • ns 地名
  • nsf 音譯地名
  • nt 機構團體名
  • nz 其它專名
  • nl 名詞性慣用語
  • ng 名詞性語素

2、時間詞

  • t 時間詞
  • tg 時間詞性語素

3、處所詞

  • s 處所詞 (在公司,在學校)

4、方位詞

  • f 方位詞

5、動詞

  • v 動詞
  • vd 副動詞
  • vn 名動詞
  • vshi 動詞“是”
  • vyou 動詞“有”
  • vf 趨向動詞
  • vx 形式動詞
  • vi 不及物動詞(內動詞)
  • vl 動詞性慣用語
  • vg 動詞性語素

6、形容詞

  • a 形容詞
  • ad 副形詞
  • an 名形詞
  • ag 形容詞性語素
  • al 形容詞性慣用語

7、區別詞

  • b 區別詞
  • bl 區別詞性慣用語

8、狀態詞

  • z 狀態詞

9、代詞

  • r 代詞
  • rr 人稱代詞
  • rz 指示代詞
  • rzt 時間指示代詞
  • rzs 處所指示代詞
  • rzv 謂詞性指示代詞
  • ry 疑問代詞
  • ryt 時間疑問代詞
  • rys 處所疑問代詞
  • ryv 謂詞性疑問代詞
  • rg 代詞性語素

10、數詞

  • m 數詞
  • mq 數量詞

11、量詞

  • q 量詞
  • qv 動量詞
  • qt 時量詞

12、副詞

  • d 副詞

13、介詞

  • p 介詞
  • pba 介詞“把”
  • pbei 介詞“被”

14、連詞

  • c 連詞
  • cc 並列連詞

文本挖掘主要有哪些功能

自然語言處理技術文本挖掘功能:
* 涉黃涉政檢測:對文本內容做涉黃涉政檢測,滿足相應政策要求;
* 垃圾評論過濾:在論壇發言或用戶評論中,過濾文本中的垃圾廣告,提升文本總體質量;
* 情感分析:對用戶評論等文本內容做情感分析,指導決策與運營;
* 自動標籤提取:自動提取文本重要內容生成關鍵性標籤,在此基礎之上拓展更多功能形式;
* 文本自動分類:通過對文本內容進行分析,給出文本所屬的類別和置信度,支持二級分類.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章