漢語言自然處理工具HanLP----感受皮毛

分詞設置

  1. segment

    HanLP是StandardTokenizer的包裝,所以修改StandardTokenizer.SEGMENT.的設置,HanLP.segment的設置也會相應改變

  2. 結果List
    可以直接輸出,但Term做的真的很強大----
    term.word獲得分好的詞
    term.nature獲得詞性
    term.

  3. 詞性表
    每個詞的詞性可以通過調用term.nature獲得
    詞表轉自 https://blog.csdn.net/u014258362/article/details/81044286

1 Are
a 形容詞
ad 副形詞
ag 形容詞性語素
al 形容詞性慣用語
an 名形詞
b 區別詞
begin
bg 區別語素
bl 區別詞性慣用語
c 連詞
cc 並列連詞
d 副詞
dg 輒,俱,復之類的副詞
dl 連語
e 嘆詞
end 僅用於終##終
f 方位詞
g 學術詞彙
gb 生物相關詞彙
gbc 生物類別
gc 化學相關詞彙
gg 地理地質相關詞彙
gi 計算機相關詞彙
gm 數學相關詞彙
gp 物理相關詞彙
h 前綴
i 成語
j 簡稱略語
k 後綴
l 習用語
m 數詞
mg 數語素
Mg 甲乙丙丁之類的數詞
mq 數量詞
n 名詞
nb 生物名
nba 動物名
nbc 動物綱目
nbp 植物名
nf 食品,比如“薯片”
ng 名詞性語素
nh 醫藥疾病等健康相關名詞
nhd 疾病
nhm 藥品
ni 機構相關(不是獨立機構名)
nic 下屬機構
nis 機構後綴
nit 教育相關機構
nl 名詞性慣用語
nm 物品名
nmc 化學品名
nn 工作相關名詞
nnd 職業
nnt 職務職稱
nr 人名
nr1 複姓
nr2 蒙古姓名
nrf 音譯人名
nrj 日語人名
ns 地名
nsf 音譯地名
nt 機構團體名
ntc 公司名
ntcb 銀行
ntcf 工廠
ntch 酒店賓館
nth 醫院
nto 政府機構
nts 中小學
ntu 大學
nx 字母專名
nz 其他專名
o 擬聲詞
p 介詞
pba 介詞“把”
pbei 介詞“被”
q 量詞
qg 量詞語素
qt 時量詞
qv 動量詞
r 代詞
rg 代詞性語素
Rg 古漢語代詞性語素
rr 人稱代詞
ry 疑問代詞
rys 處所疑問代詞
ryt 時間疑問代詞
ryv 謂詞性疑問代詞
rz 指示代詞
rzs 處所指示代詞
rzt 時間指示代詞
rzv 謂詞性指示代詞
s 處所詞
t 時間詞
tg 時間詞性語素
u 助詞
ud 助詞
ude1 的 底
ude2
ude3
udeng 等 等等 云云
udh 的話
ug
uguo
uj 助詞
ul 連詞
ule 了 嘍
ulian 連 (“連小學生都會”)
uls 來講 來說 而言 說來
usuo
uv 連詞
uyy 一樣 一般 似的 般
uz
uzhe
uzhi
v 動詞
vd 副動詞
vf 趨向動詞
vg 動詞性語素
vi 不及物動詞(內動詞)
vl 動詞性慣用語
vn 名動詞
vshi 動詞“是”
vx 形式動詞
vyou 動詞“有”
w 標點符號
wb 百分號千分號,全角:% ‰ 半角:%
wd 逗號,全角:, 半角:,
wf 分號,全角:; 半角: ;
wh 單位符號,全角:¥ $ £ ° ℃ 半角:$
wj 句號,全角:。
wky 右括號,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >
wkz 左括號,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <
wm 冒號,全角:: 半角: :
wn 頓號,全角:、
wp 破折號,全角:—— -- ——- 半角:— —-
ws 省略號,全角:…… …
wt 歎號,全角:!
ww 問號,全角:?
wyy 右引號,全角:” ’ 』
wyz 左引號,全角:“ ‘ 『
x 字符串
xu 網址URL
xx 非語素字
y 語氣詞(delete yg)
yg 語氣語素
z 狀態詞
zg 狀態詞
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章