ansj_seg使用

<dependency>
   <groupId>org.ansj</groupId>
    <artifactId>ansj_seg</artifactId>
    <version>5.1.3</version>
</dependency>
val rdd = sc.textFile("C:\\Users\\haha\\Desktop\\chapter.txt")

val recognition = new StopRecognition()
recognition.insertStopWords("我", "的", "是", "說", "看", "了", "也", "你", "在")
recognition.insertStopNatures("w")//根據詞性來做停用詞
rdd.flatMap(f=>{
//      println(f)
    var ary:Array[String] = Array[String]()
    val parse = NlpAnalysis.parse(f).recognition(recognition)
    // val parse = ToAnalysis.parse(f).recognition(recognition)
    //val parse = IndexAnalysis.parse(f).recognition(recognition)
    //val parse = DicAnalysis.parse(f).recognition(recognition)
    //val parse = BaseAnalysis.parse(f).recognition(recognition)
    val iter = parse.iterator()
    while (iter.hasNext){
        val name = iter.next().getName
        //println(name)
        ary = ary :+ name
    }
    ary
}).map(f=>(f, 1)).reduceByKey(_+_).sortBy(_._2, false).collect().foreach(println)
# 1. 名詞  (1個一類,7個二類,5個三類)
名詞分爲以下子類:
n 名詞
nr 人名
nr1 漢語姓氏
nr2 漢語名字
nrj 日語人名
nrf 音譯人名
ns 地名
nsf 音譯地名
nt 機構團體名
nz 其它專名
nl 名詞性慣用語
ng 名詞性語素
nw 新詞
# 2. 時間詞(1個一類,1個二類)
t 時間詞
tg 時間詞性語素
# 3. 處所詞(1個一類)
s 處所詞
# 4. 方位詞(1個一類)
f 方位詞
# 5. 動詞(1個一類,9個二類)
v 動詞
vd 副動詞
vn 名動詞
vshi 動詞“是”
vyou 動詞“有”
vf 趨向動詞
vx 形式動詞
vi 不及物動詞(內動詞)
vl 動詞性慣用語
vg 動詞性語素
# 6. 形容詞(1個一類,4個二類)
a 形容詞
ad 副形詞
an 名形詞
ag 形容詞性語素
al 形容詞性慣用語
# 7. 區別詞(1個一類,2個二類)
b 區別詞
bl 區別詞性慣用語
# 8. 狀態詞(1個一類)
z 狀態詞
# 9. 代詞(1個一類,4個二類,6個三類)
r 代詞
rr 人稱代詞
rz 指示代詞
rzt 時間指示代詞
rzs 處所指示代詞
rzv 謂詞性指示代詞
ry 疑問代詞
ryt 時間疑問代詞
rys 處所疑問代詞
ryv 謂詞性疑問代詞
rg 代詞性語素
# 10. 數詞(1個一類,1個二類)
m 數詞
mq 數量詞
# 11. 量詞(1個一類,2個二類)
q 量詞
qv 動量詞
qt 時量詞
# 12. 副詞(1個一類)
d 副詞
# 13. 介詞(1個一類,2個二類)
p 介詞
pba 介詞“把”
pbei 介詞“被”
# 14. 連詞(1個一類,1個二類)
c 連詞
 cc 並列連詞
# 15. 助詞(1個一類,15個二類)
u 助詞
uzhe 着
ule 了 嘍
uguo 過
ude1 的 底
ude2 地
ude3 得
usuo 所
udeng 等 等等 云云
uyy 一樣 一般 似的 般
udh 的話
uls 來講 來說 而言 說來
uzhi 之
ulian 連 (“連小學生都會”)
# 16. 嘆詞(1個一類)
e 嘆詞
# 17. 語氣詞(1個一類)
y 語氣詞(delete yg)
# 18. 擬聲詞(1個一類)
o 擬聲詞
# 19. 前綴(1個一類)
h 前綴
# 20. 後綴(1個一類)
k 後綴
# 21. 字符串(1個一類,2個二類)
x 字符串
 xx 非語素字
 xu 網址URL
# 22. 標點符號(1個一類,16個二類)
w 標點符號
wkz 左括號,全角:( 〔  [  {  《 【  〖〈   半角:( [ { <
wky 右括號,全角:) 〕  ] } 》  】 〗 〉 半角: ) ] { >
wyz 左引號,全角:“ ‘ 『 
wyy 右引號,全角:” ’ 』
wj 句號,全角:。
ww 問號,全角:? 半角:?
wt 歎號,全角:! 半角:!
wd 逗號,全角:, 半角:,
wf 分號,全角:; 半角: ;
wn 頓號,全角:、
wm 冒號,全角:: 半角: :
ws 省略號,全角:……  …
wp 破折號,全角:——   --   ——-   半角:---  ----
wb 百分號千分號,全角:% ‰   半角:%
wh 單位符號,全角:¥ $ £  °  ℃  半角:$
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章