jiebaR中文分詞,並做詞雲(R語言)

使用結巴中文分詞(jiebaR)對之前爬取的新浪新聞 文本進行分詞,統計詞頻之後,使用包wordcloud畫詞雲。

1、讀入數據

以下數據是在這裏爬取的,這裏只對社會新聞類進行測試,文件還是比較大的。分詞完有一千多萬個詞,處理完後有將近30萬。

這裏寫圖片描述

library(jiebaR)
library(wordcloud)

#讀入數據分隔符是‘\n’,字符編碼是‘UTF-8’,what=''表示以字符串類型讀入
f <- scan('D:/數據/News/shxw.txt',sep='\n',what='',encoding="UTF-8")

2、數據處理

seg <- qseg[f] #使用qseg類型分詞,並把結果保存到對象seg中
seg <- seg[nchar(seg)>1] #去除字符長度小於2的詞語

seg <- table(seg) #統計詞頻

seg <- seg[!grepl('[0-9]+',names(seg))] #去除數字
length(seg) #查看處理完後剩餘的詞數

這裏寫圖片描述

seg <- sort(seg, decreasing = TRUE)[1:100] #降序排序,並提取出現次數最多的前100個詞語
seg #查看100個詞頻最高的

這裏寫圖片描述

3、做詞雲

bmp("comment_cloud.bmp", width = 500, height = 500)
par(bg = "black")
wordcloud(names(seg), seg, colors = rainbow(100), random.order=F)
dev.off()

這裏寫圖片描述

歡迎訪問我的個人站點:http://bgods.cn/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章