使用結巴中文分詞(jiebaR)對之前爬取的新浪新聞 文本進行分詞,統計詞頻之後,使用包wordcloud畫詞雲。
1、讀入數據
以下數據是在這裏爬取的,這裏只對社會新聞類進行測試,文件還是比較大的。分詞完有一千多萬個詞,處理完後有將近30萬。
library(jiebaR)
library(wordcloud)
#讀入數據分隔符是‘\n’,字符編碼是‘UTF-8’,what=''表示以字符串類型讀入
f <- scan('D:/數據/News/shxw.txt',sep='\n',what='',encoding="UTF-8")
2、數據處理
seg <- qseg[f] #使用qseg類型分詞,並把結果保存到對象seg中
seg <- seg[nchar(seg)>1] #去除字符長度小於2的詞語
seg <- table(seg) #統計詞頻
seg <- seg[!grepl('[0-9]+',names(seg))] #去除數字
length(seg) #查看處理完後剩餘的詞數
seg <- sort(seg, decreasing = TRUE)[1:100] #降序排序,並提取出現次數最多的前100個詞語
seg #查看100個詞頻最高的
3、做詞雲
bmp("comment_cloud.bmp", width = 500, height = 500)
par(bg = "black")
wordcloud(names(seg), seg, colors = rainbow(100), random.order=F)
dev.off()
歡迎訪問我的個人站點:http://bgods.cn/