jiebaR中文分詞，並做詞雲（R語言）

原創

2019-10-26 02:46

使用結巴中文分詞（jiebaR）對之前爬取的新浪新聞文本進行分詞，統計詞頻之後，使用包wordcloud畫詞雲。

1、讀入數據

以下數據是在這裏爬取的，這裏只對社會新聞類進行測試，文件還是比較大的。分詞完有一千多萬個詞，處理完後有將近30萬。

library(jiebaR)
library(wordcloud)

#讀入數據分隔符是‘\n’，字符編碼是‘UTF-8’，what=''表示以字符串類型讀入
f <- scan('D:/數據/News/shxw.txt',sep='\n',what='',encoding="UTF-8")

2、數據處理

seg <- qseg[f] #使用qseg類型分詞，並把結果保存到對象seg中
seg <- seg[nchar(seg)>1] #去除字符長度小於2的詞語

seg <- table(seg) #統計詞頻

seg <- seg[!grepl('[0-9]+',names(seg))] #去除數字
length(seg) #查看處理完後剩餘的詞數

seg <- sort(seg, decreasing = TRUE)[1:100] #降序排序，並提取出現次數最多的前100個詞語
seg #查看100個詞頻最高的

3、做詞雲

bmp("comment_cloud.bmp", width = 500, height = 500)
par(bg = "black")
wordcloud(names(seg), seg, colors = rainbow(100), random.order=F)
dev.off()

歡迎訪問我的個人站點：http://bgods.cn/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

R語言字符處理函數

文章目錄@[toc]描述示例字符處理函數用於處理文本型數據。 nchar() substr() grep() sub() strsplit() paste() toupper() tolower() 描述函數描述

2020-07-05 04:31:27

R語言_針對表格某列進行切割

設置路徑並導入數據 setwd("E:/data_set") datas <- read.csv("Datas.csv") 提取Date數據 Date <- datas["Date"] 切割數據 install.package

2020-07-08 09:52:05

使用R進行描述性統計分析（連續性變量）

使用R進行描述性統計分析（連續性變量）對於描述性統計來說，R可以實現的方法有很多，基礎自帶的有summary()函數，還有其他packages，如Hmisc包，pastecs包，psych包提供了計算更多內容的函數。基礎函數

走在码农路上的医学狗

2020-07-07 16:50:20

R做數據處理

1、數據獲取的SQL語句 #查看創建的表 SHOW CREATE TABLE dmk.dmk_sal_actual_sales_dtl; #用原有的表創建一張新表 CREATE TABLE temp.dmk_sal_actu

2020-07-07 15:28:37

R做判別分析

線性判別法： library(MASS) ld=lda(G~x1+x2) z=predict(ld) newG=zclasscbind=(G,zclass cbind=(G,zclasscbin

2020-07-07 15:28:37

Pattern Recognition and Machine Learning（模式識別與機器學習）第一章導讀

持續更新中... ...0引言1、基礎的概念梳理1.1機器學習的學習模式1.2訓練數據與測試數據1.3均方根誤差（RMSE）和MSE均方誤差1.4泛化能力（generalization）1.5預處理（pre-processed）2

2020-07-07 05:35:03

R語言筆記二：向量、向量索引及其運算

1.內置數據集 R中的內置數據集存儲在datasets這個包中，這些數據一般蒐集於真實的調查數據。 help(package=“datasets”)：查看數據集包。 data()：列出所有數據集。直接輸入數據集名字，就可以使用該

取个name太难

2020-07-06 23:34:10

R語言觀察日誌(part4)--paste函數

學習筆記轉載自：R語言中字符串的拼接操作 paste函數在R語言中 paste 是一個很有用的字符串處理函數，可以連接不同類型的變量及常量。函數paste的一般使用格式爲： paste(..., sep = " ", co

安财小山羊

2020-07-06 21:42:02

R語言觀察日誌(part3)--repeat循環

學習筆記，僅供參考 repeat循環 repeat循環可以重複執行相同的代碼，直到滿足停止條件。語法 repeat { 命令行 if(關係表達式) { break #關係表達式

安财小山羊

2020-07-06 21:42:02

R語言觀察日誌(part5)--利用readr和readxl包讀寫數據

學習筆記，僅供參考利用readr和readxl包讀寫數據讀取數據相關函數函數包readr和readxl提供了一系列的數據讀入功能，主要函數如下： #readr包 read_delim(file, delim

安财小山羊

2020-07-06 21:42:02

R語言-迴歸分析

一元線形迴歸模型：有變量x,y。假設有關係y=c+bx+e,其中c+bx 是y隨x變化的部分，e是隨機誤差。可以很容易的用函數lm()求出迴歸參數b,c並作相應的假設檢驗，如： x<-c(0.10, 0.11,

2020-07-06 11:20:42

決策樹、隨機森林、聚類分析

背景預測新承包商的信用評級，這5個特徵指標分別是： x1 市場份額 x2 客訴率 x3 當年度毛利率 x4 銷售收入佔實收資本比例 x5 淨利潤利用上述五項指標及歷史評級結果的821條樣本數據開發多分類信用評級模型和

2020-07-06 10:28:33

R語言基本技巧

1.清除所有變量【 rm( list=ls() )】

「已注销」

2020-07-06 09:55:17

R語言連接hbase問題疑解

安裝rhbase出現的問題安裝rhbase需事先安裝thrift，在此採用yum安裝： # yum -y install thrift thrift-devel 下載rhbase包：https://github.com/Revo

2020-07-06 01:40:15

R語言-安裝ggplot2

>options(CRAN="https://cloud.r-project.org/");>install.packages("ggplot2")#處理日期時間相關的R包，非常有用，強烈推薦>install.packages("lub

2020-07-05 08:11:41

24小時熱門文章

sm4加密工具類

最新文章

最新評論文章