R文本挖掘之四文本分類

Part4文本分類

Part3文本聚類裏講到過，分類跟聚類的簡單差異。所以要做分類我們需要先整理出一個訓練集，也就是已經有明確分類的文本；測試集，可以就用訓練集來替代；預測集，就是未分類的文本，是分類方法最後的應用實現。

1. 數據準備

訓練集準備是一個很繁瑣的功能，暫時沒發現什麼省力的辦法，根據文本內容去手動整理。這裏還是使用的某品牌的官微數據，根據微博內容，我將它微博的主要內容分爲了：促銷資訊（promotion）、產品推介（product）、公益信息（publicWelfare）、生活雞湯（life）、時尚資訊（fashionNews）、影視娛樂（showbiz），每個分類有20-50條數據，如下可看到訓練集下每個分類的文本數目，訓練集分類名爲中文也沒問題。

訓練集爲hlzj.train，後面也會被用作測試集。

預測集就是Part2裏面的hlzj。

[plain]view
plain copy
 
hlzj.train <-read.csv("hlzj_train.csv",header=T,stringsAsFactors=F)  

length(hlzj.train)

[1] 2

[plain]view
plain copy
 

table(hlzj.train$type)  

fashionNews life product

27 34 38

promotion publicWelfare showbiz

45 22 36

[plain]view
plain copy
 

length(hlzj)  

[1] 1639

2. 分詞處理

訓練集、測試集、預測集都需要做分詞處理後才能進行後續的分類過程。這裏不再詳細說明，過程類似於Part2中講到的。訓練集做完分詞後hlzjTrainTemp，之前對hlzj文件做過分詞處理後是hlzjTemp。然後分別將hlzjTrainTemp和hlzjTemp去除停詞。

[plain]view
plain copy
 
library(Rwordseg)  

hlzjTrainTemp <- gsub("[0-9０１２３４５６７８９ < > ~]","",hlzj.train$text)  

hlzjTrainTemp <-segmentCN(hlzjTrainTemp)  

hlzjTrainTemp2 <-lapply(hlzjTrainTemp,removeStopWords,stopwords)  

hlzjTemp2 <-lapply(hlzjTemp,removeStopWords,stopwords)

3. 得到矩陣

在Part3中講到了，做聚類時要先將文本轉換爲矩陣，做分類同樣需要這個過程，用到tm軟件包。先將訓練集和預測集去除停詞後的結果合併爲hlzjAll，記住前202（1:202）條數據是訓練集，後1639（203:1841）條是預測集。獲取hlzjAll的語料庫，並且得到文檔-詞條矩陣，將其轉換爲普通矩陣。

[plain]view
plain copy
 
hlzjAll <- character(0)  

hlzjAll[1:202] <- hlzjTrainTemp2  

hlzjAll[203:1841] <- hlzjTemp2  

length(hlzjAll)

[1] 1841

[plain]view
plain copy
 
corpusAll <-Corpus(VectorSource(hlzjAll))  

(hlzjAll.dtm <-DocumentTermMatrix(corpusAll,control=list(wordLengths = c(2,Inf))))

<<DocumentTermMatrix(documents: 1841, terms: 10973)>>

Non-/sparse entries: 33663/20167630

Sparsity : 100%

Maximal term length: 47

Weighting : term frequency (tf)

[plain]view
plain copy
 

dtmAll_matrix <-as.matrix(hlzjAll.dtm)  

4. 分類

用到knn算法(K近鄰算法)，這個算法在class軟件包裏。矩陣的前202行數據是訓練集，已經有分類了，後面的1639條數據沒有分類，要根據訓練集得到分類模型再爲其做分類的預測。將分類後的結果和原微博放在一起，用fix()查看，可以看到分類結果，效果還是挺明顯的。

[plain]view
plain copy
 
rownames(dtmAll_matrix)[1:202] <-hlzj.train$type  

rownames(dtmAll_matrix)[203:1841]<- c("")  

train <- dtmAll_matrix[1:202,]  

predict <-dtmAll_matrix[203:1841,]  

trainClass <-as.factor(rownames(train))  

library(class)  

hlzj_knnClassify <-knn(train,predict,trainClass)  

length(hlzj_knnClassify)

[1] 1639

[plain]view
plain copy
 

hlzj_knnClassify[1:10]  

[1] product product product promotion product fashionNews life

[8] product product fashionNews

Levels: fashionNews life productpromotion publicWelfare showbiz

[plain]view
plain copy
 

table(hlzj_knnClassify)  

hlzj_knnClassify

fashionNews life product promotion publicWelfare showbiz

40 869 88 535 28 79

[plain]view
plain copy
 
hlzj.knnResult <-list(type=hlzj_knnClassify,text=hlzj)  

hlzj.knnResult <-as.data.frame(hlzj.knnResult)  

fix(hlzj.knnResult)