tm/wordcloud合併變形詞

原創

2020-02-20 20:58

在文本挖掘中，合併變形詞的詞頻是很必要的。雖然步驟較簡單，但很多人都沒有注意。

下面比較一下合併跟不合並的差別：

library("tm")
library("wordcloud")
data(crude)
crude <- tm_map(crude, removePunctuation)
crude <- tm_map(crude, function(x) removeWords(x, stopwords()))
tdm <- TermDocumentMatrix(crude)
m <- as.matrix(tdm)
v <- sort(rowSums(m), decreasing = TRUE)
d <- data.frame(word = names(v), freq = v)
cls <- c("gray50", brewer.pal(8, "Dark2"), "orangeRed")
wordcloud(d$word, d$freq, scale = c(6, 0.5), color = cls, random.order = FALSE)
subfix <- c("s", "es", "ed", "ing", "y", "ive", "ic", "al", "ous", "ious", "ish",
    "able", "ible", "ize", "ise")
del <- 0
for (ss in subfix) {
    w1 <- d$word
    w2 <- paste0(w1, ss)
    sel <- w2 %in% w1
    pls <- w1 %in% w2
    if (sum(pls) > 0) {
        f1 <- d$freq
        f1[sel] <- f1[sel] + f1[pls]
        d$freq <- f1
        d <- d[!pls, ]
        del <- del + sum(pls)
    }
}
del

## [1] 104

wordcloud(d$word, d$freq, scale = c(6, 0.5), color = cls, random.order = FALSE)

可以看到合併後opec（歐佩克）, market（市場）, Kuwait（科威特）等詞的重要性明顯提高。

安裝 SnowballC 軟件包後也可以用 tm_map(x, stemDocument) 合併變形詞，但效果很差，可以試試。

作者: ZGUANG@LZU

Created: 2015-11-19 四 11:00

Emacs 24.4.1 (Org mode 8.2.10)

發佈了92 篇原創文章 · 獲贊 128 · 訪問量 62萬+

他的留言板關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

R文本挖掘之二分詞

本文是轉載！原文地址：CSDN-R語言做文本挖掘 Part2分詞處理 Part2分詞處理在RStudio中安裝完相關軟件包之後，才能做相關分詞處理，請參照Part1部分安裝需要軟件包。參考文檔：玩玩文本挖掘，這篇文章講用R做文本

2020-07-04 01:28:26

python3 定製詞雲

翻了一下知乎，發現了以前收藏的製作詞雲的教程，於是動手試了一下所需環境： 1.python3 2.wordcloud python原來就安裝了，然後就是Wordcloud，安裝方法有三個1

2020-06-30 17:39:52

[TextMatch框架] 生成詞雲

TextMatch TextMatch is a semantic matching model library for QA & text search … It’s easy to train models and to export

2020-06-26 05:50:21

Git 王者超神之路

安裝Git 配置文件查看config 設置用戶信息 Git別名 .gitignore文件倉庫的基礎操作初始化倉庫添加文件到暫存區 status倉庫 diff倉庫提交更新移除文件移動文件查看歷史提交撤銷操作

花前月下的细说

2020-07-07 15:32:05

【表格的應用】

首先，如何寫出一個簡單的表格以下是一個最簡單的表格，每個單元格的大小是按照裏面的內容進行自動分配的，所以就會出現單元格不均等的情況 <table border="1" width="500" height="200">

2020-07-06 18:33:43

兩個有序順序表合併成一個有序順序表

一概述將兩個有序順序表合併爲一個新的有序表，並由函數返回結果順序表。實際過程中應該不斷取下兩個順序表表頭較小的結點存在新的順序表中，然後，將其中某個表中的剩餘數據直接加到新的順序表後面。二代碼實現 /*合併兩個有序順序表*/

2020-07-06 16:10:16

轉載：android：關於主工程和library project

原帖：http://blog.sina.com.cn/s/blog_a3b9b9040101lco3.html 轉載內容： 1、如何將一個android工程作爲庫工程（library project） library projec

2020-07-03 16:52:34

優酷土豆聯姻視頻網站格局的幾大猜想

　　在NBA市場上，很多大牌球員爲了一枚總冠軍去抱大腿。最典型的莫過於熱火的“三巨頭”，但是他們的目的達到了，如願以償的拿到了總冠軍。對於這些大牌球員聯姻，是某個受益球隊和球員願意看到的，但又是NBA其他球隊、球員不願意看到的，最不願意看

2020-07-02 19:03:12

歸併--排序

歸併排序採用的是一種分而治之的策略。首先將待排序數組劃分爲若干有序數組，然後再兩兩合併爲有序的數組，到最後合併爲一個有序數組。歸併排序主要看怎麼把待排序數組劃分爲有序數組和怎麼將兩個有序的數組合併爲一個有序數組。劃分好說，

2020-07-02 02:25:55

歸併排序之java實現

畢業季在即，一大波面試接踵而來，爲了一份好offer，所以最近在重新刷數據結構與算法。正好在博客裏面記錄一下。今天是歸併排序的實現。歸併排序是典型的分治模式的實現，對一個數組A，採取三步實現：分解，解決，合併分解：分解待

请叫我林小李

2020-07-02 02:07:56

linux文件合併，去重

原文轉自： http://www.2cto.com/os/201108/100617.html (1)兩個文件的交集，並集前提條件：每個文件中不得有重複行 1. 取出兩個文件的並集(重複的行只保留一份) cat file1 file

2020-07-01 18:59:53

HDU 6215 鏈表

題意：題目鏈接：http://acm.hdu.edu.cn/showproblem.php?pid=6215 給出n個數的序列，每一輪需要刪除當前這一輪比左邊的數小或者比右邊的數大的數字，然後再將剩下的部分合並，進行下一輪。最

2020-06-28 19:35:25

ffmpeg 合併拼接 mp4視頻

今天同事做字幕識別測試，其中360p的視頻是直接從CNTV網上下載的，一套好好的節目被切成9段、10段，爲測試帶來了一點小的麻煩；所以今天想着用ffmpeg拼接一下這些視頻；需求如下： 1.mp4 2.mp4 … 封裝成 co

2020-06-28 12:09:01

Git(５)/分支管理

Git之所以能夠在衆多版本控制系統中脫穎而出，第一個原因就是他獨特的暫存區stage；第二個原因就是我們今天要講的分支branch了。什麼是分支？分支就是科幻電影裏面的平行宇宙，當你正在電腦前努力學習Git的時候，另一個你

2020-06-28 08:53:05

The Merge Sort

Merge sort is a recursive algorithm that continually splits a list in half. If the list is empty or has one item, i

丸子学步园

2020-06-26 08:12:58

24小時熱門文章

sm4加密工具類

最新文章

最新評論文章