用R讀取PDF並進行數據挖掘

原創

2018-08-28 12:41

# here is a pdf for mining
url <- "http://www.noisyroom.net/blog/RomneySpeech072912.pdf"
dest <- tempfile(fileext = ".pdf")
download.file(url, dest, mode = "wb")

# set path to pdftotxt.exe and convert pdf to text
exe <- "C:\\Program Files\\xpdfbin-win-3.03\\bin32\\pdftotext.exe"
system(paste("\"", exe, "\" \"", dest, "\"", sep = ""), wait = F)

# get txt-file name and open it
filetxt <- sub(".pdf", ".txt", dest)
shell.exec(filetxt); shell.exec(filetxt) # strangely the first try always throws an error..

# do something with it, i.e. a simple word cloud
library(tm)
library(wordcloud)
library(Rstem)

txt <- readLines(filetxt) # don't mind warning..

txt <- tolower(txt)
txt <- removeWords(txt, c("\\f", stopwords()))

corpus <- Corpus(VectorSource(txt))
corpus <- tm_map(corpus, removePunctuation)
tdm <- TermDocumentMatrix(corpus)
m <- as.matrix(tdm)
d <- data.frame(freq = sort(rowSums(m), decreasing = TRUE))

# Stem words
d$stem <- wordStem(row.names(d), language = "english")

# and put words to column, otherwise they would be lost when aggregating
d$word <- row.names(d)

# remove web address (very long string):
d <- d[nchar(row.names(d)) < 20, ]

# aggregate freqeuncy by word stem and
# keep first words..
agg_freq <- aggregate(freq ~ stem, data = d, sum)
agg_word <- aggregate(word ~ stem, data = d, function(x) x[1])

d <- cbind(freq = agg_freq[, 2], agg_word)

# sort by frequency
d <- d[order(d$freq, decreasing = T), ]

# print wordcloud:
wordcloud(d$word, d$freq)

# remove files
file.remove(dir(tempdir(), full.name=T)) # remove files

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

[R]聚類算法:k-means模組

延伸<[Excel]k-means聚類算法的應用，以評價現有供應商的水平為例。>文章，同時恰巧在圖書館看到一本R語言機器學習書籍，因此正好可進一步瞭解如何用R語言來實現k-means算法和應用，一併將k-means模組建立起來，做為未來參

2020-07-08 10:38:53

R-數據挖掘-貝葉斯分類（五）

海林老師《數據挖掘》（韓佳煒書）課程作業系列要求：自己寫R/Python代碼、函數實現一系列算法其他參見： R-數據挖掘-求混合型數據對象距離（一） R-數據挖掘-主成分分析PCA（二） R-數據挖掘-關聯規則（三） R-數據挖掘-決

还是小小白

2020-07-08 04:26:58

R語言對微博內容的根據人物分類以及對博文的分詞統計

首先介紹一下數據源，根據爬蟲獲得的微博數據，當然包括很多字段（如人物暱稱，發表時間，發表內容，是否原創，是否轉發等等），在這裏簡要介紹一下處理思路，我們只需要這裏的人物暱稱，和發表內容，發表內容用於分詞分析自然不用多說，人物暱稱是

2020-07-07 22:21:12

R語言詞雲圖

R語言詞雲圖 ##安裝wordcloud2包 RStudio 安裝百度經驗可嘗試直接安裝包 install.packages("wordcloud2"); 如果安裝失敗，嘗試直接下載安裝包，通過devtools安裝： if (

2020-07-07 02:08:13

Linux下R語言調用latex生成pdf中目錄無法生成問題

Linux下R語言調用latex生成pdf中目錄無法生成問題錯誤的用法： 1、生成latex腳本： Sweave(“report.Rnw”) 2、編譯latex腳本，生成結果pdf： tinytex::pdflatex(‘rep

2020-07-06 21:57:59

R語言觀察日誌(part4)--paste函數

學習筆記轉載自：R語言中字符串的拼接操作 paste函數在R語言中 paste 是一個很有用的字符串處理函數，可以連接不同類型的變量及常量。函數paste的一般使用格式爲： paste(..., sep = " ", co

安财小山羊

2020-07-06 21:42:02

R語言觀察日誌(part3)--repeat循環

學習筆記，僅供參考 repeat循環 repeat循環可以重複執行相同的代碼，直到滿足停止條件。語法 repeat { 命令行 if(關係表達式) { break #關係表達式

安财小山羊

2020-07-06 21:42:02

R語言觀察日誌(part5)--利用readr和readxl包讀寫數據

學習筆記，僅供參考利用readr和readxl包讀寫數據讀取數據相關函數函數包readr和readxl提供了一系列的數據讀入功能，主要函數如下： #readr包 read_delim(file, delim

安财小山羊

2020-07-06 21:42:02

R語言通過RMySQL包操作mysql數據庫(on linux) - 如何避免讀寫中文時亂碼

環境是CentOS7，Rstudio 1.Rmysql庫安裝注意: Rmysql庫依賴DBI庫 install.packages("DBI") install.packages("RMySQL") 或 install.package

2020-07-06 19:08:01

Centos 安裝R語言環境 3.6

前言目前R語言最新版已經是4.0以上了，所以安裝舊版本可以通過下載源碼方式安裝。源碼地址 https://cran.r-project.org/src/base/R-3/ 步驟 1. 下載源碼 wget https://cr

2020-07-06 12:48:21

如何重命名data.frame中的單個列？

本文翻譯自：How to rename a single column in a data.frame? I know if I have a data frame with more than 1 column, I can use 我

2020-07-06 11:55:16

R 語言字符串完全匹配

char <- c("I","am","a","boy","and","i","lile","coding") grep("^a$",char) 結果爲： 3

2020-07-06 11:24:34

R語言將所有列數據正交化/縮放

官方例子如下， rescale01 <- function(x) { rng <- range(x, na.rm = TRUE) (x - rng[1]) / (rng[2] - rng[1]) } df <- tibbl

小林书店副编集

2020-07-06 11:14:34

R語言semi_join()和anti_join()

Filtering joins filter rows from x based on the presence or absence of matches in y: semi_join() return all rows

小林书店副编集

2020-07-06 11:14:34

R語言nest_join()函數

nest_join() returns all rows and columns in x with a new nested-df column that contains all matches from y. When t

小林书店副编集

2020-07-06 11:14:34

24小時熱門文章

最新文章

最新評論文章