R語言xlsx包讀取含中文Excel文件時出現亂碼或“多字節字符串6有錯”的解決方案

原創

2020-07-04 03:40

R語言處理含中文Excel文件時，由於編碼的不一致，總會出現各種各樣的問題。例如，使用xlsx包讀取xlsx文件時，若內容中含有中文，就會出現亂碼，甚至會報錯。
例如使用這個表格：

data1 <- read.xlsx("人員信息.xlsx",sheetName="Sheet1",header=T)	#轉換爲UTF-8編碼

輸出結果：

> data1
   濮撳悕  鎬у埆 AGE      鑱屼綅
1  灝忔槑 鐢<b7>  21      緇忕悊
2  鑰佺帇 鐢<b7>  22 鍓粡鐞<86>
3  寮犱笁 濂<b3>  23    鎶€鏈憳
4  鏉庡洓 濂<b3>  24      欏鵑棶
5     Tom      M  25   Professor
6    Jack      M  26   Assistant
7 Amy Bat      F  27       Clerk

有些數據甚至會直接報錯。

Error in make.names(vnames, unique = TRUE) : 多字節字符串6有錯

那麼應該如何解決呢？
對於這種問題，只需要在讀入數據時，指定編碼屬性encoding=‘UTF-8’。

data1 <- read.xlsx("人員信息.xlsx",sheetName="Sheet1",header=T, encoding='UTF-8')	#轉換爲UTF-8編碼

這樣就可以讀取成功了。

> data1
     姓名 性別 AGE      職位
1    小明   男  21      經理
2    老王   男  22    副經理
3    張三   女  23    技術員
4    李四   女  24      顧問
5     Tom    M  25 Professor
6    Jack    M  26 Assistant
7 Amy Bat    F  27     Clerk

這樣就解決了亂碼的問題。

此外，對於如果讀取csv文件出現亂碼，但文件本身沒有問題的情況，可以使用Notepad++軟件打開，點擊編碼-轉爲ANSI編碼後保存。再次使用R讀取csv即可。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

R語言字符處理函數

文章目錄@[toc]描述示例字符處理函數用於處理文本型數據。 nchar() substr() grep() sub() strsplit() paste() toupper() tolower() 描述函數描述

2020-07-05 04:31:27

R語言_針對表格某列進行切割

設置路徑並導入數據 setwd("E:/data_set") datas <- read.csv("Datas.csv") 提取Date數據 Date <- datas["Date"] 切割數據 install.package

2020-07-08 09:52:05

使用R進行描述性統計分析（連續性變量）

使用R進行描述性統計分析（連續性變量）對於描述性統計來說，R可以實現的方法有很多，基礎自帶的有summary()函數，還有其他packages，如Hmisc包，pastecs包，psych包提供了計算更多內容的函數。基礎函數

走在码农路上的医学狗

2020-07-07 16:50:20

Pattern Recognition and Machine Learning（模式識別與機器學習）第一章導讀

持續更新中... ...0引言1、基礎的概念梳理1.1機器學習的學習模式1.2訓練數據與測試數據1.3均方根誤差（RMSE）和MSE均方誤差1.4泛化能力（generalization）1.5預處理（pre-processed）2

2020-07-07 05:35:03

R語言筆記二：向量、向量索引及其運算

1.內置數據集 R中的內置數據集存儲在datasets這個包中，這些數據一般蒐集於真實的調查數據。 help(package=“datasets”)：查看數據集包。 data()：列出所有數據集。直接輸入數據集名字，就可以使用該

取个name太难

2020-07-06 23:34:10

R語言觀察日誌(part4)--paste函數

學習筆記轉載自：R語言中字符串的拼接操作 paste函數在R語言中 paste 是一個很有用的字符串處理函數，可以連接不同類型的變量及常量。函數paste的一般使用格式爲： paste(..., sep = " ", co

安财小山羊

2020-07-06 21:42:02

R語言觀察日誌(part3)--repeat循環

學習筆記，僅供參考 repeat循環 repeat循環可以重複執行相同的代碼，直到滿足停止條件。語法 repeat { 命令行 if(關係表達式) { break #關係表達式

安财小山羊

2020-07-06 21:42:02

R語言觀察日誌(part5)--利用readr和readxl包讀寫數據

學習筆記，僅供參考利用readr和readxl包讀寫數據讀取數據相關函數函數包readr和readxl提供了一系列的數據讀入功能，主要函數如下： #readr包 read_delim(file, delim

安财小山羊

2020-07-06 21:42:02

R語言-迴歸分析

一元線形迴歸模型：有變量x,y。假設有關係y=c+bx+e,其中c+bx 是y隨x變化的部分，e是隨機誤差。可以很容易的用函數lm()求出迴歸參數b,c並作相應的假設檢驗，如： x<-c(0.10, 0.11,

2020-07-06 11:20:42

決策樹、隨機森林、聚類分析

背景預測新承包商的信用評級，這5個特徵指標分別是： x1 市場份額 x2 客訴率 x3 當年度毛利率 x4 銷售收入佔實收資本比例 x5 淨利潤利用上述五項指標及歷史評級結果的821條樣本數據開發多分類信用評級模型和

2020-07-06 10:28:33

R語言基本技巧

1.清除所有變量【 rm( list=ls() )】

「已注销」

2020-07-06 09:55:17

R語言-安裝ggplot2

>options(CRAN="https://cloud.r-project.org/");>install.packages("ggplot2")#處理日期時間相關的R包，非常有用，強烈推薦>install.packages("lub

2020-07-05 08:11:41

R語言繪圖邊框的單位

轉載自博客廬州月光，向作者表示感謝 http://www.cnblogs.com/xudongliang/p/6874659.html 在R語言中指定畫圖邊框時，通常使用兩種單位， lines 和 inches當然，這兩個

2020-07-05 04:31:27

使用rvest爬蟲包獲取數據

文章目錄@[toc]Rvest包安裝常用功能基本步驟簡單實例爬蟲簡單來說就是利用Html、css等前端規範形式，模擬人工手動蒐集數據的方式獲取數據。 R語言爬蟲包Rvest,能夠非常方便的爬取一些簡單的網頁。 Rvest包安

2020-07-05 04:31:27

R語言線性迴歸綜述

文章目錄@[toc]線性迴歸簡介變量類型適用條件分類用途R語言實現模型建構模型評估模型檢驗模型修正線性迴歸簡介線性迴歸是利用最小二乘法對一個或多個自變量和因變量之間關係進行建模的一種迴歸分析。變量類型線性迴歸要求自變量

2020-07-05 04:31:27

24小時熱門文章

最新文章

最新評論文章