大數據學習整理篇(一)windows下R以及RStudio亂碼問題以及Ubuntu 16.04下mahout 0.14.0 成功運行(成功版)

1.RStudio代碼保存設置爲UTF-8

2.打開Utf-8的文本驗證下

3.使用R語言的read.csv,要加上文本編碼格式,比如:

listing <- read.csv("D:\\listing-segmented-shuffled.txt", fileEncoding = "UTF-8",stringsAsFactors = FALSE, sep='\t')

4.使用str(listing)可以看到是中文顯示

5.mahout下載最新的release包會報錯,我這邊是mahout 0.14.0版本,直接在ubuntu 16.04下面運行,報Could not find the main class: org.apache.mahout.driver.MahoutDriver錯誤,解決方法如下:

mkdir mahout
cd mahout/
svn co http://svn.apache.org/repos/asf/mahout/trunk
cd trunk/
mvn compile
mvn install -Dmaven.test.skip=true

6.在/etc/profile下面添加如下說明

export MAHOUT_HOME=/opt/mahout/trunk
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export MAVEN_HOME=/opt/apache-maven-3.6.3
export PATH=$PATH:$MAHOUT_HOME/bin:$JAVA_HOME/bin:$MAVEN_HOME/bin
export MAHOUT_LOCAL=1
export MAHOUT_HEAPSIZE=1000

7.文章中的java安裝和maven安裝省略,請大家參考別人文檔進行安裝。

8.使用

#>mahout seqdirectory -i 輸入目錄 -o 輸出目錄 -w (進行驗證,這個是舉例子,後面我會詳細介紹具體用法)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章