原创 centos環境下Yum+rmp安裝MySQL8.0及5.7+Yum安裝MySQL8.0下修改其數據存儲目錄

  在centos上安裝mysql着實費了我一番功夫。一番探索後我成功的在4臺centos虛機上安裝上了mysql,其中三臺用yum的方式進行安裝,一臺用rpm的方式進行安裝。現做記錄如下: 0:檢查centos是否有安裝mysql和完全

原创 基於Hadoop與Spark大數據平臺的個性化圖書推薦系統搭建學習總結

前言:這兩個月來一直在處理接手實驗室師兄的一個圖書推薦項目,期間從讀懂其用python構建的簡易推薦系統到在spark上寫pyspark、scala程序來實現一個基於大數據平臺的分佈式推薦系統,對於我這樣一個無人指點的小白着實是費

原创 Hadoop2.7.5 Spark2.3.0 Anaconda2-5.1.0分佈式集羣搭建

這幾天因爲學習需要搭建了一個由3個節點組成的hadoop和spark分佈式集羣,做記錄如下(已生成目錄,可按需查看)。 集羣搭建環境及安裝軟件版本 centos6 jdk1.8.0_161 hadoop2.7.5 Spark2.3.0 S

原创 解決linux與Windows系統中matplotlib和seaborn畫圖時中文亂碼問題(實測有效)。

運行環境: python3.7 Linux Centos7 用conda安裝的matplotlib與seaborn 問題: matplotlib與seaborn畫圖,無法正常顯示中文 問題原因: linux操作系統以及matplotlib

原创 linux下安裝anaconda3並使用虛擬環境

問題描述:在服務其上安裝anaconda3,並使用虛擬環境。 一、安裝步驟如下: 解壓anaconda壓縮包: bash Anaconda3-5.3.1-Linux-x86_64.sh 接下來先回車,接收協議,如需改變安裝目錄如下:

原创 python讀取包含中文的文檔出錯!

最近在linux系統中使用python讀取包含中文的文檔,頻頻出錯,出錯警告類型如下: 因之前在python2中能正常讀取,且在本地windows中的python3環境中亦能讀取,故確定爲linux系統開發環境中python3不能正確讀

原创 pandas加載csv出錯:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb5 in position 0: invalid start

不知道爲什麼在加載csv文件時出現了編碼錯誤,見鬼了之前一直這樣加載都沒有問題,花了我半個多小時才折騰出了答案,鬱悶。 加載文件指令: test=pd.read_csv(r'F:\book_list_1.csv',sep=',',nam

原创 scala中的foldLeft學習

閒來無事,在stackoverflow上看代碼玩,偶爾發現一個之前沒有用過的函數--foldLeft函數。現做記錄如下: val sourceDF = Seq( (" p a b l o", "Paraguay"), ("

原创 mysql啓動問題-ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/tmp/mysql.sock'

很久沒登錄的虛機再次登錄其上的mysql時在啓動時遇到以下問題: 一番搜索後發現是mysql服務器找不到連接的套字節文件。(連接localhost通常通過一個Unix域套接字文件進行,一般是/tmp/mysql.sock。如果套接字文件

原创 YARN/Mesos調研

博文1: Apache YARN/Mesos與Google Borg差距多遠?http://dongxicheng.org/mapreduce-nextgen/yarn-mesos-borg/ 16月 08 .15年 目前看來,Meso

原创 centos環境下Yum+rmp安裝MySQL+Yum安裝MySQL下修改其數據存儲目錄

在centos上安裝mysql着實費了我一番功夫。一番探索後我成功的在4臺centos虛機上安裝上了mysql,其中三臺用yum的方式進行安裝,一臺用rpm的方式進行安裝。現做記錄如下: 0:檢查centos是否有安裝mysql和完全卸載

原创 ALS推薦算法學習總結

在完成基於大數據平臺的圖書館推薦系統後,最近把學習的中心放在機器學習上面。在接下來的幾個月中,希望自己能弄明白常見機器學習算法的原理,並且能在spark平臺上進行實踐。 在我的機器學習學習和實踐之路的一個本書是《Spark機器學習》,這本

原创 datasSet學習

1、dataset官方定義: A Dataset is a strongly typed collection of domain-specific objects that can be transformed in parallel

原创 Hadoop2.7.5 +Spark2.3.0+Anaconda2-5.1.0分佈式集羣搭建

這幾天因爲學習需要搭建了一個由3個節點組成的hadoop和spark分佈式集羣,做記錄如下(已生成目錄,可按需查看)。集羣搭建環境及安裝軟件版本centos6jdk1.8.0_161hadoop2.7.5Spark2.3.0Scala-2

原创 Uncaught exception while reverting partial writes to file ...(Too many open files)

在用一個新的spark集羣 處理業務時,處理的任務量稍微大一點,涉及到較多的map和reduce的任務式就會報下列錯誤:   開始以爲是spark集羣的內存沒給夠,因爲在另一個更大集羣中和自己只有6g的單機上跑都沒有問題,但嘗試加大集羣