台部落Farmer-Lei

注：個人學習筆記虛擬機克隆：克隆虛擬機：　　https://blog.csdn.net/qq_26222859/article/details/79378213 一定記住是完整克隆。若是創建鏈接克隆，會連母機都連不上網（完全刪除克

2018-09-03 12:32:08

注：個人學習筆記。一：spark安裝 1.去Apache官網下載對應Hadoop版本的spark（我是Hadoop2.6，Hadoop安裝跳過）。補充一句：因爲spark是上層應用，裏面還是基於Hadoop的hdfs文件系統和yarn的

2018-09-03 12:32:08

今天第一次使用git，但是中間出現了很多問題，現在記錄下來（均是在git bash環境），希望以後有用。 1.設置git bash 打開進入的默認工作路徑：（1）1處 “–cd …”刪除；（2）2處設置爲你要打開要進入的目錄

2018-09-03 12:32:08

簡單介紹 hadoop是什麼？下面開始：先介紹VM中虛擬機和物理機連接的原理：　　VM（Vmware）會創建一個虛擬網關，然後VM上的虛擬機和實際的物理機都會得到一個虛擬網卡，這兩個網卡都屬於同一網段，則物理機就可以和

2018-09-03 12:32:06

一.HIVE 1.基本概念：　　在線業務產生的海量數據放到數據倉庫中，使用HIVE對其進行離線分析挖掘（按理說可以用mapreduce程序，但是很麻煩，需要不斷的得到中間結果，然後保存下來，再去執行下一個語句。且MapReduce相比於

2018-09-03 12:32:06

今天交流所得，記下來防止忘了，後面慢慢吸收。數據分析總的重要性：業務>數據>算法 ……只有充分理解了業務，才能制定出強有力的特徵，也可以指導數據的清洗，更能選擇不同的機器學習算法。從個人的發展角度來說： …….最重要的是個人面

2018-09-03 12:32:06

注：以下內容來源於互聯網，由自己整理，作爲讀書筆記使用。 1.HDFS 　　ＨＤＦＳ文件指令和centos的很像　　在創建目錄時，若提示節點處於安全狀況，只需要關閉安全模式即可。 hadoop dfsadmin -safemo

2018-09-03 12:32:04

1.理論基礎（可通過本小節的簡單說法開始）通過新進來樣本的特徵（特徵）來估計該樣本類別的概率就是後驗概率，來最小化決策風險即由特徵得屬於哪一類別的概率，計算方法有兩類：（1）通過判別式模型（如支持向量機，決策樹等）直接對後驗概率進行建模

2018-09-03 12:32:03