原创 Hadoop學習_虛擬機克隆+zookeeper僞分佈式集羣搭建+元數據的高併發(HA)機制

注:個人學習筆記 虛擬機克隆: 克隆虛擬機:   https://blog.csdn.net/qq_26222859/article/details/79378213 一定記住是完整克隆。若是創建鏈接克隆,會連母機都連不上網(完全刪除克

原创 VM上spark安裝+jupyter交換環境配置(windows操作虛擬機下的jupyter)

注:個人學習筆記。 一:spark安裝 1.去Apache官網下載對應Hadoop版本的spark(我是Hadoop2.6,Hadoop安裝跳過)。補充一句:因爲spark是上層應用,裏面還是基於Hadoop的hdfs文件系統和yarn的

原创 git首次上傳文件(目錄/文件夾)的問題及解決辦法

今天第一次使用git,但是中間出現了很多問題,現在記錄下來(均是在git bash環境),希望以後有用。 1.設置git bash 打開進入的默認工作路徑: (1)1處 “–cd …”刪除;(2)2處設置爲你要打開要進入的目錄

原创 Hadoop 學習_ 僞分佈式安裝

簡單介紹 hadoop是什麼? 下面開始: 先介紹VM中虛擬機和物理機連接的原理:   VM(Vmware) 會創建一個虛擬網關,然後VM上的虛擬機和實際的物理機都會得到一個虛擬網卡,這兩個網卡都屬於同一網段,則 物理機就可以和

原创 Hadoop學習_HIVE(內部表,外部表建立與區別以及分區表學習)+ HBASE瞭解

一.HIVE 1.基本概念:   在線業務產生的海量數據放到數據倉庫中,使用HIVE對其進行離線分析挖掘(按理說可以用mapreduce程序,但是很麻煩,需要不斷的得到中間結果,然後保存下來,再去執行下一個語句。且MapReduce相比於

原创 交流

今天交流所得,記下來防止忘了,後面慢慢吸收。 數據分析總的重要性:業務>數據>算法 ……只有充分理解了業務,才能制定出強有力的特徵,也可以指導數據的清洗,更能選擇不同的機器學習算法。 從個人的發展角度來說: …….最重要的是個人面

原创 Hadoop學習_HDFS,MapReduce (wordcount例子)和 YARN資源調度

注:以下內容來源於互聯網,由自己整理,作爲讀書筆記使用。 1.HDFS   HDFS文件指令和centos的很像   在創建目錄時,若提示節點處於安全狀況,只需要關閉安全模式即可。 hadoop dfsadmin -safemo

原创 西瓜書貝葉斯分類器(總結)

1.理論基礎(可通過本小節的簡單說法開始) 通過新進來樣本的特徵(特徵)來估計該樣本類別的概率就是後驗概率,來最小化決策風險即由特徵得屬於哪一類別的概率,計算方法有兩類:(1)通過判別式模型(如支持向量機,決策樹等)直接對後驗概率進行建模