原创 Spark Streaming容錯機制以及事務語義詳解

北風網spark學習筆記 容錯機制的背景 要理解Spark Streaming提供的容錯機制,先回憶一下Spark RDD的基礎容錯語義: RDD,Ressilient Distributed Dataset,是不可變的、確定

原创 Jupyter Notebook 設置背景主題、字體大小以及輸出部分顯示不全的問題

原文地址        從開始閱讀CNN的經典論文(LeNet-5、AlexNet、ZFNet、VGGNet、GoogleNet、ResNet),實驗室的師哥就建議看完論文後,用Tensorflow或者Keras復現一下論文的代

原创 Python PEP8命名

PEP 8與命名最佳實踐 命名風格 駝峯式命名法 混合式命名法 大寫或者大寫加下劃線 前綴和後綴 應用範圍:變量、函數和方法、property、類、模塊、包 變量 常量:大寫加下劃線 共有和私有變量:加下劃線 函數和方

原创 Hadoop源碼環境搭建及編譯(Windows 、MAC)

Hadoop源碼環境搭建及編譯(Windows 、MAC) Windows 1. 下載對應版本的Hadoop源碼包 2. 編譯Hadoop源碼 編譯源碼最好是在linux平臺,此處用CentOS 7.4平臺編譯源碼 使用root

原创 spark

spark簡介test

原创 一致性Hash算法

http://www.zsythink.net/archives/1182

原创 Spark 作業資源調度

北風網spark學習筆記 靜態資源分配原理 spark提供了許多功能用來在集羣中同時調度多個作業。首先,回想一下,每個spark作業都會運行自己獨立的一批executor進程,此時集羣管理器會爲我們提供同時調度多個作業的功能。第二,在

原创 Spark 作業監控

北風網spark學習筆記 對於Spark作業的監控,Spark給我們提供了很多種方式:Spark Web UI,Spark History Web UI,RESTFUL API以及Metrics。 SparkWebUI以及監控實驗

原创 spark 基於ZooKeeper實現HA高可用性以及自動主備切換

北風網spark學習筆記 默認情況下,standalone cluster manager對於worker節點的失敗是具有容錯性的(迄今爲止,Spark自身而言對於丟失部分計算工作是有容錯性的,它會將丟失的計算工作遷移到其他worke

原创 Spark Maven項目打包後找不到主類

項目配置:IDEA + Maven + spark2.2 + scala 2.11.4 + java8 問題:使用IDEA,Maven創建java和scala項目,寫完代碼本地運行沒有問題,打包後,java程序沒有問題,scala程序

原创 迴歸評價指標MSE、RMSE、MAE、R-Squared

原文地址 前言 分類問題的評價指標是準確率,那麼迴歸算法的評價指標就是MSE,RMSE,MAE、R-Squared。下面一一介紹 均方誤差(MSE) MSE (Mean Squared Error)叫做均方誤差。看公式 這裏的y

原创 面試題34: 二叉樹中和爲某一值的路徑

Github /******************************************************************* *《劍指Offer——名企面試官精講典型編程題》C++代碼 * * htfeng

原创 Spark Streaming 部署、升級和監控應用程序

北風網spark學習筆記 部署應用程序 有一個集羣資源管理器,比如standalone模式下的Spark集羣,Yarn模式下的Yarn集羣等。 打包應用程序爲一個jar包,課程中一直都有演示。 爲executor配置充足的內存,因爲

原创 面試題33: 二叉搜索樹的後續遍歷

Github /******************************************************************* *《劍指Offer——名企面試官精講典型編程題》C++代碼 * * htfeng

原创 Tensorflow-gpu環境搭建

第一步: 安裝anaconda 第二步:創建虛擬環境 conda install nb_conda conda create -n tensorflow python=3.6 ipykernel ipykernel的目的是讓jup