原创 matplot--annotate()函數

函數功能:添加圖形內容細節的指向型註釋文本。 s:str, 註釋信息內容 xy:(float,float), 箭頭點所在的座標位置 xytext:(float,float), 註釋內容的座標位置 weight: str or in

原创 matplot---annotate()函數

函數功能:添加圖形內容細節的指向型註釋文本。 s:str, 註釋信息內容 xy:(float,float), 箭頭點所在的座標位置 xytext:(float,float), 註釋內容的座標位置 weight: str or in

原创 數據預處理--生成多項式特徵(PolynomialFeatures)

使用 scikit-learn提供的PolynomialFeatures 這個類可以進行特徵的構造, 例如有兩個特徵a和b,由這兩個特徵構造的特徵項爲[1, a, b, a2, a*b, b2]。 PolynomialFeatur

原创 Pandas groupby

我們經常需要對某些標籤或索引的局部進行累計分析,這時候需要用到groupby函數了。 其中groupby函數的as_index參數有以下介紹: as_index : boolean, default True For aggreg

原创 數據預處理--填充缺失值(scikit-learn SimpleImputer類)

SimpleImputer類提供了輸入缺失值的基本策略。缺失值可以用常量值或使用缺失值所在列的統計信息(平均值、中位數或最頻繁)進行填充。以下代碼演示如何使用包含缺少值的列(軸0)的平均值替換缺少值。 import numpy a

原创 數據預處理--特徵縮放

1.class sklearn.preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True) 通過將每個特徵縮放到給定範圍來。 該估計器(estimator)單獨地將每個特

原创 使用決策樹和隨機森林預測NBA獲勝球隊

NBA比賽通常是難分勝負,有些時候會在最後一刻纔會決出勝負,因此,預測哪支球隊最後獲勝會非常困難。通常你看好的球隊恰恰在這場比賽中就會輸給比它弱的球隊。 許多預測比賽勝負的研究往往會有準確率上限,根據不同的比賽,準確率一般會在70%~

原创 卸載CDH5.14.2

1.在Cloudera Manager控制檯停止所有服務: 2. 停止Cloudera Manager service 3. 移除parcel包 假如是通過 packages 來安裝的,那麼請跳過這個步驟。本文是針對parcel包方式

原创 Hive簡易教程

這裏已經默認你的系統成功安裝Hive。 下面介紹的例子用到的數據可以在我的網盤下載: 鏈接:https://pan.baidu.com/s/1GiP1ZWn5oVVTTfNiRSVVZg 密碼:4n82 1. 使用Hive 在HDFS

原创 正則表達式

1. Pattern類和Matcher類 如果要在程序中應用正則表達式則必須依靠Pattern類和Matcher類,這兩個類都在java.util.regex包中定義。Pattern類的主要作用是進行正則規範,而Matcher類主要是執行

原创 普通用戶權限(sudo)安裝CDH

在生產環境中,很多時候集羣管理者並沒有開放root權限給你來安裝CDH,這時候管理者只會開放部分權限,這時涉及這些已經開放的權限時,你必須運用sudo執行。本文接下來先從root權限入手,通過開放部分權限給huaxin這個普通用戶, 然後

原创 CDH配置Sentry以及權限測試

在CDH中添加完Sentry服務後,需要更改一下hive配置才能通過beeline訪問。 第一,修改Hive下的HiveServer2配置,如下所示: 將HiveServer2 Load Balancer中的admin去掉和Hiv

原创 Impala配置Kerberos認證和Sentry權限控制

集羣說明: 集羣有wlint01、wlnamenode01、wldatanode001~wldatanode018一共20個節點, 對應ip地址 192.168.32.9~192.168.32.28 1.生成keytab文件

原创 Python中的sorted函數以及operator.itemgetter函數

operator.itemgetter函數 operator模塊提供了itemgetter()函數,可以通過指定該函數的參數(參數代表維度)來獲取對象的相應維度的數據,可以通過一個例子看一下: from operator import i

原创 scala基礎知識--Ordering

trait Ordering[T] extends Comparator[T] with PartialOrdering[T] with Serializable 英文解釋 Ordering is a trait whose inst