原创 Shell零散知識點

1. 每一個命令執行之後都會有一個返回值。正確命令執行後的返回值是一個很特別的變量:?變量,其值爲0;若一個命令執行失敗,?變量值爲非零。 2. 有一個文件ping01.sh,內容如下,用bash或者sh命令執行都可以,因爲sh實際上是指

原创 groupby用法記錄

1. data phone level tag 131 A 1 132 B 0 133 C 0 134 A 1 135 A 1 136 B 1 137 B 0 138 A 0 139 A 1 140 C 0 2.  grouped =

原创 pandas根據列名對列重新排序

之前自己排序的方式。。。。 今天發現一個函數就能搞定: In [1]: frame=pd.DataFrame(np.arange(12).reshape((4,3)),columns=['c','a','b'],index=['D','

原创 看一個hive表各個分區的內存大小 & 看一個hive表的更新時間

1. 看一個hive表各個分區的內存大小 #看錶test.students的一級分區下的內存大小 hadoop fs -du -h /user/hive/warehouse/test.db/students #看錶test.stud

原创 numpy中nonzero()的用法

轉自:python numpy中nonzero(),isnan()用法 nonzero(a)---返回數組a中值不爲零的元素de下標,,返回值爲一個長度爲a.ndim(數組a的秩)的元組,元組的每個元素都是一個整數數組,其值爲非零元素的下

原创 L1正則與L2正則

學習與參考文章: 機器學習算法之嶺迴歸、Lasso迴歸和ElasticNet迴歸 通俗易懂--嶺迴歸(L2)、lasso迴歸(L1)、ElasticNet講解(算法+案例) L1正則化與L2正則化 L1與L2損失函數和正則化的區別 L1正

原创 特徵選擇

sklearn -- 1.13. 特徵選擇(Feature selection) 簡書 -- scikit-learn--Feature selection(特徵選擇) 1 移除低方差的特徵 假設有一個帶有布爾特徵的數據集,要移除那些超過

原创 學習曲線

利用學習曲線診斷模型的偏差和方差 寒小陽老師:機器學習系列(4)_機器學習算法一覽,應用建議與解決思路

原创 Hive之Select Transform語法()

參考文章: 阿里雲 Select Transform語法 hive transform python   主要解釋: Select Transform功能允許指定啓動一個子進程,將輸入數據按照一定的格式通過stdin輸入子進程,並且通過

原创 XGBoost目標函數公式推導

主要看了這幾篇文章: 通俗理解kaggle比賽大殺器xgboost  機器學習:XGBoost公式推導 xgboost推導 XGBoost的原理 首先大背景是這樣的: 對於加法策略可以表示如下: 初始化(模型中沒有樹時,其預測結果爲0)

原创 pandas裏面時間戳轉時間to_datetime注意unit

Using pandas to_datetime with timestamps (遇到在pandas裏面時間戳轉時間的問題,把查到的答案記錄在這裏) 主要注意to_datetime函數裏面的單位unit默認是毫秒ms,而非秒,而一般的1

原创 metastore數據庫裏個別表的作用

用 schematool -initSchema -dbType mysql 初始化Hive後,登錄mysql,裏面會有一個metastore數據庫,其中個別表的作用如下: DBS:記錄各位在HIVE裏面開的Database DB-PR

原创 啓動ipython notebook報錯UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 4: ordinal

解決辦法 把原來的啓動語句: ipython notebook --ip 0.0.0.0 改爲: LANG=zn ipython notebook --ip 0.0.0.0 答案轉載自:Jupyter打開出錯:'ascii' code

原创 三種地球座標系的區別

根據經緯度查地理位置:http://www.gpsspg.com/latitude-and-longitude.htm  (感謝xiaoxiao幫忙答疑解惑) WGS-84:是國際標準,GPS座標(Google Earth使用、或者GPS

原创 用beeline將數據導入表中

(這邊感謝yunheng) 用beeline將數據導入表中,需要先將文件上傳到hadoop,比如上傳到tmp下:hadoop fs -put 路徑/data.txt /tmp/ 然後進到beeline裏面執行:load data inpa