原创 Hive MapReduce腳本

Hive查詢 排序和聚集 轉自http://blog.csdn.net/zythy/article/details/18814781 通過Hive提供的order by子句可以讓最終的輸出結果整體有序。但是因爲Hive是基於Had

原创 HIVE 加jar包

use tmp_htldb; --加載UDF函數 drop resources zlp_udf.jar; drop function GPSDistance; add jar hdfs://ns//user/xxx/user/zlp/u

原创 HIVE 自定義函數

轉自:http://blog.csdn.net/zythy/article/details/18818559 當Hive提供的內置函數無法滿足你的業務處理需要時,此時就可以考慮使用用戶自定義函數(UDF:user-defined f

原创 hive常用函數 兩層json格式解析

轉自http://blackproof.iteye.com/blog/2108353 字符串函數 字符串長度函數:length   Java代碼   語法: length(string A)   返回值: int 

原创 HIVE 中 multi_distinct的注意事項

前hive的版本支持multi-distinct的特性,這個在用起來比較方便,但是在此特性下面無法開啓防數據傾斜的開關(set hive.groupby.skewindata=true),防止數據傾斜的參數只在單distinct情況下

原创 hive array、map、stru…

轉載自:http://www.cnblogs.com/end/archive/2013/01/17/2863884.html hive提供了複合數據類型: Structs: structs內部的數據可以通過DOT(.)來存取,例如,表

原创 GBDT相關

Boosting算法族: boosting方法通過分步迭代(stage-wise)的方式來構建模型,在迭代的每一步構建的弱學習器都是爲了彌補已有模型的不足 1、AdaBoost: 通過給已有模型預測錯誤的樣本更高的權重,使得先前的學習器做

原创 【轉載】COMPRESS 函數【功能…

COMPRESS 函數【功能】從一個字符串移除特定的字符   【類別】字符函數     【語法】   COMPRESS(   指定一個要被移除字符的源字符串。   chars 指定一欄初始字符,默認它是要從source裏移除的。如果指定

原创 Python教程:[63]操作目錄/路徑【2…

 【轉載】 上一篇介紹瞭如何讀取文件路徑的各個成分,現在我們看一下操作目錄路徑的一些方法,主要介紹getcwd等方法,我們來看一下具體的方法: 先來裝載os模塊 獲取當前腳本的工作路徑:用getcwd

原创 【轉載】format 與宏

%macro crackman; %local rcount i; data a; set sashelp.class end=no_more; call symput("range"||left(_n_),trim(left(Name

原创 口譯常用成語

口譯常用成語 繁榮昌盛thriving and prosperous 愛不釋手fondle admiringly 愛財如命skin a flea for its hide 愛屋及烏love me, love my

原创 【轉載】Python 基礎語法(二)…

作者:Peter 出處:http://t.cn/SInKe7 Python 基礎語法(二) --------------------------------------------接 Python 基礎語法(一) ---

原创 mapreduce算中位數

轉自 http://blog.sina.com.cn/s/blog_7905e70c0101kz7d.html Suppose you have a master node (or are able to use a consensu

原创 【轉載】SAS  Hash 對象

Hash 對象   1.基本原理 散列表(Hash table,也叫哈希表),是根據關鍵碼值(Key value)而直接進行訪問的數據結構。也就是說,它通過把關鍵碼值映射到表中一個位置來訪問記錄,以加快查找的速度。這個映射函數叫做散列

原创 logistic 迴歸

Logistic迴歸:實際上屬於判別分析,因擁有很差的判別效率而不常用。 1. 應用範圍: ① 適用於流行病學資料的危險因素分析 ② 實驗室中藥物的劑量-反應關係 ③ 臨牀試驗評價 ④ 疾病的