原创 hive行列互轉

1.行轉列 先說行轉列是什麼意思啊,假設有這樣的數據,uid表示用戶,time表示時刻,event表示用戶這個時刻在幹什麼,我們保存到數據庫中就是這樣的 uid time event a 09:01:00 睜眼

原创 二分查找邊界問題

首先是二分查找的定義,這個是直接從百度上找到的 首先,假設表中元素是按升序排列,將表中間位置記錄的關鍵字與查找關鍵字比較,如果兩者相等,則查找成功;否則利用中間位置記錄將表分成前、後兩個子表,如果中間位置記錄的關鍵字大於查找關鍵

原创 雙指針法之-有序數組-去重與合併

21. 合併兩個有序鏈表 將兩個升序鏈表合併爲一個新的升序鏈表並返回。新鏈表是通過拼接給定的兩個鏈表的所有節點組成的。 示例: 輸入:1->2->4, 1->3->4 輸出:1->1->2->3->4->4 非常正常的思路,定

原创 安裝hadoop和spark

windows scala spark 可以看到spark要求hadoop版本大於2.7,解壓完後將(D:/spark/bin)添加到環境變量中 hadoop 記得版本要大於2.7,我們下載hadoop-x.y.z.tar.gz

原创 ARMA模型的簡單瞭解

` 時間序列預測常用的方法有移動平均法,指數平均法,AR,MA,ARMA等,這類方法比較適用於小規模,單變量的預測,比如某門店的銷量預測等,但是這些都要求序列是平穩的。 弱平穩序列 如果一個時間序列 xtx_txt​ 滿足以下兩個

原创 python load和dump

這只是一個簡單的記錄 loads操作的是字符串 load操作的是文件流 dumps 把python對象轉化爲字符串 loads 把字符串轉化爲python對象 loads -> load string 所以loads其實就是加載(

原创 bitmap算法與布隆過濾器

bitmap算法 考慮這樣一個真實的情景,現在有10億個數字的集合S,給定一個數字v,判斷v是否在集合中。第一個想法就是把這10億個數字存儲到數組中,然後咱們遍歷這個數組就可以了。那麼這個數組佔用多大的空間呢,假設每個數字都是4個

原创 雙重差分法(DID)

假設我們有一個廣告方案P,沒有經過ABTest直接在在一些城市放量了,怎麼來判斷這個廣告的有效性(gmv)呢?能不能直接比較投放廣告的城市和沒有投放廣告的城市之間gmv的差值呢 Δgmv=avg(投放廣告城市的gmv)−avg(沒

原创 grouping sets的用途

1、hive中的grouping__id的數字規則 如 select a,b,c,grouping__id from test group by a,b,c grouping sets ((ab),(ac),(abc)) 規

原创 adboost爲何有效

adboost在幹什麼 adboost能有什麼思想呢? boost的思想非常簡單,

原创 L1和L2爲什麼可以防止過擬合

什麼是過擬合 過擬合這個意思其實就是提高泛化能力,我們在訓練集上整了一個極其複雜的模型,準確率高達99.9999%,但是當把這個模型應用到測試集上的時候,準確率跌到了0.0001%,這種情況就稱爲過擬合或者說模型的泛化能力差。

原创 信用卡評分系統

假設檢驗 假設檢驗是用來判斷樣本與樣本,樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統計推斷方法。其基本原理是先對總體的特徵作出某種假設,然後通過抽樣研究的統計推理,對此假設應該被拒絕還是接受作出推斷。 樣本間差異有兩種方式

原创 macos mongodb安裝

首先是mongodb的下載download 解壓之後新建三個目錄 mkdir -p data/db mkdir etc mkdir log touch mongod.log 然後在創建一個配置文件放到etc中 cd etc vi

原创 hash函數和hash表

hash表 首先說hash函數,hash其實就是一個映射函數y=Hash(x)y=Hash(x)y=Hash(x),具體做的事情就是把一個值y(數字,字符串等)映射成一個數組hash_arr的下標index(數字),然後把這個值存

原创 辛普森悖論

迷人又詭異的辛普森悖論:同一個數據集是如何證明兩個完全相反的觀點的? 辛普森悖論:詭異的男女比例