原创 hive 計算上月的 年月 yyyy-mm

select substr(add_months(date_sub(sysdate(-1),dayofmonth(sysdate(-1))-1),-2),1,7)

原创 供應鏈研發部和Y事業部 盤點

供應鏈研發部和Y事業部的同事們: 大家好! 爲了全面提升供應鏈團隊整體工作質量,提高產品、研發、測試各角色協同工作效率,確保研發團隊最終交付結果(產品)對我們的客戶產生顯著價值,並幫助實現我們的願景:成爲行業供應鏈技術解決方案產品的領導者

原创 漫談數倉第二篇NO.2 數據模型(維度建模)

本文導航 前言: model對於數倉是最核心的東西,數據模型是數據組織和存儲方法,模型的好壞,決定了數倉能支撐企業業務多久。 爲什麼大多數企業,數倉都要重建,這不僅僅是業務拓展、發展迅速,很大一部分是因爲模型建的很爛。 01. 基本概念

原创 工作如何做計劃

工作如何做計劃

原创 hive decode gb18030 to utf-8

How can i hive decode gb18030 to utf-8??     select reflect('java.net.URLDecoder', 'decode','%cb%d1%b9%b7' , "GBK")

原创 宿遷公安項目總結

宿遷公安項目總結 宿遷公安項目是京東對外輸出的一個大數據標誌性成功案例,幫助公安系統構建了一個完整的大數據平臺系統,能夠完成數據收集,加工和算法運算,本文就個人經驗和可公開的資料談談對項目的看法和總結。   宿遷公安項目基於大數據,雲計算

原创 hive 2.0 下,orc 格式的hive表 change column 後 字段對應的數據丟失

大牛初步分析原因是 orc 數據文件裏面也會保存一部分hive字段元數據信息 ,修改後 ,新字段跟數據文件對不上 ,造成數據不能提取

原创 哈哈 一段sql 語句

set mapred.job.priority=NORMAL; set mapred.output.compress=true; set hive.exec.compress.output=true; SET hive.default

原创 2.決策樹 -分類樹

決策數的主要概念 1.什麼是決策樹      2.決策樹構建的準備工作 香濃熵 & 信息增益 3.遞歸構建決策樹  ID3算法    C4.5  cart  

原创 loading data to table 分區非常的多 ,造成時間非常長

在貼源層大概有兩年的數據 ,存在一個分區裏面 ,在往odm 寫入時候 按照交易時間進行重新分區 ,造成運行時間非常長,這個有什麼解決方案呢 ?      loading。。。。

原创 hive kill command 和 Hadoop Job infomation 之間的時間間隔很大

hive kill command  和 Hadoop Job infomation for stage-19 number of mappers 之間的時間間隔很大    超過三分鐘 ,不知道什麼原因   A: 提交的APP job 數

原创 有一段sql

#!/bin/bash ##########################################################################################################

原创 hive 出現 unsupported subquery expression 錯誤

Failed , semanticException [error 10249] Unsupported subquery expression : Subquery expression refers to both parent an

原创 SVR forecasts stock opening price

SVM-Regression         The method of Support Vector Classification can be extended to solve regression problems. This m

原创 sklearn & 機器學習實戰

      sklearn 機器學習   決策樹 k-緊鄰算法   隨機森林 決策樹   數據處理和特徵工程 樸素貝葉斯   主成分分析pca與奇異值分解svd Logistic 迴歸   邏輯迴歸 支持向量機   聚類算法和k-mean