原创 Impala vs GreenPlum vs StarRocks 千萬級數據場景下性能測試及比較

背景介紹: 近期研發大數據產品遇到一個需求,面對大數據平臺中的巨量數據,用戶需要對不同表的數據進行聚合查詢,包括join,group,count等操作,需要快速的得到結果。目前主要面向離線數據,暫時不考慮實時數據。現行技術選型是基於CDH的

原创 如何使用大數據--如何進行數據分析?以電影票房預測爲例

  廣播、電視、電影和影視錄音製作業包含廣播、電視、電影和影視節目製作、電影和影視節目發行以及電影放映等細分行業。目前國內電影票房的日趨火熱,2010年到現在電影票房近乎呈指數增長,理念觀影人數以及電影銀幕數數量同樣呈近乎指數的增長趨勢,而

原创 如何使用大數據--最常用的四種大數據分析方法

  本數據挖掘分析領域中,最常用的四種數據分析方法:描述型分析、診斷型分析、預測型分析和指令型分析。 當剛涉足數據挖掘分析領域的分析師被問及,數據挖掘分析人員最重要的能力是什麼時,他們給出了五花八門的答案。 其實我想告訴他們的是,數據挖掘

原创 kettle etl mysql to hive/to hdfs

1.使用kettle 連接mysql導出數據到hive 添加 mysql connection database connection右鍵-->new 添加 hive connection database connection右鍵-->n

原创 hue上使用oozie調度sqoop import mysql數據到hive

近期實踐CDH大數據平臺的搭建使用,CDH搭建結束後,嘗試使用oozie調度從mysql導出數據到hive表中。     1.CDH 搭建         資源需求如上,由於目前CDH新版本收費,我們選擇使用CDH 6.3.2版本,自己網

原创 數據中臺建設方法論

一 數據中臺建設與架構 不能把數據中臺簡單看作一個項目或產品,建設數據中臺要從戰略、認知、組織保障等更高的層面做規劃。3.2節重點介紹的數據中臺建設方法論體系,是筆者們多年大數據領域從業經驗和多個數據中臺建設經驗的總結。希望這套數

原创 基於R語言的算法發佈

R語言開發的算法如何發佈成服務供其他系統調用? 這裏推薦使用opencpu操作。 一個R語言模型的落地應用有幾種方式:可能是一個簡單的分析報告,可能是將預測結果輸出到數據庫,即離線模型,也可能需要實時讀入數據進行實時預測輸出。第三種情況是最

原创 一個簡單的例子解釋隨機森林的原理

簡介 作爲新興起的、高度靈活的一種機器學習算法,隨機森林(Random Forest,簡稱RF)擁有廣泛的應用前景,從市場營銷到醫療保健保險,既可以用來做市場營銷模擬的建模,統計客戶來源,保留和流失,也可用來預測疾病的風險和病患者的易感性。

原创 使用隨機森林算法預測成年人收入

本文使用一個簡單的例子來讓大家瞭解機器學習如何使用,如何使用隨機森林算法來進行數據預測。 1.準備數據 成年人數據集  點擊下載 2.導入數據集 ############################# 隨機森林實例 ######

原创 【轉】雲架構師的進階之路

一、架構的三個維度和六個層面 1.1、三大架構 在互聯網時代,要做好一個合格的雲架構師,需要熟悉三大架構。 第一個是IT架構,其實就是計算,網絡,存儲。這是雲架構師的基本功,也是最傳統的雲架構師應該首先掌握的部分,良好設計的IT架構,可以

原创 sudo免密設置

1. vi /etc/sudoers   在root ALL=(ALL:ALL) ALL下面添加:        **** ALL=(ALL) NOPASSWD:ALL   ***表示你要提權的用戶名   保存 2.執行 id ***  

原创 docker發佈簡單python服務

進入機器創建一個目錄mkdir dockerbuild1.編寫簡單flask代碼vi flaskapp.pyfrom flask import Flaskimport os app = Flask(__name__) @app.route(

原创 PMP學習記錄

本人在2020年12月已經順利拿到PMP證書。 第一次聽說PMP證書是2016年,一個同事說考試通過拿到了PMP證書,當時對PMP不是很瞭解。也未作深入瞭解,當時認爲俺是做技術的,這個證書沒啥用。O(∩_∩)O哈哈~認知限制了自己 再次聽說

原创 kubernetes學習之CKA認證

最近接觸了很多kubernetes應用場景,學習了不少kubernetes的知識,所以想着官方認證一下CKA。不得不感嘆:雲時代真的來了。 K8s的專業技術認證主要有以下幾種: CKA(Kubernetes 管理員認證)CKAD(Kuber

原创 spring data JPA 使用EntityentiListeners實現數據審計功能設計

當系統中有審計需求時,特別是需要對某些數據進行動態監控時,我們可以使用EntityentiListeners來實現,當然這是基於使用JPA而不是mybatis的情況下。 當前我們的需求場景: 1.需要監控某一個實體的數據變化(add,upd