原创 閒聊調度系統 Apache Airflow

開始之前Apache Airflow 是一個由開源社區維護的,專職於調度和監控工作流的 Apache 項目,於2014年10月由 Airbnb 開源,2019年1月從 Apache 基金會畢業,成爲新的 Apache 頂級項目。A

原创 爲運營分析而設計的數據系統

介紹一個有趣的數據系統Operational Analytics Processing,OPAP系統。不同於傳統的OLTP和OLAP,它更注重於實時數據的即時分析。下面這篇文章加了我自己的一些理解和實踐經驗,原文請參考:https

原创 Anaconda的安裝和詳細介紹(帶圖文)

Anacond的介紹 Anaconda指的是一個開源的Python發行版本,其包含了conda、Python等180多個科學包及其依賴項。 因爲包含了大量的科學包,Anaconda 的下載文件比較大(約 531 MB),如果只需

原创 Taro + dva 使用小結(搭建配置過程)

最近寫一個微信小程序的項目,由於是協同開發,前期的搭建工作由另一個妹子完成,現在項目階段一完成了,爲了備忘回顧,做一個階段性小結。 在寫小程序之前經過對比最後採用了京東凹凸實驗室開發的類react框架Taro,用框架的好處就不多

原创 python實現數據倉庫的自動化開發

概述前面講了基於元數據驅動數據倉庫的開發,使數據倉庫自動化,可視化。這篇講用python來實現數倉的自動化開發 ,前提是你已經完成了需求調研和

原创 手把手教你使用Kettle JAVA API進行數據抽取

Kettle作爲一款優秀的數據抽取程序,因爲高效穩定的性能,一直被廣大使用者所喜愛,並且還在國內廣受好評。因爲其本身使用純JAVA編寫,所以其JAVA API使用起來自然也是非常簡便。雖然其本身自帶的組件已經非常好用,並且能夠

原创 kettle向MySQL推數據時報錯

背景:官網後臺(MySQL)需要從CRM系統(Oracle)抽一張表,然後我使用ETL工具kettle來抽取數據。 問題:200W左右的數據抽到150W左右的時候突然拋出了一個錯誤,你說氣不氣:     【------2019

原创 命名標準管理

概述 數據建模的過程中,會對幾百個甚至上千個字段進行命名,特別在一個團隊中,經常會遇到這些問題:                                    這時候就需要建立一個標準的、統一的命名平臺,每個人不僅

原创 如何在linux部署kettle並實現定時調度任務

最近工作中需要在linux部署kettle做數據抽取轉換的工作,在此做個記錄(略過安裝jdk部分) 一:部署kettle 1:創建一個目,將下載好的kettle解壓後放在該文件夾下。 # mkdir /usr/kettle 將ke

原创 kettle案例-----linux使用kettle

我們之前學習的kettle操作都是在windows中進行可視化的操作,但是在使用過程中發現一些問題。 比如我們的數據文件是放在linux服務器中的,如果要清洗則需要把它們下載到本地,這樣需要耗費一些時間,尤其是數據文

原创 揭祕谷歌的HR數據分析文化

People Analytic在谷歌無處不在,所有關於人的決定都是基於數據分析。 本文爲作者陳書堯(Ellen)在HR成長部落2019年6月23日的人力數據線下活動分享文字實錄。大家好,簡單介紹一下我自己:我現在是美國強生全

原创 9種常見的HR數據分析方法

9種方法,化繁爲簡。  1 對比分析一個數據本身是沒有任何意義的,只有在把它和其他數據放在某個場景下做對比,我們才能真正發現它的意義。我以前在汽車行業,公司每年的銷售增長率在20%上下。這個增速到底高還是低?跟互聯網行業的發

原创 谷歌是如何應用數據分析來驅動人力決策的

谷歌在數據分析決策方面,專門開發了一套決策模型(Analytics Value Chain)。 谷歌自創立之初在公司文化上就深深地帶有創始人的烙印,公司文化屬於典型的工程師文化。公司內有一條不成文的規則,那就是任何決策不能拍

原创 如何利用大數據分析技術預測員工離職?

爲什麼我們要對員工離職進行預測,因爲它會幫助公司減少員工離職成本的消耗。 本文爲美國肯尼索州立大學劉麗媛(Lilian)在HR成長部落2019年6月23日的線下活動分享文字實錄,希望對大家在數據分析在HR領域的應用有所啓發。

原创 如果評估銷售獎金設計的有效性?

不是錢發出去問題就解決了。 有朋友發來一條關於銷售獎金的問題:“我們做大宗商品現貨銷售,一直都有獎金,薪酬結構是基本工資加提成獎金加年底利潤提成,我們總的薪酬在同行業內是高的,每年的工資獎金髮不少,但老闆現在給了HR一個任務