原创 批量數據接入系統設計

最近在考慮批量數據接入系統的設計,也就是從外部的數據庫、文件等數據源,採集數據後存儲到目標的數據庫或分佈式存儲系統中。接入後的數據再經過清洗、融合等處理後,形成基礎庫和主題庫。 採集數據源和目標數據源 數據源可以分爲來源數據和目

原创 投標演示項目準備

這幾天投標國家污染源普查項目,要求有一個demo演示系統功能,同時也提供了普查的樣例數據,按照演示的要求,準備了一個演示場景,如下: 按照要求,演示要涵蓋4個方面的內容,由於時間倉促,只導入了工業污染源的4張表的數據進行演示,同

原创 業務中臺包含什麼

今天上午和客戶交流業務中臺和數據中臺。客戶是廣電行業,打算從增值業務切入,建設業務中臺,詢問業務中臺的架構。由於公司的方向是數據中臺,不涉及業務中臺,因此會議中對這個問題沒有做過多的闡述。會後我仔細考慮了一下,基於BOSS系統的業

原创 基於開源產品的機器學習平臺

規劃了一個基於開源產品h2o的機器學習平臺,基於租戶模式,可以對委辦局提供從構建模型到模型應用全流程的能力支撐。架構圖如下: 其中, 平臺基於H2O平臺,支持多種數據來源,除了H2O平臺的交互式建模界面,也支持Python、R

原创 多租戶下的數據治理

近期政府項目正在探討如何給委辦局開放大數據平臺的能力,包括存儲計算、數據治理、數據挖掘、數據分析等能力,要求平臺以租戶的形式支撐各項能力開放。其中,數據挖掘、數據分析等能力主要是以接口API、應用使用等方式提供能力,數據治理涉及到

原创 機頂盒直播節目推薦算法

最近與某廣電運營商交流用戶畫像與節目推薦,藉機學習了在機頂盒上實現節目推薦的算法原理,這個算法是在一篇碩士論文中看到的,將其中關鍵的部分寫下來,權當是自己的學習筆記。 由於機頂盒是一個面向家庭所有成員收看電視的設備,僅僅根據播放歷

原创 【數據治理】自定義數據治理規則

數據治理包括數據質量探查、數據清洗、數據脫敏等,這幾個動作實際上都是針對表數據的判斷或轉換,爲了增加系統的靈活性和擴展性,可以將其抽象爲規則,通過Java Script等形式允許用戶自定義擴展,概念圖如下: 其中, 數據質量探

原创 數據產品交付的核心優勢

今天去參加項目的初設評審會議,回來的路上和同事閒聊,吐槽公司研發的產品太弱,交付產品總感覺七拼八湊,哪個功能都不能深究。但反過來想,公司這幾年也做了不少數據項目,既有銀行,也有政府,而且也獲得了騰訊的投資,說明外界對公司的實力還是

原创 【數據治理】數據清洗原型

構思了一個數據清洗的功能。對於數據清洗的關鍵是通過數據探查,制訂出具體的清洗目標要求。爲了簡化數據清洗的複雜度,可以將清洗要求歸納爲業務人員容易理解的約束,比如,非空、不含空格、唯一等這類簡單的規則,也包括一些業務數據的約束,比如

原创 【數據治理】政府項目中的數據治理流程

今天與政府一個部門開會討論數據治理的需求及問題,感覺到他們對於系統功能的期望比較高,認爲通過一些配置就能完成數據質量檢查以及數據清洗等工作,從而提出了很多功能需求。但這一方面超出了系統的能力,而且也與實際的實施過程不符。實際過程中

原创 【數據治理】數據質量探查

結合這段時間做數據質量分析的過程,構思了數據質量探查工具的實現思路(下圖)。簡單來說,這個工具應該是基於對錶數據的分析結果,歸納並定義出質量檢查規則,這兩個過程應該是反覆迭代進行。其中, 數據探查部分是要實現一個對錶數據進行探索

原创 【IT化】大數據實施的信息化

最近這幾個月一直在項目團隊中,體驗着大數據實施中的點點滴滴,雖說以前管理數據產品的時候,數據採集、ETL、數據分析都在做,但接觸交付型項目還是第一次,包括與合作伙伴、政府部門等的溝通,都是全然不同的感受。拋開具體的流程不說,項目實施過

原创 數據質量工具真的無用嗎?

昨天公司幾個同事討論項目中遇到的問題,對於如何應對客戶提出的數據清洗智能化的需求,其中一個很資深的同事提到,對於大部分項目,數據質量和數據清洗最終都會成爲諮詢項目,“工具在其中起到的作用連20%都不到”。他認爲,對於技術類的諸如非空、

原创 【產品規劃】數據質量智能探查

這兩天項目正在接入新的數據,包括戶籍人口數據、學校數量、醫院數量等,上午簡單瀏覽了每個表的結構及數據內容,發現有幾個數據與網上公開報道存在衝突,應該是問題數據,比如,北京市出租車公開報道是6.6萬輛,但接入表數據顯示有20多萬輛出租車

原创 【學習筆記】zabix監控項概念

近期需要準備一個zabix演示,介紹項目中利用zabix實現的統一監控。原來也接觸過一些zabix的項目,不過僅僅是瞭解一些監控場景下的實現效果,對於其中的概念、機制等沒有深入的學習。這次由於項目中實現的監控頁面效果不好,再加上了解這