大數據分析工作的一些經驗

       這兩年,大數據很熱,幾年前,我也從程序設計轉到了數據分析,在工作上,我能接觸到一些大數據,比如目前正在實施的一個項目,每天的新增數據在100萬左右,一年大概在3億的數據量,幾年前,最主要的還是對這些數據進行管理和維護,保證數據的準確性、實時性和完整性,從硬件和軟件方面來保證數據的安全,這兩年,隨着大數據技術的發展,數據分析、數據挖掘等方面的應用就非常的需要了。

      一下進入了數據的海洋中,有種海闊天空的想法,之前的軟件開發工作中,根據需求來寫代碼,覺得空間很小,你的思維和角度已經被框架限制住了,沒有什麼大的想法,基本就是按照設計結構把功能實現,但在數據分析中,需求也是一樣的存在,但是這個架構很大,很多時候可以自由的發揮,可以有一些天馬行空的想法,一個思路變更,可以得到完全不同的結果,而在數據分析的過程中,也可以發現很多有趣的東西。

       我們做的是醫療數據分析,每個月要提交各種詳細的數據分析報表,給領導做爲決策依據,根據這個要求,我們設計了數據模型,對數據進行清洗和整理之後,灌入數據模型,就可以得到想要的分析結果表。在這個數據模型裏,我們可以加入很多自己的想法,來實現一些更細更精確的數據分析,比如:在某個月份某個病種在某個人羣範圍內更容易發生,發生這個病之後,病人的治療時長就醫金額適用藥品的詳細信息,這樣的數據分析很沒有限制,讓設計人員有很大的發揮空間。

        整理一下,打給的數據流程

1.大數據的採集與預處理。

      由於數據量比較大和數據的多源和多樣性,首先要保證數據採集的及時和準確,而數據源的不同,導致數據的質量存在差異,嚴重影響到數據的可用性。因此必須對數據的採集進行處理,並進行數據清理,提高數據的質量。

2.在大數據存儲與管理方向

     數據的管理上和存儲複雜比較複雜,需要兼顧結構化、非結構化和半結構化的數據。在數據存儲方面既要考慮數據的文檔和安全,同時又要讓數據能否快速靈活的被使用起來,因此在大數據存儲和管理方向,尤其需要關注的是大數據索引和查詢技術、數據備份、數據存儲等。

3.數據模型的重要性

      在數據的分析中,建立一個整體的數據模型很重要,它就像一個系統的框架,必須要有足夠的深度和廣度,不能侷限於某一個方面,在整體的模型下,再建立分模型,再來實現數據的分析。

4.數據分析

     最後根據具體的指標進行數據分析,得出結果。

    

    

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章