勿忘初心,不斷進步

       今天開通了CSDN的博客,這裏有各種技術大牛的技術貼、產品分析貼,我作爲一名小菜,除了對各種大牛頂禮膜拜外,也希望能通過不斷地學習、總結、思考、創新,不斷地向大牛們靠近,期待有一天也能和大牛們平等對話交流,這裏的平等,不是指身份地位的平等,而是指知識儲備、技術水平、思維靈敏度、不斷學習的進取心方面的平等。這需要一定的時間,當然也不能拖沓,最早的開始就是現在,最了不起的天賦就是踏實、努力。

       前幾天看到百度總裁李彥宏的一篇演講稿,主題是:選擇、專注、視野。他說他從選擇了搜索引擎這個領域後,從沒有離開過搜索引擎超過24小時。人的一生有千千萬萬個選擇,而最重要的兩個選擇是:人生伴侶與事業。選擇一個最適合你的人,用心去愛他/她,也幸福地收穫愛;選擇一個喜歡的領域,用時間和智慧開拓自己的疆土,爲這個世界創造價值,也讓自己不斷汲取養分,茁壯成長。目前爲止我爲自己選擇的領域是:數據分析。原因有二,很簡單:有意義、有空間。

       大數據的概念這幾年被炒得很火,也因此滋生了很多與之相關的專業和崗位,像數據挖掘專業、數據挖掘與分析崗位等。其實數據分析從很早的傳統行業裏的“成本”、“利潤率”、“銷售量”這些統計量就開始有了,只是近幾年隨着web2.0和移動互聯網的迅猛發展,數據的產生量呈爆發式地增長,也激發了人們對大數據價值的思考和重視,然而,由於技術分析水平有限,目前對大數據的研究和利用仍然處於起步階段。個人對數據分析的理解是:數據分析由三個重要的部分組成——模型、算法、業務。數據分析是一個大類的概念,細分到各行各業都有自己的數據分析,數據分析離開業務需求是沒有意義的,具體的行業、企業,業務不同,數據不同,數據分析的方法和目的也不同。要成爲一名優秀的數據分析師,一定要對業務有全面深入的認識和理解。另外兩個:模型和算法,是一名數據分析師的基本功,因爲這個領域在不斷地發展,我們的知識儲備也要不斷地更新、擴展。除此之外,數據不僅僅是數據,數據背後有隱藏的邏輯、規律,要想讓數據說話,我們得具備跟它對話的思維能力,經濟原理、金融知識、心理學、社會發展、科技前沿,你懂的永遠都不會過多。

       個人認爲,一次完整的數據分析步驟是回答三個問題:what?why?how?存在什麼問題?爲什麼會這樣?應該怎麼做?問題發現、分析過程、結論得出。數據分析的流程應該是:1選定問題→2數據獲取→3數據整理與清洗→4數據基礎分析→5數據建模→6模型求解→7分析總結,1需要對業務有深入的認識和思考,要善於發現問題;2其實是數據挖掘過程中很重要的分支,可以說是一個純技術活,網絡爬蟲、hadoop、數據倉庫、大數據架構,每一項技術和概念都可以深入探索,都是硬骨頭,啃起來很費勁,精通了很牛X;3是一個費時費力的過程,也是爲後面的數據分析理清頭緒的一個重要準備階段,海量數據蘊含無限價值,但海量數據來源廣、格式雜,很多都是半結構化、非結構化數據,要找出數據中隱藏的邏輯和規律,首先要將有用的數據提取出來,並將其整理成易處理和分析的格式,校驗錯誤數據和異常數據;4可以對數據進行簡單的可視化、基礎分析(例如相關性檢驗、均值、方差、平穩性等),分析數據的基本特徵,初步摸索數據規律;5就是正式建模的過程,選定基本模型框架,可能需要對細節參數進行反覆試驗調整,或者採用多個模型進行比較,相對優劣要依賴6的求解(驗證)結果,模型可以是已有經典模型,也可以是自建模型;6也是核心步驟,對於同一個模型,不同的算法求解效率和結果質量是千差萬別的,一個優秀的數據分析師應該有深厚的算法素養;7是最後實現數據分析價值的部分,把數據分析的結果總結應用於業務支持/指導纔是數據分析的終極意義,總結也包括整個數據分析過程中遇到的一些困難和經驗積累。

        路漫漫其修遠兮,吾將上下而求索。不忘初心,不斷進步,乘風破浪,勇往直前!

      

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章