一個苦逼工程師對大數據的一點淺談

  2012年12月13日中國雲計算大會在中關村軟件園開始了第二天的日程,由於同事無法參加,於是我便趁此機會感受一下IT領域的前沿科技,做爲公司裏一名普通工程師的我,也比較喜歡關注IT互聯網領域裏的最新動向,尤其是近幾年涌現出了很多名詞,比如雲計算、虛擬化、大數據,這些披着華麗外衣的新鮮事物被各個廠家炒的不亦樂乎,有時候和同行們交流的時候,不整點新鮮詞彙好像都被時代淘汰了一樣。

  對於一個每天埋頭苦幹的我來講,接觸最多的就是系統、數據庫、應用等等,我們每天要很努力的保證他們不出意外,否則就要丟掉飯碗,而近年來雖然總是聽到各個互聯網大佬們都在談論什麼雲計算、虛擬化等等,但是這些東西在頭腦中總是沒有一個清晰的概念,雲到底爲我們帶來了什麼?虛擬化身上到底有什麼讓人如此瘋狂?到底多大的數據纔算是大數據?其實我想真的只有置身於火海之中,才能感受到其中的魅力吧,雖然每天也在追求所謂的互聯網趨勢,但是趨勢到底在哪裏?

  在這裏我不會長篇大論互聯網趨勢,太多概念性的文章網上一搜一大把,這裏主要記錄我對大會的一點心得。

大數據

  大會的主題是大數據,這是今天會議主會場討論的焦點,現場嘉賓來自政府、海外,還有很多企業的主管等,但是需要承認的一點是80%討論的內容我都聽不懂,這其中包含了金融、教育、行業利益等等企業家們所關注的話題,這些對於一個關心底層技術的我來講着實有點高深莫測,但是由謝文老師等人組成的圓桌會議討論了很多我感興趣的內容。

  其實我所認爲的大數據就是超級大的數據,他們跑在分佈式架構的hadoop中,但是爲什麼不用oracle呢?爲什麼一定要用分佈式系統呢?今天的會議給了我不錯的答案。

  如何在極短的時間內統計出用戶在某一時刻的行爲信息,這是在處理大數據過程中值得關注的一點,隨着移動終端的普及,各個廠商的應用層出不窮,而這些信息就產生在日誌記錄中,最終隨着時間的推移,日誌越來越多,數據越來越大,將這些信息都扔掉嗎?顯然不能,對互聯網敏感的大佬們早就看出了數據對於整個行業的影響力,舉一個現實生活中的例子,我們去中介看房子、買房子等等,最後我們發現不只是中介這一家個公司給你打電話做推銷,醫療、教育、甚至保險公司天天給你打電話,這是爲什麼呢?因爲我們的信息、我們的個人數據被中介公司給賣掉了,我想這就是數據的價值,當然這是一個反面例子,但是我們想象一下,如果我們善用這些數據,那麼我們的生活會發生怎樣的變化,通過數據分析我們可以知道下一頓飯吃什麼比較合適,通過分析我們可以瞭解自己是一個什麼樣的人,因爲這些信息都來自平時上網時產生的動作記錄,通過複雜的數據算法,計算出我們想要的種種結果,在未來可能會沒有高考,每個人出生後就會有一個電子檔案,裏面記錄了你從小到大的全部信息,情商、智力、學習成績等等,到那時可能就不會單用高考這一個門檻來抉擇一個人的命運。

分佈式系統

  通過上面來看,我們不難想象爲什麼會用到分佈式處理系統,如果只是一個人一天的信息,那我有把握用一張紙就能算清楚,但是互聯網每天產生的數據已經是pb級別了,如此繁多的數據一定需要有一個強有力的平臺來計算,更何況在特定的時候我們要在幾毫秒的時間內在pb級的數據中計算出我們想要的結果,這樣也就不難理解在分佈式系統中hadoop的重要性了,其大量數據的計算性能遠遠不是普通關係型數據庫所能比擬的,站在這個角度上來看,我們就不難理解虛擬化的魅力所在了,在虛擬化的支持下可以極大的降低硬件成本,最大化的擴展硬件利用率,最後我們把這個龐大的系統理解爲雲。

未來機器替我們思考?

  數據在經過及其複雜的計算後,我們得到了想要的結果,但我們會不會因此失去獨立思考的能力呢?其實現在互聯網的便利已經使大多數人離不開他,網絡上我們叫這種人爲搜素一族,什麼事情他們都喜歡看看網絡上給出的結果,而且還認爲那是比較權威的答案。而隨着數據時代的到來,人們可能會更加依賴於這個平臺,例如前面所說,計算一下我們就可以知道下一餐吃什麼比較好,甚至公司在招聘的時候都不用面試,只要通過計算就可以知道這個人的來龍去脈(當時是要在法律允許下)

  在數據面前我們會不會失去思考,我們會不會離不開數據計算的結果,這依然是一個很有趣的迷。

寫在最後

  爲了參會請了一天假,但是這一天還是比較值得的,通過一天的學習,我終於對這些華麗的名詞有了那麼一丁點的理解,在大會中不難看出每一個廠商對未來數據時代都充滿了期待,這其中不僅包括硬件、技術,還包括更多的合作、利益、隱私及法律,最重要的是他有可能是即互聯網時代後再次改寫人類文明的新篇章。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章