Google工程師是怎麼處理大規模數據的?

毫無疑問,Google是公認的大數據鼻祖。如今很多人提起大數據,還停留在 Google 開啓的“三駕馬車”時代:Google FS、MapReduce、BigTable。其實,“三駕馬車”早已不是浪潮之巔。

近年來,大數據技術的發展,不論是技術迭代,還是生態圈的繁榮,都遠超我們的想象。從 Spark 成爲 Hadoop 生態的一部分,到 Flink 橫空出世挑戰 Spark 成爲大數據處理領域的新星,再到如今 Google 又決心用 Apache Beam 一統天下。大數據技術的發展可謂跌宕起伏,波瀾壯闊。

大數據技術生態圈

豐富的工具,繁榮的生態,也增加了開發者選擇合適工具的難度。把開源框架,工具,類庫,平臺整合到一起,所需要的工作量以及複雜度,可想而知。技術的選擇與使用,也是大數據開發者非常頭疼的問題。

對大數據以及人工智能概念都是模糊不清的,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大數據學習qq羣:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系 。從java和linux入手,其後逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相關知識一一分享!

之前和 Google Brain 的工程師交流的時候,他提到在大數據領域,能把技術想明白,用明白的開發者太少了,一些中小型公司的技術 VP ,往往也是在“趕技術的時髦”的狀態中,更別說普通的開發者。對大數據處理,比較常見的誤區有下面幾種:

1.低估了數據處理的重要性。

沒有高質量的數據處理,人工智能只有人工沒有智能。例如在語義理解上,Google 就曾犯過這樣的錯誤,直到被一家德國的小公司超過,才認識到高質量的數據標註和處理的重要性。

2.低估了數據處理工程師在組織架構上的重要性。

大數據領域泰斗級人物Jesse Anderson曾做過一項研究,一個人工智能團隊的合理組織架構,需要4/5的數據處理工程師。其實,即使是一個寫前端的工程師,很多工作還是數據處理。很不幸,很多團隊沒有認識到這一點。

3.低估了數據處理規模變大帶來的複雜度。

很多人還沒有遇到過“大規模”的問題,因此容易把問題想的過於簡單。Google有很多優秀的候選人,他們對常見的編程問題可以很好的解決,但只要追問數據規模變大時怎麼設計系統,回答卻常常不盡人意。

4.高估了上手數據處理的難度。

一方面我們需要認識到大規模的數據處理是有複雜的因素的。但另一方面,有了正確的工具和技術理念,現在上手數據處理並不困難。在Google,很多應屆生入職半年後也能輕鬆應對上億的數據量。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章