原创 大數據之HBase基礎

HBase簡介1.1. 什麼是HBaseHBase是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集羣。 HBase的目標是存儲並處理大型的數據,更具體來說是僅

原创 要想月薪達到5萬,要必備以下9項技能,阿里前大數據工程師說的

現在已經進入了大數據時代,哈佛大學社會學教授加里·金說:“這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。” 目前很火,數據源頭,各種炫酷新技術,搭建hadoop、Hive、Spa

原创 什麼叫大數據 大數據的概念

1、大數據定義對於“大數據”(Big data)研究機構Gartner給出了定義,“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據技術的戰略意義不在於掌握龐大的數據信息,而在

原创 大數據的真正價值在哪裏?你get到了嗎?

信息爆炸這個詞,想必對於大家來說,已經沒有多少新鮮感了,而信息爆炸所引發的大數據,卻日益成爲了企業的寵兒,越來越多的企業也逐步認識到了大數據的重要性,但是大部分企業往往只看表面,盲目跟風,大量收集數據,有用的無用的,企業的行業的,生怕沒有抓

原创 spark-一些參數優化

Spark程序優化所需要關注的幾個關鍵點——最主要的是數據序列化和內存優化 spark 設置相關參數問題1:reduce task數目不合適解決方法:需根據實際情況調節默認配置,調整方式是修改參數spark.default.parallel