原创 Hbase -- 表的設計

1. 表的設計1.1 Pre-Creating Regions 默認情況下,在創建HBase表的時候會自動創建一個region分區,當導入數據的時候,所有的HBase客戶端都向這一個region寫數據,直到這個region足夠大了才進

原创 Manage ZooKeeper in IntelliJ IDEA

        Manage ZooKeeper in IntelliJ IDEA. After install ZooKeeper plugin,

原创 從大數據菜鳥走上大師的歷程

Scala,一門爲大數據而生的編程語言。對於進化緩慢的Java跟C++語言來說,目前Scala無疑更適應現代化特質的語言,語法簡潔,同時兼備函數式編程與面向對象編程,具有令人耳目一新的編程範式。而運行在J

原创 spark mllib java.lang.UnsatisfiedLinkError: org.jblas.NativeBlas.dposv解決辦法

Spark documentation clearly mentions that MLLib uses native libraries, which need to be present on the nodes. for deb

原创 KMeans on Spark

轉載自: http://blog.csdn.net/li385805776/article/details/20041179 思路: 1.隨機生成數據 2.隨機生成K個聚類中心 3.計算每個點所屬的類別 4.計算新的聚類

原创 DT大數據夢工廠大數據第一天課程

第一階段:Spark streaming、spark sql、kafka、spark內核原理(必須有一個大型項目經驗); 第二階段:spark運行的各種環境,各種故障的解決,性能優化(精通spark內核、運行原理); 第三階段: