原创 Hadoop運維那些事

在實際的生產環境運維一個Hadoop集羣有一些必須要關注的事情。 1、Namenode的高可靠性 2、節點配置與管理 3、Mapreduce的內存配置 4、啓用trash 首要的是保證數據安全可靠,其次再去考慮存儲效率、計算效率、運維效

原创 Feed系統架構資料收集

完全用nosql輕鬆打造千萬級數據量的微博系統 微博feed系統的push和pull模式和時間分區拉模式架構探討 關於如何構建一個微博型廣播 關於如何構建一個微博型廣播2 用 mongodb 儲存多態消息/提醒類數據 構建高性能的微博系

原创 Hadoop2.2.0來了,大數據各框架又風起雲湧!

        2013年10月15日Hadoop2的穩定版本2.2.0發佈了!它解決了NameNode的水平擴轉問題,也解決了NameNode的單點故障問題,也引入了引領大數據下一輪次革命的具有劃時代意義的資源管理框架YARN!    

原创 實時計算、流式處理系統簡介與簡單分析

原文:http://www.cnblogs.com/MGGOON/archive/2012/04/27/2473152.html 一、實時計算一些基本概念  http://www.cnblogs.com/panfeng412/arc

原创 服務化框架設計實現(重造輪子,借事修人)

最近一段時間沒有工作,爲此也有大把的時間,可以做一些平時沒有時間做的事情,借事情來重建自己的知識體系,查漏補缺。 決定要利用這一段時間來實現一個服務化框架,實現得七七八八的時候再在github上開源。 (一)服務化框架特徵 1、支持無狀態

原创 Hadoop2.2.0來了,大數據各框架又風起雲涌!

        2013年10月15日Hadoop2的穩定版本2.2.0發佈了!它解決了NameNode的水平擴轉問題,也解決了NameNode的單點故障問題,也引入了引領大數據下一輪次革命的具有劃時代意義的資源管理框架YARN!    

原创 實時計算那些事

一段時間來都沒有寫blog了,感覺東西不寫出來更加容易忘記了,寫寫更紮實!不過,最近確實集中了一些業餘時間在看實時計算相關的東西,尤其是kafka、storm這兩個東西框架。 kafka的優點: kafka的思路很好,充分利用了磁盤順序

原创 Hadoop2.2.0使用之初體驗

離10月15日Hadoop發佈2.2.0這個穩定版本已經過去2個月了,最近終於抽了點時間搭建了一個3節點的集羣,體驗了一把YARN上如何跑Map/Reduce程序了。 每次搭建Hadoop測試集羣都或多或少的碰到一些問題,幾乎沒有一次是一

原创 Redis插入性能測試

(1)測試環境 CPU dualcore e5800 X2 3.2G memory 4G OS SUSE Linux Enterprise Server 11 (x86_64) Client jedis (2)單值插入   Inse

原创 LevelDB初體驗

        最近工作需要找一個能使用磁盤存儲數據,對寫要求比較苛刻,需要每秒達100000TPS,讀的時候需要能10000TPS左右,不能佔用太多內存。單節點滿足這個要求的常見有Redis、Memcached等,但是這個東西太費內存了

原创 爲什麼會有這樣的結果?

Java很神祕,有一層紙沒有被捅破的話真的有很多東西貌似是解釋不通,仔細探究之後就真相大白了。 這裏收集幾個典型的案例。 (1)字符串的那些事 public class StringTest { /** * @param args

原创 好博客、好文章

以下爲最近看到的一些比較好的博客資料,記錄如下! (1)大數據 Scribe是Facebook開源的日誌收集系統 ØMQ(ZeroMQ)簡介 storm簡介 使用Storm實現實時大數據分析 Yahoo! s4和Twitter storm

原创 Java 反射調用的一種優化

寫一些Java框架的時候,經常需要通過反射get或者set某個bean的field,比較普通的做法是獲取field後調用java.lang.reflect.Field.get(Object),但每次都這樣調用,能否有優化的空間呢?  

原创 該用哪一個消息隊列呢?

業務系統中的核心業務數據變化比較少,但是讀取量卻巨大無比,目前不超過30W條數據,但是每日的讀取量都在3000W+以上,整個業務數據直接使用Java序列化緩存起來佔用的內存總量不超過175MB,如果採用Redis/memcache等集中式

原创 分佈式任務調度系統分析(tbschedule)

        對於互聯網和電子商務領域而言,由於存在大數據、高併發的特點,相對比較消耗時間的業務邏輯都會從用戶行爲中被剝離開來進行異步處理,一來可以提高用戶體驗,二來也可以增大系統的可擴轉性,因此得到大量的應用了。由於業務的需要我們選擇