原创 初識spark-基本概念和例子

前年的文章,備份 spark是一個開源的分佈式計算系統,提供快速的數據分析功能。 官網地址 http://www.spark-project.org/ 據說性能高出hadoop很多(個人理解主要是因爲兩點:內存和cache),而且相對更

原创 Spark範例:SortByKey

前年的文章,備份 spark自身不提供sortByKey的功能,但提供reduceByKey,groupByKey,combineByKey等功能。SortByKey常用於構建倒排索引上。 比如原始數據結構爲(key1,4)(key1,

原创 Spark範例:統計CSDN不同郵箱的密碼白癡指數

前年的文章,備份 spark編寫了一段統計CSDN中不同郵箱的密碼白癡程序,數據來源於最近被公佈的csdn明文數據,以下代碼重點是spark在編程性上的體驗,性能上比較沒有意思,這點數據單機都能計算,計算結果僅供娛樂。 感謝CSDN提供

原创 lua、groovy嵌入到java中的性能對比

去年的文章,備份 lua和groovy都是可以嵌入到java中的腳本語言。lua以高性能著稱,與C/C++在遊戲開放中有較多使用,groovy是一個基於Java虛擬機(JVM)的敏捷動態語言,在jvm下有着不錯的性能。 groovy天生

原创 Java堆外內存泄露淺談

前年的文章,備份 前幾天一個項目在長時間壓測的情況下,發現內存一直飆升,停止壓測,內存不釋放,明顯肯定是內存泄露。把JVM的 Xmx設小了還是無濟於事,檢查JVM的垃圾回收情況一切都正常,非常困惑,從來沒有遇到過這樣的情況。經高人指點,

原创 CAP理論及系統一致性

印象中CAP理論開始流行是從Amazon Dynamo的論文開始的,Amazon的CTO還在他的博客中介紹了最終一致性的概念,從此以後,各種會議和交流中都少不了CAP的影子。然而,對於分佈式系統工程設計和開發來說,CAP意味着什麼呢?

原创 Storm :twitter的實時數據處理工具

  Twitter在9月19日的Strange Loop大會上公佈Storm的代碼。這個類似於Hadoop的即時數據處理工具是BackType開發的,後來被Twitter收購用於Twitter。 Twitter列舉了Storm的三大類應

原创 實時計算應用場景

個人博客總是訪問不了,原文:實時計算應用場景 實時計算的概念很難定義,每個人對這四個字的理解可能都不同。個人觀點主要分爲兩塊:數據的實時入庫和數據的實時計算。 數據實時入庫的時候,一般都需要對原始數據做一定的處理再入庫。能在這個步驟計

原创 Tokyo Cabinet 的四種數據結構

Tokyo Cabinet提供了Hash、Fixed-length、Table和B+ Tree四種數據結構,不同的結構特性和應用場景都不一樣。TC本身提供了專門測試和調試工具tc (h/f/t/b) mgr。 Tokyo Tyrant在啓

原创 linux中hadoop+zookeeper+hbase配置

環境準備  1.在windows下安裝VMware  2.創建了3個fedora14 linux。地址分別爲:  m201 192.168.0.201 (Namenode)  s202 192.168.0.202 (Datanode)

原创 tokyotyrant的內部實現特徵

修改一個value值的時候,當新數據大於老數據,如果後面有空間,就增大,沒有就移動。 有兩種收拾碎片的方法,一是把數據重新導一份,名曰靜態碎片整理,這個是手動調接口執行的。二是動態收集碎片,再重新整合,這個過程是在一些常規操作中被觸發進

原创 NoRouteToHostException: Cannot assign requested address問題

解決辦法: 執行命令修改如下2個內核參數   sysctl -w net.ipv4.tcp_timestamps=1  開啓對於TCP時間戳的支持,若該項設置爲0,則下面一項設置不起作用 sysctl -w net.ipv4.tcp_t

原创 TokyoTyrant的管理工具tcrmgr使用小記

申明:本文轉自 liunx.cnblogs.com, 感謝原作者 1.先啓動一個測試用的ttserver 注意使用的所有路徑都是絕對路徑 ttserver -host 192.168.0.100 -port 20000 -thnum 4

原创 redis的內存陷阱

redis是個對內存依賴性很強的NoSql數據庫,在內存足夠的情況下性能出色 如果只有一臺機子去部署redis,一定要特別小心。 比如我有臺24G的服務器,理所當然我會將大量內存分配給redis。 比如20G的內存, 問題來了, 當你

原创 關係型數據庫到HBase的數據儲存方式變遷

  我是標題黨,其實本文與hbase關係不大,只是把它作爲列族數據庫的代表來講。從目前字眼上看,HBase比Bigtable無疑更具吸引力。題目改成:RDBMS到列族的數據儲存方式變遷 更恰當。 如今Bigtable型(列族)數據庫應