原创 hive優化

最近使用hive一個多月下來(終於完成第一期數據分析遷移工作了),當時使用的0.8的版本(現在最新版本是0.8.1),一個多月下來收穫很多。從安裝環境、 調試、開發、業務理解、技術攻關、業務實現等,一一都體驗了一把! 總的來說,除了

原创 Spark on Yarn:性能調優

1. 調優經驗 應該說,Spark開發中,具體採用什麼調優方法去優化性能,需要根據具體算法和實現而定,適合我們這個問題的方法不一定就適合其他問題,但希望我們的經驗可以讓其他人少踩點坑,更多的調優方法還可以參考官方文檔中的 Confi

原创 2011年5月10日

哈佛有一個著名的理論:人的差別在於業餘時間,而一個人的命運決定於晚上8點到10點之間。每晚抽出2個小時的時間用來閱讀、進修、思考或參加有意的演講、討論,你會發現,你的人生正在發生改變,堅持數年之後,成功會向你招手。不要每天抱着QQ/MSN

原创 內存數據庫fastdb

FastDb是高效的內存數據庫系統,具備實時能力及便利的C++接口。FastDB不支持client-server架構因而所有使用FastDB的應用程序必須運行在同一主機上。FastDB針對應用程序通過控制讀訪問模式作了優化。通過降低數據傳

原创 數據庫水平切分的實現原理解析-分庫,分表,主從,集羣,負載均衡器

第1章 引言 隨着互聯網應用的廣泛普及,海量數據的存儲和訪問成爲了系統設計的瓶頸問題。對於一個大型的 互聯網應用,每天幾十億的PV無疑對數據庫造成了相當高的負載。對於系統的穩定性和擴展性造成了極大的問題。通過數據切分來提高網站性能,橫向擴

原创 負載均衡,會話保持,session同步

一,什麼負載均衡一個新網站是不要做負載均衡的,因爲訪問量不大,流量也不大,所以沒有必要搞這些東西。但是隨着網站訪問量和流量的快速增長,單臺服務器受自身硬件條件的限制,很難承受這麼大的訪問量。在這種情況下,有二種方案可以選擇:1,對單臺服務

原创 Running Shark Locally 及可能出現的問題

Shark本地安裝 1.下載scala wget http://www.scala-lang.org/files/archive/scala-2.9.3.tgz 最新有2.10.2.tgz文件 tar xvfz scala-2.9.3.t

原创 推薦系統中協同過濾算法實現分析

最近研究Mahout比較多,特別是裏面協同過濾算法;於是把協同過濾算法的這個實現思路與數據流程,總結了一下,以便以後對系統做優化時,有個清晰的思路,這樣才能知道該如何優化且優化後數據亦能正確。      推薦中的協同過濾算法簡單說明下

原创 Hadoop MapReduce兩種常見的容錯場景分析

本文將分析Hadoop MapReduce(包括MRv1和MRv2)的兩種常見的容錯場景,第一種是,作業的某個任務阻塞了,長時間佔用資源不釋放,如何

原创 立志

         人無志向,柔弱無鋼。    王陽明說的好,志向不確立,猶如沒有舵的船,沒有馬嚼子的馬,漂流奔放,最後將達到何處。    曾國潘曰:           志向不樹立時,人就容易放鬆潦倒,所以心中沒有一定的努力的方向。沒有一

原创 shark應用cache

轉自官網 Unlike Hive, Shark allows users to exploit this temporallocality by caching their working set of data, or in data

原创 Spark開發指南(0_8_1中文版)

轉自淘寶 Spark開發指南 簡介 接入Spark Spark初始化 Master URLs 在集羣上部署代碼彈性分佈式數據集 並行集合 (Parallelized Collections) Hadoop 數據集 (Hadoop Dat

原创 思想

原创 hive存儲格式sequencefile和rcfile的對比

源數據放在test1表中,大小 26413896039 Byte。 創建sequencefile 壓縮表test2,使用insert  overwrite table test2 select ...語句將test1數據導入 te

原创 hive Recover Partitions命令MSCK REPAIR TABLE table_name

直接用hadoop命令複製刪除hive存儲數據後,需要add partition或alter來同步源數據信息,否則drop表等操作時會查詢元數據metastore,查到metastore信息和hdfs信息不一致,會報錯。這個也可算是hiv