大數據平臺安裝測試(1)centos7.1 docker mesos tachyon hadoop (myriad? yarn?)spark hbase speaksql 選型分析

在下大數據的新手,該系列文章會記錄我所有的思考和遇到的問題,

各位看官如果有什麼想法希望多多指教!我儘量快速回復。謝謝。

最近公司需要跑大數據,網上找來各種文章分析,平臺結構基本定型

公司的需求大概是一個數據包是1.5-3g左右,生成大概6g以下的中間數據。初步可能需要1000-10000個數據包進行綜合分析(字串系列比較),生成報告輸出到外網mysql數據庫。

配置大概是

至強e5 2630v3 *2

華碩z10pa

recc 32g *2(或4。先上2條,看效果)

硬盤4t*n

1.系統 centos7.1 一直再用centos ,感覺還好,用就用比較新的把 反正不是7.0,bug應該少些吧

2.docker這個是後加上去的,具體沒用過,按照網上的說法這個是哥打包器,或者說是微型虛擬機,即不分隔系統的虛擬機。對系統迭代有好處。我又是新手配置和程序方面可能反覆調試。

3.mesos 和 yarn一直在猶豫,沒看過他們的代碼,看了一些總屬性的文章,感覺他們最大的區別是生態系統的兼容性(這個真沒用過所以是人云亦云),mesos有更多的服務器管理功能,而yarn更傾向於hadoop2.x的數據引擎,據說mesos的問題是可能出現資源餓死,而jvm據說是內存清理有問題。其實2者功能是有交叉的,所以他們會衝突。本來打算直接mesos了,後來看到出了myriad的插件可以讓2者協調工作,還在apache的孵化器中。

4.myriad 嚐鮮體驗一下,因爲公司剛開始大數據計劃,數據量小,服務器少,船小好掉頭,後面我會就myriad出個測試,實際評測一下。

5.spark內存集羣管理系統,tez和spark的功能類似,最後還是選擇了spark,原因1.用spark的企業較多。原因2.it廠商支持spark的多一些,人氣旺。

6.tachyon內存文件系統。結合spark使用的,主要用來存儲無需長期保持的中間文件。據說新版本可以用ssd當次級文件系統,這樣的緩存體系就更好了,內存-》內存文件-》ssd->hdfs

7.數據庫方面考慮是hbase. 用spark sql或直接api調用hbase。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章