大數據平臺安裝測試（1）centos7.1 docker mesos tachyon hadoop (myriad? yarn?)spark hbase speaksql 選型分析

原創

2018-09-02 04:50

在下大數據的新手，該系列文章會記錄我所有的思考和遇到的問題，

各位看官如果有什麼想法希望多多指教！我儘量快速回復。謝謝。

最近公司需要跑大數據，網上找來各種文章分析，平臺結構基本定型

公司的需求大概是一個數據包是1.5-3g左右，生成大概6g以下的中間數據。初步可能需要1000-10000個數據包進行綜合分析（字串系列比較），生成報告輸出到外網mysql數據庫。

配置大概是

至強e5 2630v3 *2

華碩z10pa

recc 32g *2(或4。先上2條，看效果)

硬盤4t*n

1.系統 centos7.1 一直再用centos ，感覺還好，用就用比較新的把反正不是7.0，bug應該少些吧

2.docker這個是後加上去的，具體沒用過，按照網上的說法這個是哥打包器，或者說是微型虛擬機，即不分隔系統的虛擬機。對系統迭代有好處。我又是新手配置和程序方面可能反覆調試。

3.mesos 和 yarn一直在猶豫，沒看過他們的代碼，看了一些總屬性的文章，感覺他們最大的區別是生態系統的兼容性（這個真沒用過所以是人云亦云），mesos有更多的服務器管理功能，而yarn更傾向於hadoop2.x的數據引擎，據說mesos的問題是可能出現資源餓死，而jvm據說是內存清理有問題。其實2者功能是有交叉的，所以他們會衝突。本來打算直接mesos了，後來看到出了myriad的插件可以讓2者協調工作，還在apache的孵化器中。

4.myriad 嚐鮮體驗一下，因爲公司剛開始大數據計劃，數據量小，服務器少，船小好掉頭，後面我會就myriad出個測試，實際評測一下。

5.spark內存集羣管理系統，tez和spark的功能類似，最後還是選擇了spark，原因1.用spark的企業較多。原因2.it廠商支持spark的多一些，人氣旺。

6.tachyon內存文件系統。結合spark使用的，主要用來存儲無需長期保持的中間文件。據說新版本可以用ssd當次級文件系統，這樣的緩存體系就更好了，內存-》內存文件-》ssd->hdfs

7.數據庫方面考慮是hbase. 用spark sql或直接api調用hbase。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

大數據平臺安裝測試（1）centos7.1 docker mesos tachyon hadoop (myriad? yarn?)spark hbase speaksql 選型分析

各位看官如果有什麼想法希望多多指教！我儘量快速回復。謝謝。

Git操作指南：多人協作提交代碼的規範

ComfyUI 完全入門：ControlNet 使用教程

zend studio 10.6漢化問題

安裝zend server 500錯誤internal server error

適應全分辨率的div的居中像TABLE那種

兩側廣告漸變出現漸變隱藏

win2003 iis 401.1錯誤解決

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結