生態化反——hadhoop生態圈
hadhoop動物園
返回頂部
apache開源的分佈式計算框架(一系列產品)。
- HDFS(hadhoop distribute file system),很平滑,不夠就加普通PC,冗餘備份,(參考raid0 1 2 3 4 5) ,pd.read_hdf(),pandas也可以讀
- MapReduce(YARN2.0),分佈式計算框架,求和、字頻;不能分佈計算,序列式(圓周率、斐波那契數列);將不能分佈式改成分佈式。
- HIVE(模仿SQL,進行SQL查詢的工具)
- HBase(NoSQL數據庫)
- ZooKeeper
- Kafka(類似消息隊列)
- lucene(全文檢索)
- mahout(java實現的類似於sklearn的機器學習庫)
spark
不包含HDFS文件系統,像pandas自己不帶數據庫,支持含hadhoop等各種文件系統。
- RDD
- spark-streaming(消息隊列)
- 日誌系統
現在來看,【賈躍亭的思路還是不錯的,才氣過剩,人品不足】。
歡迎關注,敬請點贊!
返回頂部