云计算与Hadoop杂谈

1. 海量数据处理
2. Salesforce是云计算吗? Salesforce 后台是云计算平台吗? <Oracle RAC>
3. 什么是云计算,云 和 计算,通过网络将本地的操作放到网络上去。
4. Iaas, SaaS, PaaS 和海量计算《云》
5. 云计算是新技术吗
6. 云计算 = 广义云计算<Iaas, PaaS, SaaS> 和 狭义云计算 集群,并行计算

云计算(Cloud Computing)是网格计算(Grid Computing )、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物,是目前比较流行的名词,用来形容一种事物的强大。



学习一门技术的方法

云计算:

理论知识 + 代表性的工具,比如 Hadoop

BI:

理论知识 + 代表性的工具,比如 ETL<Info, DS, 手工>,报表工具<COGNOS, BO, OBIEE>

现在有开源项目,Hadoop以及其下的子项目Hive、Hbase、Pig。。。。都可以学习

Hadoop/GAE与EC2是互斥的吗?

不见得,要看比较的面向为何?但实际上它们是可能合作的,其中最著名的例子是纽约时报在EC2上用Hadoop转了4TB的PDF(这篇文章超级精彩不看可惜)。

故事大略是这样:

NYT有一大票1851-1922年间扫描的一千一百万份文章要从TIFF图档格式转换为PDF,由于数量实在太庞大,转换起来不但耗时甚久,也需要极大数量的机器,就算有钱如NYT也不想当凯子爷投资这么多啊~~~(而且因为转换时间太久,也不太可能跑去BestBuy刷它个几千台PC回来,然后速速转完就退回去;P)

最后NYT的工程师将所有档案传到S3放着,然后到EC2开了100个Instance,再装个Hadoop利用这100台电脑跑分布运算,结果是只花了24小时和大约3000美金就搞定(由于处理速度实在太快,他们实际上还跑了两次呐……)


云计算:分广义云计算和狭义云计算



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章