学习来源:http://www.aboutyun.com/thread-6179-1-1.html
http://blog.csdn.net/yuexianchang/article/details/52468291
http://www.cnblogs.com/xing901022/p/6195422.html
说明:由于参考资料大多是2013年以前的,所以有些说法也许并不成立,请读者选择性吸收。
·日志处理: Hadoop擅长这个
·海量计算: 并行计算
·ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库
·使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统
·机器学习: 比如Apache Mahout项目
·搜索引擎:hadoop + lucene实现
·数据挖掘:目前比较流行的广告推荐
·大量地从文件中顺序读。HDFS对顺序读进行了优化,代价是对于随机的访问负载较高。
·数据支持一次写入,多次读取。对于已经形成的数据的更新不支持。
·数据不进行本地缓存(文件很大,且顺序读没有局部性)
·任何一台服务器都有可能失效,需要通过大量的数据复制使得性能不会受到大的影响。
·用户细分特征建模
·个性化广告推荐
·智能仪器推荐
·存储极大数目的信息(terabytes or petabytes),将数据保存到大量的节点当中。支持很大单个文件。
·提供数据的高可靠性,单个或者多个节点不工作,对系统不会造成任何影响,数据仍然可用。
·提供对这些信息的快速访问,并提供可扩展的方式。
·通过简单加入更多服务器的方式就能够服务更多的客户端。
·HDFS是针对MapReduce设计的,使得数据尽可能根据其本地局部性进行访问与计算。
·hadoop相关文档下载(http://www.aboutyun.com/forum.php?mod=viewthread&tid=6160&highlight=hadoop)
·about云资源汇总V1.2(http://www.aboutyun.com/thread-5928-1-1.html)