hadoop中的DistCp和FastCopy

DistCp是集群内部或者集群之间高性能拷贝工具,使用mapreduce实现文件分发、数据处理、报告生成。

DistCp1最大的特点就是map-only,可以加快文件传输速度。由于需要保证文件中block块的有序性,mapreduce以文件为分发单位。加上map阶段是静态分配map task的,分发时容易造成负载不均匀。

DistCp2采用动态分配map task机制,”多劳多得“。目录文件被分成多个chunk.K文件,执行快的map task可以多领取几个chunk.K文件,解决了负载不均衡的问题,但仍存在传输效率低下的问题。

考虑到数据仍在同一datanode上,则可以采用文件硬链接实现FastCopy。FaceBook和淘宝的跨机房项目就是采用这种FastCopy实现在不同结点中快传的。




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章