業務需求:需要把一個目錄下的1000多萬個文件遷移到遠程機器
思路:用wget來把文件一個一個的遷移過去,因爲文件數量比較大,如果一下在循環操作,會非常慢。所以分批操作,採用化整爲零的方法。
#! /bin/sh home=/usr/local/www/skate/p_w_picpath63delback cd $home if [ `pwd` == $home ];then a="1 1000000 2000000 3000000 4000000 5000000 6000000 7000000 8000000 9000000" for b in $a do c=`expr $b + 100000` for loop in `sed -n "$b,$c"p $1` do path=`echo $loop | awk -F "/" '{print $1"/"$2"/"$3"/"$4}'` mkdir -p $path /usr/bin/wget http://172.16.111.163/$loop -P $path echo $loop >> $1.log done done fi
需求2:需要把A目錄下的1000多萬個小文件分批遷移到B目錄,每次1000個,30分鐘一次,mv之前需確認B目錄爲空。
思路:使用python的shutil模塊,也用shell,大概思路與上文一般。
# -*- coding: utf-8 -*- import os import shutil def Test1(rootDir): list_dirs = os.walk(rootDir) count=0 for root, dirs, files in list_dirs: for d in dirs: print os.path.join(root, d) if os.listdir("/data/file/S10032666/"): print "目錄非空,請清空文件。" return 0 else: for f in files: if count < 1000: count=count +1 f = os.path.join(root, f) shutil.move(f,"/data/file/S10032666/") print os.path.join(root, f) else: return 0 Test1("/data/S10032666_bak/")
我們也可以使用linux系統命令rsync來巧妙的處理。rsync實際上用的是替換原理,處理數十萬個文件也是秒刪。
1、先建立一個空目錄 mkdir /data/blank 2、用rsync刪除目標目錄 rsync --delete-before -d -a -H -v --progress --stats /data/blank/ /var/edatacache/ 或者 rsync --delete-before -d /data/blank/ /var/edatacache/ 這樣/var/edatacache目錄就被快速的清空了。 選項說明: –delete-before 接收者在傳輸之前進行刪除操作 –progress 在傳輸時顯示傳輸過程 -a 歸檔模式,表示以遞歸方式傳輸文件,並保持所有文件屬性 -H 保持硬連接的文件 -v 詳細輸出模式 –stats 給出某些文件的傳輸狀態 -d transfer directories without recursing 3、也可以用來刪除大文件假如我們在/root/下有一個幾十G甚至上百G的文件data,現在我們要刪除它 一、創建一個空文件 touch /root/empty 二、用rsync清空/root/data文件 rsync --delete-before -d --progess --stats /root/empty /root/data