linux下rsync命令詳解

簡介:

Rsync(remote synchronize)是一個遠程數據同步工具,可通過LAN/WAN快速同步多臺主機間的文件。Rsync使用所謂的“Rsync算法”來使本地和遠
程兩個主機之間的文件達到同步,這個算法只傳送兩個文件的不同部分,而不是每次都整份傳送,因此速度相當快。
特點:
1.可以鏡像保存整個目錄樹和文件系統;
2.可以很容易做到保持原來文件的權限、時間、軟硬鏈接等;
3.無須特殊權限即可安裝;
4.優化的流程,文件傳輸效率高;
5.可以使用rsh、ssh等方式來傳輸文件,當然也可以通過直接的socket連接;
6.支持匿名傳輸。

Rsync同步算法:

rsync的算法如下:(假設我們同步源文件名爲fileSrc,同步目的文件叫fileDst

1.首先,我們會把fileDst的文件平均切分成若干個小塊,比如每塊512個字節(最後一塊會小於這個數),然後對每塊計算兩個checksum,

  • 一個叫rolling checksum,是弱checksum,32位的checksum,其使用的是Mark Adler發明的adler-32算法,
  • 另一個是強checksum,128位的,以前用md4,現在用md5 hash算法。

爲什麼要這樣?因爲若干年前的硬件上跑md4的算法太慢了,所以,我們需要一個快算法來鑑別文件塊的不同,但是弱的adler32算法碰撞概率

太高了,所以我們還要引入強的checksum算法。

2.CheckSum算法

同步目標端會把fileDst的一個checksum列表傳給同步源,這個列表裏包括了三個東西,rolling checksum(32bits)

md5 checksume(128bits)文件塊編號

我估計你猜到了同步源機器拿到了這個列表後,會對fileSrc做同樣的checksum,然後和fileDst的checksum做對比,這樣就知道哪些文件塊改變了。

但是,聰明的你一定會有以下兩個疑問:

  • 如果我fileSrc這邊在文件中間加了一個字符,這樣後面的文件塊就完全和fileDst這邊的不一樣了,但理論上來說,我只需要傳一個字符就好了。
  • 如果這個checksum列表特別長,而我的兩邊的相同的文件塊可能並不是一樣的順序,那就需要查找,線性的查找起來應該特別慢吧。

很好,讓我們來看一下同步源端的算法。

3.checksum查找算法

同步源端拿到fileDst的checksum數組後,會把這個數據存到一個 hash table中,用rolling checksum做hash,以便獲得O(1)時間複雜度的查找性能。

這個hash table是16bits的,所以,hash table的尺寸是2的16次方,對rolling checksum的hash會被散列到0 – 2^16 – 1中的某個值。

(對於hash table,如果你不清楚,請回去看你大學時的數據結構那本教科書)

順便說一下,我在網上看到很多文章說,“要對rolling checksum做排序”(比如這篇這篇),這兩篇文章都引用並翻譯了原版的這篇文章

但是他們都理解錯了,不是排序,就是把fileDst的checksum數據,按rolling checksum做存到2^16的hash table中,當然會發生碰撞,

把碰撞的做成一個鏈接就好了。這就是原文中所說的第二步。


4.比對算法

這是最關鍵的算法,細節如下:

4.1)取fileSrc的第一個文件塊(我們假設的是512個長度),也就是從fileSrc的第1個字節到第512個字節,取出來後做rolling checksum計算。

計算好的值到hash表中查。

4.2)如果查到了,說明發現在fileDst中有潛在相同的文件塊,於是就再比較 md5的checksum,因爲rolling checksume太弱了,可能發生碰撞。

於是還要算md5的128bits的checksum,這樣一來,我們就有 2^-(32+128) = 2^-160的概率發生碰撞,這太小了可以忽略。

如果rolling checksum和md5 checksum都相同,這說明在fileDst中有相同的塊,我們需要記下這一塊在fileDst下的文件編號

4.3)如果fileSrc的rolling checksum 沒有在hash table中找到,那就不用算md5 checksum了。表示這一塊中有不同的信息。總之,

只要rolling checksum 或 md5 checksum 其中有一個在fileDst的checksum hash表中找不到匹配項,

那麼就會觸發算法對fileSrc的rolling動作。於是,算法會住後step 1個字節,取fileSrc中字節2-513的文件塊要做checksum,

Go to (4.1) - 現在你明白什麼叫rolling checksum了吧。

4.4)這樣,我們就可以找出fileSrc相鄰兩次匹配中的那些文本字符,這些就是我們要往同步目標端傳的文件內容了。

圖示

怎麼,你沒看懂? 好吧,我送佛送上西,畫個圖給你看看。

這樣,最終,在同步源這端,我們的rsync算法可能會得到下面這個樣子的一個數據數組,圖中,紅色塊表示在目標端已匹配上,不用傳輸

(注:我專門在其中顯示了兩塊chunk #5),而白色的地方就是需要傳輸的內容(注意:這些白色的塊是不定長的),這樣,同步源這端

把這個數組(白色的就是實際內容,紅色的就放一個標號)壓縮傳到目的端,在目的端的rsync會根據這個表重新生成文件,這樣,同步完成。

最後想說一下,對於某些壓縮文件使用rsync傳輸可能會傳得更多,因爲被壓縮後的文件可能會非常的不同。對此,對於gzip和bzip2這樣的命令,

記得開啓 “rsyncalbe” 模式。

以上部分摘抄自:http://blog.csdn.net/wishfly/article/details/7575152

Rsync命令語法:

rsync [OPTION]... SRC DEST 
rsync [OPTION]... SRC [USER@]host:DEST 
rsync [OPTION]... [USER@]HOST:SRC DEST 
rsync [OPTION]... [USER@]HOST::SRC DEST 
rsync [OPTION]... SRC [USER@]HOST::DEST 
rsync [OPTION]... 
rsync://[USER@]HOST[:PORT]/SRC [DEST]

語法如上,解析:
-v, --verbose 詳細模式輸出。
-q, --quiet 精簡輸出模式。
-c, --checksum 打開校驗開關,強制對文件傳輸進行校驗。
-a, --archive 歸檔模式,表示以遞歸方式傳輸文件,並保持所有文件屬性,等於-rlptgoD。
-r, --recursive 對子目錄以遞歸模式處理。
-R, --relative 使用相對路徑信息。
-b, --backup 創建備份,也就是對於目的已經存在有同樣的文件名時,將老的文件重新命名爲~filename。可以使用--suffix選項來指定不同的備份文件前綴。
--backup-dir 將備份文件(如~filename)存放在在目錄下。
-suffix=SUFFIX 定義備份文件前綴。
-u, --update 僅僅進行更新,也就是跳過所有已經存在於DST,並且文件時間晚於要備份的文件,不覆蓋更新的文件。
-l, --links 保留軟鏈結。
-L, --copy-links 想對待常規文件一樣處理軟鏈結。
--copy-unsafe-links 僅僅拷貝指向SRC路徑目錄樹以外的鏈結。
--safe-links 忽略指向SRC路徑目錄樹以外的鏈結。
-H, --hard-links 保留硬鏈結。
-p, --perms 保持文件權限。
-o, --owner 保持文件屬主信息。
-g, --group 保持文件屬組信息。
-D, --devices 保持設備文件信息。
-t, --times 保持文件時間信息。
-S, --sparse 對稀疏文件進行特殊處理以節省DST的空間。
-n, --dry-run現實哪些文件將被傳輸。
-w, --whole-file 拷貝文件,不進行增量檢測。
-x, --one-file-system 不要跨越文件系統邊界。
-B, --block-size=SIZE 檢驗算法使用的塊尺寸,默認是700字節。
-e, --rsh=command 指定使用rsh、ssh方式進行數據同步。
--rsync-path=PATH 指定遠程服務器上的rsync命令所在路徑信息。
-C, --cvs-exclude 使用和CVS一樣的方法自動忽略文件,用來排除那些不希望傳輸的文件。
--existing 僅僅更新那些已經存在於DST的文件,而不備份那些新創建的文件。
--delete 刪除那些DST中SRC沒有的文件。
--delete-excluded 同樣刪除接收端那些被該選項指定排除的文件。
--delete-after 傳輸結束以後再刪除。
--ignore-errors 及時出現IO錯誤也進行刪除。
--max-delete=NUM 最多刪除NUM個文件。
--partial 保留那些因故沒有完全傳輸的文件,以是加快隨後的再次傳輸。
--force 強制刪除目錄,即使不爲空。
--numeric-ids 不將數字的用戶和組id匹配爲用戶名和組名。
--timeout=time ip超時時間,單位爲秒。
-I, --ignore-times 不跳過那些有同樣的時間和長度的文件。
--size-only 當決定是否要備份文件時,僅僅察看文件大小而不考慮文件時間。
--modify-window=NUM 決定文件是否時間相同時使用的時間戳窗口,默認爲0。
-T --temp-dir=DIR 在DIR中創建臨時文件。
--compare-dest=DIR 同樣比較DIR中的文件來決定是否需要備份。
-P 等同於 --partial。
--progress 顯示備份過程。
-z, --compress 對備份的文件在傳輸時進行壓縮處理。
--exclude=PATTERN 指定排除不需要傳輸的文件模式。
--include=PATTERN 指定不排除而需要傳輸的文件模式。
--exclude-from=FILE 排除FILE中指定模式的文件。
--include-from=FILE 不排除FILE指定模式匹配的文件。
--version 打印版本信息。
--address 綁定到特定的地址。
--config=FILE 指定其他的配置文件,不使用默認的rsyncd.conf文件。
--port=PORT 指定其他的rsync服務端口。
--blocking-io 對遠程shell使用阻塞IO。
-stats 給出某些文件的傳輸狀態。
--progress 在傳輸時現實傳輸過程。
--log-format=formAT 指定日誌文件格式。
--password-file=FILE 從FILE中得到密碼。
--bwlimit=KBPS 限制I/O帶寬,KBytes per second。
-h, --help 顯示幫助信息。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章