sparse文件簡介

0. 什麼是sparse文件

當用戶申請一塊很大的存儲空間時，由於最開始並沒有寫入數據（全是空），此時文件系統爲了節省存儲資源，提高資源利用率，不會分配實際存儲空間，只有當真正寫入數據時，操作系統才真正一點一點地分配空間，比如一次64KB。於是這個文件看起來很大，而佔用空間很小，實際佔用空間只與用戶填的數據量有關。該文件看起來像一個大盒子，但可能裝的東西不多，空洞很大，因此稱爲稀疏文件（Sparse file）。Sparse文件是Linux文件系統的一個高級特性，能夠實現磁盤的超負載使用（overload）。它最經典的應用就是爲虛擬機創建虛擬硬盤以及數據庫快照，比如我們使用qemu-img創建一個大小爲20GB的raw文件(注意qcow2格式不是sparse文件）:

fgp@node1:~$ qemu-img create -f raw test.raw 20G
Formatting 'test.raw', fmt=raw size=21474836480
fgp@node1:~$ qemu-img info test.raw
image: test.raw
file format: raw
virtual size: 20G (21474836480 bytes)
disk size: 0

以上我們使用qemu-img創建了一個20G的鏡像文件，由qemu-img info顯示，virtual size爲我們分配的空間大小，而disk size爲實際佔用的空間,最開始並不佔任何磁盤空間。

注：qemu-img create -f raw相當於`truncate -s 20G test.raw’。

當然也會有問題，比如系統生成了一堆sparse文件，如果文件系統滿了，則這些文件都會寫入失敗，爲了避免這種情況，需要控制sparse文件的數量。

1.如何判斷是否sparse文件

除了以上的鏡像文件可能是sparse文件，其他文件類型也有可能是sparse文件，如何判斷是否sparse文件呢？最簡單的辦法是使用ls命令和du命令分別查看大小，如果二者大小不一致，則說明是sparse文件。我們可以使用dd命令快速生成一個sparse文件：

dd if=/dev/zero of=sparse_file bs=1M seek=1024  count=0

以上命令從第1024 * 1M處開始寫文件（相當於中間空了1GB空間），寫入/dev/zero，實際寫入了0個塊(count=0)，因此實際上並沒有寫入任何數據。我們使用ls -lh查看其大小：

~$ ls -lh sparse_file
-rw-rw-r-- 1 fgp fgp 1.0G May 26 15:47 sparse_file

可見該文件顯示爲1G。

我們再使用du -h命令查看其佔用磁盤空間大小:

~$ du -h sparse_file
0	sparse_file

我們發現實際佔用磁盤空間爲0。

我們也可以直接使用ls的-s參數查看文件實際佔用空間大小：

~$ ls -slh sparse_file
0 -rw-rw-r-- 1 fgp fgp 1.0G May 26 15:47 sparse_file

其中第一列爲實際佔用磁盤空間大小，第6列爲文件大小（虛擬大小）。

另外使用truncate命令可以隨意調節文件大小（如果該文件不存在則會自動創建），比如:

~$ truncate --size 1T sparse_file
~$ du -h sparse_file
0	sparse_file
~$ ls -lh sparse_file
-rw-rw-r-- 1 fgp fgp 1.0T May 26 16:09 sparse_file

以上我們把sparse_file文件大小調爲1TB，實際上就是往後面追加空洞(extended part (hole) reads as zero bytes),因此不會佔用實際磁盤空間。當然也可以縮小文件大小，但是如果比文件數據佔用空間還小的話，就會截取數據，因此部分數據會丟失。

truncate -s 500M sparse_file
~$ ls -lh sparse_file
-rw-rw-r-- 1 fgp fgp 500M May 26 16:12 sparse_file

以上我們把該文件縮減爲500MB。

2. sparse文件處理

sparse文件在處理時也存在一些問題，比如我們使用sed對一個sparse文件進行處理。

fgp@node1:~/tmp$ echo "Hello World" >test.raw
fgp@node1:~/tmp$ truncate -s 1G test.raw
fgp@node1:~/tmp$ ls -slh
total 68K
4.0K -rw-rw-r-- 1 fgp fgp 1.0G May 28 14:52 test.raw
fgp@node1:~/tmp$ sed -i 's/Hello/HELLO/g' test.raw
fgp@node1:~/tmp$ ls -slh
total 1.1G
1.1G -rw-rw-r-- 1 fgp fgp 1.0G May 28 14:53 test.raw

以上我們使用truncate創建了一個sparse文件，然後通過sed命令把Hello改爲HELLO，我們期望能夠保留該文件的sparse特性，但實際上我們發現僅僅修改了該文件的一行數據，該文件的空洞被填滿，瞬間佔用磁盤空間爲1G。一個只有4K大小的文件使用sed命令後變成了1G，這讓人感到莫名其妙不是嗎？

再比如我們我們使用tar命令對文件進行歸檔：

fgp@node1:~/tmp$ qemu-img create -f raw test.raw 1G
Formatting 'test.raw', fmt=raw size=1073741824
fgp@node1:~/tmp$ time tar -cf test.tar test.raw

real	0m2.145s
user	0m0.012s
sys	0m1.640s
fgp@node1:~/tmp$ time tar -cJf test.tar.xz test.raw

real	1m0.692s
user	0m59.060s
sys	0m1.048s
fgp@node1:~/tmp$ ls -lsh
total 1.1G
   0 -rw-r--r-- 1 fgp fgp 1.0G May 28 15:37 test.raw
1.1G -rw-rw-r-- 1 fgp fgp 1.1G May 28 15:37 test.tar
156K -rw-rw-r-- 1 fgp fgp 153K May 28 15:39 test.tar.xz

以上我們創建了一個1G的sparse文件，當使用tar直接歸檔時發現該文件變成了非sparse文件，佔用了1G的磁盤空間。而使用xz壓縮時，雖然解決了存儲空間的問題，同時也帶來壓縮時間開銷問題（耗費了1分鐘的時間進行壓縮）。

接下來介紹下熟悉的經典命令cp,cp命令可謂無人不知。衆所周知，它用於在本地拷貝文件。值得慶幸（爲什麼慶幸，因爲並不是所有的命令都支持該特性）的是cp命令能夠自動探測文件是否sparse文件，空洞數據不會拷貝，並且能夠保留sparce文件副本的稀疏性質：

fgp@node1:~$ cp sparse_file sparse_file.copy
fgp@node1:~$ ls -slh sparse_file*
0 -rw-rw-r-- 1 fgp fgp 2.0G May 26 16:39 sparse_file
0 -rw-rw-r-- 1 fgp fgp 2.0G May 26 16:39 sparse_file.copy

我們看看和cp命令類似的命令scp,scp用於遠程拷貝文件（遠程傳輸文件）:

fgp@node1:~$ scp sparse_file localhost:~/sparse_file.copy
sparse_file                                            100% 2048MB  97.5MB/s   00:21
fgp@node1:~$ ls -slh sparse_file*
   0 -rw-rw-r-- 1 fgp fgp 2.0G May 26 16:39 sparse_file
2.1G -rw-rw-r-- 1 fgp fgp 2.0G May 26 16:42 sparse_file.copy

我們發現scp不能識別sparse文件，傳輸一個sparse文件時會自動填滿空洞，發送整個文件內容。

其實cp命令有一個針對sparse文件拷貝優化的參數--sparse=WHEN，其中WHEN的合法值爲auto、always、never，默認爲auto，能自動識別是否sparse文件。如果設置爲never則會自動填滿數據，拷貝整個文件：

fgp@node1:~$ cp --sparse=never sparse_file sparse_file.copy.2
fgp@node1:~$ ls -lhs sparse_file*
   0 -rw-rw-r-- 1 fgp fgp 2.0G May 26 16:39 sparse_file
2.1G -rw-rw-r-- 1 fgp fgp 2.0G May 26 16:42 sparse_file.copy
2.1G -rw-rw-r-- 1 fgp fgp 2.0G May 26 16:50 sparse_file.copy.2

可見sparse_file.copy.2填滿了空洞，相當於把sparse文件轉化成了非sparse文件。

如果指定爲always，則cp會嘗試把文件轉換爲sparse文件，減少磁盤佔用空間：

fgp@node1:~$ cp --sparse=always sparse_file.copy sparse_file.copy.3
fgp@node1:~$ ls -lsh sparse_file*
   0 -rw-rw-r-- 1 fgp fgp 2.0G May 26 16:39 sparse_file
2.1G -rw-rw-r-- 1 fgp fgp 2.0G May 26 16:42 sparse_file.copy
2.1G -rw-rw-r-- 1 fgp fgp 2.0G May 26 16:50 sparse_file.copy.2
   0 -rw-rw-r-- 1 fgp fgp 2.0G May 26 16:52 sparse_file.copy.3

由結果發現，我們把非sparse文件sparse_file.copy轉成了sparse文件sparse_file.copy.3。

注：cp命令黑科技，cp實現sparse文件的相互轉換!

其實除了cp命令，我們上面的tar命令也支持–sparse參數：

fgp@node1:~/tmp$ time tar -cSf test.tar test.raw

real	0m0.002s
user	0m0.000s
sys	0m0.000s
fgp@node1:~/tmp$ time tar -cSJf test.tar.xz test.raw

real	0m0.011s
user	0m0.000s
sys	0m0.008s
fgp@node1:~/tmp$ ls -slh
total 16K
   0 -rw-r--r-- 1 fgp fgp 1.0G May 28 15:37 test.raw
 12K -rw-rw-r-- 1 fgp fgp  10K May 28 15:42 test.tar
4.0K -rw-rw-r-- 1 fgp fgp  184 May 28 15:43 test.tar.xz

對比前面的結果，我們發現使用tar的-S(–sparse)參數很好的處理sparse文件。

另外cpio也支持同樣的參數，但可惜的是scp命令不支持，因此我們使用scp遠程傳輸大量的sparse文件時效率極低，並且浪費大量網絡空間。比如我們經常使用qemu-img創建了一個40GB的raw文件，然後需要拷貝鏡像到其他機器上，雖然該文件可能只佔了1GB左右的磁盤空間，可使用scp需要傳輸40GB的空間，並且遠程需要預留40GB的磁盤空間。那有沒有高效傳輸sparse文件的方法呢？實際上，很可惜，好像並沒有，不過有比較好的方法，請看下一節內容。

3.相對高效傳輸sparse文件的方法

我們前面說了scp不支持sparse文件的處理，好在rsync命令支持sparse文件處理：

fgp@node1:~$ rsync  -av --sparse --progress sparse_file localhost:~/sparse_file.copy
fgp@localhost's password:
sending incremental file list
sparse_file
  2,147,483,648 100%   74.67MB/s    0:00:27 (xfr#1, to-chk=0/1)

sent 2,148,008,037 bytes  received 35 bytes  66,092,556.06 bytes/sec
total size is 2,147,483,648  speedup is 1.00
fgp@node1:~$ ls -lhs sparse_file*
0 -rw-rw-r-- 1 fgp fgp 2.0G May 26 16:39 sparse_file
0 -rw-rw-r-- 1 fgp fgp 2.0G May 26 16:39 sparse_file.copy

遺憾的是，雖然目標文件保留了其sparse特性，節省了目標主機的存儲空間，但並沒有節省網絡傳輸帶寬，依然傳輸了2GB的數據,rsync不能過濾掉空洞數據的傳輸。

值得一提的是rsync有一個參數--inplace，這個參數能夠探測源文件和目標文件是否修改的塊，傳輸時只傳遞修改的塊，當然第一次傳輸文件時，這個參數並沒有什麼用。但可惜的是–sparse參數和–inplace參數不能同時使用。通常做法是第一次傳輸文件時，使用–sparse參數，之後如果對文件進行了修改，需要同步遠程時，使用–inplace參數，它只會在原文件的基礎上傳輸更新的塊。（可以先在遠程目標機器上先使用truncate命令創建一個同名的sparse文件，再使用–inplace參數傳遞)。

當然如果我們傳輸的是鏡像文件，可以通過qemu-img把raw格式在本地轉化爲qcow2格式後再傳輸:

fgp@node1:~/tmp$ ls -lsh
total 0
0 -rw-rw-r-- 1 fgp fgp 10G May 28 15:00 test.raw
fgp@node1:~/tmp$ qemu-img convert -f raw -O qcow2 test.raw test.qcow2
fgp@node1:~/tmp$ ls -lsh
total 196K
196K -rw-r--r-- 1 fgp fgp 193K May 28 15:12 test.qcow2
   0 -rw-rw-r-- 1 fgp fgp  10G May 28 15:00 test.raw

轉化成qcow2格式後，不再是sparse文件，因此不會存在以上問題。由以上輸出我們發現，該文件只有196K，因此傳輸量大幅度減少。

ygtff

發佈了38 篇原創文章 · 獲贊 62 · 訪問量 17萬+

私信關注

sparse文件簡介

0. 什麼是sparse文件

1.如何判斷是否sparse文件

2. sparse文件處理

3.相對高效傳輸sparse文件的方法

Linux的啓動流程以及GRUB詳解

ceph中使用sgdisk

Influxdb常用操作

DWARF - 調試數據格式簡介

gprof原理與缺陷

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結