Linux文件系統性能優化

由於各種的I/O負載情形各異，Linux系統中文件系統的缺省配置一般來說都比較中庸，強調普遍適用性。然而在特定應用下，這種配置往往在I/O性能方面不能達到最優。因此，如果應用對I/O性能要求較高，除了採用性能更高的硬件（如磁盤、HBA卡、CPU、MEM等）外，我們還可以通過對文件系統進行性能調優，來獲得更高的I/O性能提升。總的來說，主要可以從三個方面來做工作：

1、Disk相關參數調優

2、文件系統本身參數調優

3、文件系統掛載(mount)參數調優

當然，負載情況不同，需要結合理論分析與充分的測試和實驗來得到合理的參數。下面以SAS(Serial attached SCSI)磁盤上的EXT3文件系統爲例，給出Linux文件系統性能優化的一般方法。請根據自身情況作適合調整，不要生搬硬套。

1、Disk相關參數

1.1 Cache mode:啓用WCE=1(Write Cache Enable), RCD=0(Read Cache Disable)模式

sdparm -s WCE=1, RCD=0 -S /dev/sdb

1.2 Linux I/O scheduler算法

經過實驗，在重負載情形下，deadline調度方式對squidI/O負載具有更好的性能表現。其他三種爲noop(fifo), as, cfq，noop多用於SAN/RAID存儲系統，as多用於大文件順序讀寫，

cfq適於桌面應用。

echo deadline > /sys/block/sdb/queue/scheduler

1.3 deadline調度參數

對於redhat linux建議 read_expire = 1/2 write_expire，對於大量頻繁的小文件I/O負載，應當這兩者取較小值。更合適的值，需要通過實驗測試得到。

echo 500 > /sys/block/sdb/queue/iosched/read_expire

echo 1000 > /sys/block/sdb/queue/iosched/write_expire

1.4 readahead 預讀扇區數

預讀是提高磁盤性能的有效手段，目前對順序讀比較有效，主要利用數據的局部性特點。比如在我的系統上，通過實驗設置通讀256塊扇區性能較優。

blockdev --setra 256 /dev/sdb

2、EXT3文件系統參數

2.1 block size = 4096 (4KB)

mkfs.ext3 -b指定，大的數據塊會浪費一定空間，但會提升I/O性能。EXT3文件系統塊大小可以爲1KB、2KB、4KB。

2.2 inode size

這是一個邏輯概念，即一個inode所對應的文件相應占用多大物理空間。mkfs.ext3 -i指定，可用文件系統文件大小平均值來設定，可減少磁盤尋址和元數據操作時間。

2.3 reserved block

mkfs.ext3 -m指定，缺省爲5%，可調小該值以增大部分可用存儲空間。

2.4 disable journal

對數據安全要求不高的應用（如web cache），可以關閉日誌功能，以提高I/O性能。

tune2fs -O^has_journal /dev/sdb

3、mount參數

3.1 noatime, nodirtime

訪問文件目錄，不修改訪問文件元信息，對於頻繁的小文件負載，可以有效提高性能。

3.2 async

異步I/O方式，提高寫性能。

3.3 data=writeback (if journal)

日誌模式下，啓用寫回機制，可提高寫性能。數據寫入順序不再保護，可能會造成文件系統數據不一致性，重要數據應用慎用。

3.4 barrier=0 (if journal)

barrier=1，可以保證文件系統在日誌數據寫入磁盤之後才寫commit記錄，但影響性能。重要數據應用慎用，有可能造成數據損壞。

4、小結

以/dev/sdb爲例，優化操作方法如下，參數請自行調整。

sdparm -s WCE=1, RCD=0 -S /dev/sdb

echo deadline > /sys/block/sdb/queue/scheduler

echo 500 > /sys/block/sdb/queue/iosched/read_expire

echo 1000 > /sys/block/sdb/queue/iosched/write_expire

blockdev --setra 256 /dev/sdb

mkfs.ext3 -b 4096 -i 16384 -m 2 /dev/sdb1

tune2fs -O^has_journal /dev/sdb1

mount /dev/sdb1 /cache1 -o defaults,noatime,nodirtime,async,data=writeback,barrier=0 (if with journal)

mount /dev/sdb1 /cache1 -o defaults,noatime,nodirtime,async (if without journal)

請大家注意不要模仿，每臺服務器的業務不一樣，情況不一樣，不要在線上的服務器試驗。

性能分析工具

CPU性能分析工具：

vmstat

sar

time

strace

pstree

top

Memory性能分析工具：

vmstat

strace

top

ipcs

ipcrm

cat /proc/meminfo

cat /proc/slabinfo

cat /proc/<pid #>/maps

I/O性能分析工具：

vmstat

iostat

repquota

quotacheck

Network性能分析工具：

ifconfig

ethereal

tethereal

iptraf

iwconfig

nfsstat

mrtg

ntop

netstat

cat /proc/sys/net

Linux 性能調優工具

當通過上述工具及命令，我們發現了應用的性能瓶頸以後，我們可以通過以下工具或者命令來進行性能的調整。

CPU性能調優工具：

nice / renic

sysctl

Memory性能調優工具：

swapon

ulimit

sysctl

I/O性能調優工具：

edquota

quoton

sysctl

boot line:

elevator= <ioscheduler>

Network性能調優工具：

ifconfig

iwconfig

sysctl

CPU性能調整

當一個系統的CPU空閒時間或者等待時間小於5%時，我們就可以認爲系統的CPU資源耗盡，我們應該對CPU進行性能調整。

CPU性能調整方法：

編輯/proc/sys/kernel/中的文件，修改內核參數。

#cd /proc/sys/kernel/

# ls /proc/sys/kernel/

acct hotplug panic real-root-dev

cad_pid modprobe panic_on_oops sem

cap-bound msgmax pid_max shmall

core_pattern msgmnb powersave-nap shmmax

core_uses_pid msgmni print-fatal-signals shmmni

ctrl-alt-del ngroups_max printk suid_dumpable

domainname osrelease printk_ratelimit sysrq

exec-shield ostype printk_ratelimit_burst tainted

exec-shield-randomize overflowgid pty threads-max

hostname overflowuid random version

一般可能需要編輯的是pid_max和threads-max，如下：

# sysctl kernel.threads-max

kernel.threads-max = 8192

# sysctl kernel.threads-max=10000

kernel.threads-max = 10000

Memory性能調整

當一個應用系統的內存資源出現下面的情況時，我們認爲需要進行Memory性能調整：

頁面頻繁換進換出；

缺少非活動頁。

例如在使用vmstat命令時發現，memory的cache使用率非常低，而swap的si或者so則有比較高的數據值時，應該警惕內存的性能問題。

Memory性能調整方法：

1。關閉非核心的服務進程。

相關的方法請見CPU性能調整部分。

2。修改/proc/sys/vm/下的系統參數。

# ls /proc/sys/vm/

block_dump laptop_mode nr_pdflush_threads

dirty_background_ratio legacy_va_layout overcommit_memory

dirty_expire_centisecs lower_zone_protection overcommit_ratio

dirty_ratio max_map_count page-cluster

dirty_writeback_centisecs min_free_kbytes swappiness

hugetlb_shm_group nr_hugepages vfs_cache_pressure

# sysctl vm.min_free_kbytes

vm.min_free_kbytes = 1024

# sysctl -w vm.min_free_kbytes=2508

vm.min_free_kbytes = 2508

# cat /etc/sysctl.conf

…

vm.min_free_kbytes=2058

…

3。配置系統的swap交換分區等於或者2倍於物理內存。

# free

total used free shared buffers cached

Mem: 987656 970240 17416 0 63324 742400

-/+ buffers/cache: 164516 823140

Swap: 1998840 150272 1848568

I/O性能調整

系統出現以下情況時，我們認爲該系統存在I/O性能問題：

系統等待I/O的時間超過50%；

一個設備的平均隊列長度大於5。

我們可以通過諸如vmstat等命令，查看CPU的wa等待時間，以得到系統是否存在I/O性能問題的準確信息。

I/O性能調整方法：

1。修改I/O調度算法。

Linux已知的I/O調試算法有4種：

deadline - Deadline I/O scheduler

as - Anticipatory I/O scheduler

cfq - Complete Fair Queuing scheduler

noop - Noop I/O scheduler

可以編輯/etc/yaboot.conf文件修改參數elevator得到。

# vi /etc/yaboot.conf

p_w_picpath=/vmlinuz-2.6.9-11.EL

label=linux

read-only

initrd=/initrd-2.6.9-11.EL.img

root=/dev/VolGroup00/LogVol00

append="elevator=cfq rhgb quiet"

2。文件系統調整。

對於文件系統的調整，有幾個公認的準則：

將I/O負載相對平均的分配到所有可用的磁盤上；

選擇合適的文件系統，Linux內核支持reiserfs、ext2、ext3、jfs、xfs等文件系統；

# mkfs -t reiserfs -j /dev/sdc1

文件系統即使在建立後，本身也可以通過命令調優；

tune2fs (ext2/ext3)

reiserfstune (reiserfs)

jfs_tune (jfs)

3。文件系統Mount時可加入選項noatime、nodiratime。

# vi /etc/fstab

…

/dev/sdb1 /backup reiserfs acl, user_xattr, noatime, nodiratime 1 1

4。調整塊設備的READAHEAD，調大RA值。

[root@overflowuid ~]# blockdev --report

RO RA SSZ BSZ StartSec Size Device

…

rw 256 512 4096 0 71096640 /dev/sdb

rw 256 512 4096 32 71094240 /dev/sdb1

[root@overflowuid ~]# blockdev --setra 2048 /dev/sdb1

[root@overflowuid ~]# blockdev --report

RO RA SSZ BSZ StartSec Size Device

…

rw 2048 512 4096 0 71096640 /dev/sdb

rw 2048 512 4096 32 71094240 /dev/sdb1

Network性能調整

一個應用系統出現如下情況時，我們認爲該系統存在網絡性能問題：

網絡接口的吞吐量小於期望值；

出現大量的丟包現象；

出現大量的衝突現象。

Network性能調整方法：

1。調整網卡的參數。

# ethtool eth0

Settings for eth0:

Supported ports: [ TP ]

Supported link modes: 10baseT/Half 10baseT/Full

100baseT/Half 100baseT/Full

1000baseT/Full

Supports auto-negotiation: Yes

Advertised link modes: 10baseT/Half 10baseT/Full

100baseT/Half 100baseT/Full

1000baseT/Full

Advertised auto-negotiation: Yes

Speed: 100Mb/s

Duplex: Half

Port: Twisted Pair

PHYAD: 0

Transceiver: internal

Auto-negotiation: on

Supports Wake-on: d

Wake-on: d

Current message level: 0x00000007 (7)

Link detected: yes

#ethtool -s eth0 duplex full

#ifconfig eth0 mtu 9000 up

2。增加網絡緩衝區和包的隊列。

# cat /proc/sys/net/ipv4/tcp_mem

196608 262144 393216

# cat /proc/sys/net/core/rmem_default

135168

# cat /proc/sys/net/core/rmem_max

131071

# cat /proc/sys/net/core/wmem_default

135168

# cat /proc/sys/net/core/wmem_max

131071

# cat /proc/sys/net/core/optmem_max

20480

# cat /proc/sys/net/core/netdev_max_backlog

300

# sysctl net.core.rmem_max

net.core.rmem_max = 131071

# sysctl -w net.core.rmem_max=135168

net.core.rmem_max = 135168

3。調整Webserving。

# sysctl net.ipv4.tcp_tw_reuse

net.ipv4.tcp_tw_reuse = 0

# sysctl -w net.ipv4.tcp_tw_reuse=1

net.ipv4.tcp_tw_reuse = 1

# sysctl net.ipv4.tcp_tw_recycle

net.ipv4.tcp_tw_recycle = 0

# sysctl -w net.ipv4.tcp_tw_recycle=1

net.ipv4.tcp_tw_recycle = 1

一：IO優化
(1)網絡IO優化，主要通過調整TCP參數調節

kern.maxproc
#系統可用的最大進程數
kern.ipc.maxsockbuf
##最大套接字緩衝區
kern.maxfiles=65536
##系統中允許的最多文件數量，缺省的是幾千個但如果你在運行數據庫或大的很吃描述符的進程可以
net.inet.tcp.sendspace=65535
##最大的待發送TCP 數據緩衝區空間，應用程序將數據放到這裏就認爲發送成功了，系統TCP堆棧保證數據的正常發送
net.inet.tcp.recvspace=65535
##最大的接受TCP緩衝區空間，系統從這裏將數據分發給不同的套接字，增大該空間可提高系統瞬間接受數據的能力以提高性能
kern.ipc.somaxconn=8192
##最大的等待連接完成的套接字隊列大小，高負載服務器和受到分佈式服務阻塞***的系統也許會因爲這個隊列被塞滿而不能提供正常服務。默認僅爲128，根據機器和實際情況需要改動，太大就浪費了內存
net.inet.udp.recvspace=65535
##最大的接受UDP緩衝區大小
net.inet.udp.maxdgram=57344
##最大的發送UDP數據緩衝區大小
net.local.stream.recvspace=32768
##本地套接字連接的數據接收空間
net.local.stream.sendspace=65535
##本地套接字連接的數據發送空間
net.inet.icmp.drop_redirect=1
net inet.icmp.log_redirect=1‘
net.inet.ip.redirect=0
net.inet6.ip6.redirect=0
##屏蔽ICMP重定向功能
net.inet.icmp.bmcastecho=0
net.inet.icmp.maskrepl=0
##防止廣播風暴
net.inet.icmp.icmplim=100
##限制系統發送ICMP速率
net.inet.tcp.always_keepalive=0
##設置爲1會幫助系統清除沒有正常斷開的TCP連接，這增加了一些網絡帶寬的使用，但是一些死掉的
連接最終能被識別並清除。死的TCP連接是被撥號用戶存取的系統的一個特別的問題，因爲用戶經常
斷開modem而不正確的關閉活動的連接。
(2)磁盤IO優化

修改fstab,在加載參數上加入noatime ,禁止加入訪問文件時間
控制swappness 參數，儘量減少應用的內存被交換到交換分區中，默認是60
塊大小的優化 ,節點塊的優化
block size = 4096(4K)
大的數據塊會浪費一定的空間，比如此設置會使一個空的文件夾佔用4K的空間，不過會提高I/O性能
inode size
這是一個邏輯概念，即一個inode所對應的文件相應占用多大物理空間,mkfs.ext3 -i指定，可用文件系統文件大小平均值來設定，可減少磁盤尋址和元數據操作時間

linux I/O調度方式啓用異步方式，提高讀寫性能

有關IO的幾個內核參數：
/proc/sys/vm/dirty_ratio
這個參數控制文件系統的文件系統寫緩衝區的大小，單位是百分比，表示系統內存的百分比，表示當寫緩衝使用到系統內存多少的時候，開始向磁盤寫出數據。增大之會使用更多系統內存用於磁盤寫緩衝，也可以極大提高系統的寫性能。但是，當你需要持續、恆定的寫入場合時，應該降低其數值，一般啓動上缺省是 10
/proc/sys/vm/dirty_expire_centisecs
這個參數聲明Linux內核寫緩衝區裏面的數據多“舊”了之後，pdflush進程就開始考慮寫到磁盤中去。單位是 1/100秒。缺省是 30000，也就是 30 秒的數據就算舊了，將會刷新磁盤。對於特別重載的寫操作來說，這個值適當縮小也是好的，但也不能縮小太多，因爲縮小太多也會導致IO提高太快。建議設置爲 1500，也就是15秒算舊。
/proc/sys/vm/dirty_background_ratio
這個參數控制文件系統的pdflush進程，在何時刷新磁盤。單位是百分比，表示系統內存的百分比，意思是當寫緩衝使用到系統內存多少的時候， pdflush開始向磁盤寫出數據。增大之會使用更多系統內存用於磁盤寫緩衝，也可以極大提高系統的寫性能。但是，當你需要持續、恆定的寫入場合時，應該降低其數值，一般啓動上缺省是 5
/proc/sys/vm/dirty_writeback_centisecs
這個參數控制內核的髒數據刷新進程pdflush的運行間隔。單位是 1/100 秒。缺省數值是500，也就是 5 秒。如果你的系統是持續地寫入動作，那麼實際上還是降低這個數值比較好，這樣可以把尖峯的寫操作削平成多次寫操作
當然最主要的還是升級硬件或通過做RAID實現

用過的文件系統比較：

1、Reiserfs

　大量小文件訪問，衡量指標是IOPS，文件系統性能瓶頸在於文件元數據操作、目錄操作、數據尋址。reiserfs對小文件作了優化，並使用B+ tree組織數據，加速了數據尋址，大大降低了open/create/delete/close等系統調用開銷。mount時指定noatime, nodiratime, notail，減少不必要的inode操作，notail關閉tail package功能，以空間換取更高性能。因此，對於隨機的小I/O讀寫，reiserfs是很好的選擇。

2、Ext4

　大文件順序訪問，衡量指標是IO吞吐量，文件系統性能瓶頸在於數據塊佈局(layout)、數據尋址。Ext4對ext3主要作了兩方面的優化:

　一是inode預分配。這使得inode具有很好的局部性特徵，同一目錄文件inode儘量放在一起，加速了目錄尋址與操作性能。因此在小文件應用方面也具有很好的性能表現。

　二是extent/delay/multi的數據塊分配策略。這些策略使得大文件的數據塊保持連續存儲在磁盤上，數據尋址次數大大減少，顯著提高I/O吞吐量。

因此，對於順序大I/O讀寫，EXT4是很好的選擇。另外，XFS性能在大文件方面也相當不錯。

用到的命令：
檢測硬盤的讀效率:hdparm -tT /dev/hda。
檢測硬盤的寫效率：time dd if=/dev/zero of=/media/hda5/tmp/my-file bs=4k count=65536
寫入字符到/media/hda5/tmp/my-file文件，bs爲塊大小，count爲快數
系統IO情況：vmstat,如果wa大說明瓶頸在io上。iostat用於監視io情況

二：CPU 編譯參數優化

CHOST參數：對應CPU類型
CFLAGS參數：
-O3：相對於-O、-O1、-O2，-O3開啓了所有GCC支持的優化特性；
-msse2：開啓CPU所支持的sse2指令集；
-mmmx：參考-msse2
-mfpmath=sse：爲指定指令集生成浮點運算特性（優化浮點運算功能）；
-mcpu：指定CPU型號；
-march：指定CPU型號，基本同-mcpu，GCC根據-march設定的CPU型號決定在生成代碼時可以使用哪些種類的指令。（注意！-march參數在某些CPU型號中不可用！）
-pipe：使用管道(pipe)方法替代臨時文件方法在編譯的不同階段之間進行通訊。

三：系統優化
（1）關閉不用的服務
（2）程序執行效率優化
（3）充分利用多核的優勢

今天跟同事學了一招，可以通過修改swappiness內核參數，降低系統對swap的使用，從而提高系統的性能。

遇到的問題是這樣的，新版本產品發佈後，每小時對內存的使用會有一個尖峯。雖然這個峯值還遠沒有到達服務器的物理內存，但確發現內存使用達到峯值時系統開始使用swap。在swap的過程中系統性能會有所下降，表現爲較大的服務延遲。對這種情況，可以通過調節swappiness內核參數降低系統對swap的使用，從而避免不必要的swap對性能造成的影響。

這裏有一篇關於swappiness內核參數的詳細介紹。簡單地說這個參數定義了系統對swap的使用傾向，默認值爲60，值越大表示越傾向於使用swap。可以設爲0，這樣做並不會禁止對swap的使用，只是最大限度地降低了使用swap的可能性。通過sysctl -q vm.swappiness可以查看參數的當前設置。修改參數的方法是修改/etc/sysctl.conf文件，加入vm.swappiness=xxx，並重起系統。如果不想重起，可以通過sysctl -p動態加載/etc/sysctl.conf文件，但建議這樣做之前先清空swap。

1、關閉日誌
mount -o remount -o ro
tune2fs -O ^has_journal
mount -o remount -o rw

2、查詢日誌功能是否開啓
[root@mail ~]# tune2fs -l /dev/hdb2 |grep 'has_journal'

原文地址：http://chenwenming.blog.51cto.com/327092/744420

Linux文件系統性能優化

goldengate BATCHSQL設置

linux中與Oracle有關的內核參數詳解

GoldenGate字段和數據篩選

GoldenGate字段映射

Oracle EM 命令

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結