kvm性能優化方案

kvm性能優化，主要集中在cpu、內存、磁盤、網絡，4個方面，當然對於這裏面的優化，也是要分場景的，不同的場景其優化方向也是不同的，下面具體聊聊這4個方面的優化細節。

cpu

在介紹cpu之前，必須要講清楚numa的概念，建議先參考如下兩篇文章

查看cpu信息腳本：

#!/bin/bash

# Simple print cpu topology
# Author: kodango

function get_nr_processor()
{
    grep '^processor' /proc/cpuinfo | wc -l
}

function get_nr_socket()
{
    grep 'physical id' /proc/cpuinfo | awk -F: '{
            print $2 | "sort -un"}' | wc -l
}

function get_nr_siblings()
{
    grep 'siblings' /proc/cpuinfo | awk -F: '{
            print $2 | "sort -un"}'
}

function get_nr_cores_of_socket()
{
    grep 'cpu cores' /proc/cpuinfo | awk -F: '{
            print $2 | "sort -un"}'
}

echo '===== CPU Topology Table ====='
echo

echo '+--------------+---------+-----------+'
echo '| Processor ID | Core ID | Socket ID |'
echo '+--------------+---------+-----------+'

while read line; do
    if [ -z "$line" ]; then
        printf '| %-12s | %-7s | %-9s |\n' $p_id $c_id $s_id
        echo '+--------------+---------+-----------+'
        continue
    fi

    if echo "$line" | grep -q "^processor"; then
        p_id=`echo "$line" | awk -F: '{print $2}' | tr -d ' '` 
    fi

    if echo "$line" | grep -q "^core id"; then
        c_id=`echo "$line" | awk -F: '{print $2}' | tr -d ' '` 
    fi

    if echo "$line" | grep -q "^physical id"; then
        s_id=`echo "$line" | awk -F: '{print $2}' | tr -d ' '` 
    fi
done < /proc/cpuinfo

echo

awk -F: '{ 
    if ($1 ~ /processor/) {
        gsub(/ /,"",$2);
        p_id=$2;
    } else if ($1 ~ /physical id/){
        gsub(/ /,"",$2);
        s_id=$2;
        arr[s_id]=arr[s_id] " " p_id
    }
} 

END{
    for (i in arr) 
        printf "Socket %s:%s\n", i, arr[i];
}' /proc/cpuinfo

echo
echo '===== CPU Info Summary ====='
echo

nr_processor=`get_nr_processor`
echo "Logical processors: $nr_processor"

nr_socket=`get_nr_socket`
echo "Physical socket: $nr_socket"

nr_siblings=`get_nr_siblings`
echo "Siblings in one socket: $nr_siblings"

nr_cores=`get_nr_cores_of_socket`
echo "Cores in one socket: $nr_cores"

let nr_cores*=nr_socket
echo "Cores in total: $nr_cores"

if [ "$nr_cores" = "$nr_processor" ]; then
    echo "Hyper-Threading: off"
else
    echo "Hyper-Threading: on"
fi

echo
echo '===== END ====='

相信通過上面兩篇文章，基本已經可以搞清楚node、socket、core、logic processor的關係，可以知道內存、l3-cache、l2-cache、l1-cache和cpu的關係。

針對kvm的優化，一般情況，都是通過pin，將vm上的cpu綁定到某一個node上，讓其共享l3-cache，優先選擇node上的內存，bind方法可以通過virt-manage processor裏面的pinning動態綁定。這個綁定是實時生效的。

由於沒有下載到speccpu2005，所以寫了個大量消費cpu和內存的程序，來檢驗綁定cpu所帶來的性能提升，程序如下：

#include <stdio.h>
#include <pthread.h>
#include <stdlib.h>

#define BUF_SIZE  512*1024*1024
#define MAX 512*1024
#define COUNT 16*1024*1024

char * buf_1 = NULL;
char * buf_2 = NULL;


void *pth_1(void *data)
{
		char * p1 = NULL;
		char * p2 = NULL;
    int value1 = 0;
    int value2 = 0;
    int value_total = 0;
    int i = 0;
    int j = 0;
    for (i = 0; i <=COUNT; i++) {
    		value1 = rand() % (MAX + 1);
    		value2 = rand() % (MAX + 1);
    		p1 = buf_1 + value1*1024;
    		p2 = buf_2 + value2*1024;
    		for (j = 0; j < 1024; j++) {
    				value_total += p1[j];
    				value_total += p2[j];
    		}
    }
    return NULL;
}

void *pth_2(void *data)
{
		char * p1 = NULL;
		char * p2 = NULL;
    int value1 = 0;
    int value2 = 0;
    int value_total = 0;
    int i = 0;
    int j = 0;
    for (i = 0; i <=COUNT; i++) {
    		value1 = rand() % (MAX + 1);
    		value2 = rand() % (MAX + 1);
    		p1 = buf_1 + value1*1024;
    		p2 = buf_2 + value2*1024;
    		for (j = 0; j < 1024; j++) {
    				value_total += p1[j];
    				value_total += p2[j];
    		}
    }
    return NULL;
}


int main(void)
{
	
		buf_1 = (char *)calloc(1, BUF_SIZE);
		buf_2 = (char *)calloc(1, BUF_SIZE);
		memset(buf_1, 0, BUF_SIZE);
		memset(buf_2, 0, BUF_SIZE);
		
    pthread_t th_a, th_b;
    void *retval;
    pthread_create(&th_a, NULL, pth_1, 0);
    pthread_create(&th_b, NULL, pth_2, 0);

    pthread_join(th_a, &retval);
    pthread_join(th_b, &retval);
    return 0;
}

我的實驗機器上，偶數cpu在node 0 上，奇數cpu在node 1上，vm有2個cpu，程序有2個線程，分別將vm綁定到8,9和10,12，通過time命令運行程序，time ./test，測試結果如下

8,9
real	1m53.999s
user	3m34.377s
sys	0m3.020s

10,12
real	1m25.706s
user	2m49.497s
sys	0m0.699s

可以看出，綁定到同一個node上，比綁到不同node上其消耗時間小不少。測試過程中，也發現如果提供8、9、10、11的cpu，系統會在大部分時間選擇8、10和9、11，所以猜測，kvm在cpu bind上，可能已經做了優化，會盡可能的往同一個node上綁定。

這裏需要注意的一點是，通過virt-manage pin cpu，僅僅進行cpu bind，會共享l3-cache，並沒有限制一定用某一個node上的內存，所以仍然會出現跨node使用內存的情況。

內存

優化項包括EPT、透明大頁、內存碎片整理、ksm，下面一個一個來介紹

EPT

針對內存的使用，存在邏輯地址和物理地址的轉換，這個轉換時通過page table來進行的，並且轉換過程由cpu vmm硬件加速，速度是很塊的。

但是引入vm之後，vm vaddr----->vm padddr--------->host paddr，首先vm需要進行邏輯地址和物理地址的轉換，但是vm的物理地址還是host機的邏輯地址，需要再進行一次邏輯地址到物理地址的轉換，所以這個過程有2次地址轉換，效率非常低。

幸虧intel提供了EPT技術，將兩次地址轉換變成了一次。這個EPT技術是在bios中，隨着VT技術開啓一起開啓的。

透明大頁

邏輯地址向物理地址的轉換，在做轉換時，cpu保持一個翻譯後備緩衝器TLB，用來緩存轉換結果，而TLB容量很小，所以如果page很小，TLB很容易就充滿，這樣就很容易導致cache miss，相反page變大，TLB需要保存的緩存項就變少，減少cache miss。

透明大頁的開啓：echo always > /sys/kernel/mm/transparent_hugepage/enabled

內存碎片整理的開啓：echo always> /sys/kernel/mm/transparent_hugepage/defrag

KSM

文章http://blog.chinaunix.net/uid-20794164-id-3601786.html，介紹的很詳細，簡單理解就是可以將host機內容相同的內存合併，節省內存的使用，特別是當vm操作系統都一樣的情況，肯定會有很多內容相同的內存，開啓了KSM，則會將這些內存合併爲一個，當然這個過程會有性能損耗，所以開啓與否，需要考慮使用場景，如果不注重vm性能，而注重host內存使用率，可以考慮開啓，反之則關閉，在/etc/init.d/下，會有兩個服務，服務名稱爲ksm和ksmtuned，都需要關閉。

磁盤

磁盤的優化包括：virtio-blk、緩存模式、aio、塊設備io調度器

virtio

半虛擬化io設備，針對cpu和內存，kvm全是全虛擬化設備，而針對磁盤和網絡，則出現了半虛擬化io設備，目的是標準化guest和host之間數據交換接口，減少交互流程和內存拷貝，提升vm io效率，可以在libvirt xml中設置，disk中加入<target dev='vda' bus='virtio'/>

緩存模式

從vm寫磁盤，有3個緩衝區，guest fs page cache、Brk Driver writeback cache（qemu的cache）、Host FS page cache，在host上的設置，無法改變guest fs page cache，但是可以改變後面2個cache，緩存模式有如下5種，當採用Host FS page cache，會有一個寫同步，會實時將host cache中的數據flush到磁盤上，當然這樣做比較安全，不會丟失數據，但寫性能會受到影響。具體模式見下圖。

第1和第5種，都太極端了，很少會有人使用，常使用的是中間3種，其性能比較如下：

可以看出writeback mode在mail server這種小文件高io的服務器上，其性能是很差的，none模式大部分情況要比writethrough性能稍好一點，所以選擇none。

啓用方式在libvirt xml disk中加入<driver name='qemu' type='qcow2' cache='none'/>

aio

異步讀寫，分別包括Native aio: kernel AIO 和 threaded aio: user space AIO emulated by posix thread workers，內核方式要比用戶態的方式性能稍好一點，所以一般情況都選擇native，開啓方式<driver name='qemu' type='qcow2' cache='none' aio='native'/>

塊設備調度器

cfq：perprocess IO queue，較好公平性，較低aggregate throughput

deadline：per-device IO queue，較好實時性，較好aggregate throughput，不夠公平，當某些vm有大量io操作，佔用了大量io資源時，其它後加入的vm很有可能搶佔不到io資源。

這個目前筆者還沒有做過測試，但是查看網易和美團雲的方案，都將其設置爲cfq。

開啓方式：echo cfq > /sys/block/sdb/queue/scheduler

網絡

優化項包括virtio、vhost、macvtap、vepa、SRIOV 網卡，下面有幾篇文章寫的非常好

virtio

更改虛擬網卡的類型，由全虛擬化網卡e1000、rtl8139，轉變成半虛擬化網卡virtio，virtio需要qemu和vm內核virtio驅動的支持，這個原理和磁盤virtio原理一樣，不再贅述。

vhost_net

vhost_net將virtiobackend處理程序由user space轉入kernel space，將減少兩個空間內存拷貝和cpu的切換，降低延時和提高cpu使用率

macvtap

代替傳統的tap+bridge，有4中模式，bridge、vepa、private、passthrough
1, Bridge, 完成與 Bridge 設備類似功能，數據可以在屬於同一個母設備的子設備間交換轉發. 當前的Linux實現有一個缺陷，此模式下MACVTAP子設備無法和Linux Host通訊，即虛擬機無法和Host通訊，而使用傳統的Bridge設備，通過給Bridge設置IP可以完成。但使用VEPA模式可以去除這一限制. macvtap的這種bridge模式等同於傳統的tap+bridge的模式.
2, VEPA, 式是對802.1Qbg標準中的VEPA機制的部分軟件實現，工作在此模式下的MACVTAP設備簡單的將數據轉發到母設備中，完成數據匯聚功能，通常需要外部交換機支持Hairpin模式才能正常工作。
3, Private, Private模式和VEPA模式類似，區別是子 MACVTAP之間相互隔離。
4, Passthrough, 可以配合直接使用SRIOV網卡, 內核的macvtap數據處理邏輯被跳過，硬件決定數據如何處理，從而釋放了Host CPU資源。MACVTAP Passthrough 概念與PCI Passthrough概念不同，PCI Passthrough針對的是任意PCI設備，不一定是網絡設備，目的是讓Guest OS直接使用Host上的 PCI 硬件以提高效率。MACVTAP Passthrough僅僅針對 MACVTAP網絡設備，目的是饒過內核裏MACVTAP的部分軟件處理過程，轉而交給硬件處理。綜上所述，對於一個 SRIOV 網絡設備，可以用兩種模式使用它：MACVTAP Passthrough 與 PCI Passthrough

PCI pass-through

直通，設備獨享。

SO-IOV

優點是虛擬網卡的工作由host cpu交給了物理網卡來實現，降低了host cpu的使用率，缺點是，需要網卡、主板、hypervisor的支持。

這幾種優化方案，其關係可由下面這張圖來表示。

測試結果，在實驗室2臺host，分別起1臺vm（vm1、vm2），用iperf測試vm1和vm2之間的吞吐量，用ping測試2者之間的響應時間，host機爲百兆網卡，結果如下表所示，可以看出隨着優化的深入，其吞吐量和響應時間都有所改善，由於暫時沒有硬件的支持，macvtap vepa和SR-IOV沒有得到測試。

Test item	Iperf(ping)
rtl8139	87Mb/s(1.239ms)
virtio	89Mb/s(1.140ms)
Virtio + host_net	92Mb/s(1.014ms)
Macvtap(bridge) + virtio + host_net	94Mb/s(0.989ms)
host	95Mb/s(0.698ms)

總結來看網絡虛擬化具有三個層次:

1, 0成本，通過純軟件virtio、vhost、macvtap提升網絡性能;
2, 也可以用非常低的成本按照802.1Qbg中的VEPA模型創建升級版的虛擬網絡，引出虛擬機網絡流量，減少Host cpu負載，但需要物理交換機的配合;
3, 如果網絡性能還是達不到要求，可以嘗試SR-IOV技術，不過需要SR-IOV網卡的支持。

總結：文章總共闡述了cpu、內存、磁盤、網絡的性能優化方案，大部分都是通過kvm參數和系統內核參數的修改來實現。

kvm性能優化方案---cpu/內存/磁盤/網絡

kvm性能優化方案

cpu

內存

EPT

透明大頁

KSM

磁盤

virtio

緩存模式

aio

塊設備調度器

網絡

virtio

vhost_net

macvtap

PCI pass-through

SO-IOV

Window 安裝 Python 失敗 0x80070643，發生嚴重錯誤

分佈式系統------數據庫

分佈式點滴記錄

python + rabbit mq

kvm性能優化方案---cpu/內存/磁盤/網絡

第2層和第3層尋址

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結