操作系統級虛擬化

KVM、XEN等虛擬化技術允許各個虛擬機擁有自己獨立的操作系統。與KVM、XEN等虛擬化技術不同，所謂操作系統級虛擬化，也被稱作容器化，是操作系統自身的一個特性，它允許多個相互隔離的用戶空間實例的存在。這些用戶空間實例也被稱作爲容器。普通的進程可以看到計算機的所有資源而容器中的進程只能看到分配給該容器的資源。通俗來講，操作系統級虛擬化將操作系統所管理的計算機資源，包括進程、文件、設備、網絡等分組，然後交給不同的容器使用。容器中運行的進程只能看到分配給該容器的資源。從而達到隔離與虛擬化的目的。

實現操作系統虛擬化需要用到Namespace及cgroups技術。

命名空間(Namespace)

在編程語言中，引入命名空間的概念是爲了重用變量名或者服務例程名。在不同的命名空間中使用同一個變量名而不會產生衝突。Linux系統引入命名空間也有類似的作用。例如，在沒有操作系統級虛擬化的Linux系統中，用戶態進程從1開始編號(PID)。引入操作系統虛擬化之後，不同容器有着不同的PID命名空間，每個容器中的進程都可以從1開始編號而不產生衝突。

目前，Linux中的命名空間有6種類型，分別對應操作系統管理的6種資源：

掛載點(mount point) CLONE_NEWNS
進程(pid) CLONE_NEWPID
網絡(net) CLONE_NEWNET
進程間通信(ipc) CLONE_NEWIPC
主機名(uts) CLONE_NEWUTS
用戶(uid) CLONW_NEWUSER

將來還會引入時間、設備等對應的namespace.

Linux 2.4.19版本引入了第一個命名空間——掛載點，因爲那時還沒有其他類型的命名空間，所以clone系統調用中引入的flag就叫做CLONE_NEWNS

與命名空間相關的三個系統調用(system calls)

下面3個系統調用用來操作命名空間：

clone() —— 用來創建新的進程及新的命名空間，新的進程會被放到新的命名空間中
unshare() —— 創建新的命名空間但並不創建新的子進程，之後創建的子進程會被放到新創建的命名空間中去
setns() —— 將進程加入到已經存在的命名空間中

注意：這３個系統調用都不會改變調用進程(calling process)的pid命名空間，而是會影響其子進程的pid命名空間

命名空間本身並沒用名字(囧)，不同的命名空間用不同的inode號來標識，這也符合Linux用文件一統天下的慣例。可以在proc文件系統中查看一個進程所屬的命名空間，例如，查看PID爲4123的進程所屬的命名空間：

kelvin@desktop:~$ ls -l /proc/4123/ns/
總用量 0
lrwxrwxrwx 1 kelvin kelvin 0 12月 26 16:28 cgroup -> cgroup:[4026531835]
lrwxrwxrwx 1 kelvin kelvin 0 12月 26 16:28 ipc -> ipc:[4026531839]
lrwxrwxrwx 1 kelvin kelvin 0 12月 26 16:28 mnt -> mnt:[4026531840]
lrwxrwxrwx 1 kelvin kelvin 0 12月 26 16:28 net -> net:[4026531963]
lrwxrwxrwx 1 kelvin kelvin 0 12月 26 16:28 pid -> pid:[4026531836]
lrwxrwxrwx 1 kelvin kelvin 0 12月 26 16:28 user -> user:[4026531837]
lrwxrwxrwx 1 kelvin kelvin 0 12月 26 16:28 uts -> uts:[4026531838]

下面的代碼演示瞭如何利用上述3個系統調用來操作進程的命名空間：

#define _GNU_SOURCE
#include <sys/types.h>
#include <sys/wait.h>
#include <sched.h>
#include <signal.h>
#include <unistd.h>
#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include <errno.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>

#define STACK_SIZE (10 * 1024 * 1024)

char child_stack[STACK_SIZE];

int child_main(void* args) {
    pid_t child_pid = getpid();
    printf("I'm child process and my pid is %d \n", child_pid);
    // 子進程會被放到clone系統調用新創建的pid命名空間中, 所以其pid應該爲1
    sleep(300);
    // 命名空間中的所有進程退出後該命名空間的inode將會被刪除, 爲後續操作保留它
    return 0;
}

int main() {
    /* Clone */
    pid_t child_pid = clone(child_main, child_stack + STACK_SIZE, \
        CLONE_NEWPID | SIGCHLD, NULL);
    if(child_pid < 0) {
        perror("clone failed");
    }

    /* Unshare */
    int ret = unshare(CLONE_NEWPID); // 父進程調用unshare, 創建了一個新的命名空間,
    //但不會創建子進程. 之後再創建的子進程將會被加入到新的命名空間中
    if (ret < 0) {
        perror("unshare failed");
    }
    int fpid = fork();
    if (fpid < 0) {
        perror("fork error");
    } else if (fpid == 0) {
        printf("I am child process. My pid is %d  \n", getpid());
        // Fork後的子進程會被加入到unshare創建的命名空間中, 所以pid應該爲1
        exit(0);
    } else {
    }
    waitpid(fpid, NULL, 0);

    /* Setns */
    char path[80] = "";
    sprintf(path, "/proc/%d/ns/pid", child_pid);
    int fd = open(path, O_RDONLY);
    if (fd == -1)
        perror("open error");
    if (setns(fd, 0) == -1)
    // setns並不會改變當前進程的命名空間, 而是會設置之後創建的子進程的命名空間
        perror("setns error");
    close(fd);

    int npid = fork();
    if (npid < 0) {
        perror("fork error");
    } else if (npid == 0) {
        printf("I am child process. My pid is %d  \n", getpid());
        // 新的子進程會被加入到第一個子進程的pid命名空間中, 所以其pid應該爲2
        exit(0);
    } else {
    }
    return 0;
}

運行結果：

$ sudo ./ns
I'm child process and my pid is 1 
I am child process. My pid is 1  
I am child process. My pid is 2

控制組(Cgroups)

如果說命名空間是從命名和編號的角度進行隔離，而控制組則是將進程進行分組，並真正的將各組進程的計算資源進行限制、隔離。控制組是一種內核機制，它可以對進程進行分組、跟蹤限制其使用的計算資源。對於每一類計算資源，控制組通過所謂的子系統(subsystem)來進行控制，現階段已有的子系統包括：

cpusets: 用來分配一組CPU給指定的cgroup，該cgroup中的進程只等被調度到該組CPU上去執行
blkio : 限制cgroup的塊IO
cpuacct : 用來統計cgroup中的CPU使用
devices : 用來黑白名單的方式控制cgroup可以創建和使用的設備節點
freezer : 用來掛起指定的cgroup，或者喚醒掛起的cgroup
hugetlb : 用來限制cgroup中hugetlb的使用
memory : 用來跟蹤限制內存及交換分區的使用
net_cls : 用來根據發送端的cgroup來標記數據包，流量控制器(traffic controller)會根據這些標記來分配優先級
net_prio : 用來設置cgroup的網絡通信優先級
cpu :用來設置cgroup中CPU的調度參數
perf_event : 用來監控cgroup的CPU性能

與命名空間不同，控制組並沒有增加系統調用，而是實現了一個文件系統，通過文件及目錄操作來管理控制組。下面通過一個例子來看一看cgroup是如何利用cpuset子系統來把進程綁定到指定的CPU上去執行的。

1. 創建一個一直執行的shell腳本

#!/bin/bash

x=0

while [ True ];do
    :
done;

2. 在後臺執行這個腳本

# bash run.sh &
[1] 20553

3. 查看該腳本在哪個CPU上運行

# ps -eLo ruser,lwp,psr,args | grep 20553 | grep -v grep
root     20553   3 bash run.sh

可以看到PID爲20553的進程運行在編號爲3的CPU上，下面利用cgroups將其綁定到編號爲2的CPU上去執行

4. 掛載cgroups類型的文件系統到一個新創建的目錄cgroups中

# mkdir cgroups
# mount -t cgroup -o cpuset cgroups ./cgroups/
# ls cgroups/
cgroup.clone_children   cpuset.memory_pressure_enabled
cgroup.procs            cpuset.memory_spread_page
cgroup.sane_behavior    cpuset.memory_spread_slab
cpuset.cpu_exclusive    cpuset.mems
cpuset.cpus             cpuset.sched_load_balance
cpuset.effective_cpus   cpuset.sched_relax_domain_level
cpuset.effective_mems   docker
cpuset.mem_exclusive    tasks
cpuset.mem_hardwall     notify_on_release
cpuset.memory_migrate   release_agent
cpuset.memory_pressure

5. 創建一個新的組group0

# mkdir group0
# ls group0/
cgroup.clone_children  cpuset.mem_exclusive       cpuset.mems
cgroup.procs           cpuset.mem_hardwall        cpuset.sched_load_balance
cpuset.cpu_exclusive   cpuset.memory_migrate      cpuset.sched_relax_domain_level
cpuset.cpus            cpuset.memory_pressure     notify_on_release
cpuset.effective_cpus  cpuset.memory_spread_page  tasks
cpuset.effective_mems  cpuset.memory_spread_slab

6. 將上面的進程20553加入到新建的控制組中：

# echo 20553 >> group0/tasks 
# cat group0/tasks 
20553

7. 限制該組的進程只能運行在編號爲2的CPU上

# echo 2 > group0/cpuset.cpus
# cat group0/cpuset.cpus
2

8. 查看PID爲20553的進程所運行的CPU編號

# ps -eLo ruser,lwp,psr,args | grep 20553 | grep -v grep
root     20553   2 bash run.sh

上面的例子簡單的展示瞭如何使用控制組。控制組通過文件和目錄來操作，文件系統又是樹形結構，因此如果不對cgroups的使用做一些限制的話，配置會變得異常複雜和混亂。因此，在新版的cgroups中做了一些限制。

小結

本文簡要介紹了操作系統虛擬化的概念，以及實現操作系統虛擬化的技術——命名空間及控制組。並通過兩個簡單的例子演示了命名空間及控制組的使用方法。

閱讀原文

操作系統級虛擬化概述原薦

操作系統級虛擬化

命名空間(Namespace)

與命名空間相關的三個系統調用(system calls)

控制組(Cgroups)

小結

985 碩士程序員，空窗 4 個月沒有 Offer！

營銷系統黑名單優化：位圖的應用解析

我真的從測試轉成了開發......

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

爲何我建議你學會抄代碼

抖音面試：說說延遲任務的調度算法？

解密遊戲神作

原來 pt-osc 改表是這樣實現的！原理詳解【附場景案例】

導入地址表鉤取技術解析

QEMU 1: 使用QEMU創建虛擬機頂原薦

CSS Flex 全解析轉

Openstack Trove概要原

操作系統級虛擬化概述原薦

基於web技術的操作系統安裝器的設計頂原薦

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

操作系統級虛擬化概述 原 薦

操作系統級虛擬化

命名空間(Namespace)

與命名空間相關的三個系統調用(system calls)

控制組(Cgroups)

小結

操作系統級虛擬化概述原薦