深入一點談談進程和線程的區別

背景:
這個問題雖然常見,但想說清楚還真不容易,在這整理下思路聊聊吧。



1.什麼是進程?爲什麼要有進程?

進程有一個相當精簡的解釋:進程是對操作系統上正在運行程序的一個抽象。

這個概念確實挺抽象,仔細想想卻也挺精準。

我們平常使用計算機,都會在同一時間做許多事,比如邊看電影,邊微信聊天,順便打開瀏覽器百度搜索一下,我們所做的這麼多事情背後都是一個個正在運行中的軟件程序;這些軟件想要運行起來,首先在磁盤上需要有各自的程序代碼,然後將代碼加載到內存中,CPU會去執行這些代碼,運行中會產生很多數據需要存放,也可能需要和網卡、顯卡、鍵盤等外部設備交互,這背後其實就涉及到程序對計算機資源的使用,存在這麼多程序,我們當然需要想辦法管理程序資源的使用。並且CPU如果只有一個,那麼還需要操作系統調度CPU分配給各個程序使用,讓用戶感覺這些程序在同時運行,不影響用戶體驗。

理所當然,操作系統會把每個運行中的程序封裝成獨立的實體,分配各自所需要的資源,再根據調度算法切換執行。這個抽象程序實體就是進程。

所以很多對進程的官方解釋中都會提到:進程是操作系統進行資源分配和調度的一個基本單位。


2.什麼是線程?爲什麼要有線程?

在早期的操作系統中並沒有線程的概念,進程是擁有資源和獨立運行的最小單位,也是程序執行的最小單位。任務調度採用的是時間片輪轉的搶佔式調度方式,而進程是任務調度的最小單位,每個進程有各自獨立的內存空間,使得各個進程之間內存地址相互隔離。

後來,隨着計算機行業的發展,程序的功能設計越來越複雜,我們的應用中同時發生着多種活動,其中某些活動隨着時間的推移會被阻塞,比如網絡請求、讀寫文件(也就是IO操作),我們自然而然地想着能不能把這些應用程序分解成更細粒度、能 準並行運行 多個順序執行實體,並且這些細粒度的執行實體可以共享進程的地址空間,也就是可以共享程序代碼、數據、內存空間等,這樣程序設計模型會變得更加簡單。

其實很多計算機世界裏的技術演變,都是模擬現實世界。比如我們把一個進程當成一個項目,當項目任務變得複雜時,自然想着能不能將項目按照業務、產品、工作方向等分成一個個任務模塊,分派給不同人員各自並行完成,再按照某種方式組織起各自的任務成果,最終完成項目。

需要多線程還有一個重要的理由就是:每個進程都有獨立的代碼和數據空間(程序上下文),程序之間的切換會有較大的開銷;線程可以看做輕量級的進程,同一類線程共享代碼和數據空間,每個線程都有自己獨立的運行棧和程序計數器,線程之間切換的開銷小。所以線程的創建、銷燬、調度性能遠遠優於進程。

在引入多線程模型後,進程和線程在程序執行過程中的分工就相當明確了,進程負責分配和管理系統資源,線程負責CPU調度運算,也是CPU切換時間片的最小單位。對於任何一個進程來講,即便我們沒有主動去創建線程,進程也是默認有一個主線程的。


3.它們在Linux內核中實現方式有何不同?

在Linux 裏面,無論是進程,還是線程,到了內核裏面,我們統一都叫任務(Task),由一個統一的結構 task_struct 進行管理,這個task_struct 數據結構非常複雜,囊括了進程管理生命週期中的各種信息。

在這裏插入圖片描述
在Linux操作系統內核初始化時會創建第一個進程,即0號創始進程。隨後會初始化1號進程(用戶進程祖宗:/usr/lib/systemd/systemd),2號進程(內核進程祖宗:[kthreadd]),其後所有的進程線程都是在他們的基礎上fork出來的。

在這裏插入圖片描述
在這裏插入圖片描述

我們一般都是通過fork系統調用來創建新的進程,fork 系統調用包含兩個重要的事件,一個是將 task_struct 結構複製一份並且初始化,另一個是試圖喚醒新創建的子進程。

我們說無論是進程還是線程,在內核裏面都是task,管起來不是都一樣嗎?到底如何區分呢?其實,線程不是一個完全由內核實現的機制,它是由內核態和用戶態合作完成的。

創建進程的話,調用的系統調用是 fork,會將五大結構 files_struct、fs_struct、sighand_struct、signal_struct、mm_struct 都複製一遍,從此父進程和子進程各用各的數據結構。而創建線程的話,調用的是系統調用 clone,五大結構僅僅是引用計數加一,也即線程共享進程的數據結構。

在這裏插入圖片描述


4.所以它們到底有哪些區別?

功能: 進程是操作系統資源分配的基本單位,而線程是任務調度和執行的基本單位

開銷: 每個進程都有獨立的內存空間,存放代碼和數據段等,程序之間的切換會有較大的開銷;線程可以看做輕量級的進程,共享內存空間,每個線程都有自己獨立的運行棧和程序計數器,線程之間切換的開銷小。

運行環境: 在操作系統中能同時運行多個進程;而在同一個進程(程序)中有多個線程同時執行(通過CPU調度,在每個時間片中只有一個線程執行)

創建過程: 在創建新進程的時候,會將父進程的所有五大數據結構複製新的,形成自己新的內存空間數據,而在創建新線程的時候,則是引用進程的五大數據結構數據,但是線程會有自己的私有數據、棧空間。

進程和線程其實在cpu看來都是task_struct結構的一個封裝,執行不同task即可,而且在cpu看來就是在執行這些task時候遵循對應的調度策略以及上下文資源切換定義,包括寄存器地址切換,內核棧切換。所以對於cpu而言,進程和線程是沒有區別的。


附:我們通常所說的上下文切換具體指什麼?

操作系統抽象出一個進程的概念,讓應用程序專心於實現自己的業務邏輯既可,對應用程序屏蔽了CPU調度、內存管理等硬件細節,而且在有限的CPU上可以“同時”進行許多個任務。但是它爲用戶帶來方便的同時,也引入了一些額外的開銷。

在操作系統中,由於CPU的時間片調度策略,從一個進程切換到另一個進程需要保存當前進程的狀態並恢復另一個進程的狀態:當前運行任務轉爲就緒(或者掛起、刪除)狀態,另一個被選定的就緒任務成爲當前任務。上下文切換包括保存當前任務的運行環境,恢復將要運行任務的運行環境。

在上下文切換過程中,CPU會停止處理當前運行的程序,並保存當前程序運行的具體位置以便之後繼續運行。從這個角度來看,上下文切換有點像我們同時閱讀幾本書,在來回切換書本的同時我們需要記住每本書當前讀到的頁碼。

在三種情況下可能會發生上下文切換:中斷處理,多任務處理,內核/用戶態切換。

在中斷處理中,其他程序”打斷”了當前正在運行的程序。當CPU接收到中斷請求時,會在正在運行的程序和發起中斷請求的程序之間進行一次上下文切換。

在多任務處理中,CPU會在不同程序之間來回切換,每個程序都有相應的處理時間片,CPU在兩個時間片的間隔中進行上下文切換。

在Linux中進行內核/用戶態切換也會進行上下文切換,進行系統調用時,CPU寄存器裏原來用戶態的指令位置需要先保存起來。接着,爲了執行內核態代碼,CPU寄存器需要更新爲內核態指令的新位置。最後纔是跳轉到內核態運行內核任務。而系統調用結束後,CPU寄存器需要恢復原來保存的用戶態,然後再切換到用戶空間,繼續運行進程,所以一次系統調用的過程,其實是發生了兩次CPU上下文切換。

CPU上下文切換,是保證Linux系統正常工作的核心功能之一,一般情況下不需要我們特別關注。

但過多的上下文切換,會把CPU時間消耗在寄存器、內核棧以及虛擬內存等數據的保存和恢復上,從而縮短進程真正運行的時間,導致系統的整體性能大幅下降。


參考資料:
《現代操作系統(第四版)》
《趣談Linux操作系統》劉超

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章