linux系統調用實現代碼分析

 

linux系統調用實現代碼分析

 

啓動早就讀完,現在爲了寫筆記再從啓動之後粗略的大體讀一遍,基本就是幾個大模塊:啓動和初始化,中斷信號,
進程及調度,內存管理,文件系統,網絡,驅動和模塊等,我主要也從這幾塊入手。由於啓動部分在start_kernel之
前牽涉到大量的x86體系相關的彙編知識,需要大量的時間,於是我跳過,先把握整個系統的大體脈絡,然後做二次,
三次分析。網絡部分的分析,我會從4.4BSD-Lite的代碼中分析。

系統調用:

先說一下系統調用,奇怪的很,所有的讀覈資料都沒有把系統調用單獨提出來說,我覺得還是比較重要的。用戶和系
統內核通信的關鍵的樞紐,不過分吧,呵呵。仔細研究一下它的機制,準備花三天時間,手頭有些書和資料,幫助我
理解。

概念:(明晰一下基本概念)
系統調用發生在用戶進程,通過一些特殊的函數(如open)來請求內核提供服務,這時,用戶進程掛起,內核驗證用
戶請求,嘗試之行,並把結果反饋給用戶進程,接着用戶進程重新啓動。這些機制在一般的編程書裏都有,我就是來
通過源代碼的實現來討論這種機制。 

具體實現代碼:arch/i386/kernel/entry.S(內核版本2.2.14)
從entry.S的第171行,就是system_call開始,171-248行代碼貼出來,分析以註釋形式:

ENTRY(system_call)   //所有系統調用的入口點,參數system_call是所希望激活的系統調用的數
pushl %eax # 保存orig_eax,這個值就是希望系統調用數
SAVE_ALL   
/*SAVE_ALL宏定義如下:
#define SAVE_ALL /
cld; /
pushl %es; /
pushl %ds; /
pushl %eax; /
pushl %ebp; /
pushl %edi; /
pushl %esi; /
pushl %edx; /
pushl %ecx; /
pushl %ebx; /
movl $(__KERNEL_DS),%edx; /
movl %dx,%ds; /
movl %dx,%es;
 他的作用是先把所有寄存器的值壓棧,然後在system_call返回之前使用RESTORE_ALL把棧從棧中彈出,在這其中
system_call可以根據需要子去使用寄存器的值。任何它調用的c函數都可以從棧中查找到所希望的參數,因爲
SAVE_ALL已經把所有寄存器的值都壓入棧中了 */
--------------------------------------------------------------------------------------------
GET_CURRENT(%ebx)   /*利用GET_CURRENT宏從ebx中取得當前任務指針,GET_CURRENT宏定義如下: 
    #define GET_CURRENT(reg) /
movl %esp, reg; /
andl $-8192, reg;這段代碼應該很好理解,把esp指移到reg變量,減去8129得到當前任務地址*/
--------------------------------------------------------------------------------------------
cmpl $(NR_syscalls),%eax  /*察看保存在eax中的系統調用數是否超過最大數(常數NR_syscalls代表系統調用的
最大數)如果確實超過了,請看下面一句:jae badsys,程序則跳轉到badsys。*/
jae badsys
testb $0x20,flags(%ebx) # PF_TRACESYS/*檢查系統調用是否正在被跟蹤*/
jne tracesys  /*如果系統調用被跟蹤,則程序跳轉到tracesys*/
call *SYMBOL_NAME(sys_call_table)(,%eax,4)/*調用系統函數*/
/*SYMBOL_NAME宏不處理任何工作,只是簡單的被文本參數(也就是系統調用名)所替換,所以可以忽略
sys_call_table也定義在entry.S(373行)中,是一張由指向實現各種系統調用的內核函數的函數指針組成的表:
    ENTRY(sys_call_table)
.long SYMBOL_NAME(sys_ni_syscall) /* 0 - old "setup()" system call*/
.long SYMBOL_NAME(sys_exit)
.long SYMBOL_NAME(sys_fork)
.long SYMBOL_NAME(sys_read)
.long SYMBOL_NAME(sys_write)
.long SYMBOL_NAME(sys_open) /* 5 */
.long SYMBOL_NAME(sys_close)
.long SYMBOL_NAME(sys_waitpid)
.long SYMBOL_NAME(sys_creat)
.long SYMBOL_NAME(sys_link)
.long SYMBOL_NAME(sys_unlink) /* 10 */
.long SYMBOL_NAME(sys_execve)
.long SYMBOL_NAME(sys_chdir)
.long SYMBOL_NAME(sys_time)
.long SYMBOL_NAME(sys_mknod)
.long SYMBOL_NAME(sys_chmod) /* 15 */
.long SYMBOL_NAME(sys_lchown)
.long SYMBOL_NAME(sys_ni_syscall) /* old break syscall holder */
.long SYMBOL_NAME(sys_stat)
.long SYMBOL_NAME(sys_lseek)
.long SYMBOL_NAME(sys_getpid) /* 20 */
.long SYMBOL_NAME(sys_mount)
.long SYMBOL_NAME(sys_oldumount)
.long SYMBOL_NAME(sys_setuid)
.long SYMBOL_NAME(sys_getuid)
.long SYMBOL_NAME(sys_stime) /* 25 */
.long SYMBOL_NAME(sys_ptrace)
.long SYMBOL_NAME(sys_alarm)
.long SYMBOL_NAME(sys_fstat)
.long SYMBOL_NAME(sys_pause)
.long SYMBOL_NAME(sys_utime) /* 30 */
.long SYMBOL_NAME(sys_ni_syscall) /* old stty syscall holder */
.long SYMBOL_NAME(sys_ni_syscall) /* old gtty syscall holder */
.long SYMBOL_NAME(sys_access)
.long SYMBOL_NAME(sys_nice)
.long SYMBOL_NAME(sys_ni_syscall) /* 35 */ /* old ftime syscall holder */
.long SYMBOL_NAME(sys_sync)
.long SYMBOL_NAME(sys_kill)
.long SYMBOL_NAME(sys_rename)
.long SYMBOL_NAME(sys_mkdir)
.long SYMBOL_NAME(sys_rmdir) /* 40 */
.long SYMBOL_NAME(sys_dup)
.long SYMBOL_NAME(sys_pipe)
.long SYMBOL_NAME(sys_times)
.long SYMBOL_NAME(sys_ni_syscall) /* old prof syscall holder */
.long SYMBOL_NAME(sys_brk) /* 45 */
.long SYMBOL_NAME(sys_setgid)
.long SYMBOL_NAME(sys_getgid)
.long SYMBOL_NAME(sys_signal)
.long SYMBOL_NAME(sys_geteuid)
.long SYMBOL_NAME(sys_getegid) /* 50 */
.long SYMBOL_NAME(sys_acct)
.long SYMBOL_NAME(sys_umount) /* recycled never used phys() */
.long SYMBOL_NAME(sys_ni_syscall) /* old lock syscall holder */
.long SYMBOL_NAME(sys_ioctl)
.long SYMBOL_NAME(sys_fcntl) /* 55 */
.long SYMBOL_NAME(sys_ni_syscall) /* old mpx syscall holder */
.long SYMBOL_NAME(sys_setpgid)
.long SYMBOL_NAME(sys_ni_syscall) /* old ulimit syscall holder */
.long SYMBOL_NAME(sys_olduname)
.long SYMBOL_NAME(sys_umask) /* 60 */
.long SYMBOL_NAME(sys_chroot)
.long SYMBOL_NAME(sys_ustat)
.long SYMBOL_NAME(sys_dup2)
.long SYMBOL_NAME(sys_getppid)
.long SYMBOL_NAME(sys_getpgrp) /* 65 */
.long SYMBOL_NAME(sys_setsid)
.long SYMBOL_NAME(sys_sigaction)
.long SYMBOL_NAME(sys_sgetmask)
.long SYMBOL_NAME(sys_ssetmask)
.long SYMBOL_NAME(sys_setreuid) /* 70 */
.long SYMBOL_NAME(sys_setregid)
.long SYMBOL_NAME(sys_sigsuspend)
.long SYMBOL_NAME(sys_sigpending)
.long SYMBOL_NAME(sys_sethostname)
.long SYMBOL_NAME(sys_setrlimit) /* 75 */
.long SYMBOL_NAME(sys_getrlimit)
.long SYMBOL_NAME(sys_getrusage)
.long SYMBOL_NAME(sys_gettimeofday)
.long SYMBOL_NAME(sys_settimeofday)
.long SYMBOL_NAME(sys_getgroups) /* 80 */
.long SYMBOL_NAME(sys_setgroups)
.long SYMBOL_NAME(old_select)
.long SYMBOL_NAME(sys_symlink)
.long SYMBOL_NAME(sys_lstat)
.long SYMBOL_NAME(sys_readlink) /* 85 */
.long SYMBOL_NAME(sys_uselib)
.long SYMBOL_NAME(sys_swapon)
.long SYMBOL_NAME(sys_reboot)
.long SYMBOL_NAME(old_readdir)
.long SYMBOL_NAME(old_mmap) /* 90 */
.long SYMBOL_NAME(sys_munmap)
.long SYMBOL_NAME(sys_truncate)
.long SYMBOL_NAME(sys_ftruncate)
.long SYMBOL_NAME(sys_fchmod)
.long SYMBOL_NAME(sys_fchown) /* 95 */
.long SYMBOL_NAME(sys_getpriority)
.long SYMBOL_NAME(sys_setpriority)
.long SYMBOL_NAME(sys_ni_syscall) /* old profil syscall holder */
.long SYMBOL_NAME(sys_statfs)
.long SYMBOL_NAME(sys_fstatfs) /* 100 */
.long SYMBOL_NAME(sys_ioperm)
.long SYMBOL_NAME(sys_socketcall)
.long SYMBOL_NAME(sys_syslog)
.long SYMBOL_NAME(sys_setitimer)
.long SYMBOL_NAME(sys_getitimer) /* 105 */
.long SYMBOL_NAME(sys_newstat)
.long SYMBOL_NAME(sys_newlstat)
.long SYMBOL_NAME(sys_newfstat)
.long SYMBOL_NAME(sys_uname)
.long SYMBOL_NAME(sys_iopl) /* 110 */
.long SYMBOL_NAME(sys_vhangup)
.long SYMBOL_NAME(sys_idle)
.long SYMBOL_NAME(sys_vm86old)
.long SYMBOL_NAME(sys_wait4)
.long SYMBOL_NAME(sys_swapoff) /* 115 */
.long SYMBOL_NAME(sys_sysinfo)
.long SYMBOL_NAME(sys_ipc)
.long SYMBOL_NAME(sys_fsync)
.long SYMBOL_NAME(sys_sigreturn)
.long SYMBOL_NAME(sys_clone) /* 120 */
.long SYMBOL_NAME(sys_setdomainname)
.long SYMBOL_NAME(sys_newuname)
.long SYMBOL_NAME(sys_modify_ldt)
.long SYMBOL_NAME(sys_adjtimex)
.long SYMBOL_NAME(sys_mprotect) /* 125 */
.long SYMBOL_NAME(sys_sigprocmask)
.long SYMBOL_NAME(sys_create_module)
.long SYMBOL_NAME(sys_init_module)
.long SYMBOL_NAME(sys_delete_module)
.long SYMBOL_NAME(sys_get_kernel_syms) /* 130 */
.long SYMBOL_NAME(sys_quotactl)
.long SYMBOL_NAME(sys_getpgid)
.long SYMBOL_NAME(sys_fchdir)
.long SYMBOL_NAME(sys_bdflush)
.long SYMBOL_NAME(sys_sysfs) /* 135 */
.long SYMBOL_NAME(sys_personality)
.long SYMBOL_NAME(sys_ni_syscall) /* for afs_syscall */
.long SYMBOL_NAME(sys_setfsuid)
.long SYMBOL_NAME(sys_setfsgid)
.long SYMBOL_NAME(sys_llseek) /* 140 */
.long SYMBOL_NAME(sys_getdents)
.long SYMBOL_NAME(sys_select)
.long SYMBOL_NAME(sys_flock)
.long SYMBOL_NAME(sys_msync)
.long SYMBOL_NAME(sys_readv) /* 145 */
.long SYMBOL_NAME(sys_writev)
.long SYMBOL_NAME(sys_getsid)
.long SYMBOL_NAME(sys_fdatasync)
.long SYMBOL_NAME(sys_sysctl)
.long SYMBOL_NAME(sys_mlock) /* 150 */
.long SYMBOL_NAME(sys_munlock)
.long SYMBOL_NAME(sys_mlockall)
.long SYMBOL_NAME(sys_munlockall)
.long SYMBOL_NAME(sys_sched_setparam)
.long SYMBOL_NAME(sys_sched_getparam)  /* 155 */
.long SYMBOL_NAME(sys_sched_setscheduler)
.long SYMBOL_NAME(sys_sched_getscheduler)
.long SYMBOL_NAME(sys_sched_yield)
.long SYMBOL_NAME(sys_sched_get_priority_max)
.long SYMBOL_NAME(sys_sched_get_priority_min) /* 160 */
.long SYMBOL_NAME(sys_sched_rr_get_interval)
.long SYMBOL_NAME(sys_nanosleep)
.long SYMBOL_NAME(sys_mremap)
.long SYMBOL_NAME(sys_setresuid)
.long SYMBOL_NAME(sys_getresuid) /* 165 */
.long SYMBOL_NAME(sys_vm86)
.long SYMBOL_NAME(sys_query_module)
.long SYMBOL_NAME(sys_poll)
.long SYMBOL_NAME(sys_nfsservctl)
.long SYMBOL_NAME(sys_setresgid) /* 170 */
.long SYMBOL_NAME(sys_getresgid)
.long SYMBOL_NAME(sys_prctl)
.long SYMBOL_NAME(sys_rt_sigreturn)
.long SYMBOL_NAME(sys_rt_sigaction)
.long SYMBOL_NAME(sys_rt_sigprocmask) /* 175 */
.long SYMBOL_NAME(sys_rt_sigpending)
.long SYMBOL_NAME(sys_rt_sigtimedwait)
.long SYMBOL_NAME(sys_rt_sigqueueinfo)
.long SYMBOL_NAME(sys_rt_sigsuspend)
.long SYMBOL_NAME(sys_pread) /* 180 */
.long SYMBOL_NAME(sys_pwrite)
.long SYMBOL_NAME(sys_chown)
.long SYMBOL_NAME(sys_getcwd)
.long SYMBOL_NAME(sys_capget)
.long SYMBOL_NAME(sys_capset)      /* 185 */
.long SYMBOL_NAME(sys_sigaltstack)
.long SYMBOL_NAME(sys_sendfile)
.long SYMBOL_NAME(sys_ni_syscall) /* streams1 */
.long SYMBOL_NAME(sys_ni_syscall) /* streams2 */
.long SYMBOL_NAME(sys_vfork)      /* 190 */
 我們來繼續看本行的三個參數:(,%eax,4),實現數組索引。當然,這個數組是以sys_call_table作爲索引的,
稱爲偏移。三個參數分別代表:數組的基地址,索引(eax,也就是系統調用數)和大小,或每個數組元素中的字
節數-----這裏是4。由於數組基地址爲空,所以賦予0---但它需要和偏移地址sys_call_table相加,簡單的說是
sys_call_table被當作數組的基地址。我把本行用c重寫如下:
(sys_call_table)[EAX]();
當然,c還要處理許多工作,如爲你紀錄數組元素的大小。不要忘記,系統調用的參數早已經存儲在堆棧中了,
以便於system_call使用SAVE_ALL把他們壓棧。
--------------------------------------------------------------------------------------------
movl %eax,EAX(%esp) # 系統調用返回
/*它在EAX寄存器中的返回值(這個值同時也是system_call的返回值)被存儲了起來。返回值被存儲在堆棧中的
EAX內,以使得RESTORE_ALL可以迅速地恢復實際的EAX寄存器及其他寄存器的值。*/


 以下代碼依然是system_call的一部分,是一個可以命名爲ret_from_sys_call和ret_from_intr的獨立入口點。
它們偶爾會被c直接調用,也可以從system_call的其他部分跳轉過來。
ALIGN
.globl ret_from_sys_call
.globl ret_from_intr
ret_from_sys_call:
movl SYMBOL_NAME(bh_mask),%eax
andl SYMBOL_NAME(bh_active),%eax
jne handle_bottom_half
/*檢測bottom half是否激活,如果激活,程序就跳轉到handle_bottom_half執行,bottom half是中斷進程的一部
分,以後再提及,中斷進程我的概念也很模糊。*/
ret_with_reschedule:
cmpl $0,need_resched(%ebx)/*檢查進程是否爲再次調度做了標記*/
jne reschedule/*如果是,就跳轉到reschedule*/
cmpl $0,sigpending(%ebx)/*檢查是否還有掛起信號*/
jne signal_return/*如果有,則程序跳轉到signal_return*/
restore_all:
RESTORE_ALL/*system_call的退出點,參看前面SAVE_ALL的用法*/

ALIGN
signal_return:/*當system_call從系統調用返回前,如果它檢測到需要將信號傳送給當前的進程時,纔會執行到
signal_return。它通過使中斷再次可用開始執行。*/
sti # we can get here from an interrupt handler
testl $(VM_MASK),EFLAGS(%esp)/*檢測是否返回虛擬8086模式*/
movl %esp,%eax
jne v86_signal_return/*如果是,就跳轉到v86_signal_return(由於虛擬8086我也不太理解,所以就跳過了,:(*/
xorl %edx,%edx /*system_call需要調用c函數do_signal來釋放信號。do_signal需要兩個參數,這兩個參數都是
通過寄存器來傳遞的;第一個是EAX寄存器,另一個是edx寄存器。system_call已經把第一個參數的值賦給了eax;
現在,把edx寄存器和寄存器本身進行xor操作,從而將其清0,這樣do_signal就認爲這是一個空指針。*/
call SYMBOL_NAME(do_signal) /*好,現在就可以調用do_signal來傳遞信號了*/
jmp restore_all /*然後跳轉到restore_all結束*/

ALIGN
v86_signal_return:
call SYMBOL_NAME(save_v86_state)
movl %eax,%esp
xorl %edx,%edx
call SYMBOL_NAME(do_signal)
jmp restore_all

ALIGN
tracesys: /*前面說過,當有當前進程的系統調用被其祖先跟蹤,如strace或truss程序,程序就跳轉到此。*/
movl $-ENOSYS,EAX(%esp) /*system_call把存儲在堆棧中的EAX拷貝賦予-ENOSYS。*/
call SYMBOL_NAME(syscall_trace) /*調用syscall_trace*/
movl ORIG_EAX(%esp),%eax /*在172行再從所作的拷貝中恢復EAX的值*/
call *SYMBOL_NAME(sys_call_table)(,%eax,4) /*調用實際的系統調用。*/
movl %eax,EAX(%esp) /*把系統調用的返回值置入堆棧中EAX的位置。*/
call SYMBOL_NAME(syscall_trace) /*再次調用syscall_trace*/
jmp ret_from_sys_call /*被跟蹤的系統調用已經返回,控制流程跳轉到ret_from_sys_call*/
badsys: /*前面說過,當系統調用數超過邊界值時程序就跳轉到這裏。*/
movl $-ENOSYS,EAX(%esp) /*這時system_call必須返回-ENOSYS,82行把ENOSYS賦值爲38。調用者會識別這個錯誤*/
jmp ret_from_sys_call  /*跳轉到ret_from_sys_call*/

ALIGN
ret_from_exception:/*在諸如除0之類的cpu異常中斷情況下將執行到這裏;system_call內部代碼不會執行到這個標號*/
movl SYMBOL_NAME(bh_mask),%eax
andl SYMBOL_NAME(bh_active),%eax
jne handle_bottom_half
ALIGN
ret_from_intr:
GET_CURRENT(%ebx)
movl EFLAGS(%esp),%eax # mix EFLAGS and CS
movb CS(%esp),%al
testl $(VM_MASK  3),%eax # return to VM86 mode or non-supervisor?
jne ret_with_reschedule
jmp restore_all

ALIGN
handle_bottom_half:
call SYMBOL_NAME(do_bottom_half)
jmp ret_from_intr

ALIGN
reschedule:
call SYMBOL_NAME(schedule)  # test
jmp ret_from_sys_call
這以上的代碼,我都還不太怎麼明白,等我弄明白了就補齊,但基本的system_call的內部核心代碼都介紹完了。後幾
天我會分析幾個系統調用的樣例來幫助理

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章