《Pro Git》git系統原理記錄

      最近想研究下傳說中強大的Git,看了幾篇別人的博客,感覺的有必要仔細學一下,招來牛人的一本書《pro git》,這本書講的很簡潔和清晰,不過爲了加深記憶,在這裏記錄和總結下git系統原理重點,至於操作細節建議看《progit》。

集中化的版本控制系統和分佈式版本控制系統對比:

      如何讓在不同系統上的開發者協同工作?於是,集中化的版本控制系統( Centralized Version Control Systems,簡稱 CVCS )應運而生。這類系統,諸如 CVS,Subversion 以及 Perforce 等,都有一個單一的集中管理的服務器,保存所有文件的修訂版本,而協同工作的人們都通過客戶端連到這臺服務器,取出最新的文件或者提交更新。多年以來,這已成爲版本控制系統的標準做法(見圖 1-2)。


圖 1-2. 集中化的版本控制系統

這種做法帶來了許多好處,特別是相較於老式的本地 VCS 來說。現在,每個人都可以在一定程度上看到項目中的其他人正在做些什麼。而管理員也可以輕鬆掌控每個開發者的權限,並且管理一個 CVCS 要遠比在各個客戶端上維護本地數據庫來得輕鬆容易。

事分兩面,有好有壞。這麼做最顯而易見的缺點是中央服務器的單點故障。如果宕機一小時,那麼在這一小時內,誰都無法提交更新,也就無法協同工作。要是中央服務器的磁盤發生故障,碰巧沒做備份,或者備份不夠及時,就會有丟失數據的風險。最壞的情況是徹底丟失整個項目的所有歷史更改記錄,而被客戶端偶然提取出來的保存在本地的某些快照數據就成了恢復數據的希望。但這樣的話依然是個問題,你不能保證所有的數據都已經有人事先完整提取出來過。本地版本控制系統也存在類似問題,只要整個項目的歷史記錄被保存在單一位置,就有丟失所有歷史更新記錄的風險。

分佈式版本控制系統

      於是分佈式版本控制系統( Distributed Version Control System,簡稱 DVCS )面世了。在這類系統中,像 Git,Mercurial,Bazaar 以及 Darcs 等,客戶端並不只提取最新版本的文件快照,而是把代碼倉庫完整地鏡像下來。這麼一來,任何一處協同工作用的服務器發生故障,事後都可以用任何一個鏡像出來的本地倉庫恢復。因爲每一次的提取操作,實際上都是一次對代碼倉庫的完整備份(見圖 1-3)。


圖 1-3. 分佈式版本控制系統

更進一步,許多這類系統都可以指定和若干不同的遠端代碼倉庫進行交互。籍此,你就可以在同一個項目中,分別和不同工作小組的人相互協作。你可以根據需要設定不同的協作流程,比如層次模型式的工作流,而這在以前的集中式系統中是無法實現的。

 

直接記錄快照和而非差異比較對比:

Git 和其他版本控制系統的主要差別在於,Git 只關心文件數據的整體是否發生變化,而大多數其他系統則只關心文件內容的具體差異。這類系統(CVS,Subversion,Perforce,Bazaar 等等)每次記錄有哪些文件作了更新,以及都更新了哪些行的什麼內容,請看圖 1-4。


圖 1-4. 其他系統在每個版本中記錄着各個文件的具體差異

Git 並不保存這些前後變化的差異數據。實際上,Git 更像是把變化的文件作快照後,記錄在一個微型的文件系統中。每次提交更新時,它會縱覽一遍所有文件的指紋信息並對文件作一快照,然後保存一個指向這次快照的索引。爲提高性能,若文件沒有變化,Git 不會再次保存,而只對上次保存的快照作一鏈接。Git 的工作方式就像圖 1-5 所示。


圖 1-5. Git 保存每次更新時的文件快照

這是 Git 同其他系統的重要區別。它完全顛覆了傳統版本控制的套路,並對各個環節的實現方式作了新的設計。Git 更像是個小型的文件系統,但它同時還提供了許多以此爲基礎的超強工具,而不只是一個簡單的 VCS。稍後在第三章討論 Git 分支管理的時候,我們會再看看這樣的設計究竟會帶來哪些好處。

 

知識點記錄:

表 2-1 列出了常用的格式佔位符寫法及其代表的意義。

 

但最有意思的是 format,可以定製要顯示的記錄格式,這樣的輸出便於後期編程提取分析,像這樣:

$ git log --pretty=format:"%h - %an, %ar : %s"
    ca82a6d - Scott Chacon, 11 months ago : changed the version number
    085bb3b - Scott Chacon, 11 months ago : removed unnecessary test code
    a11bef0 - Scott Chacon, 11 months ago : first commit

 

選項 說明
    %H 提交對象(commit)的完整哈希字串
    %h 提交對象的簡短哈希字串
    %T 樹對象(tree)的完整哈希字串
    %t 樹對象的簡短哈希字串
    %P 父對象(parent)的完整哈希字串
    %p 父對象的簡短哈希字串
    %an 作者(author)的名字
    %ae 作者的電子郵件地址
    %ad 作者修訂日期(可以用 -date= 選項定製格式)
    %ar 作者修訂日期,按多久以前的方式顯示
    %cn 提交者(committer)的名字
    %ce 提交者的電子郵件地址
    %cd 提交日期
    %cr 提交日期,按多久以前的方式顯示
    %s 提交說明

 

 git log 命令支持的選項。

表 2-2 還列出了一些其他常用的選項及其釋義。

選項 說明
    -p 按補丁格式顯示每個更新之間的差異。
    --stat 顯示每次更新的文件修改統計信息。
    --shortstat 只顯示 --stat 中最後的行數修改添加移除統計。
    --name-only 僅在提交信息後顯示已修改的文件清單。
    --name-status 顯示新增、修改、刪除的文件清單。
    --abbrev-commit 僅顯示 SHA-1 的前幾個字符,而非所有的 40 個字符。
    --relative-date 使用較短的相對時間顯示(比如,“2 weeks ago”)。
    --graph 顯示 ASCII 圖形表示的分支合併歷史。
    --pretty 使用其他格式顯示歷史提交信息。可用的選項包括 onelineshortfullfuller  format(後跟指定格式)。

 

來看一個實際的例子,如果要查看 Git 倉庫中,2008 年 10 月期間,Junio Hamano 提交的但未合併的測試腳本(位於項目的 t/ 目錄下的文件),可以用下面的查詢命令:
$ git log --pretty="%h - %s" --author=gitster --since="2008-10-01" \
    --before="2008-11-01" --no-merges -- t/
    5610e3b - Fix testcase failure when extended attribute
    acd3b9e - Enhance hold_lock_file_for_{update,append}()
    f563754 - demonstrate breakage of detached checkout wi
    d1a43f2 - reset --hard/read-tree --reset -u: remove un
    51a94af - Fix "checkout --track -b newbranch" on detac
    b0ad11e - pull: allow "git pull origin $something:$cur
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章