尹忠凱: 針對Flash的Linux UBI子系統代碼深度分析【轉】

轉自:https://cloud.tencent.com/developer/article/1821529

UBI簡介

UBI全稱是Unsorted Block Images,上圖爲UBI在系統中的層次結構,最下面是flash層(包括flash控制器,各個flash驅動代碼,spi-mem層等);MTD層是對flash層的抽象,一個flash可能被劃分成不同的分區,每一個分區都會對應一個MTD設備;UBI層是基於MTD層之上的更高層,UBI層抽象出一個個邏輯擦寫塊,每個邏輯擦寫塊都有一個物理擦寫塊與之前對應,有了這個映射,我們就可以加一些軟件算法,達到擦寫均衡的目的,從而提高flash的使用壽命;再往上是基於UBI層實現和各種文件系統,比如UBIFS。

flash存儲的內容

首先介紹幾個概念:

  • PEB:physical eraseblocks 也就是對應flash上的一個擦寫塊
  • LEB:logical eraseblocks 軟件上的概念
  • Volume:卷

如上圖爲flash中(或者說flash一個分區中)數據組織結構:

  • ubi層對flash的管理是以擦寫塊爲單位的,LEB對應軟件上的概念,PEB對應flash上一個實實在在的擦寫塊,每一個LEB對應一個PEB。
  • 往上看多個LEB可以組成一個volume,也就是說,可以根據不同的功能,將LEB劃分到不同的卷中;其中valume-layout是一個ubi內部使用的卷,用來存放該MTD設備上所劃分的各個卷的信息,其包含兩個LEB,它們存儲的內容是一樣,互爲備份。
  • 往下看每個PEB的內容包含3部分ech(erase counter header),vidh(volume identifier header),data。下面會介紹具體含義。

代碼實現

linux對UBI層的代碼實現大致可以總結爲3個方面:

  • 首先數據是存儲在flash中的,因此需要將flash中的相關信息讀到內存中,同時也可以檢查出flash中的壞塊
  • 數據讀到內存後,需要按照內部的邏輯關係組織起來(比如將正在使用的PEB放到紅黑樹上管理起來,空閒的PEB也放到紅黑樹上管理起來)
  • 在內存中有了這些數據的關係後,就可以對其進行操作(比如讀寫操作,volume增加,刪除,擴容等操作,擦寫均衡操作)

將flash數據讀到內存

UBI初始化時代碼調用流程如上圖,最終會調用scan_all() 函數, scan_all() 函數會遍歷該MTD設備

中的每一個PEB,從中讀出ech和vidh,它們的定義如下。

ech的定義如上,其中:

  • ec:表示該PEB被擦寫的次數,藉助該字段我們就能夠找出被擦寫次數最少的PEB,從而達到擦寫均衡的目的
  • vid_hdr_offset:表示vidh在該PEB中的偏移位置
  • data_offset:表示實際數據在該PEB中的偏移位置

vidh的定義如上,其中:

  • vol_id:表示該PEB屬於那一個volume
  • lmun:表示LEB在volume中的編號,該字段與PEB在MTD設備中的編號形成映射關係通過對MTD設備的每個PEB進行遍歷,可以得知各個PEB的情況,或是被使用的,或是空閒狀態,或者已經損壞,這些信息會被臨時記錄在struct ubi_attach_info 結構中,遍歷過程中的具體細節,可以參考scan_all() 函數。

組織數據結構

遍歷PEB後,會將flash信息保存在臨時的結構struct ubi_attach_info 中,接下來會將struct ubi_attach_info 中的臨時信息保存到全局結構struct ubi_device *ubi_devices 中,代碼如下:

分爲三個步驟,分別是對volume的初始化,對wear-leveling子系統的初始化,對eba(Eraseblock Association)子系統的初始化;下面我們分別看下。

volume & EBA子系統初始化

前面有介紹到volume-layout是UBI內部使用的一個卷,其包含兩個LEB(互爲備份),對應PEB中的數據內容如上圖,data(灰色)部分是一個struct ubi_vtbl_record 結構數組,記錄了當前UBI設備所有卷的信息, ubi_read_volume_table() 函數先遍歷臨時結構struct ubi_attach_info 找出volumelayout所在PEB,然後 讀出struct ubi_vtbl_record 結構數組並保存到內存中,也就是struct ubi_device 的struct ubi_volume *volumes[] 字段中,初始化後的數組結構如下圖,其中struct ubi_volume *volumes[] 是一個指針數組,數組中的每一個元素都是struct ubi_volume 結構(詳細過程見ubi_read_volume_table() 函數)。

在struct ubi_volume 結構體中,有一個比較重要的字段struct ubi_eba_table *eba_tbl ,該字段記錄了當前volume中所有LEB與PEB的映射關係,其中struct ubi_eba_entry *entries 是一個數組結構,每一個元素對應一個struct ubi_eba_table 結構體, struct ubi_eba_entry *entries 數

組的下標對應於LEB的編號,數組元素的內容對應EB的編號,這樣就將LEB與PEB關聯起來了(詳細過程見ubi_eba_init() 函數)。

wear-leveling子系統初始化

在UBI中將PEB分爲4種情況,正在使用、空閒狀態、需要擦除、已經損壞,各個狀態的PEB被放到不同的紅黑樹中管理。在ubi_eba_init() 函數中,會先分配一個struct ubi_wl_entry 指針數組並存儲在sruct ubi_wl_entry **lookuptbl 字段中,數組下標爲PEB的編號,數組內容記錄了PEB的擦寫次

數與編號信息,每一個PEB都有一個這樣的結構與之對應如下圖。

另外各個PEB還根據狀態放到不同的紅黑樹管理起來,上圖畫出了used, free, scrub三種狀態的紅黑樹,其中紅黑樹是以擦寫次數爲順序排列的,最小的擦寫次數排列在最左邊,如果擦寫次數相同,則比較PEB的編號,編號小的排在樹的左邊,而對應的值爲struct ubi_wl_entry 指針數組中的一個元素。

調用ubi_eba_init() 函數後,wear-leveling子系統也就初始化完畢,在內存中會形成上圖中的數組關係。

UBI層操作

經過前面的初始化,各個數據的結構關係已經保存在內存中了,因此UBI層的操作其實就是對內存中這些數據的操作。

從用戶空間角度看,UBI初始化後會對應三類字符設備,分別爲/dev/ubi_ctrl 、/dev/ubix (x = 0, 1, 2...), /dev/ubix_y (x = 0, 1, 2..., y = 0, 1, 2),它們對應的操作函數如下代碼。

  • ubi_vol_cdev_operations:是針對某個volume(/dev/ubi1_0等)來操作的,從volume的角度只能看到其中包含的PEB,因此它的操作也是圍繞PEB進行的。
  • ubi_cdev_operations:是針對UBI設備(/deb/ubi0等)進行操作的,從UBI設備的角度可以看到不同的volume,因此可以對volume進行創建,刪除,擴容等操作。
  • ubi_ctrl_cdev_operations:是針對UBI層(/dev/ubi_ctrl)的操作,從該角度可以看到UBI設備,因此可以對UBI設備進行創建,刪除操作。

舉個例子

需求:假如我們想要對/dev/ubi1_0 這個volume進行擴容,我們應用怎樣操作?

  • 用戶空間將volume_id,size兩個參數傳遞到內核空間
  • 在內核空間我們根據volume_id在struct ubi_volume *volumes[] 數組中找到volume的handler
  • 因爲需要擴容(要分配更多的LEB),所以要重新分配struct ubi_eba_table *eba_tbl 數組,並將舊數組中的數據拷貝到新數組中
  • 對於新增的LEB,我們需要從free樹上申請,建立LEB到PEB的映射關係並保存到struct ubi_eba_table *eba_tbl 數組,另外還需要更新PEB中ech和vidh,表明該PEB屬於那個volume

上面這一系列操作是我自己的想法,並非kernel實現代碼(具體實現可以參數ubi_cdev_ioctl() 函數)。這裏想表達的意思是,在UBI初始化完成後,在內存中已經存在了各個volume,各個LEB/PEB之間的關係,因此對於UBI的操作,理論上我們是都可以完成的,所差的只是代碼實現;程序=算法+數組結構,這裏的數組結構已經有了,而算法就是UBI層的各種操作,這裏的代碼其實每個人都可以實現的,只不過有好有壞,所幸kernel已經幫我們實現了,我們可以參考學習。其實別人寫的文章只能提供個大概,真正的細節只有在源碼中才能獲得。

擦寫均衡

flash的擦寫塊都是有壽命限制的,如果頻繁的擦寫flash的某一個PEB,很快這個PEB就會損壞,而擦寫均衡的目的就是將擦除操作平均分配到整個flash,這樣就能提高flash的使用壽命。那怎樣將擦除操作平均分配到整個flash呢,要達到這個條件還是有些難度的,因此我們退一步,將條件修改爲PEB的最大擦寫次數與最小次數的的差值小於某個值。

比如flash中包含20個PEB,其中數字表示該PEB被擦寫的次數,我們約定擦寫次數的差值最大爲15,現在flash中PEB的最小與最大擦寫次數分別爲10、39,由於超過門限值,因此需要我們想一些方法,增加擦寫次數爲10的PEB被擦寫的機會,減少擦寫次數爲39的PEB被擦寫的機會,從而使整個flash的擦寫次數趨於平均。具體的實現後面會介紹。

擦寫時機

linux kernel會在下面兩個位置調用擦寫均衡:

  • wear-leveling子系統初始化完成時會檢查一次是否需要擦寫均衡,此時是一個初始狀態,是檢查的一個時機。
  • 當要擦除某個PEB的時候,此時擦寫次數會增加,有可能達到擦寫均衡的要求,此時也是一個檢查的時機。

擦寫條件

除了上面的調用時機,擦寫均衡還有一些其它的條件限制,如下圖爲擦寫均衡的流程圖:

  • 當scrub紅黑樹上有節點時,一定需要進行擦寫均衡。在遍歷flash的每個PEB時,如果發現在從flash中讀出的數據有位翻轉的情況,就會加上scrub標誌,並放到scrub紅黑樹上維護起來,表示該PEB需要被擦寫;在擦寫均衡時,先取出scrub樹最左邊節點e1,再從free樹中找一個合適的節點e2,然後讀取e1對應PEB的數據,如果讀取的數據還有問題,就會結束本次擦寫;如果沒有問題就會把e1數據copy到e2位置,並擦除e1數據完成本次擦寫均衡操作。
  • 當scrub樹上沒有節點時,會從used樹上取出最左邊節點e1,並從free樹上找一個合適的節點e2,然後檢查e2與e1的PEB擦寫次數的差值是否大於門限值,如果大於,則將e1數據copy到e2位置並擦除e1數據完成本次擦寫。爲什麼這樣做,原因是used樹中的節點已經被初始化過(先整個擦除,然後寫入ech和vidh,後面再寫入數據也不需要擦寫)所以不會有擦除操作,在free樹上的節點,在被使用前需要擦除一次,所以把擦寫次數大的PEB放到used樹上減少被擦寫的機會,把擦寫次數小的節點放到free樹上增加被擦寫的機會,這樣就達到了擦寫均衡的目的。
  • 另外在free樹上選擇一個合適的節點,什麼是適合和節點?最簡單的方法就是從free樹的最右邊拿一上節點(擦寫次數最大的節點),然後與used樹上取下的最左邊的節點比較,看看差值是否超過門限值。但實際情況可能會更復雜些,如下代碼29行,是kernel中在free樹上選擇節點的方法,其限制了最大擦寫次數爲free樹最左側節點 + WL_FREE_MAX_DIFF,看上面的註釋說在某些情況下會出現不斷擦寫某一個或幾個PEB的情況,所以作了這樣一個限制。(沒有想道是什麼情況?)

如果你覺得你現在走得辛苦,那就證明你在走上坡路。


文章分享自微信公衆號:
Linux閱碼場
 

本文參與 騰訊雲自媒體分享計劃 ,歡迎熱愛寫作的你一起參與!

如有侵權,請聯繫 yunjia_community@ten
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章