尹忠凱: 針對Flash的Linux UBI子系統代碼深度分析【轉】

轉自：https://cloud.tencent.com/developer/article/1821529

UBI簡介

UBI全稱是Unsorted Block Images，上圖爲UBI在系統中的層次結構，最下面是flash層(包括flash控制器，各個flash驅動代碼，spi-mem層等)；MTD層是對flash層的抽象，一個flash可能被劃分成不同的分區，每一個分區都會對應一個MTD設備；UBI層是基於MTD層之上的更高層，UBI層抽象出一個個邏輯擦寫塊，每個邏輯擦寫塊都有一個物理擦寫塊與之前對應，有了這個映射，我們就可以加一些軟件算法，達到擦寫均衡的目的，從而提高flash的使用壽命；再往上是基於UBI層實現和各種文件系統，比如UBIFS。

flash存儲的內容

首先介紹幾個概念：

PEB：physical eraseblocks 也就是對應flash上的一個擦寫塊
LEB：logical eraseblocks 軟件上的概念
Volume：卷

如上圖爲flash中(或者說flash一個分區中)數據組織結構：

ubi層對flash的管理是以擦寫塊爲單位的，LEB對應軟件上的概念，PEB對應flash上一個實實在在的擦寫塊，每一個LEB對應一個PEB。
往上看多個LEB可以組成一個volume，也就是說，可以根據不同的功能，將LEB劃分到不同的卷中；其中valume-layout是一個ubi內部使用的卷，用來存放該MTD設備上所劃分的各個卷的信息，其包含兩個LEB，它們存儲的內容是一樣，互爲備份。
往下看每個PEB的內容包含3部分ech(erase counter header)，vidh(volume identifier header)，data。下面會介紹具體含義。

代碼實現

linux對UBI層的代碼實現大致可以總結爲3個方面：

首先數據是存儲在flash中的，因此需要將flash中的相關信息讀到內存中，同時也可以檢查出flash中的壞塊
數據讀到內存後，需要按照內部的邏輯關係組織起來(比如將正在使用的PEB放到紅黑樹上管理起來，空閒的PEB也放到紅黑樹上管理起來)
在內存中有了這些數據的關係後，就可以對其進行操作(比如讀寫操作，volume增加，刪除，擴容等操作，擦寫均衡操作)

將flash數據讀到內存

UBI初始化時代碼調用流程如上圖，最終會調用scan_all() 函數， scan_all() 函數會遍歷該MTD設備

中的每一個PEB，從中讀出ech和vidh，它們的定義如下。

ech的定義如上，其中：

ec：表示該PEB被擦寫的次數，藉助該字段我們就能夠找出被擦寫次數最少的PEB，從而達到擦寫均衡的目的
vid_hdr_offset：表示vidh在該PEB中的偏移位置
data_offset：表示實際數據在該PEB中的偏移位置

vidh的定義如上，其中：

vol_id：表示該PEB屬於那一個volume
lmun：表示LEB在volume中的編號，該字段與PEB在MTD設備中的編號形成映射關係通過對MTD設備的每個PEB進行遍歷，可以得知各個PEB的情況，或是被使用的，或是空閒狀態，或者已經損壞，這些信息會被臨時記錄在struct ubi_attach_info 結構中，遍歷過程中的具體細節，可以參考scan_all() 函數。

組織數據結構

遍歷PEB後，會將flash信息保存在臨時的結構struct ubi_attach_info 中，接下來會將struct ubi_attach_info 中的臨時信息保存到全局結構struct ubi_device *ubi_devices 中，代碼如下：

分爲三個步驟，分別是對volume的初始化，對wear-leveling子系統的初始化，對eba(Eraseblock Association)子系統的初始化；下面我們分別看下。

volume & EBA子系統初始化

前面有介紹到volume-layout是UBI內部使用的一個卷，其包含兩個LEB(互爲備份)，對應PEB中的數據內容如上圖，data(灰色)部分是一個struct ubi_vtbl_record 結構數組，記錄了當前UBI設備所有卷的信息， ubi_read_volume_table() 函數先遍歷臨時結構struct ubi_attach_info 找出volumelayout所在PEB，然後讀出struct ubi_vtbl_record 結構數組並保存到內存中，也就是struct ubi_device 的struct ubi_volume *volumes[] 字段中，初始化後的數組結構如下圖，其中struct ubi_volume *volumes[] 是一個指針數組，數組中的每一個元素都是struct ubi_volume 結構（詳細過程見ubi_read_volume_table() 函數）。

在struct ubi_volume 結構體中，有一個比較重要的字段struct ubi_eba_table *eba_tbl ，該字段記錄了當前volume中所有LEB與PEB的映射關係，其中struct ubi_eba_entry *entries 是一個數組結構，每一個元素對應一個struct ubi_eba_table 結構體， struct ubi_eba_entry *entries 數

組的下標對應於LEB的編號，數組元素的內容對應EB的編號，這樣就將LEB與PEB關聯起來了（詳細過程見ubi_eba_init() 函數）。

wear-leveling子系統初始化

在UBI中將PEB分爲4種情況，正在使用、空閒狀態、需要擦除、已經損壞，各個狀態的PEB被放到不同的紅黑樹中管理。在ubi_eba_init() 函數中，會先分配一個struct ubi_wl_entry 指針數組並存儲在sruct ubi_wl_entry **lookuptbl 字段中，數組下標爲PEB的編號，數組內容記錄了PEB的擦寫次

數與編號信息，每一個PEB都有一個這樣的結構與之對應如下圖。

另外各個PEB還根據狀態放到不同的紅黑樹管理起來，上圖畫出了used, free, scrub三種狀態的紅黑樹，其中紅黑樹是以擦寫次數爲順序排列的，最小的擦寫次數排列在最左邊，如果擦寫次數相同，則比較PEB的編號，編號小的排在樹的左邊，而對應的值爲struct ubi_wl_entry 指針數組中的一個元素。

調用ubi_eba_init() 函數後，wear-leveling子系統也就初始化完畢，在內存中會形成上圖中的數組關係。

UBI層操作

經過前面的初始化，各個數據的結構關係已經保存在內存中了，因此UBI層的操作其實就是對內存中這些數據的操作。

從用戶空間角度看，UBI初始化後會對應三類字符設備，分別爲/dev/ubi_ctrl 、/dev/ubix (x = 0, 1, 2...)， /dev/ubix_y (x = 0, 1, 2..., y = 0, 1, 2)，它們對應的操作函數如下代碼。

ubi_vol_cdev_operations：是針對某個volume(/dev/ubi1_0等)來操作的，從volume的角度只能看到其中包含的PEB，因此它的操作也是圍繞PEB進行的。
ubi_cdev_operations：是針對UBI設備(/deb/ubi0等)進行操作的，從UBI設備的角度可以看到不同的volume，因此可以對volume進行創建，刪除，擴容等操作。
ubi_ctrl_cdev_operations：是針對UBI層(/dev/ubi_ctrl)的操作，從該角度可以看到UBI設備，因此可以對UBI設備進行創建，刪除操作。

舉個例子

需求：假如我們想要對/dev/ubi1_0 這個volume進行擴容，我們應用怎樣操作？

用戶空間將volume_id，size兩個參數傳遞到內核空間
在內核空間我們根據volume_id在struct ubi_volume *volumes[] 數組中找到volume的handler
因爲需要擴容(要分配更多的LEB)，所以要重新分配struct ubi_eba_table *eba_tbl 數組，並將舊數組中的數據拷貝到新數組中
對於新增的LEB，我們需要從free樹上申請，建立LEB到PEB的映射關係並保存到struct ubi_eba_table *eba_tbl 數組，另外還需要更新PEB中ech和vidh，表明該PEB屬於那個volume

上面這一系列操作是我自己的想法，並非kernel實現代碼(具體實現可以參數ubi_cdev_ioctl() 函數)。這裏想表達的意思是，在UBI初始化完成後，在內存中已經存在了各個volume，各個LEB/PEB之間的關係，因此對於UBI的操作，理論上我們是都可以完成的，所差的只是代碼實現；程序=算法+數組結構，這裏的數組結構已經有了，而算法就是UBI層的各種操作，這裏的代碼其實每個人都可以實現的，只不過有好有壞，所幸kernel已經幫我們實現了，我們可以參考學習。其實別人寫的文章只能提供個大概，真正的細節只有在源碼中才能獲得。

擦寫均衡

flash的擦寫塊都是有壽命限制的，如果頻繁的擦寫flash的某一個PEB，很快這個PEB就會損壞，而擦寫均衡的目的就是將擦除操作平均分配到整個flash，這樣就能提高flash的使用壽命。那怎樣將擦除操作平均分配到整個flash呢，要達到這個條件還是有些難度的，因此我們退一步，將條件修改爲PEB的最大擦寫次數與最小次數的的差值小於某個值。

比如flash中包含20個PEB，其中數字表示該PEB被擦寫的次數，我們約定擦寫次數的差值最大爲15，現在flash中PEB的最小與最大擦寫次數分別爲10、39，由於超過門限值，因此需要我們想一些方法，增加擦寫次數爲10的PEB被擦寫的機會，減少擦寫次數爲39的PEB被擦寫的機會，從而使整個flash的擦寫次數趨於平均。具體的實現後面會介紹。

擦寫時機

linux kernel會在下面兩個位置調用擦寫均衡：

wear-leveling子系統初始化完成時會檢查一次是否需要擦寫均衡，此時是一個初始狀態，是檢查的一個時機。
當要擦除某個PEB的時候，此時擦寫次數會增加，有可能達到擦寫均衡的要求，此時也是一個檢查的時機。

擦寫條件

除了上面的調用時機，擦寫均衡還有一些其它的條件限制，如下圖爲擦寫均衡的流程圖：

當scrub紅黑樹上有節點時，一定需要進行擦寫均衡。在遍歷flash的每個PEB時，如果發現在從flash中讀出的數據有位翻轉的情況，就會加上scrub標誌，並放到scrub紅黑樹上維護起來，表示該PEB需要被擦寫；在擦寫均衡時，先取出scrub樹最左邊節點e1，再從free樹中找一個合適的節點e2，然後讀取e1對應PEB的數據，如果讀取的數據還有問題，就會結束本次擦寫；如果沒有問題就會把e1數據copy到e2位置，並擦除e1數據完成本次擦寫均衡操作。
當scrub樹上沒有節點時，會從used樹上取出最左邊節點e1，並從free樹上找一個合適的節點e2，然後檢查e2與e1的PEB擦寫次數的差值是否大於門限值，如果大於，則將e1數據copy到e2位置並擦除e1數據完成本次擦寫。爲什麼這樣做，原因是used樹中的節點已經被初始化過(先整個擦除，然後寫入ech和vidh，後面再寫入數據也不需要擦寫)所以不會有擦除操作，在free樹上的節點，在被使用前需要擦除一次，所以把擦寫次數大的PEB放到used樹上減少被擦寫的機會，把擦寫次數小的節點放到free樹上增加被擦寫的機會，這樣就達到了擦寫均衡的目的。
另外在free樹上選擇一個合適的節點，什麼是適合和節點？最簡單的方法就是從free樹的最右邊拿一上節點(擦寫次數最大的節點)，然後與used樹上取下的最左邊的節點比較，看看差值是否超過門限值。但實際情況可能會更復雜些，如下代碼29行，是kernel中在free樹上選擇節點的方法，其限制了最大擦寫次數爲free樹最左側節點 + WL_FREE_MAX_DIFF，看上面的註釋說在某些情況下會出現不斷擦寫某一個或幾個PEB的情況，所以作了這樣一個限制。（沒有想道是什麼情況?)

如果你覺得你現在走得辛苦，那就證明你在走上坡路。

文章分享自微信公衆號：

Linux閱碼場

本文參與騰訊雲自媒體分享計劃，歡迎熱愛寫作的你一起參與！

如有侵權，請聯繫 yunjia_community@ten

尹忠凱: 針對Flash的Linux UBI子系統代碼深度分析【轉】

實錄｜三大AI開發神器亮相！李彥宏：人人都是開發者

實操|基於OceanBase打造更穩定的Zabbix監控系統

Milvus 老友匯｜RAG 場景、電商平臺、AI 平臺……如何用向量數據庫構建業務方案？

提高 RAG 應用準確度，時下流行的 Reranker 瞭解一下？

如何編譯出linux內核驅動中的.i文件【原創】

【ARMv8/v9 異常模型入門及漸進 8 -- 安全中斷介紹】【轉】

內核softlockup和hardlockup的一些參數分析【轉】

小明哥學linux驅動之USB-OTG（基於gadget框架）【轉】

VMware 虛擬機 Ubuntu 系統沒有IP地址解決：UP BROADCAST MULTICAST 問題【轉】

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結