關於NAND Flash調試的一點總結

很久沒接觸過 nandflash 驅動了，最近工作又摸了一下，那就順便整理點筆記總結一下吧。nandflash 在我看來算是比較落後的存儲設備了，所以文章裏沒有太多細節的東西，更多的是一些開發思路和經驗，希望能幫助到有需要的人。

一、瞭解 nandflash 當前發展狀況

什麼是 nandflash？

nandflash 由許多保存位( bit )的單元( cell )組成，這些位通過電荷開啓或關閉。這些開/關單元的組織方式表示存儲在nandflash 上的數據。這些單元中的位數也決定了 nandflash 的命名，例如 Single Level Cell ( SLC ) nandflash 在每個單元中都包含一個位。MLC nandflash將每個單元的位數增加了一倍，而 TLC nandflash 則增加了三倍，這爲更高容量的 nandflash 開闢了道路。

SLC 的優點是速度最快，最耐用，但缺點是價格昂貴，並且無法提供更高的存儲容量。SLC 是企業使用的首選。與 SLC 相比，MLC 和 TLC 閃存的生產成本更低，存儲容量更高，但要權衡相對較短的使用壽命和較慢的讀/寫速度。MLC 和 TLC 是日常消費計算機等個人用品的首選。

SLC \ MLC \ TLC nandflash 對照表：

爲什麼在嵌入式設備上 emmc 取代了 nandflash？

由於NAND Flash芯片的不同廠牌包括三星、KingMax、東芝(Toshiba)或海力士(Hynix)、美光(Micron)等，都需要根據每家公司的產品和技術特性來重新設計，過去並沒有哪個技術能夠通用所有廠牌的NAND Flash芯片。而每次NAND Flash製程技術改朝換代，包括70納米演進至50納米，再演進至40納米或30納米制程技術，手機客戶也都要重新設計（重新設計什麼？因爲你要通訊，就需要通訊的電壓，時序，甚至接口命令，這些都隨着不同廠商，不同製程技術而不同，你作爲手機製造商或者soc廠商，想要把每種新的 nandflash 集成到你的產品中，就要根據這些新的特性來花時間設計。soc這邊會有一個nandflash controller，你要根據採用的nandflash特性來配置nand flash controller，以達到成功通訊的目的）。

但半導體產品每1年製程技術都會推陳出新，存儲器問題也拖累手機新機種推出的速度，因此像eMMC這種把所有存儲器和管理nandflash的控制芯片都包在1顆MCP上的概念，逐漸風行起來。即：

NAND Flash 是一種存儲介質，要在上面讀寫數據，外部要加主控和電路設計；
eMMC是NAND Flash+主控IC ，對外的接口協議與SD、TF卡類似；

emmc 內部根本的存儲介質還是 nandflash，而不是一種全新的 storage。但是他定義並規範了統一接口比如：emmc 4.3, 4.4, 4.5(類似於usb 2.0, 3.0 這樣的)，把和 nand flash 的通訊封裝在emmc內部，而提供給外部的接口就是 emmc 接口。同理，外部，比如soc就需要有個 sdmmc controller，並且宣佈支持 emmc 4.3/4.4...，那麼，你需要做的就是，根據選用的emmc的版本號，來給 sdmmc controller 來選擇一個通訊的接口版本號4.4。

二、如何驅動一款NAND Flash？

參考：
《韋東山嵌入式Linux視頻第一期-nandflash》

(一) 基礎硬件知識

nandflash 是一個存儲芯片，那麼它應該能提供“讀地址A的數據，把數據B寫到地址A"的功能。

以Mini2440爲例簡單說明一下：

問1：原理圖上 NAND FLASH 和 S3C2440 之間只有數據線，如何傳輸地址呢？
答1．在DATA0～DATA7上既傳輸數據，又傳輸地址，當ALE爲高電平時傳輸的是地址。

問2：從NAND FLASH芯片手冊可知，要讀寫NAND FLASH需要先發出命令，如何傳入命令？
在DATA0～DATA7上既傳輸數據，又傳輸地址，也傳輸命令；
當ALE爲高電平時傳輸的是地址；
當CLE爲高電平時傳輸的是命令；
當ALE和CLE都爲低電平時傳輸的是數據；

問3：數據線LDATAn既接到NAND FLASH，也接到NOR FLASH，還接到SDRAM、DM9000等等,cpu如何準確的將某個地址發到正確的芯片上而不干擾其他芯片呢？
這些芯片，要訪問之必須"選中"(即片選信號爲低)，沒有選中的芯片不會工作，相當於沒接一樣。

問4：假設燒寫NAND FLASH，把命令、地址、數據發給它之後，NAND FLASH肯定不可能瞬間完成燒寫的，怎麼判斷燒寫完成？
通過狀態引腳RnB來判斷：它爲高電平表示就緒，它爲低電平表示正忙。

問5：怎麼操作NAND FLASH呢？
答5. 根據NAND FLASH的芯片手冊，一般的過程是：
(1) 發出命令
(2) 發出地址
(3) 寫數據/讀數據
(4) 等待

(二) CPU nandflash 控制器章節導讀

以三星 s5pv210 芯片爲例，摘選一下我認爲比較重要的點：

SLC nandflash一般是1bit ecc，對應的編解碼的過程需閱讀上述內容。

MLC nandflash 一般是8/12/16 bit ecc，對應的編解碼的過程需閱讀上述內容。

(三) nandflash 芯片手冊導讀

以鎂光 nandflash 芯片爲例，摘選一下我認爲比較重要的點：

特性列表，一般位於芯片手冊首頁，可以幫助我們快速瞭解芯片特性，基本可以認爲是最重要的信息。

不同芯片廠商的nandflash芯片引腳定義基本是一致的，但是可能會有1~2引腳是有差異，需要覈對。

上圖可用於確定nandflash的存儲佈局；

上圖可用於覈對芯片的型號和詳細的硬件特性；

(四) nandflash 調試思路：

1. 通讀 CPU 芯片手冊 nandflash 控制器章節：
- 瞭解該 CPU nandflash 控制器支持哪些特性，一般包括nandflash的bit數，以確定是否支持當前選用的nandflash芯片；- 明確該芯片的 nandflash 控制器 ecc 校驗功能的工作流程；

2. 通讀 nandflash 芯片手冊：
- 瞭解 nandflash 芯片的基本信息，例如ID、容量、類型(SLC/MLC) - 結合板子的原理圖一起查看，以確定 CPU 和 nandflash 芯片的引腳連接是否正確。不同廠商（例如三星、鎂光）生產的nandflash引腳不一定完全兼容，可能會有一兩根引腳有差異；

3. 在 U-boot 或者 Linux 下實現讀取 nandflash 芯片的ID值的功能：nand_read_id()
- U-boot 和 Linux哪個順手用哪個，U-boot的優點是啓動快，做測試方便點，而 Linux的優點是支持網絡/文件系統，功能強大；- 能讀到 ID 只能說明 CPU 和 nandflash 芯片硬件連接上有了些許保障 (例如發命令、讀數據)，但是某些隱蔽的錯誤硬件連接仍然會導致寫數據異常；

4. 在 U-boot 或者 Linux 下實現讀取擦除一塊數據的功能：nand_erase_block()
- 相比起讀寫數據，擦除 nandflash 數據塊較爲容易。而且只有成功擦除了，才能進一步驗證讀寫nandflash的功能。nandflash 數據塊被擦除後所有數據均爲 0xFF，利用這個特性可以驗證稍後需要實現的讀一頁的操作是否正常；

5. 在 U-boot 或者 Linux 下實現裸讀一頁數據( 不考慮ecc校驗 )的功能：nand_read_page_raw()
- nandflash 的1頁包括 main 區域和oob區域， main 區域用於保存用戶數據，spare 區域用於保存 ecc校驗碼；- 一般說寫一頁數據時，需要結合上下文才能判斷是寫 main 區域還是寫 main + spare 區域；- nandflash 一般需要ecc 校驗功能來保證數據的安全，但是在前期調試階段，我們可以不考慮ecc 校驗直接實現裸讀一頁數據的功能。事實上，我們也無法考慮ecc 校驗的功能，因爲到現在爲止還不能寫數據到 nandflash的main區域，更別說寫 ecc 校驗碼到oob區域；- 我們需要先實現讀數據的功能，確保讀數據功能的可靠後，待會才能用其來驗證寫數據的操作；

6. 在 U-boot 或者 Linux 下實現裸寫一頁數據( 不考慮ecc校驗 )的功能；nand_write_page_raw()- 裸寫一頁和裸讀一頁的操作可以相互協同驗證；- uboot 的 cmp 命令可以對比兩塊內存的數據是否相同，該命令可以用於驗證寫操作是否成功；

7. 在 U-boot 或者 Linux 下實現寫一頁數據到 main區域，並將 nandflash 控制器生成的 ecc 校驗碼填寫到oob區域：nand_write_page()
- 寫一頁數據到 main 區域時，nandflash 控制器會生成 ecc 校驗碼，這些校驗碼就是用來保護這一頁數據的；

8. 在 U-boot 或者 Linux 下實現讀一頁數據的功能，包括讀 main 區域的數據和 spare 區域的 ecc 校驗碼：nand_read_page()
- 從nandflash spare 區域讀到的 ecc 校驗碼應該發送給 nandflash 控制器，nandflash 控制器會幫我們計算好是否有bit 錯誤，並且將結果和糾錯需要用到的信息保存在寄存器中，軟件通過寄存器裏的信息推導出正確的數據；

9. 由於bit 錯誤的問題不容易出現，所以在調試階段需要人爲製造出與 spare 區域不匹配的 main 數據，以檢驗ecc 校驗功能是否正常，即數據是否能被糾正，大體的思路是：
- 通過 nand_write_page() 寫一頁正確的數據到 main 區域和 spare 區域；- 篡改在內存中的數據，然後通過 nand_write_page_raw() 將篡改後的數據填寫到 main 區域，spare 區域保持不變；- 通過nand_read_page 讀一頁數據，如果能執行糾錯相關的代碼，並且能獲取到被篡改之前的數據，則說明校驗功能是可以工作的；

10. 如果 main 區域的 ecc 校驗碼字節數比較多，並且 spare 區域足夠大的話，可以對存放在 spare 區域裏的 main ecc校驗碼進行二次 ecc，這時生成的 ecc 校驗碼我將其稱爲 spare ecc，它一般會存放在spare區域的末尾，並不是必須的；

(五) Linux Nand Flash驅動

參考：
《韋東山嵌入式Linux視頻第二期-nandflash》

Linux MTD stack

對於nandflash 驅動，需要重點關注的地方：

Flash memory abstraction layer/MTD layer	drivers/mtd/mtd*.c
Flash type abstration layer/NAND core	drivers/mtd/nand/nand_*.c
Flash controller drivers	drivers/mtd/nand/*_nand.c

NAND legacy stack( Linux-4.16 之前)

/dev/mtd0是nandflash設備的字符設備驅動節點，上圖展示了 read("/dev/mtd0") 的底層實現(MTD layer->NAND core->Controller driver)。

NAND legacy stack 的弊端

無法執行細粒度的NAND Flash 命令，粒度的大小被限制在NAND core層面了；
芯片廠商更新的NAND Flash特性時需修改所有的Controller driver；

NAND new stack( Linux-4.16 之後)

將NAND 的控制邏輯下放到Controller driver層，NAND Core統一調用Controller driver提供的鉤子函數：exec_op();

(六) 測試穩定性和性能

MTD tests support

mtd_nandecctest.ko：nand flash的ECC校驗測試
mtd_pagetest.ko：nand flash的page讀寫測試
mtd_speedtest.ko：MTD分區的讀寫速度測試
mtd_subpagetest.ko：nand flash的sub-page接口測試
mtd_oobtest.ko：nand falsh的OOB區域讀寫測試
mtd_readtest.ko：讀取整個MTD分區
mtd_stresstest.ko：隨機讀寫，擦除操作測試
mtd_torturetest.ko：該功能可用於做穩定性或者壽命測試，隨機操作直到發生錯誤

示例如下：

insmod mtd_stresstest.ko dev=9 count=1000
[ 3289.273771] =================================================
[ 3289.279826] mtd_stresstest: MTD device: 9
[ 3289.284079] mtd_stresstest: MTD device size 268435456, eraseblock size 131072, page size 2048, count of eraseblocks 2048, pages per eraseblock 64, OOB size 64
[ 3289.303250] mtd_stresstest: scanning for bad eraseblocks
[ 3289.420267] mtd_stresstest: scanned 2048 eraseblocks, 0 are bad
[ 3289.426534] mtd_stresstest: doing operations
[ 3289.431031] mtd_stresstest: 0 operations done  
[ 3339.606972] mtd_stresstest: finished, 1000 operations done  
[ 3339.612992] =================================================

一個反覆讀寫並校驗數據正確性的小腳本：

#!/bin/sh

rm -rf /media/local/
count=1
while [ ${count} -lt 600 ]; do
    TSTAMP="`date`  | ---> ${count}"
    echo "$TSTAMP"
    mkdir -p /media
    time cp /usr/local /media/ -raf
    diff /usr/local /media/local -r || exit -1
    rm -rf /media/local;
    sync

    let count=${count}+1
done

三、NAND Flash 文件系統的選擇：YAFFS2

參考：
《基於nand flash的文件系統的整理》
《Cramfs、JFFS2、YAFFS2的全面對比》

針對 nandflash 特點優化其性能以及克服其缺點

nanflash 不是通常意義上的塊設備，塊設備的特點是可以對數據塊進行讀、寫操作（如磁盤，文件系統等），但是對於nanflash 來說有三種操作分別是：讀、寫、擦除。只有對已擦除的塊才能進行寫操作。所以爲了使其兼容傳統的硬件和系統，需要對其進行特殊處理；
當一個閃存處在乾淨狀態時（被擦除過，但是還沒有寫操作發生），這塊flash上的每一位（bit）都是邏輯1；
閃存的使用壽命是有限的，具體來說，閃存的使用壽命是由擦除塊的最大可擦除次數來決定的。超過了最大可擦除次數，這個擦除塊就成爲壞塊（bad block）了。因此要避免某個擦除塊被過度使用，以至於先於其他擦除塊變成壞塊，應該在儘量少影響性能的前提下，使擦寫操作均勻分佈在每個擦除塊上，叫做損耗均衡（wear leveling）。

YAFFS意爲「Yet Another Flash File System」，是目前唯一一個專門爲NAND Flash設計的文件系統。它採用了類日誌結構，結合NAND Flash的特點，提供了損耗平衡和掉電保護機制，可以有效地避免意外掉電對文件系統一致性和完整性的影響。

nanflash 和 YAFFS2之間是如何配合的？
通過分析mkyaffs2iamge.c可知：

yaffs2 映像文件是由一個個的main(4096) + spare(224)數據組成；
main裏存放的是文件(包括目錄、普通文件、特殊文件等)數據；
spare裏前面的nand_oobinfo->oobfree(2+22=24)個字節歸yaffs2自由使用，然後接下來的nand_oobinfo->eccbytes(104)個字節都填0xFF，即yaffs2 images本身是不含有ecc校驗碼的；（以上數值跟實際nandflash芯片相關）

更多細節：
how-yaffs-works[1]

轉載：關於NAND Flash調試的一點總結

關於NAND Flash調試的一點總結

一、瞭解 nandflash 當前發展狀況

什麼是 nandflash？

SLC \ MLC \ TLC nandflash 對照表：

爲什麼在嵌入式設備上 emmc 取代了 nandflash？

二、如何驅動一款NAND Flash？

(一) 基礎硬件知識

(二) CPU nandflash 控制器章節導讀

(三) nandflash 芯片手冊導讀

(四) nandflash 調試思路：

(五) Linux Nand Flash驅動

(六) 測試穩定性和性能

三、NAND Flash 文件系統的選擇：YAFFS2

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

【2024-05-21】以茶會友

STM8遇到的一些小問題

STM32CubeMx 5.6.0如何生成Keil5工程？

轉載：關於NAND Flash調試的一點總結

iphone各個版本物理分辨率對照

arm linux連接wifi

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結