轉載:關於NAND Flash調試的一點總結

關於NAND Flash調試的一點總結

原創 可愛的東東 嵌入式系統磚家 昨天

很久沒接觸過 nandflash 驅動了,最近工作又摸了一下,那就順便整理點筆記總結一下吧。nandflash 在我看來算是比較落後的存儲設備了,所以文章裏沒有太多細節的東西,更多的是一些開發思路和經驗,希望能幫助到有需要的人。

一、瞭解 nandflash 當前發展狀況

什麼是 nandflash?

nandflash 由許多保存位( bit )的單元( cell )組成,這些位通過電荷開啓或關閉。這些開/關單元的組織方式表示存儲在nandflash 上的數據。這些單元中的位數也決定了 nandflash 的命名,例如 Single Level Cell ( SLC ) nandflash 在每個單元中都包含一個位。MLC nandflash將每個單元的位數增加了一倍,而 TLC nandflash 則增加了三倍,這爲更高容量的 nandflash 開闢了道路。

SLC 的優點是速度最快,最耐用,但缺點是價格昂貴,並且無法提供更高的存儲容量。SLC 是企業使用的首選。與 SLC 相比,MLC 和 TLC 閃存的生產成本更低,存儲容量更高,但要權衡相對較短的使用壽命和較慢的讀/寫速度。MLC 和 TLC 是日常消費計算機等個人用品的首選。

SLC \ MLC \ TLC nandflash 對照表:

 

爲什麼在嵌入式設備上 emmc 取代了 nandflash?

由於NAND Flash芯片的不同廠牌包括三星、KingMax、東芝(Toshiba)或海力士(Hynix)、美光(Micron)等,都需要根據每家公司的產品和技術特性來重新設計,過去並沒有哪個技術能夠通用所有廠牌的NAND Flash芯片。而每次NAND Flash製程技術改朝換代,包括70納米演進至50納米,再演進至40納米或30納米制程技術,手機客戶也都要重新設計(重新設計什麼?因爲你要通訊,就需要通訊的電壓,時序,甚至接口命令,這些都隨着不同廠商,不同製程技術而不同,你作爲手機製造商或者soc廠商,想要把每種新的 nandflash 集成到你的產品中,就要根據這些新的特性來花時間設計。soc這邊會有一個nandflash controller,你要根據採用的nandflash特性來配置nand flash controller,以達到成功通訊的目的)。

但半導體產品每1年製程技術都會推陳出新,存儲器問題也拖累手機新機種推出的速度,因此像eMMC這種把所有存儲器和管理nandflash的控制芯片都包在1顆MCP上的概念,逐漸風行起來。即:

  • NAND Flash 是一種存儲介質,要在上面讀寫數據,外部要加主控和電路設計;

  • eMMC是NAND Flash+主控IC ,對外的接口協議與SD、TF卡類似;

emmc 內部根本的存儲介質還是 nandflash,而不是一種全新的 storage。但是他定義並規範了統一接口比如:emmc 4.3, 4.4, 4.5(類似於usb 2.0, 3.0 這樣的), 把和 nand flash 的通訊封裝在emmc內部,而提供給外部的接口就是 emmc 接口。同理, 外部,比如soc就需要有個 sdmmc controller, 並且宣佈支持 emmc 4.3/4.4...,那麼,你需要做的就是,根據選用的emmc的版本號,來給 sdmmc controller 來選擇一個通訊的接口版本號4.4。

 

二、如何驅動一款NAND Flash?

參考:
《韋東山嵌入式Linux視頻第一期-nandflash》

(一) 基礎硬件知識

nandflash 是一個存儲芯片,那麼它應該能提供“讀地址A的數據,把數據B寫到地址A"的功能。

以Mini2440爲例簡單說明一下:

 

問1:原理圖上 NAND FLASH 和 S3C2440 之間只有數據線,如何傳輸地址呢?
答1.在DATA0~DATA7上既傳輸數據,又傳輸地址,當ALE爲高電平時傳輸的是地址。

問2:從NAND FLASH芯片手冊可知,要讀寫NAND FLASH需要先發出命令,如何傳入命令?
在DATA0~DATA7上既傳輸數據,又傳輸地址,也傳輸命令;
當ALE爲高電平時傳輸的是地址;
當CLE爲高電平時傳輸的是命令;
當ALE和CLE都爲低電平時傳輸的是數據;

問3:數據線LDATAn既接到NAND FLASH,也接到NOR FLASH,還接到SDRAM、DM9000等等,cpu如何準確的將某個地址發到正確的芯片上而不干擾其他芯片呢?
這些芯片,要訪問之必須"選中"(即片選信號爲低),沒有選中的芯片不會工作,相當於沒接一樣。

問4:假設燒寫NAND FLASH,把命令、地址、數據發給它之後,NAND FLASH肯定不可能瞬間完成燒寫的,怎麼判斷燒寫完成?
通過狀態引腳RnB來判斷:它爲高電平表示就緒,它爲低電平表示正忙。

問5:怎麼操作NAND FLASH呢?
答5. 根據NAND FLASH的芯片手冊,一般的過程是:
(1) 發出命令
(2) 發出地址
(3) 寫數據/讀數據
(4) 等待

 

(二) CPU nandflash 控制器章節導讀

以三星 s5pv210 芯片爲例,摘選一下我認爲比較重要的點:

SLC nandflash一般是1bit ecc,對應的編解碼的過程需閱讀上述內容。

 

MLC nandflash 一般是8/12/16 bit ecc,對應的編解碼的過程需閱讀上述內容。

(三) nandflash 芯片手冊導讀

以鎂光 nandflash 芯片爲例,摘選一下我認爲比較重要的點:

特性列表,一般位於芯片手冊首頁,可以幫助我們快速瞭解芯片特性,基本可以認爲是最重要的信息。

不同芯片廠商的nandflash芯片引腳定義基本是一致的,但是可能會有1~2引腳是有差異,需要覈對。

上圖可用於確定nandflash的存儲佈局;

上圖可用於覈對芯片的型號和詳細的硬件特性;

(四) nandflash 調試思路:

1. 通讀 CPU 芯片手冊 nandflash 控制器章節:
- 瞭解該 CPU nandflash 控制器支持哪些特性,一般包括nandflash的bit數,以確定是否支持當前選用的nandflash芯片;- 明確該芯片的 nandflash 控制器 ecc 校驗功能的工作流程;

2. 通讀 nandflash 芯片手冊:
- 瞭解 nandflash 芯片的基本信息,例如ID、容量、類型(SLC/MLC) - 結合板子的原理圖一起查看,以確定 CPU 和 nandflash 芯片的引腳連接是否正確。不同廠商(例如三星、鎂光)生產的nandflash引腳不一定完全兼容,可能會有一兩根引腳有差異;

3. 在 U-boot 或者 Linux 下實現讀取 nandflash 芯片的ID值的功能:nand_read_id()
- U-boot 和 Linux哪個順手用哪個,U-boot的優點是啓動快,做測試方便點,而 Linux的優點是支持網絡/文件系統,功能強大;- 能讀到 ID 只能說明 CPU 和 nandflash 芯片硬件連接上有了些許保障 (例如發命令、讀數據),但是某些隱蔽的錯誤硬件連接仍然會導致寫數據異常;

4. 在 U-boot 或者 Linux 下實現讀取擦除 一塊數據的功能:nand_erase_block()
-  相比起讀寫數據,擦除 nandflash 數據塊較爲容易。而且只有成功擦除了,才能進一步驗證讀寫nandflash的功能。nandflash 數據塊被擦除後所有數據均爲 0xFF,利用這個特性可以驗證稍後需要實現的讀一頁的操作是否正常;

5. 在 U-boot 或者 Linux 下實現裸讀一頁數據( 不考慮ecc校驗 )的功能:nand_read_page_raw()
- nandflash 的1頁包括 main 區域和oob區域, main 區域用於保存用戶數據,spare 區域用於保存 ecc校驗碼;- 一般說寫一頁數據時,需要結合上下文才能判斷是寫 main 區域還是寫 main + spare 區域;- nandflash 一般需要ecc 校驗功能來保證數據的安全,但是在前期調試階段,我們可以不考慮ecc 校驗直接實現裸讀一頁數據的功能。事實上,我們也無法考慮ecc 校驗的功能,因爲到現在爲止還不能寫數據到 nandflash的main區域,更別說寫 ecc 校驗碼到oob區域;- 我們需要先實現讀數據的功能,確保讀數據功能的可靠後,待會才能用其來驗證寫數據的操作;

6. 在 U-boot 或者 Linux 下實現裸寫一頁數據( 不考慮ecc校驗 )的功能;nand_write_page_raw()- 裸寫一頁和裸讀一頁的操作可以相互協同驗證;- uboot 的 cmp 命令可以對比兩塊內存的數據是否相同,該命令可以用於驗證寫操作是否成功;

7. 在 U-boot 或者 Linux 下實現寫一頁數據到 main區域,並將 nandflash 控制器生成的 ecc 校驗碼填寫到oob區域:nand_write_page()
- 寫一頁數據到 main 區域時,nandflash 控制器會生成 ecc 校驗碼,這些校驗碼就是用來保護這一頁數據的;

8. 在 U-boot 或者 Linux 下實現讀一頁數據的功能,包括讀 main 區域的數據和 spare 區域的 ecc 校驗碼:nand_read_page()
- 從nandflash spare 區域讀到的 ecc 校驗碼應該發送給 nandflash 控制器,nandflash 控制器會幫我們計算好是否有bit 錯誤,並且將結果和糾錯需要用到的信息保存在寄存器中,軟件通過寄存器裏的信息推導出正確的數據;

9. 由於bit 錯誤的問題不容易出現,所以在調試階段需要人爲製造出與 spare 區域 不匹配的 main 數據,以檢驗ecc 校驗功能是否正常,即數據是否能被糾正,大體的思路是:
- 通過 nand_write_page() 寫一頁正確的數據到 main 區域 和 spare 區域;- 篡改在內存中的數據,然後通過 nand_write_page_raw() 將篡改後的數據填寫到 main 區域,spare 區域保持不變;- 通過nand_read_page 讀 一頁數據,如果能執行糾錯相關的代碼,並且能獲取到被篡改之前的數據,則說明校驗功能是可以工作的;

10. 如果 main 區域的 ecc 校驗碼字節數比較多,並且 spare 區域足夠大的話,可以對存放在 spare 區域裏的 main ecc校驗碼進行二次 ecc,這時生成的 ecc 校驗碼我將其稱爲 spare ecc,它一般會存放在spare區域的末尾,並不是必須的;

(五) Linux Nand Flash驅動

參考:
《韋東山嵌入式Linux視頻第二期-nandflash》

Linux MTD stack

對於nandflash 驅動,需要重點關注的地方:

Flash memory abstraction layer/MTD layer	drivers/mtd/mtd*.c
Flash type abstration layer/NAND core	drivers/mtd/nand/nand_*.c
Flash controller drivers	drivers/mtd/nand/*_nand.c

 

NAND legacy stack( Linux-4.16 之前)

/dev/mtd0是nandflash設備的字符設備驅動節點,上圖展示了 read("/dev/mtd0") 的底層實現(MTD layer->NAND core->Controller driver)。

NAND legacy stack 的弊端

  • 無法執行細粒度的NAND Flash 命令,粒度的大小被限制在NAND core層面了;

  • 芯片廠商更新的NAND Flash特性時需修改所有的Controller driver;

 

NAND new stack( Linux-4.16 之後)

將NAND 的控制邏輯下放到Controller driver層,NAND Core統一調用Controller driver提供的鉤子函數:exec_op();

(六) 測試穩定性和性能

MTD tests support

  • mtd_nandecctest.ko:nand flash的ECC校驗測試

  • mtd_pagetest.ko:nand flash的page讀寫測試

  • mtd_speedtest.ko:MTD分區的讀寫速度測試

  • mtd_subpagetest.ko:nand flash的sub-page接口測試

  • mtd_oobtest.ko:nand falsh的OOB區域讀寫測試

  • mtd_readtest.ko:讀取整個MTD分區

  • mtd_stresstest.ko:隨機讀寫,擦除操作測試

  • mtd_torturetest.ko:該功能可用於做穩定性或者壽命測試,隨機操作直到發生錯誤

示例如下:

insmod mtd_stresstest.ko dev=9 count=1000
[ 3289.273771] =================================================
[ 3289.279826] mtd_stresstest: MTD device: 9
[ 3289.284079] mtd_stresstest: MTD device size 268435456, eraseblock size 131072, page size 2048, count of eraseblocks 2048, pages per eraseblock 64, OOB size 64
[ 3289.303250] mtd_stresstest: scanning for bad eraseblocks
[ 3289.420267] mtd_stresstest: scanned 2048 eraseblocks, 0 are bad
[ 3289.426534] mtd_stresstest: doing operations
[ 3289.431031] mtd_stresstest: 0 operations done  
[ 3339.606972] mtd_stresstest: finished, 1000 operations done  
[ 3339.612992] =================================================

一個反覆讀寫並校驗數據正確性的小腳本:

#!/bin/sh

rm -rf /media/local/
count=1
while [ ${count} -lt 600 ]; do
    TSTAMP="`date`  | ---> ${count}"
    echo "$TSTAMP"
    mkdir -p /media
    time cp /usr/local /media/ -raf
    diff /usr/local /media/local -r || exit -1
    rm -rf /media/local;
    sync

    let count=${count}+1
done

 

三、NAND Flash 文件系統的選擇:YAFFS2

參考:
《基於nand flash的文件系統的整理》
《Cramfs、JFFS2、YAFFS2的全面對比》

針對 nandflash 特點優化其性能以及克服其缺點

  1. nanflash 不是通常意義上的塊設備,塊設備的特點是可以對數據塊進行讀、寫操作(如磁盤,文件系統等),但是對於nanflash 來說有三種操作分別是:讀、寫、擦除。只有對已擦除的塊才能進行寫操作。所以爲了使其兼容傳統的硬件和系統,需要對其進行特殊處理;

  2. 當一個閃存處在乾淨狀態時(被擦除過,但是還沒有寫操作發生),這塊flash上的每一位(bit)都是邏輯1;

  3. 閃存的使用壽命是有限的,具體來說,閃存的使用壽命是由擦除塊的最大可擦除次數來決定的。超過了最大可擦除次數,這個擦除塊就成爲壞塊(bad block)了。因此要避免某個擦除塊被過度使用,以至於先於其他擦除塊變成壞塊,應該在儘量少影響性能的前提下,使擦寫操作均勻分佈在每個擦除塊上,叫做損耗均衡(wear leveling)。

YAFFS意爲「Yet Another Flash File System」,是目前唯一一個專門爲NAND Flash設計的文件系統。它採用了類日誌結構,結合NAND Flash的特點,提供了損耗平衡和掉電保護機制,可以有效地避免意外掉電對文件系統一致性和完整性的影響。

nanflash 和 YAFFS2之間是如何配合的?
通過分析mkyaffs2iamge.c可知:

  • yaffs2 映像文件是由一個個的main(4096) + spare(224)數據組成;

  • main裏存放的是文件(包括目錄、普通文件、特殊文件等)數據;

  • spare裏前面的nand_oobinfo->oobfree(2+22=24)個字節歸yaffs2自由使用,然後接下來的nand_oobinfo->eccbytes(104)個字節都填0xFF,即yaffs2 images本身是不含有ecc校驗碼的;(以上數值跟實際nandflash芯片相關)

更多細節:
how-yaffs-works[1]

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章