verilog開發經驗。

規範很重要

       工作過的朋友肯定知道,公司裏是很強調規範的,特別是對於大的設計(無論軟件
還是硬件),不按照規範走幾乎是不可實現的。邏輯設計也是這樣:如果不按規範做的
話,過一個月後調試時發現有錯,回頭再看自己寫的代碼,估計很多信號功能都忘了,
更不要說檢錯了;如果一個項目做了一半一個人走了,接班的估計得從頭開始設計;如
果需要在原來的版本基礎上增加新功能,很可能也得從頭來過,很難做到設計的可重用
性。

在邏輯方面,我覺得比較重要的規範有這些:
       1.設計必須文檔化。要將設計思路,詳細實現等寫入文檔,然後經過嚴格評審通過
後才能進行下一步的工作。這樣做乍看起來很花時間,但是從整個項目過程來看,絕對
要比一上來就寫代碼要節約時間,且這種做法可以使項目處於可控、可實現的狀態。

       2.代碼規範。
       a.設計要參數化。比如一開始的設計時鐘週期是30ns,復位週期是5個時鐘週期,我
們可以這麼寫:
             parameter      CLK_PERIOD = 30;
             parameter      RST_MUL_TIME = 5;
             parameter      RST_TIME = RST_MUL_TIME * CLK_PERIOD;
             ...
             rst_n = 1'b0;
             # RST_TIME rst_n = 1'b1;
             ...
             # CLK_PERIOD/2 clk <= ~clk;
        如果在另一個設計中的時鐘是40ns,復位週期不變,我們只需對CLK_PERIOD進行重
新例化就行了,從而使得代碼更加易於重用。

       b.信號命名要規範化。
       1) 信號名一律小寫,參數用大寫。
       2) 對於低電平有效的信號結尾要用_n標記,如rst_n。
       3) 端口信號排列要統一,一個信號只佔一行,最好按輸入輸出及從哪個模塊來到哪
個模塊去的關係排列,這樣在後期仿真驗證找錯時後      方便很多。如:
          module a(
                   //input
                   clk,
                   rst_n,       //globle signal
                   wren,
                   rden,
                   avalon_din,      //related to avalon bus
                   sdi,             //related to serial port input
                   //output
                   data_ready,
                   avalon_dout, //related to avalon bus
                   ...
                  );
          4) 一個模塊儘量只用一個時鐘,這裏的一個模塊是指一個module或者是一個en
tity。在多時鐘域的設計中涉及到跨時鐘域的設計中最好有專門一個模塊做時鐘域的隔
離。這樣做可以讓綜合器綜合出更優的結果。
          5) 儘量在底層模塊上做邏輯,在高層儘量做例化,頂層模塊只能做例化,禁止
出現任何膠連邏輯(glue logic),哪怕僅僅是對某個信號取反。理由同上。
          6) 在FPGA的設計上禁止用純組合邏輯產生latch,帶D觸發器的latch的是允許的
,比如配置寄存器就是這種類型。
          7) 一般來說,進入FPGA的信號必須先同步,以提高系統工作頻率(板級)。
           所有模塊的輸出都要寄存器化,以提高工作頻率,這對設計做到時序收斂也
是極有好處的。
          9) 除非是低功耗設計,不然不要用門控時鐘--這會增加設計的不穩定性,在要
用到門控時鐘的地方,也要將門控信號用時鐘的下降沿 打一拍再輸出與時鐘相與。
                   clk_gate_en          --------                        ----
                  -----------------|D         Q |------------------|         / gate_clk
_out
                                   |            |             ---------|          )--------
-
                            ------o|>           |             |            |         /
                    clk        |           --------               |             ----
                  ------------------------------------
          10)禁止用計數器分頻後的信號做其它模塊的時鐘,而要用改成時鐘使能的方式
,否則這種時鐘滿天飛的方式對設計的可靠性極爲不利,也大大增加了靜態時序分析的
複雜性。如FPGA的輸入時鐘是25M的,現在系統內部要通過RS232與PC通信,要以rs232_
1xclk的速率發送數據。
            不要這樣做:
            always (posedge rs232_1xclk or negedge rst_n)
            begin
                ...
            end
            而要這樣做:
            always (posedge clk_25m or negedge rst_n)
            begin
                ...
                else if ( rs232_1xclk == 1'b1 )
                ...
            end
          11)狀態機要寫成3段式的(這是最標準的寫法),即
             ...
             always @(posedge clk or negedge rst_n)
             ...
                 current_state <= next_state;
             ...
             always @ (current_state ...)
             ...
             case(current_state)
                   ...
                   s1:
                      if ...
                        next_state = s2;
                   ...
             ...
             always @(posedge clk or negedge rst_n)
             ...
                 else
                    a <= 1'b0;
                    c <= 1'b0;
                    c <= 1'b0;                //賦默認值
                     case(current_state)
                         s1:
                             a <= 1'b0;       //由於上面賦了默認值,這裏就不用再對b
、c賦值了(b、c在該狀態爲0,不會產生鎖存器,下同)
                         s2:
                             b <= 1'b1;
                         s3:
                             c <= 1'b1;
                         default:
                         ...
            ...

          3.ALTERA參考設計準則
           1) Ensure Clock, Preset, and Clear configurations are free of glitch
es.
           2) Never use Clocks consisting of more than one level of combinatori
al logic.
           3) Carefully calculate setup times and hold times for multi-Clock sy
stems.
           4) Synchronize signals between flipflops in multi-Clock systems when
the setup and hold time requirements cannot be met.
           5) Ensure that Preset and Clear signals do not contain race conditio
ns.
           6) Ensure that no other internal race conditions exist.
           7) Register all glitch-sensitive outputs.
            Synchronize all asynchronous inputs.
           9) Never rely on delay chains for pin-to-pin or internal delays.
           10)Do not rely on Power-On Reset. Use a master Reset pin to clear al
l flipflops.
           11)Remove any stuck states from state machines or synchronous logic.

        其它方面的規範一時沒有想到,想到了再寫,也歡迎大家補充。


====================================================================================
時序是設計出來的
       我的boss有在華爲及峻龍工作的背景,自然就給我們講了一些華爲及altera做邏輯
的一些東西,而我們的項目規範,也基本上是按華爲的那一套去做。在工作這幾個月中
,給我感觸最深的是華爲的那句話:時序是設計出來的,不是仿出來的,更不是湊出來
的。

       在我們公司,每一個項目都有很嚴格的評審,只有評審通過了,才能做下一步的工
作。以做邏輯爲例,並不是一上來就開始寫代碼,而是要先寫總體設計方案和邏輯詳細
設計方案,要等這些方案評審通過,認爲可行了,才能進行編碼,一般來說這部分工作
所佔的時間要遠大於編碼的時間。

       總體方案主要是涉及模塊劃分,一級模塊和二級模塊的接口信號和時序(我們要求
把接口信號的時序波形描述出來)以及將來如何測試設計。在這一級方案中,要保證在
今後的設計中時序要收斂到一級模塊(最後是在二級模塊中)。什麼意思呢?我們在做
詳細設計的時候,對於一些信號的時序肯定會做一些調整的,但是這種時序的調整最多
只能波及到本一級模塊,而不能影響到整個設計。記得以前在學校做設計的時候,由於
不懂得設計時序,經常因爲有一處信號的時序不滿足,結果不得不將其它模塊信號的時
序也改一下,搞得人很鬱悶。

       在邏輯詳細設計方案這一級的時候,我們已經將各級模塊的接口時序都設計出來了
,各級模塊內部是怎麼實現的也基本上確定下來了。

       由於做到這一點,在編碼的時候自然就很快了,最重要的是這樣做後可以讓設計會
一直處於可控的狀態,不會因爲某一處的錯誤引起整個設計從頭進行。


=============================================================================================
如何提高電路工作頻率

       對於設計者來說,我們當然希望我們設計的電路的工作頻率(在這裏如無特別說明
,工作頻率指FPGA片內的工作頻率)儘量高。我們也經常聽說用資源換速度,用流水的
方式可以提高工作頻率,這確實是一個很重要的方法,今天我想進一步去分析該如何提
高電路的工作頻率。

       我們先來分析下是什麼影響了電路的工作頻率。

       我們電路的工作頻率主要與寄存器到寄存器之間的信號傳播時延及clock skew有關
。在FPGA內部如果時鐘走長線的話,clock skew很小,基本上可以忽略, 在這裏爲了簡
單起見,我們只考慮信號的傳播時延的因素。

       信號的傳播時延包括寄存器的開關時延、走線時延、經過組合邏輯的時延(這樣劃
分或許不是很準確,不過對分析問題來說應該是沒有可以的),要提高電路的工作頻率
,我們就要在這三個時延中做文章,使其儘可能的小。

       我們先來看開關時延,這個時延是由器件物理特性決定的,我們沒有辦法去改變,
所以我們只能通過改變走線方式和減少組合邏輯的方法來提高工作頻率。

       1.通過改變走線的方式減少時延。
       以altera的器件爲例,我們在quartus裏面的timing closure floorplan可以看到有
很多條條塊塊,我們可以將條條塊塊按行和按列分,每一個條塊代表1個LAB,每個LAB裏
有8個或者是10個LE。它們的走線時延的關係如下:同一個LAB中(最快) < 同列或者同
行 < 不同行且不同列。
       我們通過給綜合器加適當的約束(不可貪心,一般以加5%裕量較爲合適,比如電路
工作在100Mhz,則加約束加到105Mhz就可以了,貪心效果反而不好,且極大增加綜合時
間)可以將相關的邏輯在佈線時儘量布的靠近一點,從而減少走線的時延。(注:約束
的實現不完全是通過改進佈局佈線方式去提高工作頻率,還有其它的改進措施)

       2.通過減少組合邏輯的減少時延。
       上面我們講了可以通過加約束來提高工作頻率,但是我們在做設計之初可萬萬不可
將提高工作頻率的美好願望寄託在加約束上,我們要通過合理的設計去避免出現大的組
合邏輯,從而提高電路的工作頻率,這才能增強設計的可移植性,纔可以使得我們的設
計在移植到另一同等速度級別的芯片時還能使用。
       我們知道,目前大部分FPGA都基於4輸入LUT的,如果一個輸出對應的判斷條件大於
四輸入的話就要由多個LUT級聯才能完成,這樣就引入一級組合邏輯時延,我們要減少組
合邏輯,無非就是要輸入條件儘可能的少,,這樣就可以級聯的LUT更少,從而減少了組
合邏輯引起的時延。
       我們平時聽說的流水就是一種通過切割大的組合邏輯(在其中插入一級或多級D觸發
器,從而使寄存器與寄存器之間的組合邏輯減少)來提高工作頻率的方法。比如一個32
位的計數器,該計數器的進位鏈很長,必然會降低工作頻率,我們可以將其分割成4位和
8位的計數,每當4位的計數器計到15後觸發一次8位的計數器,這樣就實現了計數器的切
割,也提高了工作頻率。
       在狀態機中,一般也要將大的計數器移到狀態機外,因爲計數器這東西一般是經常
是大於4輸入的,如果再和其它條件一起做爲狀態的跳變判據的話,必然會增加LUT的級
聯,從而增大組合邏輯。以一個6輸入的計數器爲例,我們原希望當計數器計到111100後
狀態跳變,現在我們將計數器放到狀態機外,當計數器計到111011後產生個enable信號
去觸發狀態跳變,這樣就將組合邏輯減少了。

       上面說的都是可以通過流水的方式切割組合邏輯的情況,但是有些情況下我們是很
難去切割組合邏輯的,在這些情況下我們又該怎麼做呢?

       狀態機就是這麼一個例子,我們不能通過往狀態譯碼組合邏輯中加入流水。如果我
們的設計中有一個幾十個狀態的狀態機,它的狀態譯碼邏輯將非常之巨大,毫無疑問,
這極有可能是設計中的關鍵路徑。那我們該怎麼做呢?還是老思路,減少組合邏輯。我
們可以對狀態的輸出進行分析,對它們進行重新分類,並根據這個重新定義成一組組小
狀態機,通過對輸入進行選擇(case語句)並去觸發相應的小狀態機,從而實現了將大的
狀態機切割成小的狀態機。在ATA6的規範中(硬盤的標準),輸入的命令大概有20十種
,每一個命令又對應很多種狀態,如果用一個大的狀態機(狀態套狀態)去做那是不可
想象的,我們可以通過case語句去對命令進行譯碼,並觸發相應的狀態機,這樣做下來
這一個模塊的頻率就可以跑得比較高了。

       總結:提高工作頻率的本質就是要減少寄存器到寄存器的時延,最有效的方法就是
避免出現大的組合邏輯,也就是要儘量去滿足四輸入的條件,減少LUT級聯的數量。我們
可以通過加約束、流水、切割狀態的方法提高工作頻率。

===================================================================================
做邏輯的難點在於系統結構設計和仿真驗證
       剛去公司的時候BOSS就和我講,做邏輯的難點不在於RTL級代碼的設計,而在於系統
結構設計和仿真驗證方面。目前國內對可綜合的設計強調的比較多,而對系統結構設計
和仿真驗證方面似乎還沒有什麼資料,這或許也從一個側面反映了國內目前的設計水平
還比較低下吧。

       以前在學校的時候,總是覺得將RTL級代碼做好就行了,仿真驗證只是形式而已,所
以對HDL的行爲描述方面的語法不屑一顧,對testbench也一直不願意去學--因爲覺得畫
波形圖方便;對於系統結構設計更是一點都不懂了。

       到了公司接觸了些東西才發現完全不是這樣。

       其實在國外,花在仿真驗證上的時間和人力大概是花在RTL級代碼上的兩倍,現在仿
真驗證纔是百萬門級芯片設計的關鍵路徑。仿真驗證的難點主要在於怎麼建模才能完全
和準確地去驗證設計的正確性(主要是提高代碼覆蓋),在這過程中,驗證速度也是很
重要的。

       驗證說白了也就是怎麼產生足夠覆蓋率的激勵源,然後怎麼去檢測錯誤。我個人認
爲,在仿真驗證中,最基本就是要做到驗證的自動化。這也是爲什麼我們要寫testbenc
h的原因。在我現在的一個設計中,每次跑仿真都要一個小時左右(這其實算小設計)。
由於畫波形圖無法做到驗證自動化,如果用通過畫波形圖來仿真的話,一是畫波形會畫
死(特別是對於算法複雜的、輸入呈統計分佈的設計),二是看波形圖要看死,三是檢
錯率幾乎爲零。

       那麼怎麼做到自動化呢?我個人的水平還很有限,只能簡單地談下BFM(bus funct
ion model,總線功能模型)。

       以做一個MAC的core爲例(背板是PCI總線),那麼我們需要一個MAC_BFM和PCI_BFM
及PCI_BM(PCI behavior model)。MAC_BFM的主要功能是產生以太網幀(激勵源),隨
機的長度和幀頭,內容也是隨機的,在發送的同時也將其複製一份到PCI_BM中;PCI_BFM
的功能則是仿PCI總線的行爲,比如被測收到了一個正確幀後會向PCI總線發送一個
請求,PCI_BFM則會去響應它,並將數據收進來;PCI_BM的主要功能是將MAC_BFM發送出
來的東西與PCI_BFM接收到的東西做比較,由於它具有了MAC_BFM的發送信息和PCI_BFM的
接收信息,只要設計合理,它總是可以自動地、完全地去測試被測是否工作正常,
從而實現自動檢測。

       華爲在仿真驗證方面估計在國內來說是做的比較好的,他們已建立起了比較好的驗
證平臺,大部分與通信有關的BFM都做好了,聽我朋友說,現在他們只需要將被測放
在測試平臺中,並配置好參數,就可以自動地檢測被測功能的正確與否。

       在功能仿真做完後,由於我們做在是FPGA的設計,在設計時已經基本保證RTL級代碼
在綜合結果和功能仿真結果的一致性,只要綜合佈局佈線後的靜態時序報告沒有違反時
序約束的警告,就可以下到板子上去調試了。事實上,在華爲中興,他們做FPGA的設計
時也是不做時序仿真的,因爲做時序仿真很花時間,且效果也不見得比看靜態時序分析
報告好。

       當然了,如果是ASIC的設計話,它們的仿真驗證的工作量要大一些,在涉及到多時
鍾域的設計時,一般還是做後仿的。不過在做後仿之前,也一般會先用形式驗證工具和
通過靜態時序分序報告去查看有沒有違反設計要求的地方,這樣做了之後,後仿的工作
量可以小很多。

       在HDL語言方面,國內語言很多人都在爭論VHDL和verilog哪個好,其實我個人認爲
這並沒有多大的意義,外面的大公司基本上都是用verilog在做RTL級的代碼,所以還是
建議大家儘量學verilog。在仿真方面,由於VHDL在行爲級建模方面弱於verilog,用VH
DL做仿真模型的很少,當然也不是說verilog就好,其實verilog在複雜的行爲級建模方
面的能力也是有限的,比如目前它還不支持數組。在一些複雜的算法設計中,需要高級
語言做抽象才能描述出行爲級模型。在國外,仿真建模很多都是用System C和E語言,用
verilog的都算是很落後的了,國內華爲的驗證平臺好像是用System C寫。

       在系統結構設計方面,由於我做的設計還不夠大,還談不上什麼經驗,只是覺得必
須要具備一些計算機系統結構的知識才行。劃分的首要依據是功能,之後是選擇合適的
總線結構、存儲結構和處理器架構,通過系統結構劃分要使各部分功能模塊清晰,易於
實現。這一部分我想過段時間有一點體會了再和大家分享,就先不誤導大家了 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章