獲取CPU時間戳代碼使用CPU時間戳進行高精度計時

在Pentium以上的CPU中，提供了一條機器指令RDTSC（Read Time Stamp Counter）來讀取這個時間戳的數字，並將其保存在EDX:EAX寄存器對中。由於EDX:EAX寄存器對恰好是Win32平臺下C++語言保存函數返回值的寄存器，所以我們可以把這條指令看成是一個普通的函數調用。vc2003像這樣：
inline unsigned __int64 GetTimeStampCount()
{
__asm RDTSC
}
對於vc6或者其他編譯器可能不行，因爲RDTSC不被C++的內嵌彙編器直接支持，所以我們要用_emit僞指令直接嵌入該指令的機器碼形式0X0F、0X31，如下：
inline unsigned __int64 GetTimeStampCount()
{
__asm _emit 0x0F
__asm _emit 0x31
}

對關注性能的程序開發人員而言，一個好的計時部件既是益友，也是良師。計時器既可以作爲程序組件幫助程序員精確的控制程序進程，又是一件有力的調試武器，在有經驗的程序員手裏可以儘快的確定程序的性能瓶頸，或者對不同的算法作出有說服力的性能比較。

　　在Windows平臺下，常用的計時器有兩種，一種是timeGetTime多媒體計時器，它可以提供毫秒級的計時。但這個精度對很多應用場合而言還是太粗糙了。另一種是QueryPerformanceCount計數器，隨系統的不同可以提供微秒級的計數。對於實時圖形處理、多媒體數據流處理、或者實時系統構造的程序員，善用QueryPerformanceCount/QueryPerformanceFrequency是一項基本功。

　　本文要介紹的，是另一種直接利用Pentium   CPU內部時間戳進行計時的高精度計時手段。以下討論主要得益於《Windows圖形編程》一書，第   15頁－17頁，有興趣的讀者可以直接參考該書。關於RDTSC指令的詳細討論，可以參考Intel產品手冊。本文僅僅作拋磚之用。
　　在   Intel   Pentium以上級別的CPU中，有一個稱爲“時間戳（Time   Stamp）”的部件，它以64位無符號整型數的格式，記錄了自CPU上電以來所經過的時鐘週期數。由於目前的CPU主頻都非常高，因此這個部件可以達到納秒級的計時精度。這個精確性是上述兩種方法所無法比擬的。

　　在Pentium以上的CPU中，提供了一條機器指令RDTSC（Read   Time   Stamp   Counter）來讀取這個時間戳的數字，並將其保存在EDX:EAX寄存器對中。由於EDX:EAX寄存器對恰好是Win32平臺下C++語言保存函數返回值的寄存器，所以我們可以把這條指令看成是一個普通的函數調用。像這樣：

inline   unsigned   __int64   GetCycleCount()
{
    __asm   RDTSC
}

但是不行，因爲RDTSC不被C++的內嵌彙編器直接支持，所以我們要用_emit僞指令直接嵌入該指令的機器碼形式0X0F、0X31，如下：

inline   unsigned   __int64   GetCycleCount()
{
    __asm   _emit   0x0F
    __asm   _emit   0x31
}

以後在需要計數器的場合，可以像使用普通的Win32   API一樣，調用兩次GetCycleCount函數，比較兩個返回值的差，像這樣：

unsigned   long   t;
t   =   (unsigned   long)GetCycleCount();
//Do   Something   time-intensive   ...
t   -=   (unsigned   long)GetCycleCount();

　　《Windows圖形編程》第15頁編寫了一個類，把這個計數器封裝起來。有興趣的讀者可以去參考那個類的代碼。作者爲了更精確的定時，做了一點小小的改進，把執行RDTSC指令的時間，通過連續兩次調用GetCycleCount函數計算出來並保存了起來，以後每次計時結束後，都從實際得到的計數中減掉這一小段時間，以得到更準確的計時數字。但我個人覺得這一點點改進意義不大。在我的機器上實測，這條指令大概花掉了幾十到100多個週期，在   Celeron   800MHz的機器上，這不過是十分之一微秒的時間。對大多數應用來說，這點時間完全可以忽略不計；而對那些確實要精確到納秒數量級的應用來說，這個補償也過於粗糙了。

這個方法的優點是：

1.高精度。可以直接達到納秒級的計時精度（在1GHz的CPU上每個時鐘週期就是一納秒），這是其他計時方法所難以企及的。

2.   成本低。timeGetTime   函數需要鏈接多媒體庫winmm.lib，QueryPerformance*   函數根據MSDN的說明，需要硬件的支持（雖然我還沒有見過不支持的機器）和KERNEL庫的支持，所以二者都只能在Windows平臺下使用（關於DOS平臺下的高精度計時問題，可以參考《圖形程序開發人員指南》，裏面有關於控制定時器8253的詳細說明）。但RDTSC指令是一條CPU指令，凡是i386平臺下Pentium以上的機器均支持，甚至沒有平臺的限制（我相信i386版本UNIX和Linux下這個方法同樣適用，但沒有條件試驗），而且函數調用的開銷是最小的。

3.   具有和CPU主頻直接對應的速率關係。一個計數相當於1/(CPU主頻Hz數)秒，這樣只要知道了CPU的主頻，可以直接計算出時間。這和   QueryPerformanceCount不同，後者需要通過QueryPerformanceFrequency獲取當前計數器每秒的計數次數才能換算成時間。

這個方法的缺點是：

1.現有的C/C++編譯器多數不直接支持使用RDTSC指令，需要用直接嵌入機器碼的方式編程，比較麻煩。

2.數據抖動比較厲害。其實對任何計量手段而言，精度和穩定性永遠是一對矛盾。如果用低精度的timeGetTime來計時，基本上每次計時的結果都是相同的；而RDTSC指令每次結果都不一樣，經常有幾百甚至上千的差距。這是這種方法高精度本身固有的矛盾。

關於這個方法計時的最大長度，我們可以簡單的用下列公式計算：

自CPU上電以來的秒數   =   RDTSC讀出的週期數   /   CPU主頻速率（Hz）

64位無符號整數所能表達的最大數字是1.8×10^19，在我的Celeron   800上可以計時大約700年（書中說可以在200MHz的Pentium上計時117年，這個數字不知道是怎麼得出來的，與我的計算有出入）。無論如何，我們大可不必關心溢出的問題。

下面是幾個小例子，簡要比較了三種計時方法的用法與精度

//Timer1.cpp   使用了RDTSC指令的Timer類//KTimer類的定義可以參見《Windows圖形編程》P15
//編譯行：CL   Timer1.cpp   /link   USER32.lib
#include   &ltstdio.h>
#include   "KTimer.h"
main()
{
    unsigned   t;
    KTimer   timer;
    timer.Start();
    Sleep(1000);
    t   =   timer.Stop();
    printf("Lasting   Time:   %d/n",t);
}

//Timer2.cpp   使用了timeGetTime函數
//需包含&ltmmsys.h>，但由於Windows頭文件錯綜複雜的關係
//簡單包含&ltwindows.h>比較偷懶：）
//編譯行：CL   timer2.cpp   /link   winmm.lib
#include   &ltwindows.h>
#include   &ltstdio.h>

main()
{
    DWORD   t1,   t2;
    t1   =   timeGetTime();
    Sleep(1000);
    t2   =   timeGetTime();
    printf("Begin   Time:   %u/n",   t1);
    printf("End   Time:   %u/n",   t2);
    printf("Lasting   Time:   %u/n",(t2-t1));
}

//Timer3.cpp   使用了QueryPerformanceCounter函數
//編譯行：CL   timer3.cpp   /link   KERNEl32.lib
#include   &ltwindows.h>
#include   &ltstdio.h>

main()
{
    LARGE_INTEGER   t1,   t2,   tc;
    QueryPerformanceFrequency(&tc);
    printf("Frequency:   %u/n",   tc.QuadPart);
    QueryPerformanceCounter(&t1);
    Sleep(1000);
    QueryPerformanceCounter(&t2);
    printf("Begin   Time:   %u/n",   t1.QuadPart);
    printf("End   Time:   %u/n",   t2.QuadPart);
    printf("Lasting   Time:   %u/n",(   t2.QuadPart-   t1.QuadPart));
}

////////////////////////////////////////////////
//以上三個示例程序都是測試1秒鐘休眠所耗費的時間
file://測/試環境：Celeron   800MHz   /   256M   SDRAM
//                     Windows   2000   Professional   SP2
//                     Microsoft   Visual   C++   6.0   SP5
////////////////////////////////////////////////

以下是Timer1的運行結果，使用的是高精度的RDTSC指令
Lasting   Time:   804586872

以下是Timer2的運行結果，使用的是最粗糙的timeGetTime   API
Begin   Time:   20254254
End   Time:   20255255
Lasting   Time:   1001

以下是Timer3的運行結果，使用的是QueryPerformanceCount   API
Frequency:   3579545
Begin   Time:   3804729124
End   Time:   3808298836
Lasting   Time:   3569712

獲取CPU時間戳代碼使用CPU時間戳進行高精度計時

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

windows 控制檯圖標加載

在ubuntu 9.10下安裝stardict字典

文件操作之：fstat、stat和lstat 區別

[精華] Grep 用法

MySql 中文亂碼解決方案

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

獲取CPU時間戳代碼 使用CPU時間戳進行高精度計時

獲取CPU時間戳代碼使用CPU時間戳進行高精度計時