【記錄】DeepLesion 數據集分析

DeepLesion:最大開源臨牀醫療圖像數據集

NIH 臨牀中心最新公佈了一個迄今規模最大的多類別、病竈級別標註臨牀醫療 CT 圖像開放數據集 DeepLesion,研究人員在此基礎上訓練深度神經網絡,創建了一個具有統一框架的大規模通用病竈檢測器,能夠更準確、更自動地衡量患者體內所有病竈的大小,實現全身範圍的癌症初步評估。數據集包含:

  • 4,427 名獨立的匿名患者
  • 10,594 次 CT 掃描(平均每位患者有 3 次隨訪)
  • 32,735 個帶標記的病竈實例
  • 一共 928,020 張 CT 橫切圖像(512×512 分辨率)

每個切片被命名爲“{患者索引}_{研究索引}_{系列索引}/{切片索引}.png”

3DCE算法裏找到窗寬的設置爲[-1024, 3071]

圖像以無符號16位存儲,要得到原始的 Hounsfield unit (HU) 值,需要從像素強度中減去32768.

數據集不僅提供了包含病變主是的關鍵CT切片,害提供了它的3D上下文(關鍵切片上下各30mm的額外切片)。由於數據量很大(221GB),我們將他們打包爲56個更小的zip文件以供下載。

註釋文件分析:

在 DL info.csv,每一行都是深部病變的信息。列的意義是

  1. 文件名。請用/或\替換最後的下劃線,以指示子文件夾
  2. 患者指數從1開始
  3. 每個患者的研究指標從1開始。每個患者有126個研究。
  4. 系列ID
  5. 包含病變註釋的關鍵切片的切片指數,從1開始
  6. 8D矢量,病變兩個直徑的圖像座標。[x, y, x, y, x, y, x, y]。 前4個座標是長軸。請參閱我們的論文及其補充材料作進一步說明
  7. 4D向量,病變的邊界盒[x, y, x, y]從直徑估計,見我們的論文。
  8. 二維向裏,長軸和短軸的長度。單位是像素
  9. 病竈中心的相對身體位置。唑座標由自監督體部迴歸器進行預測。詳見我們的論文。這些座標是近似值,僅供參考
  10. 病變的類型。1~8型分別爲骨、腹、縱膈、肝、肺、腎、軟組織、骨盆。詳見我們的論文。病變類型有粗略定義,僅供叄考。只有ⅶa和測試集中的病變被標註爲-1
  11. 根據手動檢查,如果該病竈的註釋可能有噪聲,則將該字段設置爲1.到目前爲止,我們在32,735條註釋中找到了35條
  12. 片範圍。這個數據集中提供了與鍵片相鄰的上下文片。如第一個病竈,關鍵切片爲109,切片範圍爲103-115,即提供103-115片時於大多數病變,我們在關鍵切片上下分別提供3mm的額外切片,除非病變的長軸大於這個厚度(然後我們提供更多),或者達到體積的開始或結束
  13. x軸、軸和的間距(每像素毫米)。第三個值是片間隔,即兩個片之間的物理距離
  14. 圖像的大小
  15. Hounsfield單元中從原始DCOM件中提取的窗口(最小-最大)
  16. 病人性別。F代表女性,M代表男性
  17. 病人的年齡
  18. 官方隨機生成的患者級數據分割,訓練=1,驗證=2,則試=3

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章