LIDC-IDRI肺結節數據庫詳解

LIDC-IDRI肺結節數據庫詳解
LIDC-IDRI (The Lung Image Database Consortium),該數據集由胸部醫學圖像文件(如CT、X光片)和對應的診斷結果病變標註組成。該數據是由美國國家癌症研究所(National Cancer Institute)發起收集的,目的是爲了研究高危人羣早期癌症檢測。

該數據集中,共收錄了1018個研究實例。對於每個實例中的圖像,都由4位經驗豐富的胸部放射科醫師進行兩階段的診斷標註。在第一階段,每位醫師分別獨立診斷並標註病患位置,其中會標註三中類別:1) >=3mm的結節,2) <3mm的結節,3) >=3mm的非結節(官網描述: “nodule > or =3 mm”, “nodule < 3 mm",="" and="" “non-nodule=”"> or =3 mm”,詳見 Summary)。在隨後的第二階段中,各位醫師都分別獨立的複審其他三位醫師的標註,並給出自己最終的診斷結果。這樣的兩階段標註可以在避免forced consensus的前提下,儘可能完整的標註所有結果。

Collection Statistics updated 3/21/2012
數據大小 124G
圖像類型 CT (computed tomography), 243,958 張
DX (digital radiography)
CR (computed radiography)
圖片數 244,527
患者數 1010
系列數 (Number of Series) 1,018 CT
290 CR/DX
研究數 (Number of Studies) 1038

文件結構
目前測試一共1012個病例數據,每個病例文件夾對應結構:
LIDC-IDRI-XXXX / Study Instance UID / Series Instance UID / *.dcm,*.xml
XXXX :從0000到1012;
Study Instance UID :每個病例對應的檢查實例號;
Series Instance UID :不同檢查對應的序列實例號;
*.dcm ,*.xml :分別對應於每一張dcm切片和xml標註文件。

圖像矩陣像素信息
模塊處理的數據爲slicer* rows* cols大小的三維矩陣D。
eg: 對於病例LIDC-IDRI-0001,即爲133*512*512的矩陣,一共133張切片,每張大小512*512,依次按順序存入二進制文件,每個像素大小爲2字節(對應short類型)。

XML標註信息說明
在這裏插入圖片描述
XML解析過程:
在這裏插入圖片描述
本文內容參考博客:LIDC-IDRI肺結節Dicom數據集解析與總結

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章