2020年因疫情在家科研

事情還要從上週說起, 因爲疫情的原因, 不得不在家科研.說起在家科研,效率低不說,真的是各種不便捷. 首先, 因爲去年在外面實習, 我在實驗室的電腦就被師弟徵用了. 所以我只能遠程(Teamview)連接服務器進行實驗. 我要下一個220G的數據集, 因爲數據集的網址要翻牆, 實驗室服務器下載速度大概只有幾十kb/s這我得下幾個月啊. 於是乎, 我就去找啊找啊,找到了一個公衆號發佈的該數據的網盤下載鏈接. 爲了下載這個數據我特意買了百度網盤的超級會員. (還好去年實習攢了點錢~哈哈哈 其實會員也就12塊). 我最開始想直接在服務器上用百度網盤下載的, 奈何服務器是16.04的系統, 安裝的百度網盤的deb文件始終無法正常啓動軟件(看到多數是說不支持16.04的系統, 只對18的系統支持). 那好吧, 又"託關係"(才一年不在實驗室,我"大師姐"的地位就不復存在了) 借了師妹的電腦來用. 用了一星期的時間終於把數據下載傳到了服務器(百度網盤SVIP的下載速度在我家的網速下是10M/s,奈何實驗室的網速太太慢,用ftp傳輸到服務器只有1M/s). 下載下來的是56個壓縮文件, 我發現其中有一個可以直接解壓的後綴是.zip文件,而其餘的55個都是.zip.0*(*爲對應編號)是無法直接解壓的. 那我就想是不是要把這些合併成一個壓縮文件,然後再去解壓. 這麼操作完之後, 確實是可以解壓的. 但解壓出來的文件夾個數和官網給的csv文件裏面對照發現少了14個文件夾的Image.問題出在哪一步呢. 我又去重新瀏覽了百度網盤的文件. 發現那個17編號可以直接解壓的zip是19年11月上傳,而其餘的文件是18年5月. 我就去對比了一下這些文件的md5sum(可根據文件的內容計算文件的指紋密碼,只要內容沒變,指紋就是唯一的)和官方給的相比,只有17是和官網一致,而其餘都不一樣. 到這個時候, 我目測事情是這樣的: 這個作者(網盤鏈接的上傳者)一開始從官網下載了全部的數據(56個zip), 然後將數據重新打包壓縮成了56個子文件(所有子文件的md5sum和官網給的相應的已經發生了改變),上傳至百度網盤, 但是漏了一個17. 後面到19年估計有人用這個下載鏈接下載的時候發現少了一個17,然後作者直接從官網下載了第17個文件. 這就導致爲啥會出現我一開始的問題. 真是坑...關鍵, 我發現這個問題後, 第一時間反應給了該公衆號的工作人員, 卻沒有收到任何回覆. 如果你也打算從某CV公衆號提供的網盤鏈接下載DeepLesion醫學圖像數據集. 希望在你下載之前看到了這篇博文~

 

uploading.4e448015.gif正在上傳…重新上傳取消

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章