nature試運行生信類文章審稿和發表新策略(2018年8月)

原創 montreal 生信人 2018-08-18

不知道大家對於生物信息學論文裏代碼的可重複性和正確性有過怎樣的擔憂?有沒有對文章天花亂墜的結果表示過疑慮?又是否遇到過生信軟件在使用時與其描述相去甚遠的情況?

日前,爲了解決以上這些問題,Nature集團宣佈自8月開始,聯手code ocean,在其旗下的三大子刊Nature Methods, Nature Biotechnology and Nature Machine Intelligence中試運行一項新的針對於生物信息學、計算機科學等領域審稿和文章發表的策略——在文中提供可運行的、有完整功能的程序(fully-functional and executable code accompanying their articles)。

此舉的目的有三點,即方便其他人:

1. re-run the analyses

2. reproduce the results

3. re-use the code and data to build on the work

其實,這不是Nature第一次在數據和代碼透明度方面給作者施壓了。原文中寫到(1),自2014年開始,Nature集團就要求在其旗下雜誌發表文章的作者,如果有對於文章結論關鍵的代碼或者算法,在文中需提供一個被稱爲“Code Availability”的聲明。該聲明裏,作者須註明能否以及如何取得這些代碼或算法相關的code。2016年,Nature集團進一步加強了對於原始數據共享的要求,要求其旗下雜誌刊載的所有文章都要加入data availability statements這一個部分。其實,不僅是nature,很多雜誌社都有諸如此類的規定。

說實話,小編當年曾飽受該要求之苦。當時小編的一篇manuscript已被接受,在page proof階段編輯要求在文中提供原始數據和代碼信息以供有需要的讀者進行查閱。於是小編就寫上raw data and codes are available on request。結果被編輯告知必需提供相關鏈接。於是小編就將全部程序上傳到了實驗室的網站上。誰知這一次還是不行,理由是最好要上傳到使用較爲廣泛的專用數據庫。

小編當時對於類似的raw data數據庫完全不瞭解,便翻看雜誌上其他文章。恰好該雜誌剛剛online的一篇文章中寫到將部分data存到了一個叫作Dryad的數據庫內。小編即刻就將需要的材料上傳到Dryad裏面。不料到了最後一步發現上傳資料到該數據庫需要繳納相關費用。這時小編髮現了Dryad有一個“發展中國家”waiver的選項,也就是說如果資料上傳者來自“發展中國家”,則可以豁免上傳所需的手續費。然而小編找了半天也沒在列表裏搜到CHINA,才知道我們國家,至少在Dryad那裏,已摘掉了”發展中國家”的帽子。無奈之下小編只好求助老闆解決這筆小額開銷。而老闆難爲情地告訴小編實驗室囊中羞澀,但還是十分有堅定地說“資源肯定有,你自己找找吧”。其實,他說得對。類似的數據庫有不少,其中不乏不收取上傳費用的,只不過小編當時要文章心切,沒有認真搜索。經過一番波折之後,小編將要求的數據提交到figshare,也終於通過了編輯苛刻的“數據公開”審覈。

當然,即使nature集團對數據共享有如此嚴苛的規定,對其旗下雜誌那麼多文章的管理也難以面面俱到。就在幾天前,一位國外學者在社交媒體上聲稱自己在向一篇刊發在某nature子刊的文章作者索取原始測序數據時遭拒,原作者表示:該部分數據在另一個項目和paper中另有重用,所以暫時不方便公開。在科學家們的幫助下,該訊息在短短兩天內已收穫39次轉發,此外還有9個回帖,基本都表示了對其的支持。有趣的是,回帖中還包括nature集團的編輯,看來這件事有望迅速解決,在此不得不感慨社交網絡的威力。

那麼nature這次試運行的互動式發表是通過什麼平臺得以實現的呢?答案就是code ocean。


Code ocean是一個基於Docker的致力於推進計算可重複性的平臺。它可以提供使用者以數據儲存的空間,適合代碼運行的環境,從而使得用戶可以輕鬆地在雲平臺上運行代碼。如此一來,大家對文章描述如果有任何問題,在code ocean上一試便知,相信生信文章的審稿和閱讀都會有全新的體驗吧。

小編從未有在code ocean上運行代碼的經歷。不過,著名生物信息學家、BWA和Samtools的開發者李恆,日前對nature集團的這一舉動公開表達了自己的看法。在推中,李恆雖然支持主體思路,但對code ocean能否達成其目標表示擔憂,理由是due to severely limited functionality,並提議bioconda作爲a much better solution。

BTW:李恆可能將於近期離開Broad institute並在同處大波士頓區的Dana-Farber Cancer Institute組建自己的實驗室,現正招兵買馬中。

值得注意的是,目前該項活動處在試運行階段,而且爲用戶可選的。也就是水,作者可根據實際情況選擇是否進行該操作。如果選擇使用code ocean的互動模式,審稿人原則上會有每月100個小時(默認值)用以運行代碼和程序(1)。此外,如果文章接受,相關資料會以DOI(digital object identifier)的形式在文中被引用。

對於nature這項舉措,你是否支持在其他雜誌的生信類文章中推廣呢?對採用的平臺有什麼好的建議?對這種模式又有哪些擔憂呢?

 引文

1. Mark Staniland, Nature Research journals trial new tools to enhance code peer review and publication, http://blogs.nature.com/ofschemesandmemes/2018/08/01/nature-research-journals-trial-new-tools-to-enhance-code-peer-review-and-publication

作者原創,原載於生信人公衆號

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章