關於科研數據集和源代碼

任務繁重,好久沒有來這裏了,真是愧對版主職責。

看到很多人要數據集和源代碼,這裏說幾句,

UCI數據集是一個常用的標準測試數據集,下載地址在
http://www.ics.uci.edu/~mlearn/MLRepository.html
我的主頁上也有整理好的一些UCI數據集:
http://lamda.nju.edu.cn/yuy/files/download/UCI_arff.zip

在看別人的論文時,別人使用的數據集會給出數據集的出處或下載地址(除非是很機密的數據,例如與國家安全有關)。如果你看的論文沒有給出數據集的出處,請立即停止看這篇論文,並且停止看刊發這篇論文的期刊上的所有文章。因爲可以斷定這些文章質量很差。

關於源代碼,網上有很多公開源碼的算法包,例如最爲著名的Weka,MLC++等。Weka還在不斷的更新其算法,下載地址:
http://www.cs.waikato.ac.nz/ml/weka/
很多的機器學習的經典算法都在裏面。而且公佈源程序,易於修改。

如果作者沒有公佈源程序,可以到作者主頁找找,也可以寫信給作者要,一般論文開頭都會有作者的email地址。寫信的時候要注意要很有禮貌,否則作者,尤其是著名學者,很有可能不會理睬。如果算法簡單,可以自己實現。

關於論文的下載,如果能夠訪問電子圖書館是最好的,很多學校都買了IEEE, Elsevier, Kluwer等,上面的期刊都不錯。有一些很好的期刊是免費的,像JAIR和JMLR,分別在:
http://www.cs.washington.edu/research/jair/home.html
http://www.jmlr.org/
如果能訪問的免費期刊太少,可以到CiteSeer上搜索(http://citeseer.ist.psu.edu/),上面蒐集了很多免費論文(但是要注意,論文的質量參差不齊),或者用Googlewww.google.com)搜索。

再囑咐兩點,要做研究,首先要打好基礎,例如數學基礎和程序設計能力,要學會熟練使用google等搜索引擎,還有一定要看高質量的論文。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章