可重複性研究week1

1.1可重複性研究:概念與思想

replication(複製)

也就是說replication研究會很困難,然而仍可以做小規模的replication.即reproducible research,反正就是reproducible research出現的原因

replication就是不同的研究者,不同的數據,不同的方法等等處理相同的問題,從而得出自己的結論

而replication就是不同的研究者,相同的數據,相同的代碼來處理相同的問題






下面這根線是指讀者的路徑,上面是寫文章的人的路徑










反正以下的中心思想就是sweave不好用,於是大家就開始用knitr





腳本化分析

golden standard: script every thing. 只想說尼瑪

老師搞了一個不錯的比喻。script就像音樂家的樂譜一樣,只要拿到樂譜,任何人在任何地方都可以進行演奏同樣的曲子(重複性研究)。這就是script的重要性

1.2數據分析之結構

首先是大部分數據分析的主要步驟,當然可加可減,但主要就這幾種罷了




也就是說,如果可以準確的定義一個問題的話,就可以把無關緊要的數據去掉,從而減少了噪音以及運算的成本啊啊

舉例來說

以一個一般性的問題開頭

我能自動地刪除垃圾(SPAM)郵件麼?

然後再使它具體化

即我能通過郵件中的關鍵詞來把郵件定性爲垃圾/有益的麼?(spam/ham)








以下都是探索性分析

names(spam)
 [1] "make"              "address"          
 [3] "all"               "num3d"            
 [5] "our"               "over"             
 [7] "remove"            "internet"         
 [9] "order"             "mail"             
[11] "receive"           "will"             
[13] "people"            "report"           
[15] "addresses"         "free"             
[17] "business"          "email"            
[19] "you"               "credit"           
[21] "your"              "font"             
[23] "num000"            "money"            
[25] "hp"                "hpl"              
[27] "george"            "num650"           
[29] "lab"               "labs"             
[31] "telnet"            "num857"           
[33] "data"              "num415"           
[35] "num85"             "technology"       
[37] "num1999"           "parts"            
[39] "pm"                "direct"           
[41] "cs"                "meeting"          
[43] "original"          "project"          
[45] "re"                "edu"              
[47] "table"             "conference"       
[49] "charSemicolon"     "charRoundbracket" 
[51] "charSquarebracket" "charExclamation"  
[53] "charDollar"        "charHash"         
[55] "capitalAve"        "capitalLong"      
[57] "capitalTotal"      "type"   

table(trainspam$type)
nonspam    spam 
   1381     906 

好吧,來搞個圖嘍


上面那張圖不好看的話也沒什麼關係,變換一下即可


用多張圖來瞄起














1.3組織你的分析

好吧,組織數據分析並無固定的模板,可隨個人喜歡自由決定,當然這裏講得是一些要點













發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章