可重複性研究week1

原創

林思

2020-06-16 07:53

1.1可重複性研究：概念與思想

replication（複製）

也就是說replication研究會很困難，然而仍可以做小規模的replication.即reproducible research,反正就是reproducible research出現的原因

replication就是不同的研究者，不同的數據，不同的方法等等處理相同的問題，從而得出自己的結論

而replication就是不同的研究者，相同的數據，相同的代碼來處理相同的問題

下面這根線是指讀者的路徑，上面是寫文章的人的路徑

反正以下的中心思想就是sweave不好用，於是大家就開始用knitr

腳本化分析

golden standard: script every thing. 只想說尼瑪

老師搞了一個不錯的比喻。script就像音樂家的樂譜一樣，只要拿到樂譜，任何人在任何地方都可以進行演奏同樣的曲子（重複性研究）。這就是script的重要性

1.2數據分析之結構

首先是大部分數據分析的主要步驟，當然可加可減，但主要就這幾種罷了

也就是說，如果可以準確的定義一個問題的話，就可以把無關緊要的數據去掉，從而減少了噪音以及運算的成本啊啊

舉例來說

以一個一般性的問題開頭

我能自動地刪除垃圾（SPAM）郵件麼？

然後再使它具體化

即我能通過郵件中的關鍵詞來把郵件定性爲垃圾/有益的麼？（spam/ham)

以下都是探索性分析

names(spam)
[1] "make" "address"
[3] "all" "num3d"
[5] "our" "over"
[7] "remove" "internet"
[9] "order" "mail"
[11] "receive" "will"
[13] "people" "report"
[15] "addresses" "free"
[17] "business" "email"
[19] "you" "credit"
[21] "your" "font"
[23] "num000" "money"
[25] "hp" "hpl"
[27] "george" "num650"
[29] "lab" "labs"
[31] "telnet" "num857"
[33] "data" "num415"
[35] "num85" "technology"
[37] "num1999" "parts"
[39] "pm" "direct"
[41] "cs" "meeting"
[43] "original" "project"
[45] "re" "edu"
[47] "table" "conference"
[49] "charSemicolon" "charRoundbracket"
[51] "charSquarebracket" "charExclamation"
[53] "charDollar" "charHash"
[55] "capitalAve" "capitalLong"
[57] "capitalTotal" "type"