1.1可重複性研究:概念與思想
replication(複製)
也就是說replication研究會很困難,然而仍可以做小規模的replication.即reproducible research,反正就是reproducible research出現的原因
replication就是不同的研究者,不同的數據,不同的方法等等處理相同的問題,從而得出自己的結論
而replication就是不同的研究者,相同的數據,相同的代碼來處理相同的問題
下面這根線是指讀者的路徑,上面是寫文章的人的路徑
反正以下的中心思想就是sweave不好用,於是大家就開始用knitr
腳本化分析
golden standard: script every thing. 只想說尼瑪
老師搞了一個不錯的比喻。script就像音樂家的樂譜一樣,只要拿到樂譜,任何人在任何地方都可以進行演奏同樣的曲子(重複性研究)。這就是script的重要性
1.2數據分析之結構
首先是大部分數據分析的主要步驟,當然可加可減,但主要就這幾種罷了
也就是說,如果可以準確的定義一個問題的話,就可以把無關緊要的數據去掉,從而減少了噪音以及運算的成本啊啊
舉例來說
以一個一般性的問題開頭
我能自動地刪除垃圾(SPAM)郵件麼?
然後再使它具體化
即我能通過郵件中的關鍵詞來把郵件定性爲垃圾/有益的麼?(spam/ham)
以下都是探索性分析
names(spam)
[1] "make" "address"
[3] "all" "num3d"
[5] "our" "over"
[7] "remove" "internet"
[9] "order" "mail"
[11] "receive" "will"
[13] "people" "report"
[15] "addresses" "free"
[17] "business" "email"
[19] "you" "credit"
[21] "your" "font"
[23] "num000" "money"
[25] "hp" "hpl"
[27] "george" "num650"
[29] "lab" "labs"
[31] "telnet" "num857"
[33] "data" "num415"
[35] "num85" "technology"
[37] "num1999" "parts"
[39] "pm" "direct"
[41] "cs" "meeting"
[43] "original" "project"
[45] "re" "edu"
[47] "table" "conference"
[49] "charSemicolon" "charRoundbracket"
[51] "charSquarebracket" "charExclamation"
[53] "charDollar" "charHash"
[55] "capitalAve" "capitalLong"
[57] "capitalTotal" "type"
table(trainspam$type)
nonspam spam
1381 906
好吧,來搞個圖嘍
上面那張圖不好看的話也沒什麼關係,變換一下即可
用多張圖來瞄起
1.3組織你的分析
好吧,組織數據分析並無固定的模板,可隨個人喜歡自由決定,當然這裏講得是一些要點