可重复性研究week1

原創

林思

2020-06-16 07:53

1.1可重复性研究：概念与思想

replication（复制）

也就是说replication研究会很困难，然而仍可以做小规模的replication.即reproducible research,反正就是reproducible research出现的原因

replication就是不同的研究者，不同的数据，不同的方法等等处理相同的问题，从而得出自己的结论

而replication就是不同的研究者，相同的数据，相同的代码来处理相同的问题

下面这根线是指读者的路径，上面是写文章的人的路径

反正以下的中心思想就是sweave不好用，于是大家就开始用knitr

脚本化分析

golden standard: script every thing. 只想说尼玛

老师搞了一个不错的比喻。script就像音乐家的乐谱一样，只要拿到乐谱，任何人在任何地方都可以进行演奏同样的曲子（重复性研究）。这就是script的重要性

1.2数据分析之结构

首先是大部分数据分析的主要步骤，当然可加可减，但主要就这几种罢了

也就是说，如果可以准确的定义一个问题的话，就可以把无关紧要的数据去掉，从而减少了噪音以及运算的成本啊啊

举例来说

以一个一般性的问题开头

我能自动地删除垃圾（SPAM）邮件么？

然后再使它具体化

即我能通过邮件中的关键词来把邮件定性为垃圾/有益的么？（spam/ham)

以下都是探索性分析

names(spam)
[1] "make" "address"
[3] "all" "num3d"
[5] "our" "over"
[7] "remove" "internet"
[9] "order" "mail"
[11] "receive" "will"
[13] "people" "report"
[15] "addresses" "free"
[17] "business" "email"
[19] "you" "credit"
[21] "your" "font"
[23] "num000" "money"
[25] "hp" "hpl"
[27] "george" "num650"
[29] "lab" "labs"
[31] "telnet" "num857"
[33] "data" "num415"
[35] "num85" "technology"
[37] "num1999" "parts"
[39] "pm" "direct"
[41] "cs" "meeting"
[43] "original" "project"
[45] "re" "edu"
[47] "table" "conference"
[49] "charSemicolon" "charRoundbracket"
[51] "charSquarebracket" "charExclamation"
[53] "charDollar" "charHash"
[55] "capitalAve" "capitalLong"
[57] "capitalTotal" "type"