1.1可重复性研究:概念与思想
replication(复制)
也就是说replication研究会很困难,然而仍可以做小规模的replication.即reproducible research,反正就是reproducible research出现的原因
replication就是不同的研究者,不同的数据,不同的方法等等处理相同的问题,从而得出自己的结论
而replication就是不同的研究者,相同的数据,相同的代码来处理相同的问题
下面这根线是指读者的路径,上面是写文章的人的路径
反正以下的中心思想就是sweave不好用,于是大家就开始用knitr
脚本化分析
golden standard: script every thing. 只想说尼玛
老师搞了一个不错的比喻。script就像音乐家的乐谱一样,只要拿到乐谱,任何人在任何地方都可以进行演奏同样的曲子(重复性研究)。这就是script的重要性
1.2数据分析之结构
首先是大部分数据分析的主要步骤,当然可加可减,但主要就这几种罢了
也就是说,如果可以准确的定义一个问题的话,就可以把无关紧要的数据去掉,从而减少了噪音以及运算的成本啊啊
举例来说
以一个一般性的问题开头
我能自动地删除垃圾(SPAM)邮件么?
然后再使它具体化
即我能通过邮件中的关键词来把邮件定性为垃圾/有益的么?(spam/ham)
以下都是探索性分析
names(spam)
[1] "make" "address"
[3] "all" "num3d"
[5] "our" "over"
[7] "remove" "internet"
[9] "order" "mail"
[11] "receive" "will"
[13] "people" "report"
[15] "addresses" "free"
[17] "business" "email"
[19] "you" "credit"
[21] "your" "font"
[23] "num000" "money"
[25] "hp" "hpl"
[27] "george" "num650"
[29] "lab" "labs"
[31] "telnet" "num857"
[33] "data" "num415"
[35] "num85" "technology"
[37] "num1999" "parts"
[39] "pm" "direct"
[41] "cs" "meeting"
[43] "original" "project"
[45] "re" "edu"
[47] "table" "conference"
[49] "charSemicolon" "charRoundbracket"
[51] "charSquarebracket" "charExclamation"
[53] "charDollar" "charHash"
[55] "capitalAve" "capitalLong"
[57] "capitalTotal" "type"
table(trainspam$type)
nonspam spam
1381 906
好吧,来搞个图喽
上面那张图不好看的话也没什么关系,变换一下即可
用多张图来瞄起
1.3组织你的分析
好吧,组织数据分析并无固定的模板,可随个人喜欢自由决定,当然这里讲得是一些要点