可重复性研究week1

1.1可重复性研究:概念与思想

replication(复制)

也就是说replication研究会很困难,然而仍可以做小规模的replication.即reproducible research,反正就是reproducible research出现的原因

replication就是不同的研究者,不同的数据,不同的方法等等处理相同的问题,从而得出自己的结论

而replication就是不同的研究者,相同的数据,相同的代码来处理相同的问题






下面这根线是指读者的路径,上面是写文章的人的路径










反正以下的中心思想就是sweave不好用,于是大家就开始用knitr





脚本化分析

golden standard: script every thing. 只想说尼玛

老师搞了一个不错的比喻。script就像音乐家的乐谱一样,只要拿到乐谱,任何人在任何地方都可以进行演奏同样的曲子(重复性研究)。这就是script的重要性

1.2数据分析之结构

首先是大部分数据分析的主要步骤,当然可加可减,但主要就这几种罢了




也就是说,如果可以准确的定义一个问题的话,就可以把无关紧要的数据去掉,从而减少了噪音以及运算的成本啊啊

举例来说

以一个一般性的问题开头

我能自动地删除垃圾(SPAM)邮件么?

然后再使它具体化

即我能通过邮件中的关键词来把邮件定性为垃圾/有益的么?(spam/ham)








以下都是探索性分析

names(spam)
 [1] "make"              "address"          
 [3] "all"               "num3d"            
 [5] "our"               "over"             
 [7] "remove"            "internet"         
 [9] "order"             "mail"             
[11] "receive"           "will"             
[13] "people"            "report"           
[15] "addresses"         "free"             
[17] "business"          "email"            
[19] "you"               "credit"           
[21] "your"              "font"             
[23] "num000"            "money"            
[25] "hp"                "hpl"              
[27] "george"            "num650"           
[29] "lab"               "labs"             
[31] "telnet"            "num857"           
[33] "data"              "num415"           
[35] "num85"             "technology"       
[37] "num1999"           "parts"            
[39] "pm"                "direct"           
[41] "cs"                "meeting"          
[43] "original"          "project"          
[45] "re"                "edu"              
[47] "table"             "conference"       
[49] "charSemicolon"     "charRoundbracket" 
[51] "charSquarebracket" "charExclamation"  
[53] "charDollar"        "charHash"         
[55] "capitalAve"        "capitalLong"      
[57] "capitalTotal"      "type"   

table(trainspam$type)
nonspam    spam 
   1381     906 

好吧,来搞个图喽


上面那张图不好看的话也没什么关系,变换一下即可


用多张图来瞄起














1.3组织你的分析

好吧,组织数据分析并无固定的模板,可随个人喜欢自由决定,当然这里讲得是一些要点













發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章