数据科学工具箱week3笔记

3.1 问题的类型

困难可能的次序

描述性——探索性——推理——预测——因果——机理







3.2 what is data

 Definiton of   Data

Data are values of qualitative or quantitative  variables ,belonging to a set of items.

数据可以是任何东东,有一个不错的数据网站,http://www.data.gov/


还是那句老话,光有数据不行,问题才是最重要的。就像做菜一样,菜往往都是现成的,做什么才重要。

3.3 big data

 大数据,是个人都知道。

此处老师提了个不错的主意,数据量大不如数据right(针对answer而言)

类似于hadoop这种工具,在大大数据上会非常有效,但在应付中小数据的时候,可能我们的传统数据处理办法会更有效一些,毕竟我们长久以来都一直从事中小数据的分析。嘛。用hadoop来处理社交网络数据这种大型数据集才是不错的选择。

数据量大,不一定代表有意义的数据多,从数据意义的角度出发,可能有些大数据只是小数据。

答案可能并没有被包含于数据中,拥有一些数据和对答案的强烈渴求并不能保证,可以从给定的数据中得出一个合理的答案。当然,老师加了一句

no matter how big the data are

3.4 实验设计

简而言之:实验设计很重要

当你想分享你的数据或相关经验的时候,github很不错,但只能同一部分人分享,另一个网站figshare则可以同更多的人分享(但好像上不去呢)

据说github中的jtleek/datasharing有个社区搞datasharing

如下,是一个例子,是讲奥马竞选的事情






以下是预测个性化药物的一个例子


又是那些指标,哎,看得不行了,见多了要吐了


数据分析中,有几个注意点

1.相关性不一定暗含因果,如上图例子中巧克力消费量与国家诺贝尔奖获得数量之间的看似的线性关系,其实得奖数量有可能与国家教育程度,经济状况,文化程度有关

2.即 data dredging

通常作为与数据仓库和分析相关的技术,数据挖掘处于它们的中间。然而,有时还会出现十分可笑的应用,例如发掘出不存在但看起来振奋人心的模式(特别的因果关系),这些根本不相关的、甚至引人误入歧途的、或是毫无价值的关系,在统计学文献里通常被戏称为“数据捕捞”(Data dredgingdata fishing, or data snooping)——此段来自于维基百科


所以总结一下,好的实验要有重现性,以度量方差,将之与显著性相比

好的实验在数据及方法上都不惧透明公开

预测并非推理,但两者同样重要


发布了31 篇原创文章 · 获赞 1 · 访问量 3万+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章