3.1 問題的類型
困難可能的次序
描述性——探索性——推理——預測——因果——機理
3.2 what is data
Definiton of Data
Data are values of qualitative or quantitative variables ,belonging to a set of items.
數據可以是任何東東,有一個不錯的數據網站,http://www.data.gov/
還是那句老話,光有數據不行,問題纔是最重要的。就像做菜一樣,菜往往都是現成的,做什麼才重要。
3.3 big data
大數據,是個人都知道。
此處老師提了個不錯的主意,數據量大不如數據right(針對answer而言)
類似於hadoop這種工具,在大大數據上會非常有效,但在應付中小數據的時候,可能我們的傳統數據處理辦法會更有效一些,畢竟我們長久以來都一直從事中小數據的分析。嘛。用hadoop來處理社交網絡數據這種大型數據集纔是不錯的選擇。
數據量大,不一定代表有意義的數據多,從數據意義的角度出發,可能有些大數據只是小數據。
答案可能並沒有被包含於數據中,擁有一些數據和對答案的強烈渴求並不能保證,可以從給定的數據中得出一個合理的答案。當然,老師加了一句
no matter how big the data are
3.4 實驗設計
簡而言之:實驗設計很重要
當你想分享你的數據或相關經驗的時候,github很不錯,但只能同一部分人分享,另一個網站figshare則可以同更多的人分享(但好像上不去呢)
據說github中的jtleek/datasharing有個社區搞datasharing
如下,是一個例子,是講奧馬競選的事情
以下是預測個性化藥物的一個例子
又是那些指標,哎,看得不行了,見多了要吐了
數據分析中,有幾個注意點
1.相關性不一定暗含因果,如上圖例子中巧克力消費量與國家諾貝爾獎獲得數量之間的看似的線性關係,其實得獎數量有可能與國家教育程度,經濟狀況,文化程度有關
2.即 data dredging
通常作爲與數據倉庫和分析相關的技術,數據挖掘處於它們的中間。然而,有時還會出現十分可笑的應用,例如發掘出不存在但看起來振奮人心的模式(特別的因果關係),這些根本不相關的、甚至引人誤入歧途的、或是毫無價值的關係,在統計學文獻裏通常被戲稱爲“數據捕撈”(Data
dredging, data fishing, or data snooping)——此段來自於維基百科
所以總結一下,好的實驗要有重現性,以度量方差,將之與顯著性相比
好的實驗在數據及方法上都不懼透明公開
預測並非推理,但兩者同樣重要