原创 第三章 數據的圖形展示

1 數據的預處理 數據審覈:檢查數據中是否有錯誤,主要從完整性和準確性兩個方面。對二手數據,則着重適用性和時效性。 數據篩選:根據需要找出符合特定條件的某類數據。 數據排序:按一定順序將數據排列 數據透視表 2 品質數據的整

原创 多張表的數據庫設計

模式(SCHEMA)是對數據庫內的數據描述(列和表),以及任何相關對象和各種連接方式的描述。 1 外鍵 外鍵是表中的某一列,它引用用另一個表的主鍵 關於外鍵: (1)外鍵可能與它引用的主鍵名稱不同 (2)外鍵使用的主鍵也稱爲

原创 2 趨勢

一般時間序列的均值函數是完全任意的時間函數,平穩時間序列的均值函數是一定時域上的常數。 1 確定性趨勢與隨機趨勢 下文考慮確定趨勢的建模方法 2 常數均值的估計 假設均值函數是常數,模型可以寫爲 Y t =μ+X t   其中

原创 深入淺出SQL(1)

創建數據庫 create database gregs_list; 告訴RDBMS使用哪個數據庫 use gregs_list; 創建簡單的表 create table doughnut_list ( dougnut_name v

原创 第十章 方差分析

從形式上看,方差分析是比較多個總體的均值是否相等,但從本質上它所研究的是變量之間的關係。在研究一個(或多個)分類型自變量與一個數值型因變量之間的關係時,方差分析就是其中的主要方法之一。 1 方差分析引論 隨着增加個體顯著性檢驗的次數,偶然

原创 各種分類算法比較

1 KNN算法 原理:已知樣本集中每一個數據與所屬分類的對應關係,輸入沒有標籤的新數據後,將新數據與訓練集的數據對應特徵進行比較,找出“距離”最近的k(通常k<20)數據,選擇這k個數據中出現最多的分類作爲新數據的分類。 算法描述:

原创 第九章 列聯分析

列聯分析主要用於分類數據的分析 1 分類數據與列聯表 1 分類數據 如:完整家庭/離異家庭、一等品/二等品、三等品…… 2 列聯表的構造 列聯表是由兩個以上的變量進行交叉分類的頻數分佈表。 3 列聯表的分佈 列聯表的分佈可以從兩個方便來看

原创 第八章 假設檢驗

參數估計:是用樣本統計量估計總體參數的方法,總體參數μ在估計前是未知的 假設檢驗:先對μ  的值提出一個假設,然後利用樣本信息去檢驗這個假設是否成立 1 假設檢驗的基本問題 1 假設的表達式 原假設H0 備選假設H1 2 兩類錯誤 第

原创 第十二章 多元線性迴歸

1 多元線性迴歸模型 1 多元迴歸模型與迴歸方程 多元迴歸模型: y=β 0 +β 1 x 1 +β 2 x 2 +...+β k x k +ε  多元迴歸方程: E(y)=β 0 +β 1 x 1 +β 2 x 2 +...+β 

原创 日期函數

1 日期與時間 在excel中整數代表天,日期和時間要進行運算必須單位相同 例1:由開始時間、分鐘,求結束時間 如:開始時間9:00,在D4單元格 分鐘爲90,在E4單元格 結束時間爲10:30 函

原创 外聯接、自聯接與聯合

1 外聯接 1 左外聯接 left outer join 外聯接與內聯接的區別: 外聯接一定會提供數據行,無論改行是能否在另一個表中找出相匹配的行。 左外聯接的結果集中的NULL表示右集中沒有找到與左表相符的記錄;相同,在匹配時多條

原创 誰說菜鳥不會數據分析

1 數據分析那些事兒 數據分析可以分爲描述性數據分析、探索性數據分析、驗證性數據分析。描述性數據分析屬於初級數據分析,常用方法有對比分析法、平均分析法、交叉分析法等。探索性數據分析以及驗證性數據分析屬於高級數據分析,常見分析方法有相關分析

原创 數組和lookup函數

1 回顧統計函數 sumif函數 sumifs函數 多條件求和 excel 2003沒有sumifs,那麼要實現多條件求和則可以利用數組 2 認識數組 通俗含義:令一個區域的值等於某一個單元格值 例:利用數組實現多條件求和 =SU

原创 基本數學函數

1 基本函數 round(number,num_digits) 四捨五入 roundup(number,num_digits) 直接進位 rounddown(number,num_digits) 直接捨棄 int(number) 直

原创 第十三章 時間序列分析和預測

時間序列的關鍵是確定出已有的時間序列的變化模式,並假定這種模式會延續到未來。 時間序列分析就其發展的歷史階段和所使用的統計分析方法來看,有傳統的時間序列分析和現代時間序列分析。下文主要介紹傳統的時間序列的分析方法,內容包括時間序列數據的