原创 分類數據分析

卡方檢驗的應用主要表現在兩個方面:擬合優度檢驗和獨立性檢驗。 列聯表是進行獨立性檢驗的重要工具。 統計數據的類型分別有:分類數據、順序數據、數值型數據。 分類數據是對事物進行分類的結果,其特徵是,調查結果雖然用數值表示,但不同數值描述調查

原创 統計量&抽樣分佈

(1) 常用統計量 樣本均值 樣本標準差 樣本方差 樣本偏度 樣本峯度 (2) 分佈 統計推斷三大中心內容:抽樣分佈、參數估計、假設檢驗 統計三大分佈: 在正態總體條件下, X平方(X^2)分佈【Chi-square distributi

原创 python 實現假設檢驗

(1) 兩個總體均值之差檢驗 以下爲樣本量小,兩個總體方差未知,同時兩個總體方差不相等,因此採用T分佈,其自由度爲f import numpy as np import pandas as pd from scipy.stats im

原创 python 實現抽樣分佈(T分佈、F分佈、卡方分佈)

標準正態分佈 T分佈 F分佈 卡方分佈

原创 python 實現統計分佈

泊松分佈(poission distribution) 公式: 式中,λ 爲給定時間間隔內事件的平均數。 python 繪製泊松分佈圖 =================================================

原创 python 實現時間序列(趨勢型序列預測)

本篇文章只要是通過例子實踐來簡單瞭解含有趨勢成分的時間序列的預測方法。 時間序列的趨勢可以分爲線性趨勢和非線性趨勢兩大類,倘若這種趨勢能夠延續到未來,就可以利用趨勢進行外推預測。 有趨勢序列的預測方法主要有線性趨勢預測、非線性趨勢預測和自

原创 時間序列分析和預測

先來了解一下,什麼是時間序列?爲什麼會存在時間序列分析?時間序列的作用是什麼?時間序列分析方法有哪些? 時間序列,顧名思義,是一組有時間意義的數據序列,它的真正含義是指同一現象在不同時間的相繼觀察值排列而成的序列。是用於描述現象隨時間發展

原创 python 實現參數估計--置信區間

(1)py實現一個總體均值的置信區間 def mean_interval(mean=None, std=None, sig=None, n=None, confidence=0.95): """ mean:樣本均值

原创 數據的圖表展示

1、數據預處理:數據審覈、篩選、排序 在做數據處理時,有以下幾個步驟需要遵循的: 查看數據量大小; 查看數據類型,每種數據類型量有多少,比如數值型、類別型等 查看數據行列缺失情況,缺失值量有多少,是否剔除記錄、剔除列,或者是否有滿足填充值

原创 參數估計

參數估計(parameter estimation):用樣本統計量去估計總體的參數。【用樣本估計量θ ̂作爲總體參數θ】 估計量:在參數估計中,用來估計總體參數的統計量稱爲估計量(estimator)。               如樣本

原创 python 實現無重複雙因素方差分析(2)

案例: 分析品牌和地區對銷售量是否有顯著影響() 提出假設: 爲了檢驗兩個因素的影響,需要對兩個因素分別提出如下假設。 對行因素提出的假設爲: 由於變量品牌有4個水平,分別是品牌1、品牌2、品牌3和品牌4,那麼爲了檢驗這4個水平(每個水

原创 python 實現可重複雙因素方差分析(3)

案例: 一家超市連鎖店進行一項研究,以確定超市所在的位置和競爭者的數量對其銷售額是否有顯著影響。 取顯著性水平, 檢驗: (1)競爭者的數量對銷售額是否有顯著影響。 (2)超市的位置對銷售額是否顯著影響。 (3)競爭者的數量和超市的位置對

原创 sas 分析分類數據(1)

本篇主要通過案例分析, 瞭解和掌握sas的一些基礎知識。 基礎知識點有: 目錄 創建sas數據集 瞭解proc mean & proc freq 過程步 給變量添標籤 給變量值添加標籤 重編碼數據 用輸出格式重編碼變量 創建sas數據集

原创 描述統計

基本統計數據概念 統計數據基本分爲3大類,分別如下 分類數據(categorical data) 順序數據(rank data) 數值型數據(metric data) 分類數據:是隻能歸於某一類別的非數字型數據,它是對事物進行分類的結果,

原创 迴歸分析-常用統計量含義解析

線性迴歸模型預測好壞,評判標準主要觀察迴歸直線與各觀測點的接近程度(即直線的擬合優度)。但是如何量化它們之間的接近程度呢?可使用以下常用統計量進行衡量。各統計量分解如下: SST總平方和                  SSR迴歸平方和