原创 深入淺出SQL(三)——表的規範化

原子性:對數據具有原子性,就表示它已經被分割至最小塊,已經不能或不應該再被分割。 原子性數據規則: 規則1:具有原子性數據的列中不會有多個類型相同的值 如一種食物的成分列,若”成分“列中有多種成分,如何方便查找。 規則2:具有原子性數據

原创 分類算法——決策樹(1)

決策樹歸納是從類標記的訓練元組學習決策樹。決策樹是一種類似於流程圖的結構,其中,每個內部節點(非樹葉節點)表示在一個屬性上的測試,每個分枝代表一個測試輸出,而每個樹葉節點(或終節點)存放一個類標號。樹的最頂層節點是根節點,一顆典型的決

原创 分類算法——決策樹算法及其R實現

決策樹定義 以鳶尾花爲例子來說明:   觀察上圖,判決鳶尾花的思考過程可以這麼來描述:花瓣的長度小於2.4cm的是setosa(圖中綠色的分類),長度大於2.4cm的呢?可以通過寬度來判別,寬度小於1.8cm的是versicol

原创 第五章 隨機事件及其概率

1 隨機事件及其概率 試驗、事件 隨機事件(偶然事件)、必然事件、不可能事件 概率 2 概率的性質與運算法則 互斥事件:事件A和時間B不可能同時發生,P(A∪B)=P(A)+P(B)  乘法公式:P(AB)=P(B)P(A|B

原创 R語言quantstrat包

在引入blotter包之後,一個完整的交易系統就已經可以建立起來了。但是作爲盈利的基礎,基於quantmod和TTR雖然具有了必要的建模工具,我們依然希望能夠有更加靈活易用的交易建模方法。這就是quantstrat包的目標。 (1)

原创 從qplot開始入門

本文使用的數據集爲ggplot2包自帶的diamonds數據集,其包含了約54000顆鑽石的價格和質量的信息。這組數據涵蓋了反映鑽石質量的四個“C”——克拉重量(carat)、切工(cut)、顏色(color)和淨度(clarity),

原创 第四章 數據的概括性度量

1 集中趨勢的度量 分類數據:衆數 順序數據:中位數和分位數 分位數:上四分位數(Ql)、下四分位數(Qu) Ql位置=n/4,Qu位置=3n/4 如果位置是整數,四分位數就是在該位置對應的值;如果是在0.5的位置上,則取

原创 1 時間序列基本概念

1 時間序列與隨機過程 隨機變量序列Y t :t=0,±1,±2,±3,...  稱爲一個隨機過程,並以之作爲觀測時間序列的模型。 2 均值、方差和協方差 對隨機過程Y t :t=0,±1,±2,±3,...  ,均值函數定義如下

原创 深入淺出SQL(2)——select、update…

select語句 where 列名='值'(文本型需加單引號,數字不需要)插入(查詢)數據本身含有單引號'時(1)添加反斜槓\   (2)添加另一個單引號' 例: select * from my_contacts where loca

原创 分類算法——K近鄰算法及其R實現

原理:已知樣本集中每一個數據與所屬分類的對應關係,輸入沒有標籤的新數據後,將新數據與訓練集的數據對應特徵進行比較,找出“距離”最近的k(通常k<20)數據,選擇這k個數據中出現最多的分類作爲新數據的分類。 算法描述:(1)計算已知類別數

原创 最小二乘(OLS)迴歸法及其在R中的…

迴歸分析指用一個或多個預測變量(也稱自變量或解釋變量)來預測響應變量(也稱因變量、效標變量或結果變量)的方法。 迴歸包括簡單線性、多項式、多元線性、多變量、Logistic迴歸、泊松、時間序列、非線性、非參數、穩健、Cox比例風險迴歸等

原创 機器學習基礎概念

1.基礎概念: (1) 10折交叉驗證:英文名是10-fold cross-validation,用來測試算法的準確性。是常用的測試方法。將數據集分成10份。輪流將其中的9份作爲訓練數據,1分作爲測試數據,進行試驗。每次試驗都會得出相應

原创 第一章 統計學概論

1 統計及其應用領域 數據分析所用方法可分爲描述統計方法和推斷統計方法。 描述統計:研究數據收集、處理、彙總、圖標描述、概括與分析等統計方法 推斷統計:研究如何利用樣本數據來推斷總體特徵的統計方法 2 統計數據的類型 按照所採

原创 第二章 數據的收集

1 數據的來源 數據的間接來源:二手資料 數據的直接來源 2 調查數據 數據採樣階段:如何抽選出一個好的樣本 使用抽樣的方式採集數據的具體方式有很多種,可以分爲兩類:概率抽樣和非概率抽樣 概率抽樣:也稱隨機抽樣。主要包括簡單

原创 主成分分析和因子分析及其在R中的…

1  主成分分析和因子分析比較 主成分分析和探索性因子分析是兩種用來探索和簡化多變量複雜關係的常用方法,它們之間有聯繫也有區別。 主成分分析(PCA)是一種數據降維方法,它能將大量相關變量轉化爲一組很少的不相關變量,這些無關變量稱爲