原创 (過擬合及其防治)Overfitting and Its Avoidance
主要內容: Overfitting(問題)判斷和防止overfitting 的方式 —————————————————————————————————— 過度擬合的模型往往不能進行一般化推廣(generalization)
原创 SQL 基礎
SQL 常用代碼 • SQL is a programming language designed to manipulate and manage data stored in relational databases. • A
原创 (六)假設檢驗
---------------------------------------------------------------------------------------------------------------------
原创 (相似度、鄰近及聚類)Similarity, Neighbors, and Clusters
主要內容: 相似度(Similarity) (can be used for classification and regression) 距離函數(Distance Function) Nearest - Neighbor Hierar
原创 人類社交模擬(python實現)
基本理論 每個個體看作一個點(暫時用二維的點)【多維情況下,每一個維度都可以是對個人某一屬性的描述】 點的走向作爲個人的發展情況 社會初期隨機發展,一定時間後個人發展受朋友影響 前一次的點與後一次的點構成一個線段 在某一時間內,人A
原创 Math Block for Markdown [For Typora]
Math Block for Markdown Code:[Inline Math Formula] This formula $f(x)=x_{1}^{2}+x_{2}^{2}$is an inline formula preview:
原创 CS109 Lecture 5
CS109 Lecture 5 Multi-Dimensional Data Visualization Scatterplot Matrices Parallel Coordinates / Flexible Linked Axes
原创 [Enthought Traning] Scientific Computing in Python
[建議打開目錄查看] Enthought Traning Scientific Computing Data Interpolation Normal Interpolation # Data: x y from scipy.inte
原创 數據競賽思路分享:機場客流量的時空分佈預測
歷時兩個月的比賽終於結束了,最終以第32名的成績告終,在此和大家分享下解決問題的思路。 從初賽到複賽,有走過彎路,也有突然靈光一現的時刻。一路走來,對數據各種把玩,分析了各種可能的情況,儘可能得挖掘數據中潛在的信息來構建更爲準確的模
原创 第四章 決策樹
第四章 決策樹 基本思想 決策樹是基於樹結構來進行決策的,這正是人類在面臨決策問題時一種很自然的處理機制 一般的,一顆決策樹包含一個根節點、若干個內部節點和若干個葉節點;葉節點對應於決策結果,其他的每個節點則對應於一個屬性測試;每個節點包
原创 第五章 神經網絡
第五章 神經網絡 神經元模型 神經網絡是由具有適應性的簡單單元組成的廣泛並行互連的網絡,它的組織能夠模擬生物神經系統對真實世界物體所作出的交互反應 M-P神經元模型思路 將生物神經網絡中的神經元抽象後得到經典的“M-P神經元模型”。在這個
原创 CS109 Lecture 4
CS109 Lecture 4 Visualization Goals Communicate (Explanatory) Present data and ideas Explain and inform Provide eviden
原创 第二章 模型評估與選擇
第二章 模型評估與選擇 模型評估方法 1. 留出法(hold-out) 方法:直接將數據集D劃分爲兩個互斥的集合,訓練集合S和測試集合T,在S上訓練模型,用T來評估其測試誤差 注意:訓練/測試集的劃分要儘可能保持數據分佈的一致性,避免因爲
原创 Time Serise Analysis[Using R]
Time Serise Analysis[Using R] [近期需要用到時間序列分析,順便整理下筆記以供日後參考] 時間序列分析基本流程 時間序列分析在R中的實戰分析 #### 導入數據 # Get Work Director