原创 (過擬合及其防治)Overfitting and Its Avoidance

主要內容: Overfitting(問題)判斷和防止overfitting 的方式 ——————————————————————————————————   過度擬合的模型往往不能進行一般化推廣(generalization)

原创 SQL 基礎

SQL 常用代碼 • SQL is a programming language designed to manipulate and manage data stored in relational databases. • A

原创 (六)假設檢驗

---------------------------------------------------------------------------------------------------------------------

原创 (相似度、鄰近及聚類)Similarity, Neighbors, and Clusters

主要內容: 相似度(Similarity) (can be used for classification and regression) 距離函數(Distance Function) Nearest - Neighbor Hierar

原创 人類社交模擬(python實現)

基本理論 每個個體看作一個點(暫時用二維的點)【多維情況下,每一個維度都可以是對個人某一屬性的描述】 點的走向作爲個人的發展情況 社會初期隨機發展,一定時間後個人發展受朋友影響 前一次的點與後一次的點構成一個線段 在某一時間內,人A

原创 Math Block for Markdown [For Typora]

Math Block for Markdown Code:[Inline Math Formula] This formula $f(x)=x_{1}^{2}+x_{2}^{2}$is an inline formula preview:

原创 CS109 Lecture 5

CS109 Lecture 5 Multi-Dimensional Data Visualization Scatterplot Matrices Parallel Coordinates / Flexible Linked Axes

原创 [Enthought Traning] Scientific Computing in Python

[建議打開目錄查看] Enthought Traning Scientific Computing Data Interpolation Normal Interpolation # Data: x y from scipy.inte

原创 數據競賽思路分享:機場客流量的時空分佈預測

歷時兩個月的比賽終於結束了,最終以第32名的成績告終,在此和大家分享下解決問題的思路。 從初賽到複賽,有走過彎路,也有突然靈光一現的時刻。一路走來,對數據各種把玩,分析了各種可能的情況,儘可能得挖掘數據中潛在的信息來構建更爲準確的模

原创 第四章 決策樹

第四章 決策樹 基本思想 決策樹是基於樹結構來進行決策的,這正是人類在面臨決策問題時一種很自然的處理機制 一般的,一顆決策樹包含一個根節點、若干個內部節點和若干個葉節點;葉節點對應於決策結果,其他的每個節點則對應於一個屬性測試;每個節點包

原创 第五章 神經網絡

第五章 神經網絡 神經元模型 神經網絡是由具有適應性的簡單單元組成的廣泛並行互連的網絡,它的組織能夠模擬生物神經系統對真實世界物體所作出的交互反應 M-P神經元模型思路 將生物神經網絡中的神經元抽象後得到經典的“M-P神經元模型”。在這個

原创 CS109 Lecture 4

CS109 Lecture 4 Visualization Goals Communicate (Explanatory) Present data and ideas Explain and inform Provide eviden

原创 第二章 模型評估與選擇

第二章 模型評估與選擇 模型評估方法 1. 留出法(hold-out) 方法:直接將數據集D劃分爲兩個互斥的集合,訓練集合S和測試集合T,在S上訓練模型,用T來評估其測試誤差 注意:訓練/測試集的劃分要儘可能保持數據分佈的一致性,避免因爲

原创 Time Serise Analysis[Using R]

Time Serise Analysis[Using R] [近期需要用到時間序列分析,順便整理下筆記以供日後參考] 時間序列分析基本流程   時間序列分析在R中的實戰分析 #### 導入數據 # Get Work Director