1、Python數據導入
- 導入scv數據
- 導入Excel數據
- 導入MySQL數據
- 導入HTML數據
- 導入文本數據
2、有明確類別的用分類算法,沒有明確類別的用聚類算法;
3、數據分類處理的一般思路:
明確需求,對數據進行觀察;
確定算法;
確定步驟;
編程實現;
4、常見分類算法:
-
KNN算法:
-
貝葉斯方法
貝葉斯網絡又稱信度網絡,是Bayes方法的擴展,是目前不確定知識表達和推理領域最有效的理論模型之一。 -
決策樹
決策樹採用自頂向下的遞歸方式,在內部節點進行屬性值比較,並根據不同的屬性值從該節點向下分支,最終得到的葉結點是學習劃分的類。 -
人工神經網絡
-
支持向量機
支持向量機是一種通過某種非線性映射,把低維的非線性可分轉化爲高維的線性可分,在高維空間進行線性分析的算法。
5、迴歸分析 -
線性迴歸
適用於因變量和自變量是線性關係:對一個或多個自變量和因變量之間的線性關係進行建模,可用最小二乘求解模型係數。 -
邏輯迴歸
適用於因變量一般有1或0兩種取值:是廣義線性迴歸模型的特例,利用logistic函數將因變量的取值範圍控制在0和1之間,表示取值爲1的概率。