原创 數據分析實戰之決策樹(泰坦尼克號乘客生存預測)

本文利用已給特徵屬性和存活與否標籤的訓練集和只包含特徵信息測試集數據,通過決策樹模型來預測測試集數據乘客的生存情況 數據集來源爲https://github.com/cystanford/Titanic_Data,可下載數據查看其各字段信

原创 SQL的locate和substr函數

locate函數: locate(substr,str)   substr在字符串str中第一次出現的位置 locate(substr,str,pos)     從位置pos開始,substr在字符串str中第一次出現的位置。若subst

原创 數據挖掘實戰之信用卡違約率分析

本文通過針對臺灣某銀行 2005 年 4 月到 9 月的信用卡數據這一數據集構建一個分析信用卡違約率的分類器。 數據來源https://github.com/cystanford/credit_default 1、數據加載和探索: 數據

原创 數據庫管理系統

一、相關概念 DB數據庫:存儲數據的集合,可以理解爲多個數據表。 DBMS數據庫管理系統:可以對多個數據庫進行管理,可以理解爲DBMS = 多個數據庫 +管理程序。 DBS數據庫系統:包括數據庫、數據庫管理系統以及數據庫管理人員DBA。

原创 SQL leetcode 刷題答案(二)

承接上篇 SQL leetcode 刷題答案https://blog.csdn.net/hahaha66888/article/details/89925981 5、Big Countries select name,populatio

原创 SQL leetcode刷題答案(一)

leetcode上刷SQL題的代碼,僅供參考,畢竟答案不唯一,我的代碼執行效率也不是很高 1、Combine Two Tables select FirstName, LastName, City, State from Person

原创 數據挖掘實戰之時間序列分析(比特幣趨勢預測)

本文在只考慮比特幣以往的歷史數據,不考慮其他外界相關的因素的前提下,通過構造ARMA時間序列模型,預測比特幣平均價格的走勢。 比特幣歷史數據源(從2012-01-01到2018-10-31)https://github.com/cysta

原创 汽車金融評分卡 from PyWoE import WoE 異常問題解決

關於Hellobi Live | 1小時學會建立信用評分卡(金融數據的小分析-Python)中PyWoE包調用問題 anaconda中並沒有PyWoE包,需要手動將PyWoE放在anaconda文件下。由於PyWoE源代碼中 cuts,

原创 數據分析實戰之數據挖掘(邏輯迴歸——信用卡欺詐分析1)

一、邏輯迴歸 邏輯迴歸,也叫作logistic迴歸,是分類算法,主要解決的是二分類問題,當然也可以解決多分類問題。 在邏輯迴歸中使用logistic函數,也稱Sigmoid函數。函數公式爲 g(z)的結果在0-1之間,當z越大的時候,

原创 數據分析實戰之數據挖掘(信用卡違約率分析)

本文通過針對臺灣某銀行 2005 年 4 月到 9 月的信用卡數據這一數據集構建一個分析信用卡違約率的分類器。 數據來源https://github.com/cystanford/credit_default 1、數據加載和探索: 數據

原创 數據分析實戰之AdaBoost(對房價進行預測)

本文數據源來自於sklearn中自帶的波士頓房價數據集。 1、加載數據 from sklearn.datasets import load_boston data = load_boston() 2、將數據分割成訓練集和測試集 fro

原创 數據分析實戰之EM聚類(對王者榮耀英雄分類)

本文主要是王者榮耀的英雄數據進行分類,數據源來源 https://github.com/cystanford/EM_data 1、數據加載 import pandas as pd data = pd.read_csv(r'C:\User

原创 數據分析實戰之K-Means(給球隊做聚類)

數據來源是簡單整理的2015-2019亞洲球隊的排名,如下圖所示。通過K-Means做簡單聚類分析。 1、數據加載 import numpy as np import pandas as pd data = pd.read_csv

原创 數據分析實戰之SVM(如何進行乳腺癌預測)

本文根據美國威斯康星州的乳腺癌診斷數據集,生成一個乳腺癌診斷的SVM分類器,並計算這個分類器的準確率。 數據源:https://github.com/cystanford/breast_cancer_data/ 1、加載數據源 impo

原创 數據分析實戰之如何自動化採集數據

從數據採集的角度看,數據源可以分爲以下三類 一、開放數據源:一般是針對行業的數據庫。可以兩個維度來考慮: 1)單位:政府、企業和高校 2)行業:比如交通、金融、能源等 二、爬蟲抓取:一般是針對特定的網站或APP。 1、使用python編寫