原创 2.信用卡欺詐案例——19.10.7

該案例的主要知識點: 1.對於數據集標籤分佈不均衡條件下的分類方法(下采樣,上採樣及兩者的差異) 2.邏輯迴歸模型的實施(交叉驗證,正則化懲罰係數c,判定閾值的設定) 3.簡單的數據預處理(標準化) 4.精度,召回率以及混淆矩陣的概念

原创 [Python數據分析] 7-模型評估

# I.理論部分 # 1.模型評估 # 分類模型評估 # 迴歸模型評估 # 聚類模型評估 # 關聯模型評估 # I-1.分類模型評估 # 1.二分類(正類與負類) # 概念:混淆矩陣 # TP(True Positive):

原创 [Python基礎] 1-笨辦法學Python3小結I

1.準備工作 安裝完Python後,選用一個簡單的文本編輯器(Atom),一個命令行終端(PowerShell),在文本編輯器上輸入指令並保存,並在命令終端行上查看結果,用cd文件的形式逐層選擇合適的路徑,再運行python ex1.py

原创 [Python數據分析] 5-挖掘建模(監督學習)

# I.理論部分:機器學習是過程,模型是這個過程的結果 # 1)機器學習和建模 # i.學習:通過接收到的數據,歸納提取相同與不同 # ii.機器學習:讓計算機以數據爲基礎,進行歸納和總結 # iii.模型:數據解釋現象的系統 # 2)

原创 [Python基礎] 7-Pandas:數據分析庫

import pandas as pd import numpy as np I.數據結構 1.Series s = pd.Series([i * 2 for i in range(1,11)]) # 創建一個10位的序列 prin

原创 [Python數據分析] 1-數據獲取

1)數據倉庫 I.特點: 1.全部事實的記錄 2.部分維度和數據的整理(數據集市) II.數據庫與數據倉庫的不同 1.數據庫面向業務存儲,數據倉庫面向主題存儲(主題:較高層次上對分析對象數據的一個

原创 [Python數據分析] 3-多因子探索性數據分析與複合分析

I.理論部分 1)假設檢驗與方差檢驗 i.假設檢驗: 根據一定假設條件由樣本推斷總體的一種方法,包括了: 1.正態分佈檢驗 2.卡方檢驗: 實際觀測值與理論推斷值之間的偏離程度,檢驗兩個因素建有沒有聯繫 3.獨立

原创 [Python基礎] 6-Matplotlib:繪圖,可視化的必備

import numpy as np import matplotlib.pyplot as plt I.繪圖及設置 x = np.linspace(-np.pi,np.pi,256,endpoint=True) # 設定x軸的範圍

原创 [Python基礎] 5-Numpy:開源,數據計算的擴展

import numpy as np I.數據結構 numpy的底層語言爲C,因此nparray的解決了這個問題,nparray是np中最基礎的數據結構 1.nparray list = [[1,3,5],[2,4,6]] print

原创 [Python基礎] 2-笨辦法學Python3小結II

34.訪問列表元素 小結:這節主要講了列表基數(從0開始)與序數(從1開始)的區別 練習: animals = ["bear", "python3.6", "peacock", "kangaroo", "whale", "platypu

原创 [Python基礎] 2-笨辦法學Python3小結III

39.字典的使用 小結:字典{}相較於列表[]更加全能一些,可以通過任何東西(不止是數值)找到列表中的元素 字典和列表的不同:列表是一些項的有序排列,字典將一些項對應到另外一些項上的數據結構,有點類似數據庫了 字典用在哪裏:各種需要通過某

原创 [Python數據分析] 4-預處理理論

I.理論部分 數據和特徵決定了機器學習的上線,而模型和算法只是逼近這個上限而已 1)特徵工程 i.特徵使用:數據選擇,數據可用性 ii.特徵獲取:特徵來源,特徵存儲 iii.特徵處理:數據清洗,特徵預處理 1.數據清洗:抽樣,異常值

原创 [Python爬蟲] 3-數據解析(lxml/bs4/正則)

# I.Xpath語法和lxml模塊 # 1)Xpath語法 # 1.概念:XPath是一門在XML/HTML文檔中查找信息的語言 # 2.工具:Chrome的XPath Helper和Firefox的XPath Checker # 3

原创 [Python數據分析] 6-挖掘建模(無監督學習)

# III.無監督學習編碼實現(聚類和關聯) # 1.數據集的設定 import numpy as np import matplotlib.pyplot as plt import scipy.stats as ss # 引入skle

原创 [Python數據分析] 2-單因子探索分析與可視化

I.理論部分 1)概念相關: 集中趨勢:均值,中位數,衆數,分位數 離中趨勢:標準差,方差 數據分佈:偏度係數,峯度係數,正態分佈,三大分佈 抽樣理論:抽樣誤差(確定樣本量)、抽樣精度 2)數據分類 定類(類別):根據事物離散,