原创 [Kaggle] kernel中常用方法和語句總結

目錄   讀取數據 表格類型數據 讀數據,看行數、列數,前幾行 EDA 查看目標變量分佈 目標變量爲分類變量 查看缺失值 目標dataframe缺失數據的分佈 查看不同類型變量情況 Category/分類變量預處理 object類型的變量

原创 [機器學習 - 基本算法] 感知機

import numpy as np import matplotlib.pyplot as plt # initialization n = 2 l = 100 x1 = np.random.randint(0, 100, siz

原创 [機器學習 - 特徵工程] Category/分類變量預處理 - Label Encoding和OneHot Encoding的選擇

總結: Label Encoding 優點:節約空間 缺點:對同一個特徵,每次編碼的結果不一樣;編碼隱含了特徵取值的相關關係 OneHot Encoding 優點:避免了LabelEncoding的缺點... 缺點:特徵取值多時佔用空間較

原创 [機器學習 - 算法原理] CART樹剪枝的理解

看了李航的《統計學習方法》中CART樹的剪枝,不很清晰,又查了網上一些相關資源,終於明白了整個過程,個人的理解如下(原本寫在OneNote上,公式粘貼過來不能顯示,就貼圖了): but...既然剪來剪去都要所有子樹一起去做交叉驗證...那

原创 [Python] axis=0 與axis=1的區分

轉自: https://www.cnblogs.com/rrttp/p/8028421.html http://blog.csdn.net/wangying19911991/article/details/73928172 https:/

原创 [Deep Learning] 吳恩達深度學習作業 知識點記錄

Lesson 1 Week 2 1. Python Basics with Numpy 1.1 - 記住sigmoid的導數 s = sigmoid (x) sigmoid_derivative (x) = s * (1-s) 1

原创 [機器學習 - 算法調用] 隨機森林 sklearn.RandomForestCLassifier/ Regressor

特徵重要性 feature_importances_ Return the feature importances (the higher, the more important the feature). Returns: featu

原创 [Python] pandas.DataFrame.loc函數使用場景記錄

全面詳解請參考下面博客! https://blog.csdn.net/brucewong0516/article/details/82494090 以某列爲條件,篩選得到另一列的值 如下例,loc以列'TARGET'的值做布爾值篩選,輸出

原创 常用方法和語句總結

讀取數據 表格類型數據 讀數據,看行數、列數,前幾行 df = pd.read_csv("./Data/application_train.csv") print("Training data shape: ", df.shape) d

原创 Python axis=0 與axis=1的區分

轉自: https://www.cnblogs.com/rrttp/p/8028421.html http://blog.csdn.net/wangying19911991/article/details/73928172 https:/

原创 Category/分類變量預處理 - Label Encoding和OneHot Encoding的選擇

總結: Label Encoding 優點:節約空間 缺點:對同一個特徵,每次編碼的結果不一樣;編碼隱含了特徵取值的相關關係 OneHot Encoding 優點:避免了LabelEncoding的缺點... 缺點:特徵取值多時佔用空間較

原创 吳恩達深度學習作業 知識點記錄

Lesson 1 Week 2 1. Python Basics with Numpy 1.1 - 記住sigmoid的導數 s = sigmoid (x) sigmoid_derivative (x) = s * (1-s) 1.2

原创 數據清洗過程注意事項

讀入文件後先查看數據類型 後續運算時,如果數據類型不一樣,可能報錯,如‘object’類型不能和‘int’類型相加 https://blog.csdn.net/maomaona/article/details/85119447

原创 TypeError: ufunc did not contain a loop with signature matching types dtype('U32')

原因:object類型和int類型相加減 解決方法: 此時的object類型可能是‘12.3’這樣str格式的數字,如果要運算必須進行格式轉換:  可採用如下方法(pd.to_numeric()): panel_info['input'