原创 pandas.DataFrame 中的insert(), pop()

在pandas中,del、drop和pop方法都可以用來刪除數據,insert可以在指定位置插入數據。 import pandas as pd from pandas import DataFrame, Series data

原创 常用的linux命令(Cent OS)

1.關機 (系統的關機、重啓以及登出 ) 的命令 shutdown -h now 關閉系統(1) init 0 關閉系統(2) telinit 0 關閉系統(3) shutdown -h hours:minutes & 按預

原创 Pandas中resample方法詳解,處理datetime 分時間段統計問題

Pandas中的resample,重新採樣,是對原樣本重新處理的一個方法,是一個對常規時間序列數據重新採樣和頻率轉換的便捷的方法。 方法的格式是: DataFrame.resample(rule, how=None, axis=0

原创 Pandas的set_index和reset_index用法

set_index(): 函數原型:DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False) 參數解釋: k

原创 python和pandas空值不同之處以及缺失值空值的處理方法總結(一)

空值:python‘’,[],(),None,Null,等容器對象只要是空的默認就是falsepandas當類型爲數值型時,Nan代表代表爲空值,當類型爲字符型的時候,None代表的是空字符串isnull

原创 sklearn.metrics.roc_curve 方法的應用解析

官方網址:http://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics 首先認識單詞:metrics:  ['mɛtrɪks] : 度量‘指標    

原创 詳解Python中where()函數的用法

where()的用法 首先強調一下,where()函數對於不同的輸入,返回的只是不同的。 0.返回的是一個數組元素的元組對象 1當數組是一維數組時,返回的值是一維的索引,所以只有一組索引數組 2當數組是二維數組時,滿足條件的數組值返回的是

原创 DataFrame的創建---多級索引

多級索引:在一個軸上有多個(兩個以上)的索引,能夠以低維度形式來表示高維度的數據。單級索引是Index對象,多級索引是MultiIndex對象。 一、創建多級索引 方法一:隱式創建,即給DataFrame的index或columns參數傳

原创 pandas和mysql數據庫的導入導出操作

Python中從SQL型數據庫讀寫dataframe型數據 Python的pandas包對錶格化的數據處理能力很強,而SQL數據庫的數據就是以表格的形式儲存,因此經常將sql數據庫裏的數據直接讀取爲dataframe,分析操作以後再將

原创 Series中str屬性的方法用途

在使用pandas框架的DataFrame的過程中,如果需要處理一些字符串的特性,例如判斷某列是否包含一些關鍵字,某列的字符長度是否小於3等等這種需求,如果掌握str列內置的方法,處理起來會方便很多。 下面我們來詳細瞭解一下,

原创 數據處理常用到的一些方法/drop_duplicates()/映射map()/replace()/rename()/分箱/過濾異常值/隨機抽樣take()/random.permutation()

1、刪除重複元素 使用duplicated()函數檢測重複的行,返回元素爲布爾類型的Series對象,每個元素對應一行,如果該行不是第一次出現,則元素爲True import numpy as np import pandas as p

原创 mongodb中 pymongo的使用方法

#!/usr/bin/env python # -*- coding:utf-8 -*- """ MongoDB存儲 在這裏我們來看一下Python3下MongoDB的存儲操作,在本節開始之前請確保你已經安裝好了MongoDB

原创 什麼是隨機森林

隨機森林概述****** 在我們學習隨機森林前,要對決策樹有一定了解,尤其對其中決策樹生成算法要做理解,詳見博客。 森林顧名思義,由很多棵樹組成,這一顆顆樹就是我們需要構造的決策樹,由這些樹組成的森林就是隨機森林, 當我們輸入一個要預

原创 PCA降維原理和作用

降維的作用 ①數據在低維下更容易處理、更容易使用; ②相關特徵,特別是重要特徵更能在數據中明確的顯示出來;如果只有兩維或者三維的話,更便於可視化展示; ③去除數據噪聲 ④降低算法開銷 降維通俗點的解釋 一些高維度的數據,比如淘寶交易數

原创 L1,L2正則化

正則化引入的思想其實和奧卡姆剃刀原理很相像,奧卡姆剃刀原理:切勿浪費較多東西,去做,用較少的東西,同樣可以做好的事情。 正則化的目的:避免出現過擬合(over-fitting) 經驗風險最小化 + 正則化項 = 結構風險最小化 經驗風