原创 c++ STL重拾——stack棧

用法 #include <stack> 底層容器默認使用的是deque。 stack提供了以下操作:入棧、出棧、判斷棧空、訪問棧頂、棧大小。 stack s1; stack s2; 入棧:s.push(x) 默認是不預設棧大小的

原创 sql重拾(一)——談談數據分析方面的sql與python

本科學了sql,研究生常常用python。二者在做數據分析、做統計方面有異曲同工之妙。 sql中的、Excel裏的統計函數、python裏面的一些統計函數其實是一樣的,同一原理,同一東西,表現形式不同而已。下面來體會一下。 以下是我昨

原创 詳細的數據可視化庫之Seaborn教程(二)——catplot:分類型數據作座標軸畫圖

文章目錄catplot(): 用分類型數據(categorical data)繪圖一、分類散點圖“分類座標軸”1.catplot(kind="strip")默認2、蜂羣圖:catplot(kind="swarm")hue參數:利用不同

原创 數據變換,數據規範化的方法之歸一化(Min-max規範化)、標準化(Z-score規範化)、小數定標規範化

這篇總結了哪些東西: 1. 數據變換 2. 數據規範化方法 歸一化(Min-max規範化) 標準化(Z-score標準化) 小數定標規範化 4. 規範化的作用 3. 數據挖掘算法中是否都需要進行規範化呢? 4. 標準化有什麼注意事項?

原创 詳細的數據可視化庫之Seaborn教程(一)——relplot:關係圖(可視化統計量間的關係)

文章目錄seaborn(一)——可視化統計量間的關係(relationship)sns.relplot()一、散點圖:relplot(kind="scatter")參數huehue+ hue_orderhue+palette參數sty

原创 時間序列——滑動窗口

滑動窗口是什麼? 滑動窗口就是能夠根據指定的單位長度來框住時間序列,從而計算框內的統計指標。相當於一個長度指定的滑塊正在刻度尺上面滑動,每滑動一個單位即可反饋滑塊內的數據。 看個例子 import numpy as np import

原创 K-means算法原理、代碼實現,優缺點及改進

k-Means是一種無監督的聚類算法,實現起來比較簡單,聚類效果也不錯,因此被廣泛應用。 原理 物以類聚,人以羣分。 無監督 聚類。 簡單地說,就是把相似的物體聚到一個簇。同一簇內相似度儘可能大,不同簇間相似度儘可能低。採用距離度量相

原创 用k-means對亞洲足球隊做聚類

背景知識 亞足聯AFC: 1954年成立,總部馬來西亞吉隆坡。 負責管理亞洲區足球事務,舉辦各項國家級及俱樂部級賽事,協助國際足聯舉行世界盃預選賽及4年一度的亞洲盃。 47個成員協會,包括阿富汗、緬甸、中國臺北、中國香港、印度尼西亞、

原创 分類中樣本類別不均衡問題

先簡單總結一下,具體寫在筆記裏面了。 解決方法 欠採樣 過採樣 不處理樣本,分類閾值移動 代價敏感學習(先知道)

原创 KNN(上)

KNN 原理 “近朱者赤,近墨者黑” 來一個待分類物體,離這個物體最近的K個點大都屬於哪一個類,這個樣本就屬於哪一個類。 步驟 1、計算距離:每個物體與待分類物體的距離;(距離是兩個物體相似程度的反映) 2、距離排序:按從小到大的距離

原创 python date、time、datetime

文章目錄常用datetime解析日期date對象time對象datetime對象格式化時間strftime(): datetime轉換成指定格式的日期時間字符串strptime(): 字符串轉換成指定格式的datetime 常用da

原创 DataFrame列類型轉換爲category類別類型

DataFrame: fmri 原:region object 目標:region category fmri['region']= fmri['region'].astype('category') 注意:astype不是原地操作

原创 用pandas的isin,~+isin篩選數據

兩個DataFrame: test和train,都含有item_id列 1、我要判斷test裏面的item_id值都在不在train的item_id裏, 或者說test裏面的item_id值都被包含在train的item_id裏, 也

原创 處理DataFrame中的日期數據:普通字符串轉換爲datetime類型、提取日期中的年份月份

普通字符串轉換爲datetime類型 原:字符串“01.12.2013”(日.月.年),類型顯示爲object 目標:轉換成日期, 類型顯示爲datetime 一種方式: import pandas as pd sales['dat

原创 pandas——Merge做表之間的連接

基於某個column或某些columns做連接 連接時有4種方法how = [‘left’, ‘right’, ‘outer’, ‘inner’],默認值how=‘inner’ how=‘inner’ 默認值,內連接(sql中的自