原创 數據分析實戰之KNN(對手寫數字進行識別)

一、利用sklearn中自帶的手寫數據集做KNN分類。它包含了1797幅數字圖像,每幅圖像大小是8*8像素。 1、數據加載和數據探索 from sklearn.datasets import load_digits digits = l

原创 數據分析實戰之泰坦尼克號乘客生存預測

本文利用已給特徵屬性和存活與否標籤的訓練集和只包含特徵信息測試集數據,通過決策樹模型來預測測試集數據乘客的生存情況 數據集來源爲https://github.com/cystanford/Titanic_Data,可下載數據查看其各字段信

原创 數據分析實戰之數據可視化

一、可視化圖有哪些 按照數據之間的關係,可以把可視化圖分爲4類 比較:比較數據間各類別的關係,或者是它們隨時間的變化趨勢,比如折線圖; 聯繫:查看兩個或兩個以上變量之間的關係,比如散點圖; 構成:每個部分佔整體的百分比,或者是隨着時間的百

原创 數據分析實戰之數據轉換

1、數據變換可以將不同渠道的數據統一到一個目標數據庫裏。 在數據變換前,需要先對字段進行篩選,然後對數據進行探索和相關性分析,接着是選擇算法模型,然後針對算法模型對數據的需求進行數據變換,從而完成數據挖掘前的準備工作 數據變換是數據

原创 數據分析實戰之數據清洗

在數據分析過程中不論是時間還是功夫,數據清洗大概佔到了80%。 一、數據質量的準則:“完全合一” 1)完整性:單條字段是否存在空值,統計的字段是否完善 2)全面性:觀察某一列的全部數值,根據常識判斷該列是否有問題,比如:數據定義、單位標識

原创 數據分析實戰之用戶畫像

一、用戶畫像的準則 首先就是給自己企業的用戶畫像做白描,說明這些用戶“從哪來”,“都是誰”,“要去哪” 1、統一化:統一用戶的唯一標識 用戶標識是整個用戶畫像的核心。設計唯一標識夫 2、標籤化:給用戶打標籤,即用戶畫像 用戶消費行爲

原创 數據分析實戰之學數據分析要掌握的基本概念

一、數據倉庫、數據挖掘和商業智能之間的關係 數據倉庫:將多個不同來源的數據進行彙總、整理、存儲的地方,有一類重要的數據是元數據,就是描述其他數據的數據。 數據挖掘:從數據中發現規律,核心包括分類、聚類、預測、關聯分析等技術 商業職能:是基

原创 數據分析實戰之pandas

一、數據結構Series和Dataframe 1)Series有兩個基本結構 index和values。index默認是0,1,2...,可以自己指定索引,也可以用字典的方式創建Sreies x1 = pd.Series([1,2,3,

原创 數據分析實戰之用numpy快速處理數據

numpy裏兩個重要對象,一是ndarray解決了多維數組的問題,二是ufunc對數據進行處理的函數 一、ndarray對象 1、引入numpy庫,通過array函數創建數組,通過賦值對數組裏的數值進行修改。shape屬性表示數組的大小,

原创 數據分析實戰之數據分析全景圖學習筆記

一、數據分析主要包括三個部分: 數據採集:數據源的獲取來源和獲取方式  (應該是包括數據的提取、清洗和整理部分) 數據挖掘:挖掘數據的商業價值  (十大算法的原理和基本流程的理解) 數據可視化:對數據結果的直觀呈現  二、修煉指南 學習數

原创 數據分析實戰之python基礎語法

我用的是anaconda jupyter來寫代碼的,因爲之前有過python基礎,所以有些地方就沒有敲代碼,只是在自己當時學習的時候容易混淆和比較難理解的地方重新複習一下 一、基礎語法: 1、輸入與輸出 python3.x裏面用input

原创 數據分析實戰之數據挖掘知識清單

一、數據挖掘的基本流程: 1 商業理解:數據挖掘是爲業務服務的,從商業的角度理解項目需求的基礎上再對數據挖掘的目標進行定義 2 數據理解:收集數據,對數據進行探索,包括數據的描述、數據質量的驗證 3 數據準備:對數據進行清洗、集成等操作

原创 pandas rank函數

rank函數:通過爲各組分配一個平均排名的方式來破壞平級關係 對Series來說: 1、返回的是排名,把原數據升序(默認)後每個值所在的排名位置返回到原來所在的位置的索引所在的行。有相同的數時,取其排名平均(默認)作爲值。     下面是

原创 numpy 轉置

numpy的轉置有3種情況: 1、特殊的 .T 轉置,可以直接對數組進行行列對調轉置  2、transpose轉置,是通過一個由軸編號組成的元組對軸進行轉置(這個真的很難理解,查了好多資料現在終於算是有點開竅了,按照自己理解的分析一下)

原创 pandas Series

Series: 1、是一種類似一維數組的對象,它有一組數據及一組與之相關的數據標籤組成。標籤可以自動生成,也可以通過index設置標籤。 2、可以通過索引的方式重新賦值或選取Series中的單個或一組值,也可以將索引通過通過賦值的方式