用Python做數據分析初探（四）

原創

2018-09-03 23:01

瞭解基本情況

我們可以用 DataFrame 的describe()函數列出一些統計信息：

該函數列出了DataFrame 的行數，均值，方差，最大最小值， 25%， 50%， 75%處的值，讓我們能對數據有個大概的瞭解。

然後我想按文件的尺寸排序，瞭解哪些文件的尺寸是最大的，用sort_values()函數即可。在Jupter notebook 裏，可以用help命令方便地查看文檔：

help(pd.DataFrame.sort_values)

這是sort_values 的結果，按尺寸的降序排列：

我們也可以對某列做一些統計：

接下來，我想按文件類型對文件做一個計數，看哪些類型的文件數量最多。先把文件名的後綴取出來：

def get_suffix(name):
    return os.path.splitext(name)[1]

suffix = map(get_suffix, file['name'])

suffix 是所有後綴的列表，它有許多重複項，和 file[‘name’]的長度是一樣的：

我們把它轉化爲Pandas 的Series 對象，並作圖：

pd.Series(suffix).value_counts()[:10].plot(kind='barh', rot=0)

我們看到，數量最多的是 htm 文件。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Excel複合圖表的使用

複合圖表亦稱“複式條形圖”。以兩個或兩個以上的條形爲一組代表一個大項目,用每組中的各個條......個同類指標在不同地點、條件下的變動，表明事物之間的差異其實就把兩張圖表組合到一起，用對比的思維看問題首先建立一個數據表格，如何把數據累

2020-07-08 05:25:47

Excel輔助列的使用方法案例

輔助列的使用，輔助列就是輔助統計及分析的一列數據，它能讓數據統計與分析變得更加的簡單快捷，提高我們的工作效率，有時候輔助列能將非常複雜的問題變得非常的簡單，善用輔助列能一定程度的提高我們的工作效率，下面就讓我們用2個例子來看輔助列的常見的

2020-07-08 05:25:47

python--內置函數

1、python內置函數：類型轉換數學運算常用 int() max() all() range() help() float() min() any() set() format() long() sum() type()

2020-07-08 10:38:40

數學建模之傳染病SIR模型（新冠真實數據）

傳染病模型的基本問題描述傳染病的傳播過程分析受感染人數的變化規律預報傳染病高潮到來的時刻預防傳染病蔓延的手段按照傳播過程的一般規律用機理分析方法建立模型注：我們這裏是介紹數學醫學領域中基本的傳染病模型。不從醫學角度

小白不白nie

2020-07-08 04:34:52

數據調度平臺系統二大種類及其實現方法與流程

什麼是調度系統調度系統，更確切地說，作業調度系統（Job Scheduler）或者說工作流調度系統（workflow Scheduler）是任何一個稍微有點規模，不是簡單玩玩的大數據開發平臺都必不可少的重要組成部分。除了Crontab

taskctl调度工具

2020-07-08 04:22:11

numpy利用矢量計算距離

什麼是矢量。利用矢量計算距離，cos相似度，矢量之間的點乘(內積) 矢量：有方向有長度的變量計算距離： #將座標用數組的形式表示 a = np.array([2,7]) b = np.array([8,3]) #求a,b的範式，

2020-07-08 03:51:04

生鮮電商行業以及APP體驗分析

2020-07-08 03:46:15

etl數據調度平臺系統類別的實現方法及工作流程

什麼是調度系統調度系統，更確切地說，作業調度系統（Job Scheduler）或者說工作流調度系統（workflow Scheduler）是任何一個稍微有點規模，不是簡單玩玩的大數據開發平臺都必不可少的重要組成部分。除了Crontab

taskctl调度工具

2020-07-08 03:42:10

5-04標註

上一節我們講了數據清晰的內容，通過清晰我們保留了正常的數據，在處理特徵預處理內容之前，我們先要確定標註，反應目的的屬性就是標註，其他有關係的特徵

(๑• . •๑)框

2020-07-08 02:07:20

5-05特徵選擇（特徵預處理第一步）

特徵選擇可以在特徵變化之前，也可以在之後，本章是根據統計學模型、機器學習模型進行相關度排序,相關度差的進行刪除（最終實現降維度）特徵選擇需要重複做，需要模型去驗證，最終獲得能獲得更好模型的數據特徵選擇三個切入思路，第一個

(๑• . •๑)框

2020-07-08 02:07:20

5-03異常值處理

#處理異常值 import numpy as np import pandas as pd df = pd.DataFrame({"A":["a0","a1","a1","a2","a3","a4"],"B":["b0","b1"

(๑• . •๑)框

2020-07-08 02:07:20

數據的分析基本知識2

1.SVM（support vector machine）：支持向量機。SVM是一個面向數據的分類算法。目標是爲確定一個分類超平面，從而將不同的數據分隔開。 2.向量的範數向量的1-範數：各個元素的絕對值之和。向量的2-範數：每個元

٩( 'ω' )و 沉浮

2020-07-08 01:47:23

數據分析和挖掘試題

題型題幹正確答案 A B C D 單選題評估完模型之後，發現模型存在高偏差（high bias），應該如何解決 B 減少模型的特徵數量增加模型的特徵數量增加樣本數量以上說法

٩( 'ω' )و 沉浮

2020-07-08 01:47:23

數據挖掘基本知識1

1.數據挖掘的基本任務利用分類和預測、聚類分析、關聯規則、時序模式、偏差檢測、智能推薦等方法，幫助企業提取數據中蘊含的商業價值，提高企業的競爭力。 2.數據的挖掘和建模過程定義挖掘目標數據取樣。抽取數據的標準：相關性可靠性

٩( 'ω' )و 沉浮

2020-07-08 01:47:23

用戶畫像-ID_MAPPING 利用並查集——求無向圖的所有連通子圖來實現所有用戶合併

一項目背景本項目是基於https://blog.csdn.net/weixin_41734687/article/details/99174064 此項目的改進。去年利用jacaard相似度對多用戶進行了合併。由於受到計算資

weixin_41734687

2020-07-08 01:20:47

24小時熱門文章

Wireshark 安裝+使用（一）

最新文章

最新評論文章