用Python做數據分析初探(四)

瞭解基本情況

我們可以用 DataFrame 的describe()函數列出一些統計信息:

describe

該函數列出了DataFrame 的行數,均值,方差,最大最小值, 25%, 50%, 75%處的值,讓我們能對數據有個大概的瞭解。

然後我想按文件的尺寸排序,瞭解哪些文件的尺寸是最大的,用sort_values()函數即可。在Jupter notebook 裏,可以用help命令方便地查看文檔:

help(pd.DataFrame.sort_values)

help

這是sort_values 的結果,按尺寸的降序排列:
sort_values

我們也可以對某列做一些統計:
size

接下來,我想按文件類型對文件做一個計數,看哪些類型的文件數量最多。先把文件名的後綴取出來:

def get_suffix(name):
    return os.path.splitext(name)[1]

suffix = map(get_suffix, file['name'])

suffix 是所有後綴的列表,它有許多重複項,和 file[‘name’]的長度是一樣的:

suffix

我們把它轉化爲Pandas 的Series 對象,並作圖:

pd.Series(suffix).value_counts()[:10].plot(kind='barh', rot=0)

plot

我們看到, 數量最多的是 htm 文件。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章