瞭解基本情況
我們可以用 DataFrame 的describe()函數列出一些統計信息:
該函數列出了DataFrame 的行數,均值,方差,最大最小值, 25%, 50%, 75%處的值,讓我們能對數據有個大概的瞭解。
然後我想按文件的尺寸排序,瞭解哪些文件的尺寸是最大的,用sort_values()函數即可。在Jupter notebook 裏,可以用help命令方便地查看文檔:
help(pd.DataFrame.sort_values)
這是sort_values 的結果,按尺寸的降序排列:
我們也可以對某列做一些統計:
接下來,我想按文件類型對文件做一個計數,看哪些類型的文件數量最多。先把文件名的後綴取出來:
def get_suffix(name):
return os.path.splitext(name)[1]
suffix = map(get_suffix, file['name'])
suffix 是所有後綴的列表,它有許多重複項,和 file[‘name’]的長度是一樣的:
我們把它轉化爲Pandas 的Series 對象,並作圖:
pd.Series(suffix).value_counts()[:10].plot(kind='barh', rot=0)
我們看到, 數量最多的是 htm 文件。