#一:series數據結構 類似於一維數組(一組數據一組索引)
from pandas import Series,DataFrame
import pandas as pd
In [2]:
obj = Series([1,2,-8,9])
obj
Out[2]:
0 1
1 2
2 -8
3 9
dtype: int64
In [4]:
#Series數據:索引在左邊,值在右邊
obj2 = Series([1,-2,3,-4],index=['a','b','c','d'])
obj2
Out[4]:
a 1
b -2
c 3
d -4
dtype: int64
In [5]:
#Series有values和index屬性,可返還值數據的數組形式和索引對象
obj2.values
Out[5]:
array([ 1, -2, 3, -4], dtype=int64)
In [6]:
obj2.index
Out[6]:
Index(['a', 'b', 'c', 'd'], dtype='object')
In [7]:
#Series與普通的一維數組對比,其具有索引對象,可通過索引來獲取Series的單個或一組值
obj2['b']
Out[7]:
-2
In [10]:
obj2[['b','c']]
Out[10]:
b -2
c 3
dtype: int64
In [11]:
#Series數據結構類型之間的類型
obj2[obj2 < 0]
Out[11]:
b -2
d -4
dtype: int64
In [12]:
obj2*2
Out[12]:
a 2
b -4
c 6
d -8
dtype: int64
In [13]:
import numpy as np
np.abs(obj2)
Out[13]:
a 1
b 2
c 3
d 4
dtype: int64
In [14]:
#二:創建DataFrame數據
#數據分析中無論創建的數據含是外部數據,首先想到將其轉爲DataFrame數據,DataFrame爲表格數據(有行索引和列索引);
#創建DataFrame數據的辦法很多,常用到:傳入由數組,列表或者元組組成的字典
import numpy as np
from pandas import Series,DataFrame
import pandas as pd
In [17]:
data = {
'name':['張三','李四','王五','小明'],
'sex':['female','female','male','male'],
'city':['北京','上海','廣州','北京'],
'year':[2001,2002,2003,2002]
}
df = DataFrame(data)
df
Out[17]:
name | sex | city | year | |
---|---|---|---|---|
0 | 張三 | female | 北京 | 2001 |
1 | 李四 | female | 上海 | 2002 |
2 | 王五 | male | 廣州 | 2003 |
3 | 小明 | male | 北京 | 2002 |
In [18]:
#字典是無序的,可以通過columns指定列索引的排序順序;
df = DataFrame(data,columns=['name','sex','year','city'])
df
Out[18]:
name | sex | year | city | |
---|---|---|---|---|
0 | 張三 | female | 2001 | 北京 |
1 | 李四 | female | 2002 | 上海 |
2 | 王五 | male | 2003 | 廣州 |
3 | 小明 | male | 2002 | 北京 |
In [19]:
#通過設置DataFrame的index和columns的name屬性,可以將這些信息顯示出來
df.index.name = 'id'
df.columns.name = 'std_info'
In [20]:
df
Out[20]:
std_info | name | sex | year | city |
---|---|---|---|---|
id | ||||
0 | 張三 | female | 2001 | 北京 |
1 | 李四 | female | 2002 | 上海 |
2 | 王五 | male | 2003 | 廣州 |
3 | 小明 | male | 2002 | 北京 |
In [21]:
#通過values屬性可以將DataFrame數據轉化爲二維數組
df.values
Out[21]:
array([['張三', 'female', 2001, '北京'],
['李四', 'female', 2002, '上海'],
['王五', 'male', 2003, '廣州'],
['小明', 'male', 2002, '北京']], dtype=object)