機器學習集訓營---第三週總結

第三週學習總結,主要內容:
  1. pandas數據統計與分析的學習
  2. 結合selenium編寫爬蟲
  3. 學習pandas在機器學習數據預處理與特徵處理
  4. 作業實戰分析鏈家數據
本週三晚上去參加了混沌大學的線下活動,史蒂夫 霍夫曼 親自來到現場講了硅谷創業的事情以及他是如何選擇公司去投資,受益非淺,最後講了他對AI的一些看法,更加堅定了我的選擇。演講中我記憶最深刻的是他講的判斷一個產品的好壞,去找100個用戶去試用,如果100個用戶都說好,他不會投資,但是如果100個用戶有90個用戶都不感興趣,而有10個用戶說“太好了,我就需要這樣的產品,怎麼會有這樣完美的產品,怎麼樣才能得到它,即使付費我也非常願意。”這時候霍夫曼一定會投資。總結下來就是:“讓10000個用戶說 好,不如讓100個用戶尖叫!”
下面回顧一下本週pandas講的知識點:
  1. 設置pd的行和列:index和columns
    1. df = pd.DataFrame( [[4, 7, 10],[5, 8, 11],[6, 9, 12]],index=[1, 2, 3],columns=['a', 'b', 'c'])
  2. 按照 行 或 列 來合併兩個pd表:
    1. pd.concat([df1,df2], axis=0) --- 行
    2. pd.concat([df1,df2], axis=1) --- 列
  3. 列排序
    1. df=df.sort_values('mpg',ascending=False) --- 從高到低
    2. df=df.sort_values('mpg',ascending=True) --- 從低到高
  4. 修改列名 y 改成 year
    1. df=df.rename(columns = {'y':'year'})
  5. index排序:df=df.sort_index()
  6. 重新設置index: (注意會把之前的index往右平移,如果調用兩次則會有兩個index的列)
    1. df=df.reset_index()
  7. 刪除重複的行:df.drop_duplicates()
  8. 獲取列表前n條數據:df.head(n)
  9. 獲取列表倒數n條數據:df.tail(n)
  10. 用切片獲取行數據:df.iloc[10:20]
  11. 對某一列從大到小獲取前n條數據:df.nlargest(n, 'value')
  12. 對某一列從小到大獲取前n條數據:df.nsmallest(n, 'value')
  13. pd的計算:
    1. d1.count() #非空元素計算
    2. d1.min() #最小值
    3. d1.max() #最大值
    4. d1.idxmin() #最小值的位置,類似於R中的which.min函數
    5. d1.idxmax() #最大值的位置,類似於R中的which.max函數
    6. d1.quantile(0.1) #10%分位數d1.sum() #求和
    7. d1.mean() #均值
    8. d1.median() #中位數
    9. d1.mode() #衆數
    10. d1.var() #方差
    11. d1.std() #標準差
    12. d1.mad() #平均絕對偏差
    13. d1.skew() #偏度
    14. d1.kurt() #峯度
    15. d1.describe() #一次性輸出多個描述性統計指標
  14. df.shift(1), --- 把 行 整體往下移一行, -1是向上移一行
  15. 從csv文件中讀取數據:
    1. aapl = pd.read_csv("data/AAPL.csv", index_col=0, parse_dates=["Date"])
  16. 取表中的一列生成圖表:
    1. aapl["Adj Close"].plot()




發佈了253 篇原創文章 · 獲贊 188 · 訪問量 140萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章