[初次體驗]天池比賽task1&task2 check
Task1
第一次用CSDN的Markdown編輯器,慢慢習慣。
CSDN Markdown check
熟悉csdn blog的markdown輸入,很簡單的語法以及編輯。(除了表格)
數據挖掘資料
Gituhub Datawhale 的開源入門學習
天池的入門比賽的註冊學習
Task2
入門代碼的熟悉,以及正規比賽的數據、要求、以及評價指標。
Datawhale 數據挖掘入門練習
-
評價指標
-
分類評價指標
- 二分類評價指標:
accuracy,Precision,Recall,F-Score,Pr曲線,ROC-AUC - PR,ROC_AUC
-多分類評價指標
accuracy,宏平均,微平均,F-Score- 宏平均,微平均,F-Score
- 二分類評價指標:
-
迴歸評價指標
MAE(Mesn Absolute Error),MSE(Mean Squared Error),MAPE(Mean Absolute Percentage Error),RMSE(Root Mean Squared Error),R2(R-Square) -
MAPE(Mean Absolute Percentage Error),RMSE(Root Mean Squared Error),
-
-
EDA分析賽題
EDA不是我們所說的Electronic Design Automation電子設計自動化,而是Exploratory Data Analysis。-
目標
- 賽題的初步瞭解
- 分析賽題是否可行,可行度,價值大不大
- 理解任務邏輯
- 對於賽題有意義的數據,和任務相關的數據,數據之間的邏輯
- 所需指標
- 難點,關鍵點,針對數據的分析
- 隱藏條件(高效性,數據異常的識別處理,工序流程的差異,時間複雜度,空間複雜度,模型魯棒性,)
-
步驟
- 載入各種數據科學以及可視化庫
- 載入數據
- 數據總結
- 數據總覽
偏度和峯值 - 判斷數據缺失和異常值
缺失值判斷裏好像注意屬性的類型 - 異常值難道只能一行一行去看嗎
- 可以利用pandas的columns循環看所有的屬性的值分佈
for title in Test_data.columns: if len(Test_data[title].value_counts()) < 7: print(Test_data[title].value_counts())
- 瞭解預測值的分佈
如果預測值分佈不太明顯,可以使用trick,例如集中於較小的數值,可對其進行log_e的變換 ······ - 特徵分爲類別特徵和數字特徵,並對類別特徵查看unique分佈
可用unique分佈查看屬性值分佈
畫圖分析最直觀,可參考
多變量之間的關係可視化- 數字特性分析
相關性分析使用的是協方差(相關係數) - 類型特徵分析
- 數字特性分析
- 生成報告
pandas-profiling
-
-
賽題
price 二手車交易價格(預測目標 預測二手車的交易價格。總數據量超過40w,包含31列變量信息,其中15列爲匿名變量。爲了保證比賽的公平性,將會從中抽取15萬條作爲訓練集,5萬條作爲測試集A,5萬條作爲測試集B,同時會對name、model、brand和regionCode等信息進行脫敏。(脫敏:數據安全方面,通過一定的加密或者其他算法將類似於身份證或其他敏感信息轉換成可使用的不敏感信息)
使用迴歸的方法,對其31列信息進行特徵提取,然後建模預測。