2020泰迪杯數據挖掘挑戰賽總結(A題)

寫在開始:轉眼間,泰迪杯數據挖掘挑戰賽已經過去了10多天,趁着結果還沒出來,還有這股熱乎勁,寫篇文章總結下。

最初

  • 最初的參賽原因簡單粗暴。
    在這裏插入圖片描述
  • 後來也漸漸發現,白嫖也的確學到不少。
  • 剛開始組隊,選好隊友很重要,和我組隊的兩個隊員是兩個數學學院的大佬。他們每個人都對比賽特別上心。組長也及其負責,這對我們後來的討論,學習,解題有了很大的鼓勵。

學習階段

  • 在學習階段是比賽整個階段中對自我提升最大的階段。那段時間真的是我整個學期學習最認真的時間,除去上課時間,每天從早學到晚,學習數據分析和機器學習。你只有學的足夠深才能在解題的時候有更多的思路,更好的思考。
  • 一個組三個人,一個負責寫論文,一個負責算法設計,一個負責編程,身爲一個準程序員,我理所應當的成了負責編程的那個人。每天跟着教學視頻敲代碼成了我的日常工作,有道雲筆記記了很多,這些都會成爲往後的知識財富。正好我也是大數據專業,數據分析也是一項基本技能。
  • 偶爾會開語音討論近期進度和對題目的理解,我們組選的是看起來較難的A題。雖然A題看起來較難,但是A題最起碼全是數據,沒有對文字型或其他類型數據的處理,也會好做一些。
  • 在學習階段就要多學習,認真學。需要學的不僅是教程視頻。還要儘量多的百度一些論文閱讀,學習別人的思路。

解題階段

  • 比賽的數據量基本上都特別大,所以運行起來就會特別慢,一般一個程序運行一個多小時都是有可能的。所以我專門爲前段時間白嫖的阿里雲服務器配置了Python3運行環境,用XShell遠程管理,寫好程序後rz上傳到服務器,然後讓服務器在後臺運行程序,自己繼續寫下一部分。事實證明,這個方法很有效果,大大節省了我們運行程序的時間。
  • 解題階段要多討論,多討論,多討論!不同的人對題目的理解可能不太一樣。我在一開始的理解就偏離了團隊的路線,後來在一次討論中才發現並及時調整。
  • 在解題中要實驗多個模型,不能死追着一個模型不放,可能下一個模型就比這個模型要更好。
  • 介紹一個比較好用的庫pandas-profiling,可以一鍵生成漂亮的數據總體預覽,也可以生成HTML文件。如果加在論文中,會比較好看。具體使用方法見點擊直達
  • 另外,代碼記得寫註釋,文件名記得備註清楚,不然到最後整理代碼的時候你能瘋,別問我咋知道的。。。

最終

  • 比賽結束,不論結果怎樣,最起碼在這個過程中我們學到了很多,這就足夠了。借用我在比賽中說的一句話:參賽本來的目的就是學習,放平心態就好,得獎也好,得不了獎也罷,只要我們盡力了,在這個過程中學到東西了,那這個比賽參加的就有價值。堅持到底,就是勝利者!
  • 最後祝那些參加了的和將要參加比賽的童鞋們取得好成績,也希望我們組能夠取得優異的成績吧。
  • 時間——2020年5月21日。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章