【Kaggle從零開始】titanic簡單生存預測

原創

2020-02-25 00:24

PS(寫到一半發現把博客寫成了在學校的報告的模樣…)

相信看到這篇博客的讀者們應該知道kaggle是什麼，不然也不會看到我這篇博客。

titanic作爲kaggle官方入門題目，其地位堪比a+b problem在各大算法競賽(*cpc)中的地位。
廢話不多說，我們直接開始。

首先，我們可以觀看一下小姐姐的視頻(官方教程)，就是下面這個。

或者，我們可以直接開始。

將data下載下來後，閱讀數據說明。(就是下圖這個)

然後，觀察一下提交的格式。(也就是下圖這個)

查看完這些信息後，我們就可以開始做題了。
做題過程分爲三部分：

讀取數據，觀察數據的格式。
分析數據，對數據進行處理。
選擇合適的模型進行預測。

第一部分：讀取數據，觀察數據的格式

通過上圖可以發現，數據中有不同類型的數據。

第二部分：分析數據，對數據進行處理

通過上圖可以發現，訓練集中有結果，也就是Survived列，(下文中稱其爲y值)，將y抽取出來作爲結果集。
訓練集中還有不是數值類型的數據，比如Name, Cabin, Ticket, Sex等等，需要對他們進行分析，並且處理，簡單舉個例子，對Sex這類數據，用數據標號就可以，對於Name這種數據，可以觀察其稱呼，將稱呼抽取出，或者將名稱長度做成新的屬性。

第三部分：選擇合適的模型進行預測

因爲這個是入門題目，所以我們就用最簡單的方法進行分類，直接用sklearn中的SVM對數據進行fit並預測。

最後提交數據即可。

發現直接隨機的結果有43%的正確率，隨便寫的預測模型有59%的正確率。

以上就是kaggle入門的最簡單的教程。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

臥槽！這技能竟比 Python 更好用？我跪了！

搜索和推薦是人工智能技術應用最早的、也是最成熟的兩個領域。互聯網快速發展，信息爆炸式增長，推薦系統則是解決信息過載最有效的方式之一。推薦系統也是拉動用戶增長的利器，目前各大互聯網公司都以此作爲流量變現的重要工具之一。

Python進階者

2021-09-15 21:21:54

如何選擇機器學習模型？

↑↑↑點擊上方藍字，回覆資料，10個G的驚喜作者 | Santiago Valdarrama 譯者 | Sambodhi 策劃 | 劉燕本文最初發表於 Towards Data Science 博客，經原作者 S

機器學習算法與Python實戰

2021-08-30 21:14:11

獎金超30萬！Kaggle圖像預測新賽開打！

如果你空有理論卻缺少實踐，我推薦你刷kaggle。它能極大地提升你的代碼能力；如果你想找好工作卻缺乏項目經歷，我推薦你刷kaggle。它能給你的簡歷增光添彩。總獎金32萬元的kaggle-Bristol-Myers S

2021-04-14 21:15:16

Kaggle金牌拿Offer有多簡單？

如果你空有理論卻缺少實踐，我推薦你刷kaggle。它能極大地提升你的代碼能力；如果你想找好工作卻缺乏項目經歷，我推薦你刷kaggle。它能給你的簡歷增光添彩。相信你或多或少都聽說過打比賽的好處，可是當你躍躍欲試要參賽的

2021-04-02 21:14:30

python保存數據到文件的幾種方法

在使用python訓練人工智能網絡模型的時候，經常需要保存訓練結果到文件中，比如在kaggle競賽的時候，通常需要保存測試結果到csv中，這個時候大家可能會用到本文的技術。方法一：open函數保存 #保存數據 open函數

2021-03-22 21:19:15

沒論文、雙非本的新人，怎樣拿到大廠40k offer？

每年春招，BATJ等互聯網大廠總會佔據頭版頭條。 40K、18薪、股權激勵、簽字費…真是wnderful！！！但心動之後是心涼。頂會論文、項目經歷、top院校…… 院校出身已經無法改變，頂會論文遙不可及，沒論文、雙非本的C

機器學習算法與Python實戰

2021-03-22 21:14:51

基於大尺寸圖像的小目標檢測競賽經驗總結

點擊上方“AI算法與圖像處理”，選擇加"星標"或“置頂” 重磅乾貨，第一時間送達僅作學術分享，不代表本公衆號立場，侵權聯繫刪除轉載於：作者丨清風明月@知乎（已授權）來源丨https://zhuanlan.zhihu.c

2021-02-20 21:13:58

通過客戶流失預測案例感悟數據分析設計方法思考——數據驅動、AI驅動

國際著名的諮詢公司Gartner在2013年總結出了一套數據分析的框架，數據分析的四個層次：描述性分析、診斷性分析、預測性分析、處方性分析。 Gartner於2020年中給出預測，到2024年底，75%的企業機構將從AI試點轉爲AI運營。同

2021-02-04 21:25:35

美賽常用數據庫網站大全

數模比賽數據查找網站大全這裏網站非常得多，大家自行選擇 Part one 剛開始是查各種外國的，最後才發現中國還是最方便的，各個省市的統計年鑑加上中國的統計年鑑很多數據都能直接得到了。下面放一些我這次比賽看到過的網站，雖然由於信

2021-02-01 09:16:19

乾貨 | 基於 Python 的信用評分模型實戰！

來源 | 知乎作者 | Carl 文章鏈接 | https://zhuanlan.zhihu.com/p/35284849 信用評分模型可用“四張卡”來表示，分別是 A卡（Application score card，申請評分卡）、

2021-02-01 09:08:41

設計一款智能營銷數據分析系統，分享給大家！

背景大家好，有很多想轉行數據分析的或者是剛入數據行業兄弟會問，除了Kaggle、天池之類的比賽項目，有沒有一些案例可以讓我快速的練習學到的分析體系和工具，並且可以基於這些項目搭建一套完整的分析系統，比如SQL取數腳本的優化編寫、分析

2021-01-30 21:19:47

爲什麼Kaggle競賽的獎金這麼低？

前段時間，在國外知名社區Reddit上出現了一個“知乎式”問題：作爲數據競賽的頭牌，爲什麼Kaggle的獎金這麼低？我們看到幾個高贊回答，總結下來就是：Kaggle競賽的性質和選手的參賽主要目的都不是獎金，而是優勝背後帶來的其他機遇

2021-01-30 11:14:38

日本「AI 魚臉識別」項目，每分鐘識別 100 條

來源 | HyperAI超神經頭圖 | 視覺中國近日，日本的一個 AI 分揀魚類項目進入實驗階段。這將有望改善日本漁業勞動力老齡化及短缺的社會現狀。日本作爲島國，其獨特的地理位置，讓國民自古以來就跟魚結下了不解之緣，甚至形成了其

2021-01-30 11:08:21

機器學習和數據科學中常用的公開數據集（含計算機視覺最全數據集彙總）

數據集查找器Google Dataset Search：與Google Scholar的工作方式類似，Dataset Search 可以讓你在任何託管的地方找到數據集，無論是出版商的網站，還是數字圖書館，又或者是一個作者的網頁。它是一個非

2021-01-30 11:01:09

推薦：利用Python的混合集成機器學習（附鏈接）

作者：Jason Brownlee 翻譯：王可汗校對：wwl 本文約7000字，建議閱讀16分鐘本文爲大家展示瞭如何在python中開發和評估混合集成學習，以及如何用於分類和迴歸問題當中。混合是一種基於集成學習的機器學習算法。

2021-01-30 10:53:22

24小時熱門文章

最新文章

最新評論文章