【Python sklearn】kaggle Titanic生死預測--0.81準確率--python超詳細數據分析--附源代碼和報告的下載地址

原創

爱做梦的鱼

2020-07-02 03:01

泰坦尼克號

前言

前言

泰坦尼克號的沉沒是歷史上最臭名昭著的海難之一。
1912年4月15日，在她的處女航中，被普遍認爲“沉沒”的RMS泰坦尼克號與冰山相撞後沉沒。不幸的是，船上沒有足夠的救生艇供所有人使用，導致2224名乘客和機組人員中的1502人死亡。
儘管倖存有一些運氣，但似乎有些人比其他人更有可能生存。
在這一挑戰中，我們要求您建立一個預測模型來回答以下問題：“什麼樣的人更有可能生存？” 使用乘客數據（即姓名，年齡，性別，社會經濟階層等）

競賽地址：https://www.kaggle.com/c/titanic
文末有源代碼、實驗報告以及該代碼需要的數據（train.csv和test.csv）

作者：東北大學軟件工程1704張志浩

1 導入包

2 加載併合並數據

3 查看數據

我們知道了總的數據一共有1309行，也知道了每個特徵的數據類型，很多數據都出現了缺失，總結一下：

1、Age缺失 263個，不算多，處理數據
2、Survived缺失418個，不用處理，因爲test.csv中的數據本來就是沒有Survived的。
3、Cabin缺失1014個，缺失太多，丟棄這個特徵
4、Fare缺失1個
5、Embarked缺失2個

4 處理數據

在數據中出現缺失或者錯誤的Value是很正常的事，一些預測模型可以很好的處理缺失數據，如神經網絡(neural networks)，有些則需要單獨處理他們。但是我們使用的隨機森林(Random Forest)來做預測模型，隨機森林(自身並不能對付缺失數據，所以我們需要對缺失值單獨進行處理。

4.1 刪除Cabin => 客艙、Ticket => 船票信息、PassengerId => 乘客ID

4.2 處理Age => 年齡的缺失值

4.2.1 平均值來填充

Age（年齡）有263個缺失項，就簡單地用平均值來填充，並看看填充前後的直方圖：

4.2.2 隨機選取平均值加減標準差範圍的數來填充

4.3 接着，我們需要從年齡中提取一個特徵出來，即：孩子。尊老愛幼

4.4 處理Embarked => 登船港口的缺失值

4.5 填補Fare => 票價缺失值

Fare（票價）只有1個缺失項,直接用平均值填充：

可以看出票價集中在10左右，倖存的人的票價平均在48。

4.6 Pclass => 乘客等級(1/2/3等艙位)

可視化

得到Pclass與Survived的關係，可以看出Pclass爲3的生存率很低，我們試試把它的Dummy Variables去掉：

4.7 老規矩，首先看看Sex與Survived的關係：

4.8 Name（姓名），Parch（父母/孩子的數量），SibSp（配偶的數量）：

4.9 對Embarked進行變量轉換

4.10 再觀察一下數據，看看還有那些特徵可以用到，整理出三個新特徵：稱謂、家庭大小、姓。

4.10.1 處理姓

4.10.2 處理稱謂

4.10.3 處理家庭大小

5 提取模型需要的數據

6 對數據進行標準化、降維等操作

我只使用了離差標準化，其他的沒有離差標準化準確率高，註釋掉的代碼是我沒有使用的方法

6.1 離差標準化

6.2 標準差標準化數據

6.3 對特徵進行二值化處理

6.4 對定性特徵進行獨熱編碼處理

6.5 PCA降維

7 可視化研究不同特徵的影響

從圖中可以看出Q影響較小，刪去

8 刪去影響較小的特徵–Q

9 網格搜索最優參數

我得到n_estimators=26,max_depth=6,最優

10 模型構建

我試了幾乎所以的模型，但是隻有隨機森林的準確率最高，可能我處理得到的數和這個模型比較匹配

10.1 隨機森林

10.2 GBDT

10.3 SVM模型

10.4 邏輯迴歸Logistic Regression

11 驗證結果

12 實驗報告和源代碼下載地址

泰坦尼克號0.81準確率python源代碼
 泰坦尼克號0.81準確率實驗報告

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

有遇到過嗎？同樣的規則 Excel 中比Python 結果大

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【Jethro Shen】問了一個Python處理Excel數據讀取的問題。問題如下：有遇到過嗎？同樣的規則 Excel 中比Python 結果大？二、實

2024-05-01 09:49:01

這種運行結果裏的10.100000001，怎麼能最快改成10.1？

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【無敵劈叉小狗】問了一個Python基礎的問題。問題如下：這種運行結果裏的10.100000001，怎麼能最快改成10.1，所有結果都最多一位小數。二、實現過程

2024-04-30 21:49:58

通義靈碼實戰系列：一個新項目如何快速啓動，如何維護遺留系統代碼庫？

作者：別象進入 2024 年，AI 熱度持續上升，翻閱科技區的文章，AI 可謂是軍書十二卷，卷卷有爺名。而麥肯錫最近的研究報告顯示，軟件工程是 AI 影響最大的領域之一，AI 已經成爲了軟件工程的必選項，也有研究稱開發者每天的事務性工作可

2024-04-30 21:12:20

Apache DolphinScheduler支持Flink嗎？

隨着大數據技術的快速發展，很多企業開始將Flink引入到生產環境中，以滿足日益複雜的數據處理需求。而作爲一款企業級的數據調度平臺，Apache DolphinScheduler也跟上了時代步伐，推出了對Flink任務類型的支持。 Flink

2024-04-30 11:49:27

從原始邊列表到鄰接矩陣Python實現圖數據處理的完整指南

本文分享自華爲雲社區《從原始邊列表到鄰接矩陣Python實現圖數據處理的完整指南》，作者：檸檬味擁抱。在圖論和網絡分析中，圖是一種非常重要的數據結構，它由節點（或頂點）和連接這些節點的邊組成。在Python中，我們可以使用鄰接矩陣來表示

2024-04-30 10:34:05

Python爬蟲技術與數據可視化：Numpy、pandas、Matplotlib的黃金組合

前言在當今信息爆炸的時代，數據已成爲企業決策和發展的關鍵。而互聯網作爲信息的主要來源，網頁中蘊含着大量的數據等待被挖掘。Python爬蟲技術和數據可視化工具的結合，爲我們提供了一個強大的工具箱，可以幫助我們從網絡中抓取數據，並將其可視

2024-04-29 23:26:28

Spring AI 搶先體驗，5 分鐘玩轉 Java AI 應用開發

作者：劉軍 Spring AI 是 Spring 官方社區項目，旨在簡化 Java AI 應用程序開發，讓 Java 開發者像使用 Spring 開發普通應用一樣開發 AI 應用。 Spring Cloud Alibaba AI 以 Spr

2024-04-29 21:12:12

1 名工程師輕鬆管理 20 個工作流，創業企業用 Serverless 讓數據處理流程提效

作者：嶽洋、陳德全、劉靜娜北京語勢科技有限公司成立於 2023 年 6 月，語勢科技定位爲“智能投資時代的主題入口”，在資管行業從以機構爲核心轉向以用戶爲核心的變革時代，通過打造主題投資引擎，賦能普惠投資一體化，打造以投資者和資管機構爲主

2024-04-28 21:12:22

11個Python循環技巧

本文分享自華爲雲社區《Python中的循環技巧指南》，作者：檸檬味擁抱。當我們處理數據時，有時候需要創建多個列表以存儲不同類型或不同條件下的數據。在Python中，我們可以利用循環來快速、高效地創建這些列表。本文將介紹如何使用循環在Pyt

2024-04-28 10:33:08

實踐探討Python如何進行異常處理與日誌記錄

本文分享自華爲雲社區《Python異常處理與日誌記錄構建穩健可靠的應用》，作者：檸檬味擁抱。異常處理和日誌記錄是編寫可靠且易於維護的軟件應用程序中至關重要的組成部分。Python提供了強大的異常處理機制和靈活的日誌記錄功能，使開發人員能夠

2024-04-25 22:33:43

西安站開營！AI 編碼助手通義靈碼幫大學生“整活兒”

如何更好地與 AI 爲伴，做時代的先進開發者？4 月 17 日，阿里雲推出的 AI 編程助手通義靈碼與雲工開物“高校訓練營”走進西安多所高校開啓實操培訓，結合 AI 輔助編程的發展背景、通義靈碼的具體能力和應用實操，幫助在校大學生了解人工智

2024-04-24 21:12:06

Google Chrome驅動程序 124.0.6367.62（正式版本）去哪下載？

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【Jethro Shen】問了一個Python谷歌驅動下載的問題。二、實現過程這裏【Kim】和【Crazy】給了一個指導，如上圖所示。說來奇怪，在鏈接中看了沒有

2024-04-24 09:48:52

2024年DataOps趨勢預測：AI不會取代數據工程師

APM digest收集了多位行業專家對DataOps在2024的發展形勢及對IT和業務的影響的預測，這些技術最高管理者，包括Confluent技術戰略負責人Andrew Sellers的深刻洞見可能與你的感覺一致嗎？快來探討一下。數據可

2024-04-30 11:49:29

數字化轉型新篇章：企業通往智能化的新範式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

24小時熱門文章

最新文章

最新評論文章