[Kaggle實戰] Titanic 逃生預測 (1) - 項目起步

原創

2020-02-21 12:30

這次實戰的Kaggle比賽，其實只是其中一個沒有獎金的公益比賽。

主頁： http://www.kaggle.com/c/titanic-gettingStarted

主題是：

Titanic: Machine Learning from Disaster

在比賽之中，官方給出了一些原始的一半的數據作爲比賽用的訓練集與測試集。另外一半作爲官方自己的測試集。最後成績評定也是會使用官方自己留着的一半數據進行評比。

注意：有一個取巧的方式，那就是去網上去搜索全部原始數據並依此爲基礎提交算法。好吧，我用的是比這個笨的方法:)

在這裏介紹一下，我比較擅長的是java，並且也希望使用java完成這次比賽。

如果希望使用Python，可以參考：http://triangleinequality.wordpress.com/2013/09/05/a-complete-guide-to-getting-0-79903-in-kaggles-titanic-competition-with-python/

爲了完成這次比賽，首先需要下載官方的數據集。

訓練集用Excel打開之後的樣子：

下面解釋一下訓練集之中的數據：

PassengerId	旅客ID	這條數據應該沒啥用
Survived	是否活下來了，1:yes 0:no	這個應該是對我們很有用的一個數據
Pclass	旅客等級 1 2 3 分別代表不同的等級
Name	名字
Sex	性別
Age	年齡
SibSp	有多少兄弟姐妹/配偶同船 Number of Siblings/Spouses Aboard
Parch	有多少父母/子女同船 Number of Parents/Children Aboard
Ticket	船票號碼？
Fare	船票收費
Cabin	所在小屋
Embarked	登船城市 Port of Embarkation	C Q S 分別代表不同的城市

最後，在打開看了一下訓練數據之後，第一反應就是使用決策樹來實現預測功能。

下一篇文章將講訴我是如何進行數據預處理的

發佈了36 篇原創文章 · 獲贊 0 · 訪問量 9360

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

mybatis開啓MapperScannerConfigurer導致properties不生效

背景 spring和mybatis集成過程中，我們可以通過MapperFactoryBean的方式配置Mapper接口。但是這樣需要在配置文件中，爲每個mapper配置相同的代碼塊，浪費時間。關鍵對於代碼潔癖的人來說，一點不能忍。 <bea

2024-02-07 13:55:41

Java字符串的一些理解

爲什麼要研究字符串？人機交互的過程中，文字、數字、字母、符號都是字符表現形式，這部分內容佔了人機信息交互的大部分內容，所以有必要明確一些基本問題。因此大部分數據類型都應該有字符串表達形式，我們在定義新類型的時候可以根據需要來定義新類型的

2023-10-31 09:11:32

（二）java版spring boot 社交電子商務平臺-security簡單使用

security的簡單原理：使用衆多的攔截器對url攔截，以此來管理權限。但是這麼多攔截器，不可能對其一一來講，主要講裏面核心流程的兩個。首先，權限管理離不開登陸驗證的，所以登陸驗證攔截器AuthenticationProcessing

2023-10-10 11:05:06

（三）java版spring cloud+spring boot+redis多租戶社交電子商務平臺-Spring Cloud實戰隨機端口

我們經常會需要啓動多個實例的情況來測試註冊中心、配置中心等基礎設施的高可用，也會用來測試客戶端負載均衡的調用等。但是，我們一個應用只能有一個端口號，這就使得在本機測試的時候，不得不爲同一個服務設置不同的端口來進行啓動。在本地用不同端口啓動

2023-10-10 11:05:04

如何使用 Java 反射？反射的用法及案例

簡介 Java Reflection，稱爲 Java 反射，是Java基礎部分的一個比較難的點。Reflection（反射）是被視爲動態語言的關鍵，通過反射機制，我們可以在運行時（runtime）獲取類的完整結構。例如，可以獲取到

2023-10-10 02:23:57

最新美團面試集合（一面+二面+三面+重點技術面試題）附面試解析

一面 1. 簡短自我介紹 2. 事務的ACID，其中把事務的隔離性詳細解釋一遍 3. 髒讀、幻影讀、不可重複讀 4. 紅黑樹、二叉樹的算法 5. 平常用到哪些集合類？ArrayList和LinkedList區別？HashMap內部數據結構

2023-10-10 01:43:49

Java程序員不想被裁員困擾，應該怎樣築基、發展才能越走越遠？

當我們站在技術之路的原點，未來可能充滿了迷茫，也存在着很多不同的可能。在這個知識爆炸與終身學習/碎片化學習爲主的時代，我們面臨的問題之一就是如何進行有效學習，不僅能有效平衡廣度與深度，並且能真正的積澱下來，提升自己的研發效能。於筆者而

2023-10-10 01:43:34

阿里巴巴Java開發手冊梳理筆記 - finally 塊必須對資源對象、流對象進行關閉

阿里巴巴Java開發手冊梳理筆記 - finally 塊必須對資源對象、流對象進行關閉規約內容： 2.1 異常處理 6. 【強制】 finally 塊必須對資源對象、流對象進行關閉，有異常也要做 try - catch 。說明：如果

2023-08-02 10:29:06

java併發-CAS的理解

在Java方面，能夠實現多線程安全修改對象值得方法只有2個 1.原子操作 2.互斥方法而在Java當中，或是其他語言中，基本上也都是使用CAS實現。CAS是比較並交換的意思，這個操作包含2個連續的操作，比較，還有賦值，因爲2個操作在cpu

2023-05-29 01:40:21

java併發-Timer類的使用和原理

單線程輪詢並執行任務，有可能會導致飢餓。比較適合於一些具有一個任務的週期調度。任務列表用數組存儲，元素最前面的元素是最先被執行的任務。 schedule方法是固定間隔執行，根據上一次執行的結束時間來定義間隔的開始時間 scheduleAt

2023-03-28 01:52:22

java併發-ReadWriteLock代碼理解

創建的ReadWriteLock需要使用兩個方法來繼續創造2個對象，分別是ReadLock和WriteLock。這兩個鎖對象的方法調用都會匯聚到ReadWriteLock的Sync類中。多個對象的方法調用匯聚到一個對象上面，這個設計模式是

2023-03-28 01:52:20

java併發-synchronized關鍵字

synchronized關鍵字可以修飾普通方法，靜態方法，當修飾普通方法，鎖對象是當前對象，當修飾靜態方法，鎖對象是當前類的class synchroinzed關鍵字可以使用同步代碼塊實現同步，此時可以指定鎖對象。同步方法的實現方式同步

2023-03-28 01:52:18

java併發-AQS總結-原理

AQS是Java多線程編程的重入鎖，管程，工具類的基礎類，是必須要掌握的。不掌握這個類，根本不能稱之爲合格的Java程序員。即使是把這個類所有的代碼都背會，也是值得的。如何標識已經有線程在執行呢？有兩個變量，一個state變量，一個e

2023-03-28 01:52:16

java併發-緩存一致性協議和內存屏障的思考和理解

################這是之前的思考內存屏障只是保證清空流水線，如何保證高速緩存的內容更新到最新或刷新到主存呢？這個問題突然想到了，不知道這個需要怎回答。內存屏障保證的CPU執行執行序列能夠順序執行，而不是亂序執行。當然，前提

2023-03-28 01:52:14

Java併發-volidate關鍵字

使用volidate關鍵字修飾的成員變量，保證可見性，也就是當一個線程修改這樣的成員變量後，其他的線程能夠立即看到這次的修改。有兩個方面的原因： 1.編譯器不優化對這樣的關鍵字修飾變量的一些訪問操作 2.對讀，寫這個關鍵字修飾的變量前後，會

2023-03-28 01:52:13

24小時熱門文章

最新文章

最新評論文章