用SPK技術分析，泰坦尼克號沉船之後哪些人活下來了

原創

2018-08-23 18:46

本文采用Kaggle中比較知名的數據集Titanic Machine Learning from Disaster作爲分析數據源，該數據集被評爲五大最適合數據分析練手項目之一。

分析目的是根據訓練集預測部分乘客在沉船事件中是否會存活？

數據分析的整個流程如下：
    （1）數據清洗
    （2）特徵工程
    （3）缺失值
    （4）模型設計與預測

1. 數據的下載和字段的描述

數據的下載地址爲https://www.kaggle.com/c/titanic/data

目前，我們已經對變量，變量類型及其前幾個取值情況有了初步的瞭解。

我們知道：我們的目標是要預測生存情況（Survived）——因變量可供使用的自變量11個。

2. 使用的分析工具介紹

我們使用的工具是FEA-spk技術，它的底層基於最流行的大數據開發框架spark，對各種算子的操作都是基於DataFrame的。使用FEA-spk來做交互分析，不但非常簡單易懂而且幾乎和spark的功能一樣強大，更重要的一點，它可以實現可視化，處理的數據規模更大，可以進行分佈式的機器學習等，下面我們就來實現這個案例。

3. 案例的具體實現原語如下

（1）加載數據

訓練集的數據格式如上圖所示

（2）清洗數據

a. 觀察姓名變量

首先，我注意到在乘客名字（Name）中，有一個非常顯著的特點：乘客頭銜每個名字當中都包含了具體的稱謂或者說是頭銜，比如Mrs，Mr等。將這部分信息提取出來後可以作爲非常有用一個新變量，可以幫助我們預測。

下面我們統計一下Title各個類別的個數。

下面我們將字符串映射爲對應索引。

b.家庭情況是否會影響生存結果?

目前爲止，我們已經處理完乘客姓名這一變量，並從其中提取了一些新的變量。下一步考慮衍生一些家庭相關的變量。首先，生成家庭人數family_size這一變量。可以基於已有變量SubSp和Parch（具體含義參照上面）。

family_size=SubSp+Parch+1（包括自己）。

缺失值

————————————————————————————————————————————

現在我們開始對原始數據當中的缺失值進行處理（填補）。具體做法有很多種，考慮到數據集本身較小，樣本數也不多，因而不能直接整行或者整列刪除缺失值樣本。那麼只能通過現有數據和變量對缺失值進行預估填補。例如：可以用均值中位數模型填補缺失值，這裏使用後面兩種方式進行。

首先查看一下哪些字段有缺失值。

可以看到Age字段，Embarked字段有缺失值, Cabin字段雖然有缺失值，但是缺失值太多了，所以這個變量不考慮。Age字段爲數值型，可以使用平均值進行填充，Embarked字段爲字符型，選擇頻率最大的字符進行填充。

可以看到出現次數最多的字符是S。

可以看到沒有缺失值了。

特徵工程

—————————————————————————————————————————————

由於機器學習只支持數字類型，所以我們要將字符型的數據轉化爲數字類型的。

首先對於Sex字段，只有male，female兩種類型，要將它轉化爲數字類型。

Embarked字段，同樣要將字符型的數據轉化爲數字類型的，然後將其映射爲獨熱編碼。

然後刪除不需要的列。

由於Spark機器學習需要的數據類型爲double類型，所以我們將字符類型的轉化爲double類型。

模型設定與預測

———————————————————————————————————————————

在完成上面的工作之後，我們進入到最後一步：預測泰坦尼克號上乘客的生存狀況。在這裏我們使用邏輯迴歸算法。我們前期那麼多工作都是爲了這一步服務的。首先我們要將所有的特徵值聚合爲向量。

我們發現數據格式不一致，所以我們要進行歸一化處理。

下面就是建立邏輯迴歸模型了。

此刻的模型已經建立好了，下面我們來評價模型的好壞

可以看到準確率達到了86%，如果想提高精確度，可以進行參數的調節

下面開始預測是否他們存活下來，這個時候就要用到測試集了，對測試集進行同樣的變換，這裏不再敘述了，變換後的df表如下所示

下面開始使用訓練好的模型進行預測。

其中prediction列就是預測的結果，1代表活下來了，0代表沒有獲救。

最後我們還可以把模型保存在hdfs上面，以便下次進行使用。

加載模型的時候就可以從上面加載下來，直接使用了。

以上就是預測泰坦尼克號獲救的完整案例，後面會有更加精彩的內容推薦，歡迎關注！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Qt/C++音視頻開發77-獲取本地有哪些攝像頭名稱/ffmpeg命令日誌方式

一、前言上一篇文章講使用ffmpeg函數接口去獲取本地攝像頭信息，這種方式只能從ffmpeg5版本開始才具備，那ffmpeg3/4只能乾瞪眼？那肯定不行的，必須要想辦法打通這個功能，查閱信息發現可以執行命令 ffmpeg -f dshow

2024-06-16 14:31:38

Java 學習網站

## spring security https://github.com/jitwxs/blog-sample/tree/master

2024-06-16 14:31:18

全面解析 OAuth 2.0：概念、流程與實戰示例

OAuth（開放授權）是一種開放標準，用於允許用戶在不暴露其憑據（如用戶名和密碼）的情況下，讓第三方應用程序訪問其資源（如用戶的照片、視頻、聯繫人列表等）。OAuth 主要用於授權，而不是身份驗證。背景 OAuth，全稱爲Open Aut

2024-06-16 14:24:47

Lakehouse 還是 Warehouse？(2/2).md

這篇博文包括 Onehouse 首席執行官 Vinoth Chandar 於 2022 年 3 月在奧斯汀數據委員會發表的重要演講的後半部分。本文是第 2 部分，比較了架構的功能和性價比特徵。最後，它描述了一個面向未來的、湖倉一體的架構。

2024-06-16 14:22:37

C#/.NET/.NET Core拾遺補漏合集（24年6月更新）

前言在這個快速發展的技術世界中，時常會有一些重要的知識點、信息或細節被忽略或遺漏。《C#/.NET/.NET Core拾遺補漏》專欄我們將探討一些可能被忽略或遺漏的重要知識點、信息或細節，以幫助大家更全面地瞭解這些技術棧的特性和發展

2024-06-16 14:21:47

Python 潮流週刊#56：NumPy 2.0 裏更快速的字符串函數（摘要）

本週刊由 Python貓出品，精心篩選國內外的 250+ 信息源，爲你挑選最值得分享的文章、教程、開源項目、軟件工具、播客和視頻、熱門話題等內容。願景：幫助所有讀者精進 Python 技術，並增長職業和副業的收入。本期週刊分享了 12

豌豆花下貓

2024-06-16 14:19:07

python: time object

# encoding: utf-8 # 版權所有 2024 塗聚文有限公司 # 許可信息查看： # 描述： # Author : geovindu,Geovin Du 塗聚文. # IDE : PyCharm 202

®Geovin Du Dream Park™

2024-06-16 14:00:36

定期優化和分析表

定期運行 OPTIMIZE TABLE 和 ANALYZE TABLE 命令，以確保表的統計信息是最新的，索引也得到了優化。 OPTIMIZE TABLE wp_posts; ANALYZE TABLE wp_posts; OPTIMIZ

2024-06-16 13:56:25

Paimon筆記

支持高吞吐數據攝入、變更追蹤、高效分析的流批數據湖基於LSM提升寫入速度並降低寫入消耗；基於有序的SortRun裁剪大部分數據以提升查詢性能；支持多種merge引擎實現高性能流表打寬基於Flink&Paimon實現，提供數據一致性管理能

2024-06-16 13:46:55

存檔-環境信息conda

3060 (Pytorch 2) 4090 (Pytorch 2) 3060 (Pytorch 1) name: basechannels: - nvidia/label/cuda-11.8.0 - defaultsdep

太一吾魚水

2024-06-16 13:44:44

存檔-環境信息apt

1 !apt list --installed 2 Listing... Done 3 accountsservice/now 0.6.55-0ubuntu12~20.04.5 amd64 [installed,upgr

太一吾魚水

2024-06-16 13:44:44

Wireshark 安裝+使用（一）

https://blog.csdn.net/zhuizhufanxin123/article/details/103982940

規格嚴格-功夫到家

2024-06-16 13:43:14

metasploit學習

Metasploit(MSF)使用詳解—以kali系統環境下永恆之藍（ms17_010）爲例 https://blog.csdn.net/weoptions/article/details/133039825 https://blog.cs

規格嚴格-功夫到家

2024-06-16 13:43:14

VirtIO drivers for Linux, Windows and etc.

Why do you need VirtIO driver? It's useful when you use Linux/Windows VMs in PVE. Usually when you attach a network to t

2024-06-16 13:42:04

Linux 命令大放送！（第一輯）

涓涓細流，終匯大海。在 "Shell 小技能" 一文中，講到了 Shell 組合 linux 命令的實用小技能。每一條 linux 命令，都是一個小工具。 Shell 可以將很多小工具組合成更強大的實用工具。本文主要梳理程序員常用

2024-06-16 13:39:44

24小時熱門文章

最新文章

最新評論文章