AI、泰坦尼克和存活率

Kaggle 人工智能竞赛网站上,有一个知名的竞赛,是初学者必经之路,名字叫 "Titanic - Machine Learning from Disaster",翻译过来就是“泰坦尼克 - 灾难中的机器学习”。

这个竞赛提供了一个数据集,即泰坦尼克号上的乘客信息,共计 1309 条,也就是 1309 人。 分为训练数据集 891 人,测试数据集 418 人。

测试数据集中,标明了是生还是死,即有一个 “survived” 字段。 而测试数据集则没有,要参赛者用算法来预测。

数据字段包括,换个说法吧,每个人的信息有:

ID 乘客编码,这就是个顺序码,没有意义。

Pclass,客舱等级,也就是头等舱,二等,三等这几个级别。这个等级对于是否能存活下来,非常重要。

Name,姓名,姓名里还能分解出“先生”、“女士”、“爵士” 等有用信息,代表性别和社会地位。

Sex,性别,这个很重要。

Age,年龄,这个也很重要。

Parch,父母子女,即父母子女同行人数。

Sibsp,兄弟姐妹,即兄弟姐妹同行人数。

Ticket,船票编号,没什么太大意义。

Fare,票价,这个有点意义。

Cabin,客舱编号,有很多人缺失客舱编号。

Embarked,登船港口。

这个竞赛,就是要用训练集中的这些数据,拟合出一个模型,用来预测测试数据集中人的生死,预测的准,得分就多。

拿到数据后,我首先想到一个问题,船上是否有中国人。统计每个人名字的长度,然后按照名字长度做逆排序,打印出来,最后几个名字中,可能是中国人的有:

Ling, Mr. Lee;Bing, Mr. Lee;Hee, Mr. Ling;Lang, Mr. Fang;Chip, Mr. Chang;Foo, Mr. Choong;

最后一个是不是中国人,感觉有点没把握。但前面的5人,应该有把握。

但我们的数据只有 1309 人,而船上实际有3000余人,据报道,共有 8 位中国人,其中 6 人存活。英国导演亚瑟·琼斯和詹姆斯·卡梅隆还制作了一个纪录片,名为《六人——泰坦尼克上的中国幸存者》,替这6位中国人正名:他们没有贪生怕死,而是按照规矩逃生的。

统计一下,生死概率。 训练数据集共891人,死亡 549 人,存活 342 人。

训练集中,生存率为 38%。

是否能够生存下去,性别是至关重要的决定因素:泰坦尼克号,确乎照顾了妇孺,男人们普遍爷们儿,堪称所谓的绅士风度。

女人的生存率为:74%。

男人的生存率为:19%。

所以就有人质疑,8位中国男人,何以存活了6位。

画个男女生存比例图:

但另一个影响生存比例的重要因素,说起来,就令人心中愤懑了。那就是舱位等级。舱位一共三等:1等,2等,3等。

1等存活率 63%。

2等存活率 47%。

3等存活率 24%。

画个图:

还可以继续探究一下,1、2、3等舱位中,男士女士生存比率对比,可以看一下不同社会阶层的绅士含量。

1等舱中,男人生存率为 36.9%,女人生存率为 96.8%。

2等舱中,男人生存率为 15.7%,女人生存率为92.1%。

3等舱中,男人生存率为 13.5%,女人生存率为50%。

很清楚,2等舱的男人绅士含量最高,女男生存比例最高,女士得到最大的保护。

而1等舱和3等舱,对于女士来说那个更好,就不大容易判断,如果仅仅按照比例来看,则3等舱比例为3.7,1等舱为2.6,似乎反倒是 3等舱绅士含量高。但考虑到 1 等舱中存活女性的比例已经高达 96.8%,意味很可能所有女性都得到了照顾(3.2%的死亡可能是意外)。而 3 等舱中还是有很多男人,是看着女人死掉,而逃生了。

所以,3等舱,对女性情况最差。

但是,我们最关注的,不该是女士,而应该是孩子。成人,死则死矣,孩子却是无辜的。对于这个世界来说,孩子是客人,他们被迫来此地,成人当对孩子有愧疚感。

让我们来算算泰坦尼克上,孩子的存活率。我们用15岁来划分成年与否。

孩子一共78人,总存活率 58%。远远低于女性总存活率 74%。

1等舱孩子一共5人,总存活率80%。这令人惊讶,为何1等舱居然有孩子没能存活下来。当然,远远不如1等舱中女性的存活率。

2等舱孩子19人,总存活率100%。2等舱对女士保护最好,对孩子的保护也是最好的,100%。

3等舱孩子54人,总存活率41%。还是不如3等舱中女人的存活率。

计算至此,冒然得出三个结论:

第一、这艘船上,确实对女性、孩子、有钱人保护更好一些。价值观是鲜明的。

第二、女性优先,孩子第二。在我看来,这是不对的。 应该孩子第一、女性第二。

第三、最闪光的人性,在2等舱。对于孩子和女性的保护,远超 1等和3等。或许可以解释为,中产阶级道德感最强?

乘客的姓名信息,也大有玄机,因为其中包含了一些代表地位的称谓。

最普遍的是普通老百姓,那么就是 Mr、Mrs、Miss。他们的存活率和前面的分析差不多。

最牛逼的是有爵位的,这样的 Don、Sir、the Countess、Dona、Lady,就是没有爵位,也都是地位尊贵的大老爷们,而其地位则来自血统,也就是爹妈给的。换到中国,那就是高级公务员。全船这样的人很少,就 5 人,其中 Dona 和 Lady 两位是女士。活下来呢,3 人,也就是说,只有 1 位男人活下来了。总的来说,还是很体面的,死去的两位大概率是有机会生存下去的。

还有一类,是 Master、Jonkheer,这个 Master 不是硕士生,应该指有点小地位的地主、乡绅什么的。这一类共 62 人,存活 23 人,

最后一类,是 Capt(船长,海军上校)、Col(陆军上校)、Major(少校)、Dr(博士、医生)、Rev(牧师)。这一类,是专业、职业阶层,他们地位来自个人能力,而不是血统。这个群体共有 23 人,存活 5 人,21% 存活率。如果去掉其中1位女士,则生存率为 18%。远低于1等舱男人生存率36.9%,也低于全船男人生存率19%,当然,还是高于2等和3等舱的男人生存率,高的并不多。这个团体,应该是很体面的,非常绅士。其中,Capt 一人,就是那位尊敬的老船长了。

同船家庭成员数,居然也影响了存活率。 一家 2 - 4 人,则存活率较高,如果单身1人,存活率就低,大于 4 人,存活率也低,原因难解。

登船的港口、票号也对存活率有影响,至于原因,则更难索解。 

愿泰坦尼克号上,每一位死去的人,死时都无痛苦,死后都得安息。愿那些让出生存机会的人,在天堂中安详快乐。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章