Titanic数据分析——KeyError: "None of [Int64Index([ 0, 1, 2,... dtype='int64')] are in the [columns]"

原創

Zhang Hongbo2019

2019-07-30 18:06

代码报错处：

#---------------------------------------------------modify the parameter------------------------------------------------
range_m = np.logspace(2, 6, 5, base = 2).astype(int)
best_m = 0
min_scores = 10000
scores_m = []
for m in range_m:
    kf = KFold(n_splits=5,shuffle=True)
    clf = RandomForestClassifier(n_estimators = 1000 ,max_depth = m,random_state = 4)
    scores = 0
    for train_index, test_index in kf.split(X_train):
          #print("Train:", train_index, "Validation:",test_index)
        clf.fit(X_train[train_index], Y_train[train_index])
#         pred = clf.predict(X_train[test_index])
#         scores += log_loss(Y_train[test_index], pred) / 5
#     scores_m.append(scores)
#     if scores < min_scores:
#         min_scores = scores
#         best_m = m
#
# print(best_m, min_scores)  # 打印随机森林的树的最佳数量和其损失值
# print(scores_m)  # 打印不同数量树的随机森林模型的损失值

错误提示：

KeyError: "None of [Int64Index([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,\n            ...\n            826, 828, 829, 830, 831, 833, 834, 835, 836, 837],\n           dtype='int64', length=670)] are in the [columns]"

解决方案：
很明显索引出现问题，数据框DataFrame有两种新的索引方式：

.iloc[index,:],其中index是索引位置
.loc[:,''],其中’ '中为列名

选择一种方式：

clf.fit(X_train.iloc[train_index,:], Y_train.iloc[train_index,:])

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

pandas数据分析读书笔记（五）

plt.xlabel()，畫x軸標題 Plt.ylabel()，畫y軸標題 Plt.savefig(‘figpath.png’)，把圖片保存爲文件 S = pd.Series(np.random.randn(10).cumsum())

2020-07-08 06:46:51

KNN算法第二章 Pandas & sklearn 机器学习实战 Machine Learning in action

本專欄計劃藉助Pandas與sklearn重新實現書中的實戰案例。 k-近鄰算法1. KNN算法流程2. KNN改進約會網站的配對效果2.1 數據準備：從文本中解析數據2.2 數據可視化：散點圖2.3 數據處理：歸一化數值2.4

2020-07-08 11:09:44

dataframe根据时间戳timestamp切分成多个dataframe

原始數據是 dataframe 的一列 “timestamp” 需要按照每5分鐘做一次切分，下面是切分的代碼： import pandas as pd def dataframe_strip(dataframe: pd.Data

2020-07-08 04:48:59

【Pandas】读取和保存文件

1.讀取文件 Pandas可以讀取xlsx、json、csv、sql等多種文件格式 import pandas as pd # 讀取文件 file = pd.read_excel("test.xlsx", encoding="u

冰冷的希望

2020-07-08 02:02:18

【Pandas】选择数据

1.創建一個DataFrame import numpy as np import pandas as pd dates = pd.date_range("20200301", periods=6) df1 = pd.DataF

冰冷的希望

2020-07-08 01:22:12

【Pandas】merge合并

1.on屬性 import pandas as pd df1 = pd.DataFrame({"a": ["A1", "A2", "A3"], "c": ["C1", "C2", "C3"

冰冷的希望

2020-07-08 01:22:12

用户画像-ID_MAPPING 利用并查集——求无向图的所有连通子图来实现所有用户合并

一項目背景本項目是基於https://blog.csdn.net/weixin_41734687/article/details/99174064 此項目的改進。去年利用jacaard相似度對多用戶進行了合併。由於受到計算資

weixin_41734687

2020-07-08 01:20:47

pandas阅读笔记

這幾天在閱讀python的pandas庫。現在還在閱讀第二章的內容，在第二章中又一個實例，有一個關於電影數據的數據集，然後，我們對它做一些簡單的分析，做個今天學習的總結。 Part 1 讀取數據首先使用的是pandas的read

2020-07-08 00:18:13

pandas apply lamba

import pandas as pd import numpy as np df = pd.DataFrame({'name':['Jack','Alex','Bob','Nancy','Mary','Alice','Jerr

2020-07-07 19:12:31

pandas+Django 以数据流的方式导出复杂数据（问卷调研）快速

導出樣式：表設計： class QuestionnaireTB(models.Model): """問卷管理""""" survey_type = models.ManyToManyField('SurveyType

2020-07-07 15:33:05

pandas隔行计算均值方差(相邻行或隔行的均值/方差)

目前沒有找到一個函數來做這件事的,因此自己敲一個: 計算相鄰兩行的均值: dataframe['length_mean'] = (dataframe['length'].shift(-1) + \

2020-07-07 12:02:08

pandas 根据两列数据筛选dataframe

如果是篩選某一列中等於某個值的那一行,可以使用: dataframe[dataframe['列名'] == "具體值"] 如果篩選某兩列中的值等於具體值的那幾行,可以使用: search_se = dataframe.loc[d

2020-07-07 12:02:08

Python3下pandas学习笔记

本文參考鏈接：https://www.yiibai.com/pandas 三種 pandas 數據結構的創建和數據獲取系列 pandas.Series 創建空系列 >>> import pandas as pd >>> s = pd

2020-07-07 11:20:50

1. 初识Pandas

1. 重要前言這段時間和一些做數據分析的同學閒聊，我發現數據分析技能入門階段存在一個普遍性的問題，很多憑着興趣入坑的同學，都能夠很快熟悉Python基礎語法，然後不約而同的一頭扎進《利用Python進行數據分析》這本經典之中，

2020-07-07 11:00:40

2. 灵活的Pandas索引

序言學習了Pandas的同學，有超過60%仍然投向了Excel的懷抱，之所以做此下策，多半是因爲剛開始用Python處理數據時，選擇想要的行和列實在太痛苦，完全沒有Excel想要哪裏點哪裏的快感。初識Pandas 教程考慮到篇

2020-07-07 11:00:39

24小時熱門文章

最新文章

最新評論文章