使用sklearn中的決策樹對乳腺癌的分類診斷（下）

前面我們做的關於決策樹的代碼實現是對一個數據集進行劃分爲訓練集和測試集，這篇使用的訓練集和測試集是已經幫你劃分好的存放在二個文件裏的。

這裏我們使用的訓練集和測試集都是關於乳腺癌的數據集，但是和前面我們使用的乳腺癌數據集有點不一樣，前面的是二分類的問題：良性和惡性，我們這是四分類問題，類別是乳腺癌的四個類型（訓練集train/feats.csv的最後一列）。

下面是我們的測試集和訓練集：其中images文件裏包含了好多個子文件夾，每個子文件夾裏又分別有好多張病人的乳腺癌超聲波診斷圖像，feats.csv裏存放的是病人的乳腺癌臨牀診斷數據。

訓練集train/feats.csv中的部分臨牀診斷數據:

測試集test/feat.csv 中的部分臨牀診斷數據：

我們現在使用決策樹進行分類預測，這裏的id是病人的id，預測病人得的是那種類型的乳腺癌，最後輸出病人id和對應的乳腺癌種類的csv文件。

#決策樹分類 https://blog.csdn.net/bjjoy2009/article/details/80841657
from sklearn import tree
#import graphviz
import os
import pandas as pd
import csv
import numpy
cancer_train = pd.read_csv('./train/feats.csv')
#print(cancer_train)
#訓練集數據
x_cancer_train = pd.read_csv('./train/feats.csv',usecols = [1,2,3])
#訓練集標籤，即最後一列的數據
y_cancer_train = pd.read_csv('./train/feats.csv',usecols = [4])
#測試集
cancer_test = pd.read_csv('./test/feats.csv')
#print(cancer_test)
x_cancer_test = pd.read_csv('./test/feats.csv',usecols=[1,2,3])
dtc = tree.DecisionTreeClassifier(criterion="entropy")
#訓練
clf = dtc.fit(x_cancer_train,y_cancer_train)
#測試
clf_y_predict = clf.predict(x_cancer_test)
print(clf_y_predict)

下面是將輸出的乳腺癌預測類別和病人的id好對應輸出成csv文件，文件名爲submission.csv：

list3 = numpy.array(clf_y_predict).reshape(87,1)
#print(numpy.shape(list3)) #(87, 1)

filename = './test/feats.csv'
#讀取數據集中的第一列數據：
list1 = []
with open(filename) as f:
    reader = csv.reader(f)
    header_row = next(reader)
   # result = list(reader)
    column1 = [row[0] for row in reader]
    list1.append(column1)
print(list1)
#print(numpy.shape(list1))
list2 = numpy.array(list1).reshape(87,1)
print(list2)
print(numpy.shape(list2))
#兩個放在一起（id \ 標籤）
list4 = numpy.hstack((list2, list3))    #np.hstack((a,b))在行上合併
print(list4)                           
print(numpy.shape(list4))
#轉成新的csv表，存放最終的結果：
name = ["id","molecular_subtype"]
csv_list = pd.DataFrame(columns=name, data=list4)
#轉存爲新的csv表
csv_list.to_csv('submission.csv')

其實這個預測病人乳腺癌的類型還需要結合對應圖像的特徵，由於能力有限，所以這裏只實現了使用文本的特徵進行分類預測，但在一定程度也起到了作用。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

使用sklearn中的決策樹對乳腺癌的分類診斷（下）

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

無法安裝64位office，因爲已有32位版本的程序【親測可用】

英文會議參考文獻的出版地 and 英文參考文獻的查找

機器學習實戰——決策樹構建過程，信息熵及相關代碼

Learning Visual Knowledge Memory Networks for Visual Question Answering論文解讀

matplotlib中的plt.subplot()使用介紹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結