Python：將MNIST數據PCA降維到87維，並另存爲arff格式

原創

2020-02-23 21:19

import numpy as np
import copy
import pandas as pd
from sklearn import datasets
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

MNIST = datasets.fetch_mldata('MNIST original')
X, y = MNIST['data'], MNIST['target']
# Scaler = StandardScaler()
# X = Scaler.fit_transform(X)
pca = PCA(0.9)
pca.fit(X)
X = pca.fit_transform(X)
# print(y.shape)

# data = np.array(pd.read_csv(r'E:\dataset\clusterData\sonar.csv', header=None))
# X = data[:, :-1]
# y = data[:, -1]
# Scaler = StandardScaler()
# pca = PCA(n_components=10)
# X = Scaler.fit_transform(data[:, :-1])
# X = pca.fit_transform(X)
# y = data[:, -1]

y = np.vstack(y)

data = np.hstack((X,y))
print(data.shape)
data = pd.DataFrame(data)
data.to_csv(r'E:\dataset\clusterData\MNIST_PCA.csv',header=None,index=None)

然後，打開生成的csv文件，在第一行對每一列加入一個屬性名稱。不加的話第一行數據被默認爲head。在java運行中數據集就會少一行。

package classifier;
import weka.core.Instances;
import weka.core.converters.ConverterUtils.DataSource;
import weka.core.converters.ArffSaver;

import java.util.Random;
import java.io.File;

public class TransformCSV_arff {
    public static void main(String[] args) throws Exception{
        Instances allData = DataSource.read("E:\\dataset\\clusterData\\COIL20_2.csv");
        ArffSaver saver = new ArffSaver();
        saver.setInstances(allData);
        saver.setFile(new File("E:\\dataset\\clusterData\\COIL20_2.arff"));
        saver.writeBatch();
        System.out.println("已經轉化爲arrf文件");
    }
}

記得安裝weka包，不然就沒有然後了！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python：將MNIST數據PCA降維到87維，並另存爲arff格式

HTML頁面關於高分屏的設置

北歐瑞典挪威芬蘭瑞士TikTok海外網紅與YouTube博主的合作模式

歐洲英國德國法國TikTok與YouTube海外網紅達人的完美合作策略

druid數據源 xml配置

Python：計算類別分佈CalculateClassDistribution

Python調用matlab 函數

Python：將sklearn自帶數據轉存爲CSV文件

Python:一排三個子圖

MATLAB：生成一個雙環二維數據

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結