前些日子幫別人做了些作業題,順便複習一下模式識別,話說也幸虧此次作業,自己第一次實現算法,話不多說,代碼奉上:
#include<cstdio>
#include<time.h>
#include<random>
#include<vector>
#include<limits>
#define Num 150 //元素個數
#define Dim 4 //元素維數
#define K 3 //分類個數
using namespace std;
double Data[Num][Dim]={0}; //用來存儲150個4維向量
double Dis[Num][K]={0}; //用來存儲各元素到聚類中心的距離
vector<vector<int>>Cluster; //用來記錄各元素所屬的類別
double Center[K][Dim]={0.0}; //用來存儲聚類中心
/************************讀取txt文件中數據*********************/
void GetTest()
{
FILE* fin;
fin=fopen("Iris.txt","r");
if(!fin)
printf("Fail to open the file"); //判斷是否打開文件成功
for(int i=0;i<Num;++i)
for(int j=0; j<Dim;++j)
fscanf(fin,"%lf",&Data[i][j]); //讀取數據
fclose(fin);
}
/************************初始化聚類中心************************/
void InitCenter()
{
srand((unsigned) time(NULL));
int centerIndex[3]={0};
for(int i=0;i<K;++i)
{
bool repeated =false;
int j=0;
do{
j=rand()%Num;
for(int l=0;l<i;++l)
{
if(centerIndex[l]==j)
{
repeated=true;
break;
}
}
}while(repeated);//保證各初始聚類中心不一樣
centerIndex[i]=j;
}
for(int i=0;i<K;++i)
{
int k=centerIndex[i];
for(int j=0;j<Dim;++j)
Center[i][j]=Data[k][j];
}
}
/************************計算各元素到聚類中心的歐氏距離********/
void EulDis()
{
for(int i=0;i<Num;++i)
{
for(int j=0;j<K;++j)
{
double dis=0.0;
for(int l=0;l<Dim;++l)
dis+=pow(double(Data[i][l]-Center[j][l]),int(2));
Dis[i][j]=sqrt(dis);
}
}
}
/***************返回距當前元素最近的聚類中心index**************/
int MinIndex(int row)
{
double min=2147483640.0;
int index=0;
for(int i=0;i<K;++i)
if(Dis[row][i]<min)
{
min=Dis[row][i];
index=i;
}
return index;
}
/************************計算新的聚類中心*********************/
void ReCompuCenter()
{
double sum[K][Dim]={0.0};
int count[K]={0};
for(int i=0;i<Num;++i)
{
int index=MinIndex(i);
for(int j=0; j<Dim;++j)
sum[index][j]+=Data[i][j];
count[index]+=1;
}
for(int i=0;i<K;++i)
for(int j=0;j<Dim;++j)
Center[i][j]=sum[i][j]/count[i];
}
/*********************輸出最終聚類結果**********************/
void Print()
{
Cluster.clear();
for(int i=0;i<K;++i)
{
vector<int> a;
Cluster.push_back(a);
}
int i1=0,i2=0,i3=0;
for(int i=0;i<Num;++i)
{
int index=MinIndex(i);
Cluster[index].push_back(i);
}
for(int i=0;i<K;++i)
{
printf("第%d類:\n",i+1);
printf("聚類中心爲:%lf %lf %lf %lf\n",Center[i][0],Center[i][1],Center[i][2],Center[i][3]);
for(vector<int>::iterator ite=Cluster[i].begin();ite!=Cluster[i].end();++ite)
printf("%d ",*ite);
printf("\n");
}
}
/************************main函數****************************/
int main()
{
GetTest();
InitCenter();
bool NotDone=true;
double PreCenter[K][Dim]={0.0};//記錄之前的聚類中心
int IterTimes=0;
while(NotDone)
{
NotDone=false;
IterTimes++;
EulDis();
for(int i=0;i<K;++i)
for(int j=0;j<Dim;++j)
PreCenter[i][j]=Center[i][j];
ReCompuCenter();
for(int i=0;i<K;++i)
{
for(int j=0;j<Dim;++j)
if(PreCenter[i][j]-Center[i][j]>1e-8)
{
NotDone=true;
break;
}
if(NotDone==true)
break;
}
}
printf("共迭代%d次\n",IterTimes);
Print();
return 0;
}
當然不同的樣本,樣本個數,特徵數量都不相同,可以自己相應修改,最後的輸出函數也可以自己修改的,O(∩_∩)O~