K-均值聚類算法

前些日子幫別人做了些作業題,順便複習一下模式識別,話說也幸虧此次作業,自己第一次實現算法,話不多說,代碼奉上:

#include<cstdio>
#include<time.h>
#include<random>
#include<vector>
#include<limits>
#define Num 150												//元素個數
#define Dim 4												//元素維數
#define K 3												//分類個數
using namespace std;

double Data[Num][Dim]={0};										//用來存儲150個4維向量
double Dis[Num][K]={0};											//用來存儲各元素到聚類中心的距離
vector<vector<int>>Cluster;										//用來記錄各元素所屬的類別
double Center[K][Dim]={0.0};										//用來存儲聚類中心
/************************讀取txt文件中數據*********************/
void GetTest()
{
	FILE* fin;
	fin=fopen("Iris.txt","r");
	if(!fin)
		printf("Fail to open the file");						//判斷是否打開文件成功
	for(int i=0;i<Num;++i)
		for(int j=0; j<Dim;++j)
			fscanf(fin,"%lf",&Data[i][j]);						//讀取數據
	fclose(fin);
}
/************************初始化聚類中心************************/
void InitCenter()
{
	srand((unsigned) time(NULL));
	int centerIndex[3]={0};
	for(int i=0;i<K;++i)
	{
		bool repeated =false;
		int j=0;
		do{
			j=rand()%Num;
			for(int l=0;l<i;++l)
			{
				if(centerIndex[l]==j)
				{
					repeated=true;
					break;
				}
			}
		}while(repeated);//保證各初始聚類中心不一樣
		centerIndex[i]=j;
	}
	for(int i=0;i<K;++i)
	{
		int k=centerIndex[i];
		for(int j=0;j<Dim;++j)
			Center[i][j]=Data[k][j];
	}
}
/************************計算各元素到聚類中心的歐氏距離********/
void EulDis()
{
	for(int i=0;i<Num;++i)
	{
		for(int j=0;j<K;++j)
		{
			double dis=0.0;
			for(int l=0;l<Dim;++l)
				dis+=pow(double(Data[i][l]-Center[j][l]),int(2));
			Dis[i][j]=sqrt(dis);
		}
	}
}
/***************返回距當前元素最近的聚類中心index**************/
int MinIndex(int row)
{
	double min=2147483640.0;
	int index=0;
	for(int i=0;i<K;++i)
		if(Dis[row][i]<min)
		{
			min=Dis[row][i];
			index=i;
		}
	return index;
}
/************************計算新的聚類中心*********************/
void ReCompuCenter()
{
	double sum[K][Dim]={0.0};
	int count[K]={0};
	for(int i=0;i<Num;++i)
	{
		int index=MinIndex(i);
		for(int j=0; j<Dim;++j)
			sum[index][j]+=Data[i][j];
		count[index]+=1;
	}
	for(int i=0;i<K;++i)
		for(int j=0;j<Dim;++j)
			Center[i][j]=sum[i][j]/count[i];
}
/*********************輸出最終聚類結果**********************/
void Print()
{
	Cluster.clear();
	for(int i=0;i<K;++i)
	{
		vector<int> a;
		Cluster.push_back(a);
	}
	int i1=0,i2=0,i3=0;
	for(int i=0;i<Num;++i)
	{
		int index=MinIndex(i);
		Cluster[index].push_back(i);
	}
	for(int i=0;i<K;++i)
	{
		printf("第%d類:\n",i+1);
		printf("聚類中心爲:%lf %lf %lf %lf\n",Center[i][0],Center[i][1],Center[i][2],Center[i][3]);
		for(vector<int>::iterator ite=Cluster[i].begin();ite!=Cluster[i].end();++ite)
			printf("%d ",*ite);
		printf("\n");
	}
}
/************************main函數****************************/
int main()
{
	GetTest();
	InitCenter();
	bool NotDone=true;
	double PreCenter[K][Dim]={0.0};//記錄之前的聚類中心
	int IterTimes=0;
	while(NotDone)
	{
		NotDone=false;
		IterTimes++;
		EulDis();
		for(int i=0;i<K;++i)
			for(int j=0;j<Dim;++j)
				PreCenter[i][j]=Center[i][j];
		ReCompuCenter();
		for(int i=0;i<K;++i)
		{
			for(int j=0;j<Dim;++j)
				if(PreCenter[i][j]-Center[i][j]>1e-8)
				{
					NotDone=true;
					break;
				}
			if(NotDone==true)
				break;
		}
	}
	printf("共迭代%d次\n",IterTimes);
	Print();
	return 0;
}
當然不同的樣本,樣本個數,特徵數量都不相同,可以自己相應修改,最後的輸出函數也可以自己修改的,O(∩_∩)O~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章