OpenCV2馬拉松第11圈——meanshift與直方圖反向投影

收入囊中

meanshift圖像聚類
meanshift object detect

葵花寶典

今天有點累，理論就講少點吧T_T

meanshift中文是均值飄逸，就是給定一個點，然後會移動到概率密度最大的地方。

對於圖像，什麼是概率密度最大？

我們可以定義很多要素：

距離

RGB

HSV

下面我有個例子，就是用距離(x,y)和HSV(h,s,v)作圖像聚類的。

於是我們有5個要素，當前點與其他點的距離，HSV越接近，則概率密度越高。

假定我們有一點（m,n),如何選擇下一個點呢，如何在一個矩形中找到概率密度最高的那個點？

top,down,left,right是我們選的矩形，(m,n)是中心

for(s=top;s<=down;s++){
     				for(t=left;t<=right;t++)
     				{
      					ws=(s-m)*(s-m)+(t-n)*(t-n);//spatial information
      					ws/=(hs*hs);
      					ws=exp(-ws);
      
      					wr=(data[s*step+t*channels]-data[m*step+n*channels])*(data[s*step+t*channels]－data[m*step+n*channels]);
      					wr+=(data[s*step+t*channels+1]-data[m*step+n*channels+1])*(data[s*step+t*channels+1]-data[m*step+n*channels+1]);
      					wr+=(data[s*step+t*channels+2]-data[m*step+n*channels+2])*(data[s*step+t*channels+2]-data[m*step+n*channels+2]);

      					wr/=(hr*hr);

      					if(wr>1)
       						wr=0.;
      					else
       						wr=exp(-wr);
       						

      					sumw+=wr*ws;
      					for(k=0;k<5;k++)//try            
       						y[1][k]+=oridata[s*width+t][k]*wr*ws;
     				}
    			}

    			for(k=0;k<5;k++) //try     
     				y[1][k]/=sumw;

    			//下一個要到的點
    			m=(int)(y[1][0]+0.5);
    			n=(int)(y[1][1]+0.5);

假設我們有了反向投影圖，再用meanshift，不就能找到圖像中最接近當前區域的位置了麼～～

圖像聚類
用meanshift可以實現圖像聚類，因爲本次重點是mean shift與back project的結合，所以關於聚類我就直接貼上代碼了

算法超級easy,就是循環圖像，對點作mean shift，每個點最大迭代100次，一直到點不動（收斂）爲止，然後用vector記錄下移動過程，將收斂點的顏色賦值給這些點，並記錄哪些點已經賦值過了，下次就不用循環直接continue.

hs,hr是尋找的矩形大小，比EPSLON小就收斂。

note:是用x,y和HSV

//#include <stdafx.h>
#include <cxcore.h>
#include <cv.h>   
#include <highgui.h>   
#include <stdio.h>
#include <vector>
#include <utility>
 
using namespace cv;
using namespace std;

#define hs 25
#define hr 25
#define maxstep 100
#define EPSLON 0.01
#define width 1920
#define height 1080	
float oridata[height*width][5];//try
int visited[height][width];

int main(int argc,char **argv)
{
	IplImage *oriImg,*luvImg,*fltImg,*afterImg; 
 
	char *filename = argv[1];
	oriImg=cvLoadImage(filename,1); 
 
	if(!oriImg){
		printf("cannot load the file.\n");
  		return -1;
 	}

 	luvImg=cvCreateImage(cvSize(width,height),oriImg->depth,oriImg->nChannels); 
 	fltImg=cvCreateImage(cvSize(width,height),oriImg->depth,oriImg->nChannels); 
 	afterImg=cvCreateImage(cvSize(width,height),oriImg->depth,oriImg->nChannels); 

 	cvCvtColor(oriImg,luvImg,CV_RGB2Luv); 
 
 	uchar *data,*newdata;
 	int channels, step,depth;
 
 	depth=luvImg->depth;
 	step=luvImg->widthStep;
 	channels=luvImg->nChannels;
 
 	data=(uchar *) luvImg->imageData;
 	newdata=(uchar *) fltImg->imageData;

 	int i,j,s,t,k,m,n,index;
 	int top,down,left,right;
 	float ws,wr;
 	float mhlength;
 	float sumw;
 	float y[2][5];//try, otherwise the second is 5


 	for(i=0;i<height;i++)
 	{
  		for(j=0;j<width;j++)
  		{
   			oridata[i*width+j][0]=i;
   			oridata[i*width+j][1]=j;
   			visited[i][j]=0;

    		oridata[i*width+j][2]=data[i*step+j*channels];
    		oridata[i*width+j][3]=data[i*step+j*channels+1];
    		oridata[i*width+j][4]=data[i*step+j*channels+2];
  		}
 	}

 	for(i=0;i<height;i++)
 	{  
  		for(j=0;j<width;j++)
  		{
  			if(visited[i][j])
  				continue;
  				
   			m=i;n=j;//當前的中心點
   			for(k=0;k<5;k++)//try
    			y[0][k]=oridata[i*width+j][k];//向量的初始值

			vector<pair<int,int> >vss;
			
   			for(index=0;index<maxstep;index++)//對當前的結點而言，最多迭代100次
   			{  
   				pair<int,int>newone;
				newone = make_pair(m,n);
				vss.push_back(newone);
   			
    			for(k=0;k<5;k++)//try
     				y[1][k]=0;

    			mhlength=0.;
    			sumw=0.;

    			top=m-hs;
    			down=m+hs;
    			left=n-hs;
    			right=n+hs;
    			
    			if(top<0) top =0;
    			if(down>height-1) down=height-1;
    			if(left<0) left=0;
    			if(right>width-1) right=width-1;

    			for(s=top;s<=down;s++)
    			{
     				for(t=left;t<=right;t++)
     				{
      					ws=(s-m)*(s-m)+(t-n)*(t-n);//spatial information
      					ws/=(hs*hs);
      					ws=exp(-ws);
      					//ws=1-ws+(ws*ws)/2-(ws*ws*ws)/6+(ws*ws*ws*ws)/24-(ws*ws*ws*ws*ws)/120;
      
      					wr=(data[s*step+t*channels]-data[m*step+n*channels])*(data[s*step+t*channels]-data[m*step+n*channels]);
      					wr+=(data[s*step+t*channels+1]-data[m*step+n*channels+1])*(data[s*step+t*channels+1]-data[m*step+n*channels+1]);
      					wr+=(data[s*step+t*channels+2]-data[m*step+n*channels+2])*(data[s*step+t*channels+2]-data[m*step+n*channels+2]);

      					wr/=(hr*hr);

      					if(wr>1)
       						wr=0.;
      					else
       						wr=exp(-wr);
       						

      					sumw+=wr*ws;
      					for(k=0;k<5;k++)//try            
       						y[1][k]+=oridata[s*width+t][k]*wr*ws;
     				}
    			}

    			for(k=0;k<5;k++) //try     
     				y[1][k]/=sumw;

    			//下一個要到的點
    			m=(int)(y[1][0]+0.5);
    			n=(int)(y[1][1]+0.5);

    			if(visited[m][n])
     				break;
    
    			if(m<hs||m>height-hs||n<hs||n>width-hs)
     				break;
    			else{
     				for(k=0;k<5;k++)//try
     				{
      					mhlength+=(y[1][k]-y[0][k])*(y[1][k]-y[0][k]);
      					y[0][k]=y[1][k];
     				}
     				mhlength=sqrt(mhlength);     
     				if(mhlength<EPSLON)//找到極值點
      					break;     
    			}
   			}//鄰域處理結束

			for(int ii = 0;ii < vss.size();ii++)
			{
				int row = vss[ii].first;
				int line = vss[ii].second;
   				newdata[row*step+line*channels]=int(y[1][2]+0.5);//try
   				newdata[row*step+line*channels+1]=int(y[1][3]+0.5);
   				newdata[row*step+line*channels+2]=int(y[1][4]+0.5);
   				visited[row][line]=1;
   			}
  		}
 	}

 	cvCvtColor(fltImg,afterImg,CV_Luv2RGB);
  
 	cvNamedWindow("ori",1);
 	cvNamedWindow("filtered",1);
 	cvShowImage("ori",oriImg);
 	cvShowImage("filtered",afterImg);

 	cvWaitKey(0);
 	cvReleaseImage(&oriImg);
 	cvDestroyWindow("image");
 	cvReleaseImage(&afterImg);
 	cvDestroyWindow("filtered");

    return 0;
}

初識API

C++: int meanShift(InputArray probImage, Rect& window, TermCriteria criteria)

	probImage – 反向投影矩陣 window – 一開始的窗口,就是自己用矩形圈起來的地方 criteria – Stop criteria for the iterative search algorithm.

返回值:收斂時的迭代次數

TermCriteria::TermCriteria

The constructors.

C++: TermCriteria::TermCriteria()

C++: TermCriteria::TermCriteria(int type, int maxCount, double epsilon)

C++: TermCriteria::TermCriteria(const CvTermCriteria& criteria)

	type – The type of termination criteria: `TermCriteria::COUNT`, `TermCriteria::EPS` or `TermCriteria::COUNT` +`TermCriteria::EPS`. maxCount – The maximum number of iterations or elements to compute. epsilon – The desired accuracy or change in parameters at which the iterative algorithm stops. criteria – Termination criteria in the deprecated `CvTermCriteria` format.

舉個例子：假設我們對(110,260)座標處寬35長40的方框感興趣，最大迭代10次，差值（精確度）爲0.01

result是我們的反向投影矩陣，那就可以如下調用

Rect rect(110,260,35,40);
TermCriteria criteria(TermCriteria::MAX_ITER,10,0.01);
meanShift(result,rect,criteria);

荷槍實彈

下面我附上完整代碼，並有詳細註釋

#include "opencv2/highgui/highgui.hpp"
#include "opencv2/imgproc/imgproc.hpp"
#include "opencv2/video/tracking.hpp"
#include <iostream>
using namespace cv;
using namespace std;

class ColorHistogram {
private:
    int histSize[3];
	float hranges[2];
    const float* ranges[3];
    int channels[3];

public:
	ColorHistogram() {
		// Prepare arguments for a color histogram
		histSize[0]= histSize[1]= histSize[2]= 256;
		hranges[0]= 0.0;    // BRG range
		hranges[1]= 255.0;
		ranges[0]= hranges; // all channels have the same range 
		ranges[1]= hranges; 
		ranges[2]= hranges; 
		channels[0]= 0;		// the three channels 
		channels[1]= 1; 
		channels[2]= 2; 
	}
	//這裏獲取HSV的第一個通道的直方圖
	Mat getHueHistogram(const cv::Mat &image,int minSaturation=0) {
		Mat hist;
		//色彩空間轉換
		Mat hsv;
		cvtColor(image, hsv, CV_BGR2HSV);
		// mask,要注意哦
		Mat mask;
		if (minSaturation>0) {
			// 三通道分開
			vector<Mat> v;
			split(hsv,v);
			// 去除低飽和的值
			threshold(v[1],mask,minSaturation,255,THRESH_BINARY);
		} 
		hranges[0]= 0.0;    //hue的range是[0,180]
		hranges[1]= 180.0;
		channels[0]= 0;

		calcHist(&hsv,1,channels,mask,hist,1,histSize,ranges);//注意，mask不爲0的地方計算在內，也就是高飽和的Hue計算在內
		return hist;
	}

};

class ContentFinder {
private:
	float hranges[2];
	const float* ranges[3];
	int channels[3];
	float threshold;
	Mat histogram;
	
public:
	ContentFinder() : threshold(-1.0f) {
		hranges[0]= 0.0;	// range [0,255]
		hranges[1]= 255.0;
		channels[0]= 0;		// the three channels 
		channels[1]= 1; 
		channels[2]= 2; 
		ranges[0]= hranges; // all channels have same range
		ranges[1]= hranges;
		ranges[2]= hranges;
	}
	
	// Sets the reference histogram
	void setHistogram(const Mat& h) {
		histogram= h;
		normalize(histogram,histogram,1.0);
	}
	
	cv::Mat find(const cv::Mat& image, float minValue, float maxValue, int *channels, int dim) {
		cv::Mat result;

		hranges[0]= minValue;
		hranges[1]= maxValue;
		ranges[0]= hranges; // all channels have same range
		ranges[1]= hranges;
		ranges[2]= hranges;

		calcBackProject(&image,1,channels,histogram,result,ranges,255.0);
		return result;
	}
	
};

int main( int, char** argv )
{
	Mat image= cv::imread("baboon1.jpg");
	// Baboon's face ROI
	Mat imageROI= image(cv::Rect(110,260,35,40));
	// 獲得Hue直方圖
	int minSat=65;
	ColorHistogram hc;
	Mat colorhist = hc.getHueHistogram(imageROI,minSat);

        ContentFinder finder;
	finder.setHistogram(colorhist);

	image= cv::imread("baboon3.jpg");
	// 色彩空間轉換
	Mat hsv;
	cvtColor(image, hsv, CV_BGR2HSV);
	
	vector<Mat> v;
	split(hsv,v);
	//除去低飽和度
	threshold(v[1],v[1],minSat,255,cv::THRESH_BINARY);
	
	// 獲得反向投影
	int ch[1]={0};
	Mat result= finder.find(hsv,0.0f,180.0f,ch,1);
	// 除去低飽和度的點
	bitwise_and(result,v[1],result);
	Rect rect(110,260,35,40);
	rectangle(image, rect, Scalar(0,0,255));
	TermCriteria criteria(TermCriteria::MAX_ITER,10,0.01);
	meanShift(result,rect,criteria);

	rectangle(image, rect, cv::Scalar(0,255,0));
	namedWindow("result");
	imshow("result",image);

  	waitKey(0);
  	return 0;
}

看下效果

舉一反三

camshift算法是對meanshift算法的改進，它先用mean shift找到物體，再調整窗的大小，然後可以旋轉窗找到最合適的旋轉角度

計算機視覺討論羣：162501053

轉載請註明：http://blog.csdn.net/abcd1992719g

abcd1992719g

發佈了63 篇原創文章 · 獲贊 15 · 訪問量 18萬+

私信關注

OpenCV2馬拉松第11圈——meanshift與直方圖反向投影

TermCriteria::TermCriteria

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

數字信號處理Day1自制電子音樂

OpenCV2馬拉松第9圈——再談對比度(對比度拉伸，直方圖均衡化)

sgu106-109

數字圖像和視頻處理的基礎－第5週中值濾波PSNR練習題

數字信號處理Day2－小波基與規範正交化

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結