C/C++_查找算法_并行搜索

并行搜索

并行的基本概念
所谓并发是在同一实体上的多个事件同时发生。并发编程是指在同一计算机上“同时”处理多个任务。

要理解并发编程,我们必须要理解如下一些基本概念

计算机就像一座工厂,时刻在运行,为人类服务。它的核心是CPU,它承担了所有的计算机任务,就像工厂的一个现场指挥官。

进程就像工厂里的车间,承担“工厂”里的各项具体的“生产任务”,通常每个进程对应一个在运行中的执行程序,比如,QQ和微信运行时,他们分别是不同的进程。

因为特殊的原因,现场指挥官人才短缺,整个工厂只有一个指挥官,一次只能指导一个车间生产,而所有的车间都必须要有现场指挥官在场才能生产。也就是说,一个车间开工的时候其他车间都必须停工。

背后的含义:任一时刻,单个CPU一次只能运行一个进程,此时其他进程处于非运行状态。

一个车间(进程)可以包含多条生产线,线程就好比车间(进程)里的生产线。所有生产线(设备和人)都属于同一车间的资源,受车间统一调度和调配,并共享车间所有资源(如空间和洗手间)。

背后含义:一个进程可以拥有多个线程,每个线程可以独立并行执行,多个线程共线同一进程的资源,受进程管理。

理解了以上这些概念,接下来再继续讲解并行搜索的概念:

假设我们要从很大的一个无序的数据集中进行搜索,假设我们的机器可以一次性容纳这么多数据。从理论上讲,对于无序数据,如果不考虑排序,已经很难从算法层面优化了。而利用上面我们提到的并行处理思想,我们可以很轻松地将检索效率提升多倍。具体实现思路如下:

将数据分成N个块,每个块由一个线程来并行搜索。

参考v1.1:

#include <Windows.h>
#include <stdio.h>
#include <iostream>
#include <time.h>

#define TEST_SIZE (1024*1024*200) /* 200M - 2亿个 */
#define NUMBER 20

int main()
{
	int* data = NULL;
	int count = 0; /* 记录的数量 */

	data = new int[TEST_SIZE];

	for (int i = 0; i < TEST_SIZE; i++)
	{
		data[i] = i;
	}

	time_t start = 0, end = 0; /* 记录开始和结束的时间戳 */

	time(&start);
	for (int j = 0; j < 10; j++)
	{
		for (int i = 0; i < TEST_SIZE; i++)
		{
			if (data[i] == NUMBER)
			{
				count++;
			}
		}

	}

	time(&end);
	printf("查找所花时间: %lld\n", end - start);

	system("pause");
	return 0;
}

运行环境: vs2019
运行结果:
在这里插入图片描述
参考v1.2:

#include <Windows.h>
#include <stdio.h>
#include <iostream>
#include <time.h>

#define TEST_SIZE (1024*1024*200) /* 200M - 2亿个 */
#define NUMBER 20

DWORD WINAPI ThreadProc(void* lpParem)
{
	for (int i = 0; i < 5; i++)
	{
		printf("进程老爸, 我来了!\n");
		Sleep(1000);
	}
	
	return 0;
}

int main()
{
	DWORD threadID1; /* 线程1的身份证 */
	HANDLE hThread1; /* 线程1的句柄 */


	DWORD threadID2; /* 线程2的身份证 */
	HANDLE hThread2; /* 线程2的句柄 */

	printf("创建线程...\n");
	/* 创建线程1 */
	hThread1 = CreateThread(NULL, 0, ThreadProc, NULL, 0, &threadID1);

	/* 创建线程2 */
	hThread2 = CreateThread(NULL, 0, ThreadProc, NULL, 0, &threadID2);

	WaitForSingleObject(hThread1, INFINITE);
	WaitForSingleObject(hThread2, INFINITE);

	printf("进程老爸欢迎线程归来\n");
	system("pause");
	return 0;
}

#if 0
int main()
{
	int* data = NULL;
	int count = 0; /* 记录的数量 */

	data = new int[TEST_SIZE];

	for (int i = 0; i < TEST_SIZE; i++)
	{
		data[i] = i;
	}

	time_t start = 0, end = 0; /* 记录开始和结束的时间戳 */

	time(&start);
	for (int j = 0; j < 10; j++)
	{
		for (int i = 0; i < TEST_SIZE; i++)
		{
			if (data[i] == NUMBER)
			{
				count++;
			}
		}

	}

	time(&end);
	printf("查找所花时间: %lld\n", end - start);

	system("pause");
	return 0;
}
#endif

运行结果:
在这里插入图片描述
参考v1.4:

#include <Windows.h>
#include <stdio.h>
#include <iostream>
#include <time.h>

#define TEST_SIZE (1024*1024*200) /* 200M - 2亿个 */
#define NUMBER 20

typedef struct _search
{
	int* data; /* 搜索的数据集 */
	size_t start; /* 搜索的开始位置 */
	size_t end; /* 搜索的终止位置 */
	size_t count; /* 搜索结果 */
}search;

DWORD WINAPI ThreadProc(void* lpParem)
{
	search* s = (search*)lpParem;
	time_t start, end;

	printf("新的线程开始执行...\n");

	time(&start);
	for (int j = 0; j < 10; j++)
	{
		for (size_t i = s->start; i < s->end; i++)
		{
			if (s->data[i] == NUMBER)
			{
				s->count++;
			}
		}

	}
	time(&end);

	printf("查找所花的时间: %lld\n", end - start);
	return 0;
}

int main()
{
	int* data = NULL;
	int count = 0; /* 记录的数量 */
	int mid = 0;

	search s1, s2;

	data = new int[TEST_SIZE];

	for (int i = 0; i < TEST_SIZE; i++)
	{
		data[i] = i;
	}

	mid = TEST_SIZE / 2;
	s1.data = data;
	s1.start = 0;
	s1.end = mid;
	s1.count = 0;

	s2.data = data;
	s2.start = mid + 1;
	s2.end = TEST_SIZE - 1;
	s2.count = 0;

	DWORD threadID1; /* 线程1的身份证 */
	HANDLE hThread1; /* 线程1的句柄 */


	DWORD threadID2; /* 线程2的身份证 */
	HANDLE hThread2; /* 线程2的句柄 */

	printf("创建线程...\n");
	/* 创建线程1 */
	hThread1 = CreateThread(NULL, 0, ThreadProc, &s1, 0, &threadID1);

	/* 创建线程2 */
	hThread2 = CreateThread(NULL, 0, ThreadProc, &s2, 0, &threadID2);

	WaitForSingleObject(hThread1, INFINITE);
	WaitForSingleObject(hThread2, INFINITE);

	printf("进程老爸欢迎线程归来\n count: %d", s1.count + s2.count);
	system("pause");
	return 0;
}

#if 0
int main()
{
	int* data = NULL;
	int count = 0; /* 记录的数量 */

	data = new int[TEST_SIZE];

	for (int i = 0; i < TEST_SIZE; i++)
	{
		data[i] = i;
	}

	time_t start = 0, end = 0; /* 记录开始和结束的时间戳 */

	time(&start);
	for (int j = 0; j < 10; j++)
	{
		for (int i = 0; i < TEST_SIZE; i++)
		{
			if (data[i] == NUMBER)
			{
				count++;
			}
		}

	}

	time(&end);
	printf("查找所花时间: %lld\n", end - start);

	system("pause");
	return 0;
}
#endif

运行结果:
count = 10, 因为我循环10次
在这里插入图片描述

结语:

学到的知识要, 多复习, 多总结, 多敲. 需要时间的积累, 才能引起质的改变. 自己写不出来的永远是别人的.

分享一下我的技巧: 代数法把具体的数字带进去, 看看能能能找到规律(掌握思想).
还有就是画图, 也很重要. 用笔画出来, 把数代进去, 方法虽然笨, 但真的很实用, 好记忆不如烂笔头!!! 还有多用debug(调试工具)

我是小白, C/C++功力…, 你懂得, 写的文章可能不是很好. 如果存在问题, 欢迎大神给予评判指正.
错了不可怕, 可怕的是找不出bug, 谁没错过!!!

最近学操作系统我认为, 学什么都要成本(时间), 即使它是免费的, 我个人认为要挑来学, 挑重点来学, 而不是从头到尾, 除非考试考研.

这个知识点我没有完全掌握, 就是会了也要复习, 革命尚未成功, 同志还需努力!!! , 我会回来反复复习的

今日是: 2020年5月18日, (由于疫情的原因)现在没有返校. 写博客,也可自己加强记忆,就当写写日记吧!!!

希望给个赞: 反正你又不亏, 顺便而已

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章