并行搜索
并行的基本概念
所谓并发是在同一实体上的多个事件同时发生。并发编程是指在同一计算机上“同时”处理多个任务。
要理解并发编程,我们必须要理解如下一些基本概念
计算机就像一座工厂,时刻在运行,为人类服务。它的核心是CPU,它承担了所有的计算机任务,就像工厂的一个现场指挥官。
进程就像工厂里的车间,承担“工厂”里的各项具体的“生产任务”,通常每个进程对应一个在运行中的执行程序,比如,QQ和微信运行时,他们分别是不同的进程。
因为特殊的原因,现场指挥官人才短缺,整个工厂只有一个指挥官,一次只能指导一个车间生产,而所有的车间都必须要有现场指挥官在场才能生产。也就是说,一个车间开工的时候其他车间都必须停工。
背后的含义:任一时刻,单个CPU一次只能运行一个进程,此时其他进程处于非运行状态。
一个车间(进程)可以包含多条生产线,线程就好比车间(进程)里的生产线。所有生产线(设备和人)都属于同一车间的资源,受车间统一调度和调配,并共享车间所有资源(如空间和洗手间)。
背后含义:一个进程可以拥有多个线程,每个线程可以独立并行执行,多个线程共线同一进程的资源,受进程管理。
理解了以上这些概念,接下来再继续讲解并行搜索的概念:
假设我们要从很大的一个无序的数据集中进行搜索,假设我们的机器可以一次性容纳这么多数据。从理论上讲,对于无序数据,如果不考虑排序,已经很难从算法层面优化了。而利用上面我们提到的并行处理思想,我们可以很轻松地将检索效率提升多倍。具体实现思路如下:
将数据分成N个块,每个块由一个线程来并行搜索。
参考v1.1:
#include <Windows.h>
#include <stdio.h>
#include <iostream>
#include <time.h>
#define TEST_SIZE (1024*1024*200) /* 200M - 2亿个 */
#define NUMBER 20
int main()
{
int* data = NULL;
int count = 0; /* 记录的数量 */
data = new int[TEST_SIZE];
for (int i = 0; i < TEST_SIZE; i++)
{
data[i] = i;
}
time_t start = 0, end = 0; /* 记录开始和结束的时间戳 */
time(&start);
for (int j = 0; j < 10; j++)
{
for (int i = 0; i < TEST_SIZE; i++)
{
if (data[i] == NUMBER)
{
count++;
}
}
}
time(&end);
printf("查找所花时间: %lld\n", end - start);
system("pause");
return 0;
}
运行环境: vs2019
运行结果:
参考v1.2:
#include <Windows.h>
#include <stdio.h>
#include <iostream>
#include <time.h>
#define TEST_SIZE (1024*1024*200) /* 200M - 2亿个 */
#define NUMBER 20
DWORD WINAPI ThreadProc(void* lpParem)
{
for (int i = 0; i < 5; i++)
{
printf("进程老爸, 我来了!\n");
Sleep(1000);
}
return 0;
}
int main()
{
DWORD threadID1; /* 线程1的身份证 */
HANDLE hThread1; /* 线程1的句柄 */
DWORD threadID2; /* 线程2的身份证 */
HANDLE hThread2; /* 线程2的句柄 */
printf("创建线程...\n");
/* 创建线程1 */
hThread1 = CreateThread(NULL, 0, ThreadProc, NULL, 0, &threadID1);
/* 创建线程2 */
hThread2 = CreateThread(NULL, 0, ThreadProc, NULL, 0, &threadID2);
WaitForSingleObject(hThread1, INFINITE);
WaitForSingleObject(hThread2, INFINITE);
printf("进程老爸欢迎线程归来\n");
system("pause");
return 0;
}
#if 0
int main()
{
int* data = NULL;
int count = 0; /* 记录的数量 */
data = new int[TEST_SIZE];
for (int i = 0; i < TEST_SIZE; i++)
{
data[i] = i;
}
time_t start = 0, end = 0; /* 记录开始和结束的时间戳 */
time(&start);
for (int j = 0; j < 10; j++)
{
for (int i = 0; i < TEST_SIZE; i++)
{
if (data[i] == NUMBER)
{
count++;
}
}
}
time(&end);
printf("查找所花时间: %lld\n", end - start);
system("pause");
return 0;
}
#endif
运行结果:
参考v1.4:
#include <Windows.h>
#include <stdio.h>
#include <iostream>
#include <time.h>
#define TEST_SIZE (1024*1024*200) /* 200M - 2亿个 */
#define NUMBER 20
typedef struct _search
{
int* data; /* 搜索的数据集 */
size_t start; /* 搜索的开始位置 */
size_t end; /* 搜索的终止位置 */
size_t count; /* 搜索结果 */
}search;
DWORD WINAPI ThreadProc(void* lpParem)
{
search* s = (search*)lpParem;
time_t start, end;
printf("新的线程开始执行...\n");
time(&start);
for (int j = 0; j < 10; j++)
{
for (size_t i = s->start; i < s->end; i++)
{
if (s->data[i] == NUMBER)
{
s->count++;
}
}
}
time(&end);
printf("查找所花的时间: %lld\n", end - start);
return 0;
}
int main()
{
int* data = NULL;
int count = 0; /* 记录的数量 */
int mid = 0;
search s1, s2;
data = new int[TEST_SIZE];
for (int i = 0; i < TEST_SIZE; i++)
{
data[i] = i;
}
mid = TEST_SIZE / 2;
s1.data = data;
s1.start = 0;
s1.end = mid;
s1.count = 0;
s2.data = data;
s2.start = mid + 1;
s2.end = TEST_SIZE - 1;
s2.count = 0;
DWORD threadID1; /* 线程1的身份证 */
HANDLE hThread1; /* 线程1的句柄 */
DWORD threadID2; /* 线程2的身份证 */
HANDLE hThread2; /* 线程2的句柄 */
printf("创建线程...\n");
/* 创建线程1 */
hThread1 = CreateThread(NULL, 0, ThreadProc, &s1, 0, &threadID1);
/* 创建线程2 */
hThread2 = CreateThread(NULL, 0, ThreadProc, &s2, 0, &threadID2);
WaitForSingleObject(hThread1, INFINITE);
WaitForSingleObject(hThread2, INFINITE);
printf("进程老爸欢迎线程归来\n count: %d", s1.count + s2.count);
system("pause");
return 0;
}
#if 0
int main()
{
int* data = NULL;
int count = 0; /* 记录的数量 */
data = new int[TEST_SIZE];
for (int i = 0; i < TEST_SIZE; i++)
{
data[i] = i;
}
time_t start = 0, end = 0; /* 记录开始和结束的时间戳 */
time(&start);
for (int j = 0; j < 10; j++)
{
for (int i = 0; i < TEST_SIZE; i++)
{
if (data[i] == NUMBER)
{
count++;
}
}
}
time(&end);
printf("查找所花时间: %lld\n", end - start);
system("pause");
return 0;
}
#endif
运行结果:
count = 10, 因为我循环10次
结语:
学到的知识要, 多复习, 多总结, 多敲. 需要时间的积累, 才能引起质的改变. 自己写不出来的永远是别人的.
分享一下我的技巧: 代数法把具体的数字带进去, 看看能能能找到规律(掌握思想).
还有就是画图, 也很重要. 用笔画出来, 把数代进去, 方法虽然笨, 但真的很实用, 好记忆不如烂笔头!!! 还有多用debug(调试工具)
我是小白, C/C++功力…, 你懂得, 写的文章可能不是很好. 如果存在问题, 欢迎大神给予评判指正.
错了不可怕, 可怕的是找不出bug, 谁没错过!!!
最近学操作系统我认为, 学什么都要成本(时间), 即使它是免费的, 我个人认为要挑来学, 挑重点来学, 而不是从头到尾, 除非考试考研.
这个知识点我没有完全掌握, 就是会了也要复习, 革命尚未成功, 同志还需努力!!! , 我会回来反复复习的
今日是: 2020年5月18日, (由于疫情的原因)现在没有返校. 写博客,也可自己加强记忆,就当写写日记吧!!!
希望给个赞: 反正你又不亏, 顺便而已