数据仓库与数据挖掘学习笔记(三)OLAP技术

学习心得
一、什么是OLAP?

在以前20世纪60年代末,关系型数据库与OLTP得到了快速发展,随着时间的延续,全球数据暴增,越来越多的数据被生产,同时人们对信息的需求也更加发杂,希望尽可能从GB,TB甚至PB数据直观的连接隐藏在这些数据背后的信息,传统的OLTP显得力不从心了,于是数据仓库跟OLAP技术营运而生。
定义:针对某个特定的主题进行联机数据访问,处理和分析,通过直观的方式从多个维度多种数据综合起来给使用者观看。

二、OLAP和OLTP区别
在这里插入图片描述
三、简述OLAP和数据仓库的关系

建立数据仓库的目的是为公司决策使用的,OLAP服务作为一种多维查询和分析工具,是数据仓库功能的自然扩展,也是数据仓库大数据量得以有效利用,快速查询的重要保障。主要用于分析查询数据仓库的数据进行聚合操作。
在这里插入图片描述
四、简述有哪些OLAP的常用操作

1、切片
2、切块
3、旋转
4、上卷
5、下钻

五、OLAP的分类

主流的OLAP数据组织方式有3中,
ROLAP(基于关系型数据库的OLAP)
MOLAP(基于多维数据库的OLAP)
HOLAP(基于关系型数据库与多维数据库的OLAP)

六、OLAP索引
主要分为俩大类:位图索引,连接索引
位图索引:在OLAP中是很流行的,因为他允许在数据立方体中快速索引,位图索引方法描述如下:
在给定属性的位图索引中,属性域中的每个值v有一个不同的维向量Bv,如果给定的属性域包含n个值,则位图索引中以n伪向量表示不同的值,如果数据表给定行上 的属性为是v,则在位图索引行,表示该值的位是1,其他值是0,大家是不是觉得很绕口,接下来举个例子
例如,有(A,B,C)三维数据立方体,维A在顶层有3个值(HSC),每个值用维A的位图索引表的一个位向量表示,如图,假定立方体存放在一个具有a行的关系表中,维i的域有m个,对应的位图索引则需要m个位向量,每个维向量有a个二进制位。
在这里插入图片描述
由于维上的每个值是一个维向量,位操作非常快,所以其性能会得到大幅度提高
ps:位图索引对于基数较小的域特别有用,因为比较,连接,聚集都变成了位运算,大大减小处理时间,对于字符串可以用单个二进制表示,位图索引降低了空间和IO消耗,对于基数较高的域,可以使用压缩技术,这种方式可以接受。
连接索引其实就是一个事实表引用了外部众多维度表的主键,跟mysql主外键性质一样。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章