事实表，维度，度量，指标之间的关系

维度通常是一个数据记录的属性，度量是某一个维度根据特定聚合函数生成的值；group by 的属性通常就是维度，计算的值则是度量。

维度一般指某个特征，比如要分析一个网站的用户，可以考虑下面几个维度（特征）：年龄，性别，地域等；而指标通常指全局性的统计量或者统计结果，比如PV，UV，比如转换率等。

维度就是从不同的方向、不同的影响角度来思考，且维度不可加，或者加起来无意义，相反指标是可数字化的，相加有意义的。例：一个网页的访问量，这就是指标；对比每天的页面访问量这个就是从时间维度来考虑。

事实表：每个数据仓库都包含一个或者多个事实数据表。事实数据表可能包含业务销售数据，如销售商品所产生的数据，与软件中实际表概念一样。事实表是存储有事实记录的表，如系统日志、销售记录等，事实表的记录会不断增长。

维度表：也称查找表，是与事实表相对应的一种表；保存了维度属性值，跟事实表做关联。是对事实表上重复出现的属性抽取、规范出来用一张表进行管理。如地区、月度、年度等。

维度：说明数据，维度是指可指定不同值的对象的描述性属性或特征。例如，地理位置的维度可以包括“纬度”、“经度”或“城市名称”。“城市名称”维度的值可以为“旧金山”、“柏林”或“新加坡”。

指标：衡量数据，指标是指可以按总数或比值衡量的具体维度元素。例如，维度“城市”可以关联指标“人口”，其值为具体城市的居民总数。

维度和指标的关系：虽然维度和指标可以独立使用，但常见的还是相互结合使用。维度和指标的值以及这些值之间的关系，使您的数据具有了意义。为了挖掘尽可能多的深层次信息，维度通常与一个或多个指标关联在一起。

例如，维度“城市”可以与指标“人口”和“面积”相关联。有了这些数据，系统还可以创建“人口密度”等比值指标，带来有关这些城市的更详细的深入信息。

度量：事实表和维度交叉汇聚的点，度量和维度构成OLAP的主要概念，这里面对于在事实表或者一个多维立方体里面存放的数值型的、连续的字段，就是度量。这符合上面的意思，有标准，一个度量字段肯定是统一单位，例如元、户数。如果一个度量字段，其中的度量值可能是欧元又有可能是美元，那这个度量可没法汇总。在统一计量单位下，对不同维度的描述。

指标与度量的关系：这就得说到指标，我愿意表述为"它是表示某种相对程度的值"。区别于上面的度量概念，那是一种绝对值，尺子量出来的结果，汇总出来的数量等。而指标至少需要两个度量之间的计算才能得到，例如收入增长率，用本月收入比上上月收入。当然可能指标的计算还需要两个以上的度量。

指标vs维度

指标，用于衡量事物发展程度的单位或方法，它还有个IT上常用的名字，也就是度量。例如：人口数、GDP、收入、用户数、利润率、留存率、覆盖率等。很多公司都有自己的KPI指标体系，就是通过几个关键指标来衡量公司业务运营情况的好坏。

指标需要经过加和、平均等汇总计算方式得到，并且是需要在一定的前提条件进行汇总计算，如时间、地点、范围，也就是我们常说的统计口径与范围。

指标可以分为绝对数指标和相对数指标，绝对数指标反映的是规模大小的指标，如人口数、GDP、收入、用户数，而相对数指标主要用来反映质量好坏的指标，如利润率、留存率、覆盖率等。我们分析一个事物发展程度就可以从数量跟质量两个角度入手分析，以全面衡量事物发展程度。

指标用于衡量事物发展程度，那这个程度是好还是坏，这就需要通过不同维度来对比，才能知道是好还是坏。

维度：是事物或现象的某种特征，如性别、地区、时间等都是维度。其中时间是一种常用、特殊的维度，通过时间前后的对比，就可以知道事物的发展是好了还是坏了，如用户数环比上月增长10%、同比去年同期增长20%，这就是时间上的对比，也称为纵比;

另一个比较就是横比，如不同国家人口数、GDP的比较，不同省份收入、用户数的比较、不同公司、不同部门之间的比较，这些都是同级单位之间的比较，简称横比;

维度可以分为定性维度跟定量维度，也就是根据数据类型来划分，数据类型为字符型(文本型)数据，就是定性维度，如地区、性别都是定性维度;数据类型为数值型数据的，就为定量维度，如收入、年龄、消费等，一般我们对定量维度需要做数值分组处理，也就是数值型数据离散化，这样做的目的是为了使规律更加明显，因为分组越细，规律就越不明显，最后细到成最原始的流水数据，那就无规律可循。

只有通过事物发展的数量、质量两大方面，从横比、纵比角度进行全方位的比较，我们才能够全面的了解事物发展的好坏。

维度表设计最佳实践：

1、数据一致性，主键唯一性，kylin会检查，如果不唯一，会报错。

2、维度表越小越好，因为kylin会放在内存中，默认的阈值是300mb

3、改变频率低,kylin会在每次构建中试图重用维度表的快照，如果维度表经常改变，重用会失效。

4、维度表最好不要是视图，因为需要对视图物化，从而增加时间开销。

通过大量的数据分析软件工具应用可以发现，主要包括以下内容：

整体情况的分析和汇总：全局数据的概况、变化趋势、占比等
多个维度的分析：如果是日志数据，已经存在多个数据项，以某一个数据项作为主关键词汇总分析，同比、环比变化，占总数的变化。如果没有日志数据，则需要想清楚解决这个问题原因是什么?需要采集哪些数据项?
重要场景问题的分析:根据分析的重要问题、用户关心的问题进行分析
软硬件性能管理、告警管理、报表管理、基础参数配置和用户管理等等

在多维度分析、告警、报表，数据图表可视化设计呈现方面也存在许多共性，总结如下:

数据的呈现方式是表格还是图表?若是时间范围，时间统计粒度是多少?
表格需要呈现哪些数据?数据的单位?保留几位小数?数据计算的方法?排序依据?
图表采用哪一种?呈现的范围是多少?
常见的数据项操作：新增、删除、修改、查询

新增哪些是必填数据项?校验重复性和有效性?
删除是否需要提醒?是否具有权限删除?
修改可修改的数据项有哪些?修改后是否要进行校验有效性和重复项?是否有修改的权限?
查询是精准查询还是模糊查询?是单一查询还是支持批量查询?批量查询输入方式的讲究?查询的内容输入什么是否支持大小写空格等?数据区间的查询是自定义还是给出范围划分?

仅用5步，即可从0-1构建大数据知识体系https://www.jianshu.com/p/df813555e583

大数据产品，从系统性和体系思路上来做，主要分为五步：

（1）数据埋点、采集；

（2）基于采集回来的多维度数据，采用ETL对其各类数据进行结构化处理及加载；

（3）对ETL处理后的标准化结构数据，建立数据存储管理子系统，归集到底层数据仓库；基于数据仓库，对其内部数据分解成基础的同类数据集市；

（4）基于归集分解的不同数据集市，对其数据集进行数据建模和各类算法设计。可利用各类R函数包，或自行设计算法。这个过程产品和运营参与最多。

（5）根据建立的各类数据模型及算法，结合前端不同渠道不同业务特征，根据渠道触点自动匹配后端模型自动展现用户个性化产品和服务。

itbgj

发布了41 篇原创文章 · 获赞 5 · 访问量 2万+

私信关注

数仓DataStar

事实表，维度，度量，指标之间的关系

指标vs维度

985 硕士程序员，空窗 4 个月没有 Offer！

营销系统黑名单优化：位图的应用解析

我真的从测试转成了开发......

nginx添加相应配置，通过浏览器访问或curl时返回客户端对应公网IP

[oeasy]python020在游戏中体验数值自由_勇闯地下城_终端文字游戏

为何我建议你学会抄代码

解密游戏神作

导入地址表钩取技术解析

盛大发布 | Zabbix 7.0 LTS--性能与扩展的卓越融合

mmsql 临时表和主表 merge into 语法

Hadoop權威指南（第三版）筆記

大數據技術棧速覽之：Parquet

中臺那些事兒

大數據技術棧速覽之：YARN

閱讀筆記（2019.10.11）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結