列存储是从SQL 2012引入，并在后面发挥非常大性能提升的功能，因为当前工作过程需要使用，并且已经出现了很多问题，所以这里我打算把这两个月的经验总结和分享一下。
这个系列跟前面的有些类似，但是我希望能够把零碎的知识点合在一个系列中，最起码方便自己以后搜索。

环境准备

本文会使用SQL Server On Linux环境，不过这个问题不大，SQL Server 使用2019版本。
OS为20G内存，4 core。CentOS 7.7。
演示数据库使用ContosoRetailDW，由于后续会反复使用这个库，建议保留备份文件，每次操作完就还原。使用大概3千万数据作为测试。部分单独测试会使用新建数据库或者TempDB。
本系列使用Hyper-V的虚拟机做测试，所以I/O不会很高，它的值不能作为什么衡量标准，但是可以跟其他方式做横向对比。

列存储简介

列存储需要记住的一些关键点：

列存储设计之初是为了提升数据仓库的性能。
从SQL 2012引入非聚集列存储索引，但是不可更新，禁止修改底层schema，不可使用唯一约束，批执行模式受限等，都使得列存储索引没有很好地推广起来。
从SQL 2014开始，引入了聚集列存储索引。它主要有以下提升：

可更新。
可修改schema。
支持更多数据类型。
混合执行模式（批和行）。
支持更多批执行模式。
更好的压缩效果。
支持seek操作
支持和提升bulk insert中的spill。

基本技术点是把数据拆分并存储到不同的行组（row groups），也叫片段（segments），每个片段应该包含大概100万行数据。
每一列都有自己的片段组，是基于列，而不是传统行存储那样基于行。
行组的数据经过编码和压缩后，转成Blobs（因此在SET STATISTICS IO中需要看lob logical reads和lob physical reads）然后存储到SQL Server中。底层存储大小依旧是8K的页。如果一个Blob已经大于1个页，会调用通用的Blobs存储机制。
使用sys.column_store_segments 这个DMV可以查到相关的元数据信息。
Delete bitmap：一个非常重要的信息，在前两个月就是因为这个导致我公司的Azure SQL DB 不可用了。这是关于片段中被删除的数据行的信息。后面有机会再讲。
聚集列存储索引的架构总的来说由两部分组成：1. 行组/片段。2. Delta Stores（增量存储）。增量存储是一个常规的b-tree行存储，所以不要以为建了聚集列存储索引之后就一定能用上它的优点。如果大量的数据都存储在Delta Stores中，那么还是跟传统行存储索引一样。使用DMV：sys.column_store_row_groups 可以查看所有片段和增量存储的信息。DMV中的值，片段的status=3，并且描述是Compressed，Delta Stores的status可能是1或者2，描述为Open/Close。Open意味着增量存储还能添加数据，Close为正在准备转换到片段。
列存储术语：
Insert：添加数据到当前open的Delta Stores中。
Delete：如果删除的数据是在片段中，那么Deleted Bitmap会更新并带有对应的row id。如果是在增量存储中，那么直接从B-tree结果中移除。
Update：实际过程就是先删除再insert。

计划进行的实验

因为准备可用性组，也就是alwayson，搭建读写分离比较耗时和耗机器，所以暂时不打算做这部分的测试。

（不分区）导入数据到堆表然后创建聚集列存储索引。
（不分区）直接导入数据到聚集列存储索引表。
（不分区）使用Bulk insert导入数据到聚集列存储索引表。
（不分区）使用Bulk insert导入数据到堆表然后创建聚集列存储索引。
（不分区）使用并行插入到堆表然后创建聚集列存储索引。
（分区）导入数据到堆表然后创建聚集列存储索引。
（分区）直接导入数据到聚集列存储索引表。
（分区）使用Bulk insert导入数据到聚集列存储索引表。
（分区）使用Bulk insert导入数据到堆表然后创建聚集列存储索引。
（分区）使用并行插入到堆表然后创建聚集列存储索引。
（不分区,in-memory）导入数据到堆表然后创建聚集列存储索引。
（不分区,in-memory）直接导入数据到聚集列存储索引表。
（不分区,in-memory）使用Bulk insert导入数据到聚集列存储索引表。
（不分区,in-memory）使用Bulk insert导入数据到堆表然后创建聚集列存储索引。
（不分区,in-memory）使用并行插入到堆表然后创建聚集列存储索引。

下一篇：SQL Server 列存储索引性能总结（2）——获取元数据信息

SQL Server 列存储索引性能总结（1）——环境准备及简介

环境准备

列存储简介

相关知识

计划进行的实验

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU启动那些事（12.A）- uSDHC eMMC启动时间(RT1170)

linux安装cuda和cudnn

Mellanox网卡开启SR-IOV

模拟手机设备：使用 Playwright 实现移动端自动化测试

HTML 00 Tutorial

全面系统的AI学习路径，帮助普通人也能玩转AI

从零开始：使用 Playwright 脚本录制实现自动化测试

uni-app实现上拉加载

SQL Server導入性能對比（1）——WITH TABLOCK並行導入

SQL Azure 工作積累（1）——添加用戶到Azure SQL DB

SQL Server 列存儲索引性能總結（3）——列存儲的鎖

SQL Server 列存儲索引性能總結（9）——重建和重組聚集列存儲索引所需的內存

SQL Server 列存儲索引性能總結（7）——導入數據到列存儲索引的Delta Store

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結