【Redis】数据结构 - SDS

概述

Redis底层由C语言实现, 但Redis并没有直接使用C语言的字符串, 而是自己构建了一种名为 SDS ( Simple Dynamic String ) 简单动态字符串来作为其字符串的数据结构.

在Redis中, C语言的字符串只会被用作字面量 例如

redisLog(REDIS_WARNING, "Redis is now ready to exit , bye bye ....")

其他情况 Redis中的字符串均为SDS. 例如

redis> SET message "hello world"

该键值对中的键为保存着字符串"message"的SDS
该键值对中的值为保存着"hello world"的SDS

SDS定义

数据结构(C语言):

struct sdshdr{
    // 记录buf数组中已使用的字节数, 即SDS保存字符串的长度
	int len;
	// 记录buf数组中未使用的字节数
	int free;
	// 存放字符串
	char buf[];
}

兼容部分C字符串函数

SDS遵循C语言的空字符串结尾规则, buf数组保存字符串时末尾会自动添加’\0’, 且会在分配内存时考虑到末尾的结束符, 这样做是为了SDS可以重用一部分C字符串库的函数.

例如

printf("%s", s->buf);
strcmp(s->buf, "hello world");
strcat(c_string, s->buf);

特性

常数复杂度获取字符串长度

c语言获取字符串长度需要调用 strlen()函数来遍历字符串,计算出到结束符为止的长度. 该操作的时间复杂度为O(n)

SDS在len属性中记录着字符串的长度, 所以获取长度的时间复杂度为O(1)

杜绝缓冲区溢出

C语言的字符串长度固定, 容易造成缓冲区溢出, 例如运行下列代码

char s1[6] = {'h', 'e', 'l', 'l', 'o', '\0'};
strcat(s1, " world");

s1没有足够的空间, 因此s1的数据会溢出到其后连续的内存中, 导致该段内存被意外的修改.

SDS的字符串拥有空间分配策略.

当SDS API需要对SDS进行修改时, API会先检查SDS的空间是否够用, 如果不够用的话API会自动扩展其内存. 从而可以避免缓冲区溢出问题.

减少修改字符串时带来的内存重新分配次数

  • 增长字符串的操作需要通过内存的重新分配从而扩大buf[]数组, 如果没有该操作则会产生缓冲区溢出
  • 缩短字符串操作也需要通过内存重新分配从而释放字符串不再使用的空间, 如果没有该操作则会导致内存泄漏.

但内存重新分配涉及复杂的算法, 还可能需要执行系统调用, 因此该操作比较耗时.

redis作为数据库, 对速度的要求很严格, 且数据会被频繁的修改, 如果每次修改都执行内存分配则会大大影响速度和性能.

因此SDS解除了字符串长度和底层数组长度之间的关联, 即二者的大小不一定相等, 在此基础是实现了空间预分配和惰性空间释放两种优化策略.

空间预分配

针对对SDS增长的操作. 在增长时会分配额外的预空间

  • 如果对SDS进行增长操作后, 其长度小于1MB. 则SDS会被分配和len大小的空间供字符串使用, 并且分配与其大小相同的空闲空间预留, 即分配后len的值将和free的值相同.
  • 如果对SDS进行增长操作后, 其长度大于等于1MB, 则程序会分配足够的空间供字符串使用, 并且分配额外的1MB预留. 即分配后len为字符串长度( 大于1MB), free的长度为1MB

通过多分配预留空间, 可以在下次增长操作时避免一部分扩容操作, 从而减少内存重新分配操作, 提升效率.

惰性空间释放

用于优化字符串缩短操作.

  • 当SDS的API需要缩短SDS保存的字符串时, API并不立即重新分配内存来回收空出来的多余内存, 而是用free属性将多余的内存记录下来, 预留给下次使用.

例如列操作

// s->buf = "XYXXABCYYY" s->len = 10 s->free = 0
sdstrim(s, "xy");   

最后的结果

s->buf 为 "ABC\0"
s->len = 3
s->free = 7

避免了重新分配内存, 提升了效率, 但有时会造成空间浪费, 因此SDS也有相应的API在必要时可以释放未使用的空间.

二进制安全

因为C字符无法存储空字符’\0’, 因为’\0’被默认当做了字符串的结尾, 因此C字符串只能存储文本数据, 而不能保存图像、音频、视频、压缩文件.

SDS的API都是二进制安全的, 所有SDS API都会以处理二进制的方式来处理SDS存放在BUF数组里的数据, 即数据写入时是怎么样的, 他被读取时就是怎么样的.

Redis 的 SDSbuf属性被称为字节数组, 因为Redis不用该数组存放字符, 而是用来存放一系列的二进制数据.

所以Redis不仅可以保存文本数据, 还可以保存任意格式的二进制数据.

参考: 《Redis设计与实现》

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章