内存优化

在 Redis 中优化内存使用的策略

Redis 堆栈 Redis 社区版

小聚合数据类型的特殊编码

从 Redis 2.2 开始,许多数据类型都经过优化,在达到一定大小时,使用更少的空间。 哈希、列表、仅由整数组成的集合和排序集,当小于给定数量的元素并且达到最大元素大小时,以非常节省内存的方式进行编码,使用的内存最多减少 10 倍(使用的内存减少 5 倍是平均节省的内存)。

从用户和 API 的角度来看,这是完全透明的。 由于这是 CPU/内存的权衡,因此可以调整最大值 特殊编码类型的元素数量和最大元素大小 使用以下 redis.conf 指令(显示默认值):

Redis <= 6.2

hash-max-ziplist-entries 512
hash-max-ziplist-value 64
zset-max-ziplist-entries 128 
zset-max-ziplist-value 64
set-max-intset-entries 512

Redis >= 7.0

hash-max-listpack-entries 512
hash-max-listpack-value 64
zset-max-listpack-entries 128
zset-max-listpack-value 64
set-max-intset-entries 512

Redis >= 7.2

还可以使用以下指令:

set-max-listpack-entries 128
set-max-listpack-value 64

如果特殊编码的值溢出配置的最大大小, Redis 会自动将其转换为普通编码。 对于较小的值,此作非常快, 但是,如果您更改设置以使用特殊编码的值 对于更大的聚合类型,建议运行一些 基准测试和测试来检查转换时间。

使用 32 位实例

当 Redis 编译为 32 位目标时,由于指针很小,因此每个键使用的内存要少得多。 但此类实例的最大内存使用量将限制为 4 GB。 要将 Redis 编译为 32 位二进制,请使用 make 32bit。 RDB 和 AOF 文件在 32 位和 64 位实例之间兼容 (当然还有 little endian 和 big endian 之间),因此您可以从 32 位切换到 64 位,或者相反,没有问题。

位和字节级作

Redis 2.2 引入了新的位级和字节级作:GETRANGE,SETRANGE,GETBITSETBIT. 使用这些命令,您可以将 Redis 字符串类型视为随机访问数组。 例如,如果您有一个应用程序,其中的用户由唯一的递增整数标识, 您可以使用位图将有关用户订阅的信息保存在邮件列表中。 为 subscribed 设置 bit 并为 unsubscribe 清除它,或者相反。 如果有 1 亿用户,这些数据在 Redis 实例中只需 12 MB 的 RAM。 您可以使用GETRANGESETRANGE为每个用户存储一个字节的信息。 这只是一个例子,但使用这些新的基元可以在非常小的空间内对多个问题进行建模。

尽可能使用哈希

小哈希值在非常小的空间中进行编码,因此您应该尽可能尝试使用哈希值来表示数据。 例如,如果您在 Web 应用程序中有表示用户的对象, 不要对 name、surname、email、password 使用不同的键,而是使用包含所有必填字段的单个哈希。

如果您想了解更多信息,请阅读下一节。

使用哈希在 Redis 之上抽象出一个非常节省内存的普通键值存储

我知道本节的标题有点吓人,但我要详细解释一下这是关于什么的。

基本上,可以使用 Redis 对普通的 key-value store 进行建模 其中值可以只是字符串,这不仅仅是内存效率更高 比 Redis 纯键高得多,但也比 memcached 的内存效率高得多。

让我们从一些事实开始:几个键比单个键占用更多的内存 包含带有几个字段的哈希值。这怎么可能呢?我们使用一个技巧。 理论上保证我们在恒定时间内执行查找 (在大 O 表示法中也称为 O(1))需要使用数据结构 在平均情况下具有恒定的时间复杂度,就像哈希表一样。

但很多时候 Hash 只包含几个字段。当哈希值很小时,我们可以 而是将它们编码为 O(N) 数据结构,例如线性 数组。由于我们只在 N 较小,则HGETHSETcommands 仍为 O(1):则 一旦元素数量达到 hash 值,hash 就会被转换为真正的 hash 表 它包含 grows too large(您可以在 redis.conf 中配置限制)。

这不仅从时间复杂度的角度来看效果很好,而且 同样从常数时间的角度来看,因为键值对的线性数组恰好与 CPU 缓存配合得很好(它有一个更好的 cache locality 而不是哈希表)。

但是,由于哈希字段和值并非(总是)表示为功能齐全的 Redis 对象,因此哈希字段不能具有关联的生存时间 (expire) 的 SET 密钥,并且只能包含一个字符串。但我们对此感到满意 这,这就是哈希数据类型 API 的意图 设计(我们更相信简单性而不是功能,因此嵌套数据结构 不允许,因为不允许单个字段的过期)。

所以哈希是内存高效的。这在使用 hash 时很有用 表示对象或建模时存在一组 related fields.但是,如果我们有一个普通的 key value 业务呢?

想象一下,我们想使用 Redis 作为许多小对象的缓存,这些小对象可以是 JSON 编码的对象、小的 HTML 片段、简单的 key -> 布尔值 等等。基本上,任何东西都是带有小键的 String -> String Map 和价值观。

现在,我们假设要缓存的对象已编号,例如:

  • 对象:102393
  • 对象:1234
  • 对象:5

这就是我们能做的。每次我们执行 SET作设置一个新的值,我们其实把 key 分成了两部分, 一部分用作键,另一部分用作哈希的字段名称。例如, 名为 “object:1234” 的对象实际上被拆分为:

  • 名为 object:12 的 Key
  • 名为 34 的 Field

因此,我们使用除最后两个字符之外的所有字符作为键,并使用最后一个 哈希字段名称的两个字符。为了设置我们的密钥,我们使用以下命令 命令:

HSET object:12 34 somevalue

如你所见,每个哈希值最终将包含 100 个字段,这是 CPU 和节省的内存之间的最佳折衷方案。

对于此架构,还有另一件重要的事情需要注意 每个哈希值都会有更多的 或 少于 100 个字段,无论我们缓存的对象数量如何。这是因为我们的对象总是以数字结尾,而不是随机字符串。在某种程度上,最终数字可以被视为隐式预分片的一种形式。

小数字呢?喜欢 object:2?我们仅使用 “object:” 作为键名称,整数作为哈希字段名称。 所以 object:2 和 object:10 都将在键 “object:” 内结束,但只有一个 作为字段名称 “2”,一个作为 “10”。

我们以这种方式节省了多少内存?

我使用以下 Ruby 程序来测试其工作原理:

require 'rubygems'
require 'redis'

USE_OPTIMIZATION = true

def hash_get_key_field(key)
  s = key.split(':')
  if s[1].length > 2
    { key: s[0] + ':' + s[1][0..-3], field: s[1][-2..-1] }
  else
    { key: s[0] + ':', field: s[1] }
  end
end

def hash_set(r, key, value)
  kf = hash_get_key_field(key)
  r.hset(kf[:key], kf[:field], value)
end

def hash_get(r, key, value)
  kf = hash_get_key_field(key)
  r.hget(kf[:key], kf[:field], value)
end

r = Redis.new
(0..100_000).each do |id|
  key = "object:#{id}"
  if USE_OPTIMIZATION
    hash_set(r, key, 'val')
  else
    r.set(key, 'val')
  end
end

This is the result against a 64 bit instance of Redis 2.2:

  • USE_OPTIMIZATION set to true: 1.7 MB of used memory
  • USE_OPTIMIZATION set to false; 11 MB of used memory

This is an order of magnitude, I think this makes Redis more or less the most memory efficient plain key value store out there.

WARNING: for this to work, make sure that in your redis.conf you have something like this:

hash-max-zipmap-entries 256

Also remember to set the following field accordingly to the maximum size of your keys and values:

hash-max-zipmap-value 1024

Every time a hash exceeds the number of elements or element size specified it will be converted into a real hash table, and the memory saving will be lost.

You may ask, why don't you do this implicitly in the normal key space so that I don't have to care? There are two reasons: one is that we tend to make tradeoffs explicit, and this is a clear tradeoff between many things: CPU, memory, and max element size. The second is that the top-level key space must support a lot of interesting things like expires, LRU data, and so forth so it is not practical to do this in a general way.

But the Redis Way is that the user must understand how things work so that he can pick the best compromise and to understand how the system will behave exactly.

Memory allocation

To store user keys, Redis allocates at most as much memory as the maxmemory setting enables (however there are small extra allocations possible).

The exact value can be set in the configuration file or set later via CONFIG SET (for more info, see Using memory as an LRU cache). There are a few things that should be noted about how Redis manages memory:

  • Redis will not always free up (return) memory to the OS when keys are removed. This is not something special about Redis, but it is how most malloc() implementations work. For example, if you fill an instance with 5GB worth of data, and then remove the equivalent of 2GB of data, the Resident Set Size (also known as the RSS, which is the number of memory pages consumed by the process) will probably still be around 5GB, even if Redis will claim that the user memory is around 3GB. This happens because the underlying allocator can't easily release the memory. For example, often most of the removed keys were allocated on the same pages as the other keys that still exist.
  • The previous point means that you need to provision memory based on your peak memory usage. If your workload from time to time requires 10GB, even if most of the time 5GB could do, you need to provision for 10GB.
  • However allocators are smart and are able to reuse free chunks of memory, so after you free 2GB of your 5GB data set, when you start adding more keys again, you'll see the RSS (Resident Set Size) stay steady and not grow more, as you add up to 2GB of additional keys. The allocator is basically trying to reuse the 2GB of memory previously (logically) freed.
  • Because of all this, the fragmentation ratio is not reliable when you had a memory usage that at the peak is much larger than the currently used memory. The fragmentation is calculated as the physical memory actually used (the RSS value) divided by the amount of memory currently in use (as the sum of all the allocations performed by Redis). Because the RSS reflects the peak memory, when the (virtually) used memory is low since a lot of keys/values were freed, but the RSS is high, the ratio RSS / mem_used will be very high.

If maxmemory is not set Redis will keep allocating memory as it sees fit and thus it can (gradually) eat up all your free memory. Therefore it is generally advisable to configure some limits. You may also want to set maxmemory-policy to noeviction (which is not the default value in some older versions of Redis).

It makes Redis return an out-of-memory error for write commands if and when it reaches the limit - which in turn may result in errors in the application but will not render the whole machine dead because of memory starvation.

RATE THIS PAGE
Back to top ↑