Redis数据结构之robj

本文及后续文章,Redis版本均是v3.2.8

我们知道一个database内的这个映射关系是用一个dict来维护的。dict的key固定用一种数据结构来表达,这这数据结构就是动态字符串sds。而value则比较复杂,为了在同一个dict内能够存储不同类型的value,这就需要一个通用的数据结构。针对不同的使用场景,这个通用的数据结构可以使用不同的数据结构实现,这样可以优化在不同场景下的效率。这个通用的数据结构就是robj(redisObject),也是本文主要探讨的redis中的对象是怎么实现的。

robj数据结构

在server.h文件中,定义robj的相关代码

/* A redis object, that is a type able to hold a string / list / set */

/* The actual Redis Object */

#define LRU_BITS 24

#define LRU_CLOCK_MAX ((1<<LRU_BITS)-1) /* Max value of obj->lru */

#define LRU_CLOCK_RESOLUTION 1000 /* LRU clock resolution in ms */

typedef struct redisObject {

unsigned type:4;

unsigned encoding:4;

unsigned lru:LRU_BITS; /* lru time (relative to server.lruclock) */

int refcount;

void *ptr;

} robj;

  • type: 对象的数据类型。占4个bit,可能的取值有5种:OBJ_STRING, OBJ_LIST, OBJ_SET, OBJ_ZSET, OBJ_HASH,分别对应提供给我们长使用的5种数据结构(字符串对象(string)、列表对象(list)、哈希对象(hash)、集合对象(set)和有序集合对象(zset)),稍后再介绍5钟数据类型。

  • encoding: 对象的内部编码方式。占4个bit,可能的取值有10种,稍后再介绍10钟编码方式。

  • lru: lru time,占24个bit。

  • refcount: 引用计数。它允许robj对象在某些情况下被共享。

  • ptr: 数据指针,指向实现对象的底层数据结构。比如,一个代表string的robj,它的ptr可能指向一个sds结构。

对象的类型type

/* Object types */

#define OBJ_STRING 0

#define OBJ_LIST 1

#define OBJ_SET 2

#define OBJ_ZSET 3

#define OBJ_HASH 4

对象的编码encoding

/* Objects encoding. Some kind of objects like Strings and Hashes can be

* internally represented in multiple ways. The 'encoding' field of the object

* is set to one of this fields for this object. */

#define OBJ_ENCODING_RAW 0     /* Raw representation */

#define OBJ_ENCODING_INT 1     /* Encoded as integer */

#define OBJ_ENCODING_HT 2      /* Encoded as hash table */

#define OBJ_ENCODING_ZIPMAP 3  /* Encoded as zipmap */

#define OBJ_ENCODING_LINKEDLIST 4 /* Encoded as regular linked list */

#define OBJ_ENCODING_ZIPLIST 5 /* Encoded as ziplist */

#define OBJ_ENCODING_INTSET 6  /* Encoded as intset */

#define OBJ_ENCODING_SKIPLIST 7  /* Encoded as skiplist */

#define OBJ_ENCODING_EMBSTR 8  /* Embedded sds string encoding */

#define OBJ_ENCODING_QUICKLIST 9 /* Encoded as linked list of ziplists */

我们从以上的注释中知道,对于同一个type,还可能对应不同的encoding,这说明同样的一个数据类型,可能存在不同的内部编码方式。

例如当type = OBJ_STRING时,表示这个robj存储的是一个string,那么encoding可以是下面3种选择:

  • OBJ_ENCODING_RAW: string采用原生的表示方式,即用sds来表示。

  • OBJ_ENCODING_INT: string采用数字的表示方式,实际上是一个long型。

  • OBJ_ENCODING_EMBSTR: string采用一种特殊的嵌入式的sds来表示。

encoding:

  • OBJ_ENCODING_RAW: 最原生的表示方式。其实只有string类型才会用这个encoding值(表示成简单动态字符串sds)。

  • OBJ_ENCODING_INT: 表示成数字。实际用long表示。

  • OBJ_ENCODING_HT: 表示成dict。

  • OBJ_ENCODING_ZIPMAP: 是个旧的表示方式,已不再用。

  • OBJ_ENCODING_LINKEDLIST: 双端列表,已不再用

  • OBJ_ENCODING_ZIPLIST: 表示成ziplist。

  • OBJ_ENCODING_INTSET: 表示成intset。用于set数据结构。

  • OBJ_ENCODING_SKIPLIST: 表示成skiplist。用于sorted set数据结构。

  • OBJ_ENCODING_EMBSTR: 表示成一种特殊的嵌入式的sds。

  • OBJ_ENCODING_QUICKLIST: 表示成quicklist。用于list数据结构。

访问时间lru

lru属性(占24 bit)表示对象最后一次别访问的时间,根据lru判断对象是否应该被释放,本文暂不做分析。

引用计数refcount

由于C语言并不具备内存回收机制,所以redis通过refcount记录robj共享的次数。当refcount为0时即robj对象没有在被应用,表示该robj对象应该被释放,回收内存。

我们看下object.c文件中代码

void incrRefCount(robj *o) {

o->refcount++;

}

void decrRefCount(robj *o) {

if (o->refcount <= 0) serverPanic("decrRefCount against refcount <= 0");

if (o->refcount == 1) {

switch(o->type) {

case OBJ_STRING: freeStringObject(o); break;

case OBJ_LIST: freeListObject(o); break;

case OBJ_SET: freeSetObject(o); break;

case OBJ_ZSET: freeZsetObject(o); break;

case OBJ_HASH: freeHashObject(o); break;

default: serverPanic("Unknown object type"); break;

}

zfree(o);

} else {

o->refcount--;

}

}

从代码可以看出,释放对象时,根据对象的类型type,释放对象保存的数据结构,再释放对象。

例如释放set对象时:

void freeSetObject(robj *o) {

switch (o->encoding) {

case OBJ_ENCODING_HT:

dictRelease((dict*) o->ptr);

break;

case OBJ_ENCODING_INTSET:

zfree(o->ptr);

break;

default:

serverPanic("Unknown set encoding type");

}

}

根据不同的编码实现,调用不同的底层释放函数。

其他对象的操作函数都在object.c文件中,这里就不一一列举了。

在上一篇文章《Redis数据结构之sds》中,我们简单地提到了sds与string的关系,当初我们简单的理解string对象就是sds。

现在我们了解了robj的概念之后,我们在重新总结一下sds与string的关系:

  • string对象在Redis中是用一个robj(redisObject)来表示的。

  • string对象编码方式有3种:OBJ_ENCODING_RAW, OBJ_ENCODING_EMBSTR, OBJ_ENCODING_INT。其中前两种编码使用sds来存储,最后一种OBJ_ENCODING_INT编码直接把string存成了long型。

  • 在对string进行incr, decr等操作的时候,

    如果它内部是OBJ_ENCODING_INT编码,那么可以直接进行加减操作;如果它内部是OBJ_ENCODING_RAW或OBJ_ENCODING_EMBSTR编码,那么Redis会先试图把sds存储的字符串转成long型,如果能转成功,再进行加减操作。

  • 对一个内部表示成long型的string执行append, getrange, setbit等命令,针对的仍然是string的值(即十进制表示的字符串),而不是针对内部表示的long型进行操作。

总结

我们回顾下,robj的作用:

  • 为多种数据类型提供一种统一的表示方式。

  • 允许同一类型的数据采用不同的内部表示,从而在某些情况下尽量节省内存。

  • 支持对象共享和引用计数。当对象被共享的时候,只占用一份内存拷贝,进而节省内存。

--EOF--

上一篇:HDOJ 1590


下一篇:Meet python: little notes 4 - high-level characteristics