SQL 2014 in-memory中的storage部分

2024-01-03 09:26:28

Memory-Optimized表的存储，不再基于page，也不再从extents中分配（相比较而言，可以看Inside SQL系列中的Storage Engine部分）。主要原因是要做内存地址对齐。
行从堆中分配，此堆与彼堆不同（相对于传统的基于磁盘的表）
行与行之间不局限于在同一个表的页范围内，而是通过表的“索引”来进行关联。所以，Memory-Optimized表，至少要有一个索引。从这个角度讲，索引把表中的行串联了起来

表中行的结构

2、Rowheader的结构

Header包含2个8字节的时间戳。Begin-TS是行插入时的transaction的时间戳，End-TS是行删除时的transaction的时间戳。对于还没有被删除的行，End-TS的值是”infinity”。
Header包含一个4字节长的statement ID。Transaction中的每个statement都包含一个唯一的StmtId值，第一次创建行时，该值被创建。
Header包含一个2字节长的idxLinkCount，表明有多少个索引，与当前这个行link了。
Header包含一系列8字节长的索引指针

3、PayLoad的结构

4、Hash Indexes

Hash Indexes，每个hash index指向一个指针数组，数组中每个成员称之为hash bucket。每个memory-optimized表，最多可以包含8个索引。行上的每个索引列，都有一个hash方法进行支持，该方法决定了该行应该使用哪一个bucket进行操作。索引列中包含的相同值，对都应同一个hash值。比如表A有一个列叫做Name，另外一个列叫做City，Name列是索引列，对应的hash方法是length( name )。那么对于张三、李四两个值，他们的hash value都是2，都在同一个chain上。
当表为空时，插入一行，{name=张三, city=北京}，那么此时的value chain存在一个数值，值为strlen(张三)=2,，如上图的pointer 1值为null（因为此时没有其他行）
插入第二行，{name=李四,city=上海}，由于strlen(李四)依然等于2，那么上图的pointer 1指向了上面的张三那行
创建第二个索引在City上，此时，每个行都包含了两个索引。
创建hash index时，必须要制定bucket的数目，建议值是该表中该索引列唯一值的个数。这个数字，会向上与2的指数幂靠齐。如10000，会对齐到16384,50000对齐到65536。（如果行数增加，bucket不够，怎么办？）

5、Range indexes

如果不确定有多少个bucket需要创建，或者需要进行范围搜索，那么需要创建Range indexes。但是CTP1还未提供，我了个擦。

码农公寓