Beansdb merge tools

26 Dec, 2016 #Beansdb

Beansdb 是豆瓣开源出来的一个高效的支持 memcached 协议的文件存储 db。按 key 查找的时候，会有索引定位到磁盘位置。不过貌似前段时间看到说他们搞了一个新的替代这个，我找了一下没找到链接。

使用 beansdb 的时候，有 2 个问题需要解决

冗余问题
数据过期删除问题

数据冗余问题

先说第一个问题。beansdb 本身不提供分布式 hash 逻辑，它就是个单机的程序。冗余需要你自己搞定，如果你使用标准的 memcache 协议，可以有多 server 的配置，读的时候其中一个失败会自动找下一个 server，写的时候就不会了，需要你自己写到多个 server。如果你所有的 server 都是一模一样的，那多写就可以了。如果不一样，你还需要考虑自己的 hash 策略。

豆瓣提供了一个 python 的客户端，这个客户端里面其实包含了 hash 策略。通过把 key 和 server 分桶来做 hash。摘一点代码如下

BEANSDBCFG = {
    "localhost:7901": range(16),
    "localhost:7902": range(16),
    "localhost:7903": range(16),
}

db = Beansdb(BEANSDBCFG, 16)

上面定义了三个 server，每个包含 16 个桶（你可以根据你的需求比如定义第一个 server 只包含某些桶）。

def __init__(self, servers, buckets_count=16, N=3, W=1, R=1):

这里是定义写入数据的时候的逻辑，那个 buckets_count 是桶的数量，N 和 R 貌似没用。。。，W 是改动的时候要求成功的最小 server 数量，包括删除和写入的时候。

读取的时候，会循环从包含这个 key 的桶的 server 列表里面循环读取，这里还有一个「自愈」的逻辑，循环读取直到遇到一个成功的 server，会同时把前面失败的 server 都写入一份数据。

这样下来基本就解决了读写分布式和故障恢复的逻辑了，非常巧妙。

其实针对这个问题，豆瓣还开源了个 beanseye，具体功能没有仔细研究，不过应该是上面需要客户端处理的事情都不需要考虑了。

我们开始用的时候，不知道有 beanseye，我的场景是在 perl 环境下面使用，把 python 的客户端翻译了一个 perl 的版本出来。[1] 有兴趣可以看看。

数据过期删除问题

beansdb 设计之初写入用的是 append 模式，就是说，遇到删除也是写入一条新的记录，并不会返回去修改原来的数据，所以能达到合理的 IO 速度。如果场景是大量不会删除的小文件，那么 beansdb 使用起来非常合适。

如果有数据过期或者删除的需求，就需要想办法处理这些数据了，否则的话，beandb 的数据文件里面会慢慢的有大量的无用数据，浪费磁盘空间。

这个删除过期数据的过程，我看豆瓣叫做 merge。思路其实就是把所有数据遍历一次，把有效的数据写入一个新的 data 文件，然后旧的删掉，就可以了。beansdb 的数据文件有 2 种，一种是 xxx.data，这种文件是数据文件，另外一种是 xxx.hint.qlz 这种是索引文件。

针对这个需求，我写了两版程序，第一版就是单纯的解读一下数据文件，把其中的数据的信息读出来，主要是版本号和创建时间，然后根据版本号只写入高版本的，根据创建时间把过期的数据丢弃。生成新的 data 文件之后，要删除 hint 文件，启动的时候会自动产生 hint 文件。然后在 beansdb 的机器上面定期跑这个脚本就好了，注意跑之前应该先关闭 beansdb。

第一个版本的程序只是解读了每个块的数据头，程序用起来也勉强还行，但是主要问题是，每次启动都需要重新产生 hint 文件，导致启动到提供服务很慢，所以就有了第二版程序。第二版包含了第一版的全部功能，还提供了按照文件大小来定义删除时限的功能。

第二个版本程序基本把 data 和 hint 文件产生的逻辑都用 perl 实现了（不过还没有经过太多测试）。下面简单讲讲逻辑。

data 文件

 1‌typedef struct data_record
 2{
 3    char *value;
 4    union
 5    {
 6        bool free_value;    // free value or not
 7        uint32_t crc;
 8    };
 9    int32_t tstamp;
10    int32_t flag;
11    int32_t version;
12    uint32_t ksz;
13    uint32_t vsz;
14    char key[0];
15‌} DataRecord;

数据文件里面，每个 key 对应的数据的长度是 4*6 + key_size + value_size + padding。

read($fh, my $header, 4*6);
my ( $crc, $tstamp, $flag, $ver, $ksz, $vsz ) = unpack('I i i i I I', $header);

头部是 24 个字节，依次包括校验数据，写入时间戳，标记位，版本号，key 的长度，value 的长度。上面 unpack 方法第一个参数里面的含义，可以参考perl 的文档。每个 4 字节，32bit 整数。

然后是读取 $ksz 的长度的 key，读取 $vsz 长度 value。如果 $flag 标记表明 value 有压缩，压缩用的是 QLZ 算法，真实的值需要用 qlz 解压缩之后才能得到。

最后是 padding 部分，整个数据长度需要是 256 的整数倍。不足的部分，会写入 \0 做 padding。

merge 的过程不关心 value 的真实值，所以不需要解压缩，把读取到的原样写回去就可以了。另外就是 merge 的时候遇到同一个 key 多个 version 出现的时候，只保留大的那个就可以了。这样操作之后 data 文件会变小。

hint 文件

1‌typedef struct hint_record
2{
3    uint32_t ksize:8;
4    uint32_t pos:24;
5    int32_t version;
6    uint16_t hash;
7    char key[NAME_IN_RECORD]; // allign
8‌} HintRecord;

hint 文件比 data 文件稍微复杂一点，每一条记录是 key_size + data_pos + ver + hash + key + padding。

my ( $ksz, $datapos, $ver, $hash ) = unpack("B8 B24 i B16", $header);

$ksz = unpack("I", pack("B32", $ksz));
$datapos = unpack("I", pack("B32", $datapos));
$datapos = $datapos << 8;
$hash = unpack("I", pack("B32", $hash));

头部的 10 个字节如上面代码，第一个 8 bit 是 key 的长度，接下来 24 个 bit 是这个 key 对应数据在 data 文件里面的位置。然后是 4 字节版本，16 bit 的 hash。

padding 和上面 data 里面的逻辑一样，按照 256 的倍数补全。

hint 文件结尾有个 .qlz，表示整个 hint 里面的数据是压缩的，所以在处理前需要先解压缩一下。（不过我看到我代码里面在读取 hint 的时候，是全部数据解压，写入的时候，是按照 record 压缩的，很奇怪）。