【万字长文】使用 LSM-Tree 思想基于.Net 6.0 C# 实现 KV 数据库（案例版）

技术分享 2年前 (2022-07-27) 0 999+

关注

文章有点长，耐心看完应该可以懂实际原理到底是啥子。

这是一个KV数据库的C#实现，目前用.NET 6.0实现的，目前算是属于雏形，骨架都已经完备，毕竟刚完工不到一星期。

当然，这个其实也算是NoSQL的雏形，有助于深入了解相关数据库的内部原理概念，也有助于实际入门。

适合对数据库原理以及实现感兴趣的朋友们。

整体代码，大概1500行，核心代码大概500行。

为啥要实现一个数据库

大概2018年的时候，就萌生了想自己研发一个数据库的想法了，虽然，造轮子可能不如现有各种产品的强大，但是，能造者寥寥无几，而且，造数据库的书更是少的可怜，当然，不仅仅是造数据库的书少，而是各种各样高级的产品的创造级的书都少。

虽然，现在有各种各样的开源，但是，像我这种底子薄的，就不能轻易的了解，这些框架的架构设计，以及相关的理念，纯看代码，没个长时间，也不容易了解其存在的含义。

恰逢其时，前一个月看到【痴者工良】大佬的一篇《【万字长文】使用 LSM Tree 思想实现一个 KV 数据库》文章给我很大触动，让我停滞的心，又砰砰跳了起来，虽然大佬是用GO语言实现的，但是，对我来讲，语言还是个问题么，只要技术思想一致，我完全可以用C#实现啊，也算是对【痴者工良】大佬的致敬，我这边紧随其后。

当然，我自己对数据的研究也是耗时很久，毕竟，研究什么都要先从原理开始研究，从谷歌三个论文《GFS，MapReduce，BigTable》开始，但是，论文，毕竟是论文，读不懂啊，又看了网上各种大佬的文章，还是很蒙蔽，实现的时候，也没人交流，导致各种流产。

有时候，自己实现某个产品框架的时候，总是在想，为啥BUG都让我处理一个遍哦，后来一想，你自己从新做个产品，也不能借鉴技术要点，那还不是从零开始，自然一一遇到BUG。

下图就是，我在想做数据库后，自己写写画画，但是，实际做的时候，逻辑表现总没有那么好，当然，这个是关系型数据库，难度比较高，下面可以看看之前的手稿，都是有想法了就画一下。

实现难度有点高，现在这个实现是KV数据库，算是列式数据库了，大名鼎鼎的HBase，底层数据库引擎就是LSM-Tree的技术思想。

LSM-Tree 是啥子

LSM-Tree 英文全称是 Log Structured Merge Tree （中文：日志结构合并树），是一种分层，有序，面向磁盘的数据结构，其核心思想是充分了利用了，磁盘批量的顺序写要远比随机写性能高的技术特点，来实现高写入吞吐量的存储系统的核心。

具体的说，原理就是针对硬盘，尽量追加数据，而不是随机写数据，追加速度要比随机写的速度快，这种结构适合写多读少的场景，所以，LSM-Tree被设计来提供比传统的B+树或者ISAM更好的写操作吞吐量，通过消去随机的本地更新操作来达到这个性能目标。

相关技术产品有Hbase、Cassandra、Leveldb、RocksDB、MongoDB、TiDB、Dynamodb、Cassandra 、Bookkeeper、SQLite 等

所以，LSM-Tree的核心就是追加数据，而不是修改数据。

LSM-Tree 架构分析

其实这个图已经表达了整体的设计思想了，主体其实就围绕着红色的线与黑色的线，两部分展开的，其中红色是写，黑色是读，箭头表示数据的方向，数字表示逻辑顺序。

整体包含大致三个部分，数据库操作部分（主要为读和写），内存部分(缓存表和不变缓存表)以及硬盘部分(WAL Log 和 SSTable)，这三个部分。

先对关键词解释一下

MemoryTable

内存表，一种临时缓存性质的数据表，可以用二叉排序树实现，也可以用字典来实现，我这边是用字典实现的。

WAL Log

WAL 英文 (Write Ahead LOG) 是一种预写日志，用于在系统故障期间提供数据的持久性，这意味着当写入请求到来时，数据首先添加到 WAL 文件（有时称为日志）并刷新到更新内存数据结构之前的磁盘。

如果用过Mysql，应该就知道BinLog文件，它们是一个道理，先写入到WAL Log里，记录起来，然后，写入到内存表，如果电脑突然死机了，内存里的东西肯定丢失了，那么，下一次重启，就从WAL Log 记录表里，从新恢复数据到当前的数据状态。

Immutable MemoryTable

Immutable(不变的)，相对于内存表来讲，它是不能写入新数据，是只读的。

SSTable

SSTable 英文 (Sorted Strings Table) ，有序字符串表，就是有序的字符串列表，使用它的好处是可以实现稀疏索引的效果，而且，合并文件更为简单方便，我要查某个Key，但是，它是基于某个有序Key之间的，可以直接去文件里查，而不用都保存到内存里。

这里我是用哈希表实现的，我认为浪费一点内存是值得的，毕竟为了快，浪费点空间是值得的，所以，目前是全索引加载到内存，而数据保存在SSTable里，当然，如果是为了更好的设计，也可以自己去实现有序表来用二分查找。

我这个方便实现了之后，内存会加载大量的索引，相对来讲是快的，但是，内存会大一些，空间换时间的方案。

下面开始具体的流程分析

LSM-Tree Write 路线分析

看下图，数据写入分析

跟着红色线走，关注我从此不迷路。

LSM-Tree Write 路线分析第一步

第一步，只有两个部分需要注意的部分，分别是内存表和WAL.Log

写入数据先存储内存表，是为了快速的存储到数据库数据。

存储到WAL.Log，是为了防止异常情况下数据丢失。

正常情况下，写入到WAL.Log一份，然后，会写入到内存一份。

当程序崩溃了，或者，电脑断电异常了，重复服务后，就会先加载WAL.Log，按照从头到尾的顺序，恢复数据到内存表，直至结束，恢复到WAL.Log最后的状态，也就是内存表数据最后的状态。

注

这里要注意的是，当后面的不变表(Immutable MemoryTable)写入到SSTable的时候，会清空WAL.Log文件，并同时把内存表的数据直接写入到WAL.log表中。

LSM-Tree Write 路线分析第二步

第二步，比较简单，就是在内存表count大于一定数的时候，就新增一个内存表的同时，把它变为 Immutable MemoryTable （不变表），等待SSTable的落盘操作，这个时候，Immutable MemoryTable会有多个表存在。

LSM-Tree Write 路线分析第三步

第三步，就是数据库会定时检查 Immutable MemoryTable （不变表）不变表是否存在，如果存在，就会直接落盘为SSTable表，不论当前内存里有多少 Immutable MemoryTable （不变表）。

默认从内存落盘的第一级SSTable都是 Level 0，然后，内置了当前的时间，所以是两级排序，先分级别，然后，分时间。

LSM-Tree Write 路线分析第四步

第四步，其实就是段合并或者级合并压缩，就是判断 level0 这一个级别的所有 SSTable文件(SSTable0，SSTable1，SSTable2)，判断它们的总大小或者判断它们的总个数来判断，它们需不需要进行合并。

其中 Level 0 的大小如果是10M，那么 ,Level 1的大小就是 100M，依此类推。

当Level0的所有SSTable文件超过了10M，或者限定的大小，就会从按照WAL.Log的顺序思路，重新合并为一个大文件，先老数据再新数据这样遍历合并，如果已经删除的，则直接剔除在外，只保留最新状态。

如果 Level1的（全部SSTable）大小超过100M，那么，触发Level1的收缩动作，执行过程跟Level0一样的操作，只是级别不同。

这样压缩的好处是使数据尽可能让文件量尽可能的少，毕竟，文件多，管理就不是很方便。

至此，写入路线已经分析完毕

注

查询的时候，要先新数据，后旧数据，而分段合并压缩的时候，要先老数据垫底，新数据刷状态，这个是实现的时候需要注意的点。

LSM-Tree Read 路线分析

这就是数据的查找过程，跟着黑线和数字标记，很容易就看到了其访问顺序

MemoryTable (内存表)
Immutable MemoryTable (不变表)
Level 0-N (SSTableN-SSTable1-SSTable0) (有序字符串表)

基本上来说就这三部分，而级别表是从0级开始往下找的，而每级内部的SSTable是从新到旧开始找的，找到就返回，不论key是删除还是正常的状态。

LSM-Tree 架构分析与实现

核心思想：

其实就是一个时间有序的记录表，会记录每个操作，相当于是一个消息队列，记录一系列的动作，然后，回放动作，就获取到了最新的数据状态，也类似CQRS中的Event Store（事件存储），概念是相同的，那么实现的时候，就明白是一个什么本质。

Wal.log和SSTable，都是为了保证数据能落地持久化不丢失，而MemoryTable，偏向临时缓存的概念，当然，也有为了加速访问的作用。

所以，从这几个点来看，就分为了以下几个大的对象

Database 数据库( 起到对Wal.log，SSTable和MemoryTable 的管理职责)
Wal.log(记录临时数据日志)
MemoryTable(记录数据到内存，同时为数据库查找功能提供接口服务)
SSTable(管理SSTable文件，并提供SSTable的查询功能)

所以，针对这几个对象来设计相关的类接口设计。

KeyValue (具体数据的结构)

设计的时候，要先设计实际数据的结构，我是这样设计的

主要有三个主要的信息，key, DataValue，Deleted ，其中DataValue是Object类型的，我这边写入到文件里的话，是直接写入的。

/// <summary> /// 数据信息 kv /// </summary> public class KeyValue {     public string Key { get; set; }     public byte[] DataValue { get; set; }     public bool Deleted { get; set; }     private object Value;     public KeyValue() { }     public KeyValue(string key, object value, bool Deleted = false)     {         Key = key;         Value = value;         DataValue = value.AsBytes();         this.Deleted = Deleted;     }     public KeyValue(string key, byte[] dataValue, bool deleted)     {         Key = key;         DataValue = dataValue;         Deleted = deleted;     }      /// <summary>     /// 是否存在有效数据,非删除状态     /// </summary>     /// <returns></returns>     public bool IsSuccess()     {         return !Deleted || DataValue != null;     }     /// <summary>     /// 值存不存在，无论删除还是不删除     /// </summary>     /// <returns></returns>     public bool IsExist()     {         if (DataValue != null && !Deleted || DataValue == null && Deleted)         {             return true;         }         return false;     }     public T Get<T>() where T : class     {         if (Value == null)         {             Value = DataValue.AsObject<T>();         }         return (T)Value;     }      public static KeyValue Null = new KeyValue() { DataValue = null }; }

IDataBase (数据库接口)

主要对外交互用的主体类，数据库类，增删改查接口，都用 get,set,delete 表现。

/// <summary> /// 数据库接口 /// </summary> public interface IDataBase : IDisposable {     /// <summary>     /// 数据库配置     /// </summary>     IDataBaseConfig DataBaseConfig { get; }     /// <summary>     /// 获取数据     /// </summary>     KeyValue Get(string key);     /// <summary>     /// 保存数据(或者更新数据)     /// </summary>     bool Set(KeyValue keyValue);     /// <summary>     /// 保存数据(或者更新数据)     /// </summary>     bool Set(string key, object value);     /// <summary>     /// 获取全部key     /// </summary>     List<string> GetKeys();     /// <summary>     /// 删除指定数据，并返回存在的数据     /// </summary>     KeyValue DeleteAndGet(string key);     /// <summary>     /// 删除数据     /// </summary>     void Delete(string key);     /// <summary>     /// 定时检查     /// </summary>     void Check(object state);     /// <summary>     /// 清除数据库所有数据     /// </summary>     void Clear(); }

IDataBase.Check (定期检查)

这个是定期检查Immutable MemoryTable(不变表)的定时操作，主要依赖IDataBaseConfig.CheckInterval 参数配置其触发间隔。

它的职责是检查内存表和检查SSTable 是否触发分段合并压缩的操作。

public void Check(object state) {     //Log.Info($"定时心跳检查!");     if (IsProcess)     {         return;     }     if (ClearState)     {         return;     }     try     {         Stopwatch stopwatch = Stopwatch.StartNew();         IsProcess = true;         checkMemory();         TableManage.Check();         stopwatch.Stop();         GC.Collect();         Log.Info($"定时心跳处理耗时:{stopwatch.ElapsedMilliseconds}毫秒");     }     finally     {         IsProcess = false;     } }

IDataBaseConfig (数据库配置文件)

数据库的配置文件，数据库保存在哪里，以及生成SSTable时的阈值配置，还有检测间隔时间配置。

/// <summary> /// 数据库相关配置 /// </summary> public interface IDataBaseConfig {     /// <summary>     /// 数据库数据目录     /// </summary>     public string DataDir { get; set; }     /// <summary>     /// 0 层的 所有 SsTable 文件大小总和的最大值，单位 MB，超过此值，该层 SsTable 将会被压缩到下一层     /// 每层数据大小是上层的N倍     /// </summary>     public int Level0Size { get; set; }     /// <summary>     /// 层与层之间的倍数     /// </summary>     public int LevelMultiple { get; set; }     /// <summary>     /// 每层数量阈值     /// </summary>     public int LevelCount { get; set; }     /// <summary>     /// 内存表的 kv 最大数量，超出这个阈值，内存表将会被保存到 SsTable 中     /// </summary>     public int MemoryTableCount { get; set; }     /// <summary>     /// 压缩内存、文件的时间间隔，多久进行一次检查工作     /// </summary>     public int CheckInterval { get; set; } }

IMemoryTable (内存表)

这个表其实算是对内存数据的管理表了，主要是管理 MemoryTableValue 对象，这个对象是通过哈希字典来实现的，当然，你也可以选择其他结构，比如有序二叉树等。

/// <summary> /// 内存表(排序树，二叉树) /// </summary> public interface IMemoryTable : IDisposable {     IDataBaseConfig DataBaseConfig { get; }     /// <summary>     /// 获取总数     /// </summary>     int GetCount();     /// <summary>     /// 搜索(从新到旧，从大到小)     /// </summary>     KeyValue Search(string key);     /// <summary>     /// 设置新值     /// </summary>     void Set(KeyValue keyValue);     /// <summary>     /// 删除key     /// </summary>     void Delete(KeyValue keyValue);     /// <summary>     /// 获取所有 key 数据列表     /// </summary>     /// <returns></returns>     IList<string> GetKeys();     /// <summary>     /// 获取所有数据     /// </summary>     /// <returns></returns>     (List<KeyValue> keyValues, List<long> times) GetKeyValues(bool Immutable);     /// <summary>     /// 获取不变表的数量     /// </summary>     /// <returns></returns>     int GetImmutableTableCount();     /// <summary>     /// 开始交换     /// </summary>     void Swap(List<long> times);     /// <summary>     /// 清空全部数据     /// </summary>     void Clear(); }

MemoryTableValue (对象的实现)

主要是通过 Immutable 这个属性实现了对不可变内存表的标记，具体实现是通过判断 IDataBaseConfig.MemoryTableCount (内存表的 kv 最大数量)来实现标记的。

public class MemoryTableValue : IDisposable {     public long Time { get; set; } = IDHelper.MarkID();     /// <summary>     /// 是否是不可变     /// </summary>     public bool Immutable { get; set; } = false;     /// <summary>     /// 数据     /// </summary>     public Dictionary<string, KeyValue> Dic { get; set; } = new();      public void Dispose()     {         Dic.Clear();     }      public override string ToString()     {         return $"Time {Time} Immutable：{Immutable}";     } }

什么时机表状态转换为 Immutable MemoryTable(不变表)的

我这里实现的是从Set的入口处实现的，如果数目大于IDataBaseConfig.MemoryTableCount (内存表的 kv 最大数量)就改变其状态

public void Check() {     if (CurrentMemoryTable.Dic.Count() >= DataBaseConfig.MemoryTableCount)     {         var value = new MemoryTableValue();         dics.Add(value.Time, value);         CurrentMemoryTable.Immutable = true;     } }

IWalLog

wallog，就简单许多，就直接把KeyValue 写入到文件即可，为了保证WalLog的持续写，所以，对象内部保留了此文件的句柄。而SSTable，就没有必要了，随时读。

/// <summary> /// 日志 /// </summary> public interface IWalLog : IDisposable {     /// <summary>     /// 数据库配置     /// </summary>     IDataBaseConfig DataBaseConfig { get; }     /// <summary>     /// 加载Wal日志到内存表     /// </summary>     /// <returns></returns>     IMemoryTable LoadToMemory();     /// <summary>     /// 写日志     /// </summary>     void Write(KeyValue data);     /// <summary>     /// 写日志     /// </summary>     void Write(List<KeyValue> data);     /// <summary>     /// 重置日志文件     /// </summary>     void Reset(); }

ITableManage (SSTable表的管理)

为了更好的管理SSTable，需要有一个管理层，这个接口就是它的管理层，其中SSTable会有多层，每次用 Level+时间戳+db 作为文件名，用作外部识别。

/// <summary> /// 表管理项 /// </summary> public interface ITableManage : IDisposable {     IDataBaseConfig DataBaseConfig { get; }     /// <summary>     /// 搜索(从新到老,从大到小)     /// </summary>     KeyValue Search(string key);     /// <summary>     /// 获取全部key     /// </summary>     List<string> GetKeys();     /// <summary>     /// 检查数据库文件，如果文件无效数据太多，就会触发整合文件     /// </summary>     void Check();     /// <summary>     /// 创建一个新Table     /// </summary>     void CreateNewTable(List<KeyValue> values, int Level = 0);     /// <summary>     /// 清理某个级别的数据     /// </summary>     /// <param name="Level"></param>     public void Remove(int Level);     /// <summary>     /// 清除数据     /// </summary>     public void Clear(); }

ISSTable(SSTable 文件)

SSTable的内容管理，应该就是LSM-Tree的核心了，数据的合并，以及数据的查询，写入，加载，都是偏底层的操作，需要一丢丢的数据库知识。

/// <summary> /// 文件信息表 （存储在IO中） /// 元数据 | 索引列表 | 数据区(数据修改只会新增，并修改索引列表数据)  /// </summary> public interface ISSTable : IDisposable {     /// <summary>     /// 数据地址     /// </summary>     public string TableFilePath();     /// <summary>     /// 重写文件     /// </summary>     public void Write(List<KeyValue> values, int Level = 0);     /// <summary>     /// 数据位置     /// </summary>     public Dictionary<string, DataPosition> DataPositions { get; }     /// <summary>     /// 获取总数     /// </summary>     /// <returns></returns>     public int Count { get; }     /// <summary>     /// 元数据     /// </summary>     public ITableMetaInfo FileTableMetaInfo { get; }     /// <summary>     /// 查询数据     /// </summary>     /// <param name="key"></param>     /// <returns></returns>     public KeyValue Search(string key);     /// <summary>     /// 有序的key列表     /// </summary>     /// <returns></returns>     public List<string> SortIndexs();     /// <summary>     /// 获取位置     /// </summary>     DataPosition GetDataPosition(string key);     /// <summary>     /// 读取某个位置的值     /// </summary>     public object ReadValue(DataPosition position);     /// <summary>     /// 加载所有数据     /// </summary>     /// <returns></returns>     public List<KeyValue> ReadAll(bool incloudDeleted = true);     /// <summary>     /// 获取所有keys     /// </summary>     /// <returns></returns>     public List<string> GetKeys();     /// <summary>     /// 获取表名     /// </summary>     /// <returns></returns>     public long FileTableName();     /// <summary>     /// 文件的大小     /// </summary>     /// <returns></returns>     public long FileBytes { get; }     /// <summary>     /// 获取级别     /// </summary>     public int GetLevel(); }

IDataPosition(数据稀疏索引算是)

方便数据查询方便和方便从SSTable里读取到实际的数据内容。

/// <summary> /// 数据的位置 /// </summary> public interface IDataPosition {     /// <summary>     /// 索引起始位置     /// </summary>     public long IndexStart { get; set; }     /// <summary>     /// 开始地址     /// </summary>     public long Start { get; set; }     /// <summary>     /// 数据长度     /// </summary>     public long Length { get; set; }     /// <summary>     /// key的长度     /// </summary>     public long KeyLength { get; set; }     /// <summary>     /// 是否已经删除     /// </summary>     public bool Deleted { get; set; }     public byte[] GetBytes(); }