【近似最近邻搜索】在茫茫点集中，怎么找到你的邻居

技术分享 2年前 (2022-10-06) 0 999+

关注

转载请注明出处

一、背景

我们从最最最简单的场景开始，假设在一个二维平面上，现有N个点，如下图所示
【近似最近邻搜索】在茫茫点集中，怎么找到你的邻居
现在给你一个点，求K个最近的点（欧式距离），如下图所示

肉眼很容易可以看出，以query点为中心画个圆，慢慢往外扩展，直到包含K个点，然后这K个点就是最近的点。
看起来很容易，但这得给算法实现个眼睛啊！

二、暴力解法

这里需要遍历所有的N个点跟query点分别求个距离，然后找出K个最相近的点。
咱们专注于这个算法本身，假设距离计算的复杂度为1，那么暴力解法的复杂度为：N + NlogK

假设N很大，在没有考虑距离计算的复杂度前提下，其实这复杂度已经很高了。那如果是单机，估计实现不了在线实时计算了，有没有办法解决呢？

三、分布式解法

把点随机分布到不同机器上，然后求解的时候每台机器都算个top K出来，再合并。如下图所示：

其实这样整体复杂度并没有变化，只是利用机器资源换取时间，理论上只要机器够多，耗时还是能降低很多的。

如果没有很多机器资源，可以考虑下更优的解法。

四、分布式解法优化——IVF

既然都已经把N个点划分成A(3)个区域了，划分方法能否考虑下距离？比如最简单的按距离划分，如图所示：

这时我们在检索的时候，只需要在最近的B(>A=3)个区域暴力检索就行了。
如果A=3，B=1，那么复杂度就是： (N+NlogK)/3，这个复杂度是有很大的降低的，但是会有一个缺点，精度有所降低。如果上图所示，划分后的结果，会导致一个点出错～

实际构建区域步骤

对所有点集合抽样一份小的集合。
利用聚类算法（一般是Kmean）得出A个聚类中心点。
把所有点都按距离分配到每个聚类中心，得到A个点集合。

实际检索步骤

在A个聚类中心点中，暴力找出B个最近的聚类中心点
只在B个聚类中心点所属点集中，暴力检索最近的top K个点

实际复杂度

(N + NlogK)B/A + A
A为聚类中心个数，B为检索查询的聚类中心数

虽然这种方法已经大大降低了复杂度，但还有更有的方式吗？

五、图论算法——NSW

其实就是把N个点按一定规则连边，构成一个有向图，如下图所示：

蓝色点为点集，黑色边为有向边，具体如何构造这个有向边后边再说，先说下检索流程

检索流程

如下图所示：

给出一个query点，如上图红色点
初始化一个点集访问记录存储
初始化两个优先队列，一个存储结果候选集，只存K个元素，一个存储遍历候选集
随机找一个点，当作进场开始点（如上图右下角红点，entry point）
entry point 加入遍历候选集，如果它并不是标记为删除的，把它放入结果候选集；
从遍历候选集中取出距离query点最近的点，遍历与它所有关联的点，检查是否已经访问过
- 如果它已经访问过，直接跳过
- 如果没有访问过加入遍历候选集，如果关联点并不是标记为删除的，把它放入结果候选集。
重复第6步骤，直到遍历候选集中距离query最近的点，都比结果候选集距离query最远的点距离query大，并且结果候选集已经足够K个点就结束。

新增构建步骤

给出一个待新增的点 A
在图中检索出top k个点，k = ef_construction
从点A 连接其中M_个点，这M_个点从 top k里面选择，后面简称M_个点里面当前遍历的点为点B
遍历每条新增连边，检查是否有相应的反向连边，也就是从点B到点A的连边
- 如果有就跳过
- 如果没有就给反向边连上
  - 如果点B的连边没有超过M_，直接连上就行
  - 如果点B的连边超过了M_，需要重新选择M_个点，保证点B只有外出M_条边

简单的说，其实就是找出top k近邻，然后连边。重点问题在于，如果 K > M_，怎么选择更加合适的邻居呢？

最简单的方式：按距离排序，选择跟新增点最近的那些。这样有可能形成孤岛，导致整个图并不是连通图，有没有更好的方式呢？