论文信息

标题: On the Theoretical Limitations of Embedding-Based Retrieval
会议: ICLR 2026
作者: Orion Weller (Google DeepMind & Johns Hopkins University), Michael Boratko, Iftekhar Naim, Jinhyuk Lee (Google DeepMind)
arXiv: 2508.21038
原文链接: https://papers.cool/arxiv/2508.21038
代码: https://github.com/google-deepmind/limit

向量检索的理论局限性分析

摘要

多年来，向量嵌入被赋予了越来越多的检索任务，近年来更是开始用于推理、指令遵循、编程等场景。这些新基准推动嵌入模型为任何查询和任何相关性定义工作。

虽然先前的工作指出了向量嵌入的理论局限性，但普遍假设这些困难只源于不现实的查询，而那些非不现实的困难可以通过更好的训练数据和更大的模型来克服。

本文证明，在现实场景中，面对极其简单的查询，我们也会遇到这些理论局限性。

我们连接了学习理论中的已知结论，表明：

能够作为某个查询结果返回的 top-k 文档子集数量，受限于嵌入维度
即使直接在测试集上用自由参数化嵌入优化，这个结论也成立
我们创建了一个名为 LIMIT 的现实数据集，基于这些理论结果对嵌入模型进行压力测试

实验发现，即使是当前最先进的模型在这个数据集上也失败了，尽管任务本身极其简单。

我们的工作揭示了现有单向量范式下嵌入模型的局限性，呼吁未来研究开发能解决这一根本限制的新技术。

1. 引言

过去二十年，信息检索（IR）从以稀疏技术（如 BM25）为主导的模型，转向使用神经语言模型（LM）作为骨干的模型。这些神经模型主要以单向量方式使用——输出代表整个输入的单个嵌入（也称为稠密检索）。

这些嵌入模型能够泛化到新的检索数据集，并被赋予解决越来越复杂的检索问题。近年来，随着指令遵循检索基准的兴起，模型被要求表示任意查询的任意相关性定义。

例如：

QUEST 数据集使用逻辑运算符组合不同概念：”瓜德罗普的飞蛾或昆虫或节肢动物”
BRIGHT 数据集探索不同相关性定义带来的挑战，如推理类检索

核心问题

与其提出经验性基准来衡量嵌入模型的能力，我们试图在更根本的层面上理解局限性在哪里。

由于嵌入模型使用几何空间中的向量表示，我们可以利用高维几何中已有的数学研究成果来分析这些表示。

主要贡献

理论基础：建立嵌入模型根本局限性的理论基础
最优情况实证：通过自由嵌入优化，证明该定理对任何数据集实例都成立
LIMIT 数据集：一个简单但连最先进嵌入模型都无法解决的现实自然语言任务

2. 相关工作

理论极限的早期探索

Reimers & Gurevych (2020)：首次正式讨论 DR 的理论局限性，称为”低维度诅咒“，指出固定维度嵌入对模型能准确表示的不同文档数量施加了硬性上限
Ormazabal et al. (2019)：跨语言场景中模型的经验性局限
Yin & Shen (2018)：嵌入维度与偏差-方差权衡的关系

本文的独特之处：提供了嵌入维度与其能检索的 top-k 集合之间的理论联系。

高维几何中的向量极限

理解语义空间中的最近邻搜索有悠久的数学研究历史。order-k Voronoi 图（基于最近 k 个点划分空间的 Voronoi 图）与信息检索有直接联系，因为每个 order-k 区域等价于一个检索的 top-k 结果集。

3. 向量嵌入的表示容量

形式化定义

设 (v_1, \ldots, v_n \in \mathbb{R}^d) 为单位文档向量，查询为单位向量 (u \in \mathbb{R}^d)。固定 (\gamma > 0)。

定义：一个 k-子集 (S \subseteq [n]) 被称为以边距 (\gamma) 可实现的，如果存在单位查询 (u_S) 使得：

$\min_{i \in S} \langle u_S, v_i \rangle \geq \max_{j \notin S} \langle u_S, v_j \rangle + 2\gamma$

核心定理（维度下界）

定理 1：假设 (1 \leq k < n)，且每个 k-子集 (S \subseteq [n]) 都以边距 (\gamma) 可实现，则：

${n \choose k} \leq \left(1 + \frac{1}{\gamma}\right)^d$

因此：

$d \geq \frac{\log {n \choose k}}{\log(1 + 1/\gamma)}$

证明思路

使用经典的球填充体积论证（sphere-packing volume argument）：

对于任意两个不同的子集 (S \neq T)，选择 (i \in S \setminus T) 和 (j \in T \setminus S)
由定义可得 (\langle u_S - u_T, v_i - v_j \rangle \geq 4\gamma)
通过 Cauchy-Schwarz 不等式：(|u_S - u_T| \geq 2\gamma)
因此 ({n \choose k}) 个单位查询两两 (2\gamma)-分离，球 (B(u_S, \gamma)) 互不相交
体积比较：(M \cdot \text{vol}(B_d(\gamma)) \leq \text{vol}(B_d(1+\gamma)))
得出 ({n \choose k} \leq (1+1/\gamma)^d)

数值实例

取 (\gamma = 0.1)（分数间隔 (2\gamma = 0.2)，约等于模型实际使用的标准）：

语料大小 n	k=2	k=10	k=100	k=1000
10³	6	23	135	理论平凡
10⁴	8	33	233	1354
10⁵	10	42	329	2334
10⁶	12	52	425	3296
10⁸	16	71	617	5217
10¹⁰	19	90	809	7137

关键发现：对于较大的 k 和 n 值，维度要求已经超过了当前网络搜索使用的维度。

推论

当 (n \gg k) 时，(\log{n \choose k} \approx k \log(en/k))，因此：

$d = \Omega\left(\frac{k \log(en/k)}{\log(1 + 1/\gamma)}\right)$

更严格的边距要求（更大的 (\gamma)）需要更高的维度
由于空间和速度要求，大多数网络搜索使用的嵌入被量化或截断到不到 1k 维度
最大研究嵌入约 4096 维
即使取这个下界的小倍数，也会使嵌入维度要求变得不可行

4. 实证连接：最优情况优化

实验设计

为证明理论限制对任何检索模型或训练数据集都成立，设计了一个最强优化实验：

“自由嵌入”优化：向量本身直接可被梯度下降优化
不受自然语言约束（这是对任何现实嵌入模型的额外约束）
直接在目标 qrel 矩阵（测试集）上优化嵌入

如果自由嵌入优化不能解决问题，现实检索模型就更不可能。

设置

创建随机文档矩阵（大小 n）和随机查询矩阵（大小 (m = {n \choose k})）
使用 Adam 优化器直接优化
每次梯度更新遍历所有正确三元组（全数据集批次）
使用 InfoNCE 损失函数，所有其他文档作为批次内负样本
逐步增加文档数量直到优化无法解决问题（临界 n 点）

结果

临界 n 值与嵌入维度的关系拟合为 3 次多项式：

$y = -10.53 + 4.03d + 0.05d^2 + 0.004d^3 \quad (r^2 = 0.999)$

外推结果（各嵌入维度对应的临界文档数）：

嵌入维度	临界文档数
512	50 万
768	170 万
1024	400 万
3072	1.07 亿
4096	2.5 亿

这是最优情况——现实嵌入模型无法直接优化查询和文档向量来匹配测试 qrel 矩阵。实际需要的维度远高于理论下界（约 4.5 倍乘数）。

5. 实证连接：现实数据集

现有数据集的问题

现有检索数据集通常使用有限数量的查询进行评估。例如：

QUEST 数据集：325k 文档，3357 个查询，每个查询 20 个相关文档
可能的唯一 top-20 文档集数量：({325k \choose 20} = 7.1 \times 10^{91})（大于可观测宇宙中的原子数 (10^{82})）
3k 查询只覆盖了 qrel 组合空间的极小部分

LIMIT 数据集

构建方法

使用 Gemini 2.5 Pro 生成 1,850 个人可能喜欢的独特物品（如”夏威夷披萨”、”跑车”等）
清洗去重，确保无重叠
从中采样 50 个物品的唯一子集创建 50,000 篇文档
每篇文档是单句话：”某人喜欢物品1、物品2、…、物品50”
每个物品恰好被两个人喜欢
生成 1,000 个查询：”谁喜欢X？”
选择 46 个相关文档（因为 ({46 \choose 2} = 1035 > 1000)）

数据集统计

指标	值
文档数	50,000
查询数	1,000
相关文档数	46
平均文档长度	598 字符
相关性对数	2,000

图密度指标

数据集	图密度	平均查询强度
NQ	0	0
HotPotQA	0.000037	0.1104
SciFact	0.001449	0.4222
FollowIR Core17	0.025641	0.5912
LIMIT	0.085481	28.4653

LIMIT 的图密度和查询强度远高于其他数据集，这解释了为什么它对模型如此具有挑战性。

实验结果

全量 LIMIT（50,000 文档）

模型严重挣扎，尽管任务极其简单：

即使 Recall@100 也难以达到 20%
嵌入维度是限制因素：维度越高，性能越好
多向量模型也表现不佳
词汇模型（如 BM25）由于更高维度的操作空间表现优异

小规模 LIMIT（46 文档）

即使只有 46 篇文档：

模型在 Recall@10 上就挣扎
Recall@20 也无法解决任务

微调实验

在 LIMIT 训练集上微调没有显著帮助，说明问题不是领域偏移
但在测试集上过拟合可以解决——说明根本问题在于嵌入维度的表示容量
指令多样性更高的模型（如 Promptriever）表现更好

按嵌入维度的详细结果

分割	维度	Recall@2	Recall@10	Recall@100
测试	32	85.5%	98.4%	100.0%
测试	128	93.1%	99.5%	99.9%
测试	512	94.0%	99.5%	99.9%
测试	1024	96.5%	99.8%	100.0%
训练	32	0.0%	0.0%	0.0%
训练	512	0.7%	2.3%	9.8%
训练	1024	1.0%	2.8%	11.2%

6. 结论与启示

核心发现

理论证明：嵌入维度 (d) 对可表示的 top-k 文档组合数量有硬性上界
最优情况验证：即使直接在测试集上优化自由嵌入，维度限制仍然存在
现实任务验证：LIMIT 数据集——任务极其简单（”谁喜欢苹果？”），但最先进模型全部失败

对行业的深刻影响

单向量嵌入范式的天花板比想象中低得多：

学术基准只测试了极小一部分可能的查询
随着任务要求返回越来越多的 top-k 相关文档组合（如通过指令用逻辑运算符连接先前无关的文档），模型将达到能表示的组合上限
对于网络规模搜索，即使最大嵌入维度加上理想测试集优化，也不足以建模所有组合

呼吁

社区应该：

在创建评估基准时意识到这些局限性
使用替代架构（如交叉编码器、多向量、更具表达力的相似性函数）来处理完整的指令查询范围
开发能突破单向量范式根本限制的新技术

与 BEIR/MTEB 的关系

LIMIT 性能与 BEIR 性能之间没有明显相关性。这表明当前基准测试可能无法充分反映嵌入模型的真实能力边界。

论文: Weller, O., Boratko, M., Naim, I., & Lee, J. (2026). On the Theoretical Limitations of Embedding-Based Retrieval. ICLR 2026.

arXiv: https://arxiv.org/abs/2508.21038 代码: https://github.com/google-deepmind/limit