这个是爱立信对RAG pipeline中 retrival阶段的一个实验报告。并得到的一些初步的实验结论。

  1. sentence embedding 计算的相似度随着文本切分长度增加逐渐变得不可信。

他们选取了 10,970条句子,计算了相互之间的余弦相似度。最终形成了下面的Kernel Density Estimate (KDE) 图。

从图中可以看到不同句子长度的余弦相似性得分的分布。

  1. Table 1 从论文中提供了对实验假设和观察结果的总结。这些假设和观察结果是基于对技术文档进行的检索增强型生成(RAG)系统实验。以下是对Table 1内容的介绍:
Hyp Hypothesis (假设) Observation (观察) Support (支持样本数)
H1 分割定义和定义词有助于查询 对于定义,使用定义词和定义分别进行检索可以获得更好的性能 22 of 30 queries (ID 2, 3)
H2 不应使用相似度分数来比较检索结果 观察到不同方法之间的相似度分数不可比,且正确答案的绝对值通常很小 24 of 30 queries (ID 2, 3)
H3 关键词的位置影响结果 关键词越靠近句首,检索准确度越高 25 of 30 queries (ID 1, 4, 5, 6)
H4 基于句子的相似度更好 基于句子和不同段落的相似度检索可以为生成器提供更详细的上下文 ID F1 - Table 2 (8 of 10 queries)
H5 生成器对基于句子的相似度 使用基于句子的相似度和基于段落的检索生成的答案更好 8 of 10 queries (App. Table 3 - ID F1)
H6 包含缩写词的定义表现不佳 生成的答案常常只是展开或提供缩写词,这并不有用 15 of 16 queries (App. Table 3 - ID F2, F3)
H7 检索段落的顺序对生成器结果的影响 实验中我们没有观察到检索段落的顺序对生成器结果产生影响 NA

这个表格展示了作者们在实验中提出的七个假设以及通过实验得到的观察结果。每个假设后面都列出了支持该假设的样本查询数量和具体ID。例如,假设H1表明,如果将定义和定义词分开进行检索,可以提高查询的性能,这一点在30个查询中的22个得到了验证(具体查询ID为2和3)。

这些观察结果对于理解技术文档RAG系统的设计和改进至关重要,因为它们揭示了在实际应用中可能遇到的问题和有效的解决策略。

参考链接:

  1. https://arxiv.org/pdf/2404.00657