RAG系统构建_技术文档中句子嵌入的挑战

这个是爱立信对RAG pipeline中 retrival阶段的一个实验报告。并得到的一些初步的实验结论。

sentence embedding 计算的相似度随着文本切分长度增加逐渐变得不可信。

他们选取了 10,970条句子，计算了相互之间的余弦相似度。最终形成了下面的Kernel Density Estimate (KDE) 图。

从图中可以看到不同句子长度的余弦相似性得分的分布。
Table 1 从论文中提供了对实验假设和观察结果的总结。这些假设和观察结果是基于对技术文档进行的检索增强型生成（RAG）系统实验。以下是对Table 1内容的介绍：

| Hyp Hypothesis (假设) | Observation (观察) | Support (支持样本数) | | —————————————————- | —————————————————————————————— | —————————————————————- | | H1 分割定义和定义词有助于查询 | 对于定义，使用定义词和定义分别进行检索可以获得更好的性能 | 22 of 30 queries (ID 2, 3) | | H2 不应使用相似度分数来比较检索结果 | 观察到不同方法之间的相似度分数不可比，且正确答案的绝对值通常很小 | 24 of 30 queries (ID 2, 3) | | H3 关键词的位置影响结果 | 关键词越靠近句首，检索准确度越高 | 25 of 30 queries (ID 1, 4, 5, 6) | | H4 基于句子的相似度更好 | 基于句子和不同段落的相似度检索可以为生成器提供更详细的上下文 | ID F1 - Table 2 (8 of 10 queries) | | H5 生成器对基于句子的相似度 | 使用基于句子的相似度和基于段落的检索生成的答案更好 | 8 of 10 queries (App. Table 3 - ID F1) | | H6 包含缩写词的定义表现不佳 | 生成的答案常常只是展开或提供缩写词，这并不有用 | 15 of 16 queries (App. Table 3 - ID F2, F3) |

相关阅读