测试三家生产网站的文本分块与嵌入数据

在 Reddit Machine Learning 上阅读原文 (Read Original)

AI 总结 (Summary)

作者对Intercom、HubSpot和KPMG三家公司网站的内容进行分块和嵌入处理，评估不同内容密度下RAG检索的质量。通过分层加权（如高价值块权重1.20）和查询测试，发现语义相关性在薄弱语料库上仍能正确路由，且“产出率”（高+中价值块占比）可作为预测生成质量的遥测指标。研究指出，大部分RAG基准假设源材料质量均匀，但现实世界并非如此。

背景知识 (Background)

该文章提供了实证数据，揭示了不同语料库内容密度的巨大差异对RAG检索质量的影响，并提出了“产出率”这一实用定量指标。方法清晰，结果有参考价值，但样本量较小，结论的普适性有待进一步验证。