关键要点
- AnythingLLM在5,047页语料库上的幻想率最低(6%,vs PrivateGPT 11%,Open WebUI 14%),并生成了唯一具有文件名+页码参考的一致可引用答案。
- PrivateGPT的检索延迟最低(p50 240ms,p95 720ms)和最干净的离线设计姿态。没有遥测SDK、云回退或隐藏的网络调用。
- Open WebUI为共享部署提供了最好的操作人体工程学。多用户账户、OAuth、基于角色的文档访问、两次点击的Ollama集成。
- 所有三个平台在消费者硬件上8,000至12,000页之间降级。索引时间线性扩展,但当向量DB超过RAM时,检索召回率下降。
- 嵌入模型切换在所有三个平台上强制完全重新索引。在消费者硬件上,每5,000页预算30-90分钟。
- 磁盘上的向量DB存储是每1,000页40-120MB,取决于块大小和嵌入维度。50,000页语料库仅用于向量需要2-6GB。
- 对于将超过10,000页的库,考虑使用自定义Ollama + Qdrant或Weaviate堆栈。这三个平台的内置向量存储不是为该规模设计的。