求推荐一个轻量 RAG LLM chat 的部署方案

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 124 天前的主题，其中的信息可能已经有所发展或是发生改变。

需求：

构建英文 pdf 知识库，一次对话讨论可以涉及多个文件
向量数据库最好本地化
不需要本地部署模型，所有 embed, rerank, chat models 都用 api
不需要用户管理等冗余功能

看好多方案，ragflow fastgpt langchain-chatchat ，不知道实际用起来如何？或者有其他推荐的方案？

ChatGPT-Next-Web-langchain 感觉在上游的简单前端框架下加 rag 的逻辑，还是有点勉强了。

第 1 条附言 · 123 天前

langchain-chatchat 0.3.1 ，尝试部署了下，这个确实挺轻量，但呈现出来的是一个相当 prototype 的产品，不知道为什么 star 这么多，最新的 docker 0.3.0 基本是不可用的。

第 2 条附言 · 122 天前

好多人提到 dify ，如果有团队使用需求，可以尝试下 dify ragflow danswer 。这几个看了下 docker-compose ，感觉都比较重了。

第 3 条附言 · 55 天前

update: 现在ragflow等已经支持graphrag了（dify不支持）。更好的rag策略还包括，anthropic的contextual-retrieval 等等。
对比使用来看，传统直接做分割的确实存在很多问题痛点。

16 条回复 • 2024-07-31 13:16:39 +08:00

mumbler

124 天前

个人用吗，可以试试 flashai.com.cn 的云端版，开箱即用，支持 mac 和 win ，本地知识库+本地向量化，另外还有带本地大模型版本

GrayXu

123 天前

@mumbler #1 谢谢，这个方案看上去限制蛮多的，付费了也只有 8b 的模型。我们已经有 embedding, rerank, chat 的完整 api 服务了。

lixen9

123 天前

fastgpt 试用过感觉还行，蛮符合你的需求来着，开源版本即可

GrayXu

123 天前

@lixen9 #3 谢谢试了一圈 fastgpt 确实是最好上手的。看了下小规模使用下，开源版本没啥问题，就是配置系统比较麻烦 XD

regent

123 天前

@mumbler 这款产品您试过吗对比 AnythingLLM 效果如何

echoless

123 天前

embed, rerank 这些 api 你是用的开源的么?

我倒是想整合 RAG 这些到 https://github.com/swuecho/chat (只有 chat 功能)
然后可以(optional) 配置 embed, rerank API.

GrayXu

123 天前

@echoless #6 有的是开源的，有的不是

GrayXu

123 天前

@echoless #6 你可以关注下 siliconflow ，最近上了 embedding ，后面会上 rerank 。

pieerepeng

123 天前

补充个 dify.ai

本地 llm 选，ollama 或者 nitro

我搭建过，就是处理的英文 pdf 。

SoloKing

123 天前 via Android

dify+1

wm5d8b

123 天前 via Android

模型不在本地部署，全用 api ，钱包它同意嘛
本地用 ollama 部署挺简单的，就是大概 12G 显存得 24 小时处于 standby 状态

GrayXu

122 天前

@wm5d8b #11 12G 算上量化只能部署个 9B 的模型吧。只能说离“能用”还有很大距离

zqqian

119 天前

所以楼主最后调研的结果是什么，能说一下吗？

GrayXu

118 天前

@zqqian #13
FastGPT ，感觉是满足功能需求的最轻的选择了。问题的话，还是存在一些小 bug ，然后看上去他们社区版维护的比较随意。

zqqian

118 天前

@GrayXu #14 我在测试 FastGPT 后觉得他们的 PDF 分割的效果不太好，不知道有没有效果更好一些的

GrayXu

107 天前

@zqqian #15 分割？感觉大家分割方案现在都差不多吧。还是等等 GraphRAG 吧