8 路 L40 部署 R1-671B 上限是多少呢

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

各位大佬，最近尝试部署 R1-671B 遇到了不少问题，希望能有大牛来帮忙解答：基本情况：2 块 Intel(R) Xeon(R) Gold 5318Y CPU @ 2.10GHz+8 路 L40+500G 内存部署 DeepSeek-R1-671B-Q4_K ，约 370G

由于模型文件无法完整加载到 8 张显存上（只能加载约 40 层）

最终结果感觉不理想：

8 张显卡显存近乎加载完全，但是 GPU 利用率仅 3%左右 llama_perf_sampler_print: sampling time = 166.42 ms / 1222 runs ( 0.14 ms per token, 7342.91 tokens per second)

llama_perf_context_print: load time = 74364.88 ms

llama_perf_context_print: prompt eval time = 20711.60 ms / 54 tokens ( 383.55 ms per token, 2.61 tokens per second)

llama_perf_context_print: eval time = 635627.49 ms / 3816 runs ( 166.57 ms per token, 6.00 tokens per second)

现在我的问题是： 1.是否因为显存瓶颈导致的 CPU+GPU 混合推理性能低？ 8 路显卡在我这个场景里是否存在严重的显卡资源浪费？在不改变硬件的前提下是否有优化空间？如何优化？ 2.如果此场景并发的话大概能有多少并发量？ 3.我使用的是 llama.cpp ，使用其他推理框架，如 kt ，能有更好的效果吗？ 4.如果 GPU 能完整加载，性能提升大概多少？ 5.如果更新硬件如何更新？ CPU 是否是此场景的瓶颈？ 6.并发量主要取决于什么技术指标呢？

显存瓶颈

CPU+GPU 混合推理性能低

优化空间

8 条回复 • 2025-02-22 15:22:34 +08:00