各位大佬,最近尝试部署 R1-671B 遇到了不少问题,希望能有大牛来帮忙解答: 基本情况:2 块 Intel(R) Xeon(R) Gold 5318Y CPU @ 2.10GHz+8 路 L40+500G 内存 部署 DeepSeek-R1-671B-Q4_K ,约 370G
由于模型文件无法完整加载到 8 张显存上(只能加载约 40 层)
最终结果感觉不理想:
8 张显卡显存近乎加载完全,但是 GPU 利用率仅 3%左右 llama_perf_sampler_print: sampling time = 166.42 ms / 1222 runs ( 0.14 ms per token, 7342.91 tokens per second)
llama_perf_context_print: load time = 74364.88 ms
llama_perf_context_print: prompt eval time = 20711.60 ms / 54 tokens ( 383.55 ms per token, 2.61 tokens per second)
llama_perf_context_print: eval time = 635627.49 ms / 3816 runs ( 166.57 ms per token, 6.00 tokens per second)
现在我的问题是: 1.是否因为显存瓶颈导致的 CPU+GPU 混合推理性能低? 8 路显卡在我这个场景里是否存在严重的显卡资源浪费?在不改变硬件的前提下是否有优化空间?如何优化? 2.如果此场景并发的话大概能有多少并发量? 3.我使用的是 llama.cpp ,使用其他推理框架,如 kt ,能有更好的效果吗? 4.如果 GPU 能完整加载,性能提升大概多少? 5.如果更新硬件如何更新? CPU 是否是此场景的瓶颈? 6.并发量主要取决于什么技术指标呢?
![]() |
1
guoyijun163 13 小时 44 分钟前
那肯定得用 ktransformers ,传统的开源推理框架基本都没考虑过 MoE
|
![]() |
2
kk2syc 12 小时 14 分钟前
llama 要给定参数--n-gpu-layers 对应层数分散计算压力
|
![]() |
3
yukino 5 小时 53 分钟前 via Android
别用 llama.cpp ,不能张量并行,同一时间只有一个显卡工作
|
4
Attenton 5 小时 39 分钟前
500G 的显存为啥会无法完全加载 370G ?推理框架现在的事实标准应该都是 vllm 吧,试下 vllm 吧
|
5
jinja27 OP @guoyijun163
但是 KT 不是走纯 CPU 方案吗?这样 8 路显卡的资源浪费不是更严重了? |