V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
jinja27
V2EX  ›  程序员

8 路 L40 部署 R1-671B 上限是多少呢

  •  
  •   jinja27 · 15 小时 19 分钟前 · 866 次点击

    各位大佬,最近尝试部署 R1-671B 遇到了不少问题,希望能有大牛来帮忙解答: 基本情况:2 块 Intel(R) Xeon(R) Gold 5318Y CPU @ 2.10GHz+8 路 L40+500G 内存 部署 DeepSeek-R1-671B-Q4_K ,约 370G

    由于模型文件无法完整加载到 8 张显存上(只能加载约 40 层)

    最终结果感觉不理想:

    8 张显卡显存近乎加载完全,但是 GPU 利用率仅 3%左右 llama_perf_sampler_print: sampling time = 166.42 ms / 1222 runs ( 0.14 ms per token, 7342.91 tokens per second)

    llama_perf_context_print: load time = 74364.88 ms

    llama_perf_context_print: prompt eval time = 20711.60 ms / 54 tokens ( 383.55 ms per token, 2.61 tokens per second)

    llama_perf_context_print: eval time = 635627.49 ms / 3816 runs ( 166.57 ms per token, 6.00 tokens per second)

    现在我的问题是: 1.是否因为显存瓶颈导致的 CPU+GPU 混合推理性能低? 8 路显卡在我这个场景里是否存在严重的显卡资源浪费?在不改变硬件的前提下是否有优化空间?如何优化? 2.如果此场景并发的话大概能有多少并发量? 3.我使用的是 llama.cpp ,使用其他推理框架,如 kt ,能有更好的效果吗? 4.如果 GPU 能完整加载,性能提升大概多少? 5.如果更新硬件如何更新? CPU 是否是此场景的瓶颈? 6.并发量主要取决于什么技术指标呢?

    8 条回复    2025-02-22 15:22:34 +08:00
    guoyijun163
        1
    guoyijun163  
       13 小时 44 分钟前
    那肯定得用 ktransformers ,传统的开源推理框架基本都没考虑过 MoE
    kk2syc
        2
    kk2syc  
       12 小时 14 分钟前
    llama 要给定参数--n-gpu-layers 对应层数分散计算压力
    yukino
        3
    yukino  
       5 小时 53 分钟前 via Android
    别用 llama.cpp ,不能张量并行,同一时间只有一个显卡工作
    Attenton
        4
    Attenton  
       5 小时 39 分钟前
    500G 的显存为啥会无法完全加载 370G ?推理框架现在的事实标准应该都是 vllm 吧,试下 vllm 吧
    jinja27
        5
    jinja27  
    OP
       2 小时 0 分钟前
    @guoyijun163
    但是 KT 不是走纯 CPU 方案吗?这样 8 路显卡的资源浪费不是更严重了?
    jinja27
        6
    jinja27  
    OP
       1 小时 51 分钟前
    @Attenton
    500G 是内存,显存的话每张显卡实际可用的只有 44 左右,8*44 约 350G
    jinja27
        7
    jinja27  
    OP
       1 小时 50 分钟前
    @kk2syc
    给过了,模型共 61 层,GPU 上只有 40 层,再大显存就不够了,但是 40 层显卡几乎没工作
    jinja27
        8
    jinja27  
    OP
       13 分钟前
    @Attenton 而且我下载的 671B 4bit 量化是 gguf 格式,VLLM 运行不了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2882 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 07:36 · PVG 15:36 · LAX 23:36 · JFK 02:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.